Greven, Sonja, Lessmann, Stefan, Karpf, Vincent, Greven, Sonja, Lessmann, Stefan, and Karpf, Vincent
The code and data can be found at https://github.com/VinTsu07/Object_importance., Im Zeitalter von Big Data eröffnen hochdimensionale Datensätze neue Möglichkeiten für genauere Prognosen und detailliertere Analysen. Die Komplexität ihrer Nutzung wirft jedoch die Frage auf, ob der Einsatz solcher Daten für spezifische Aufgabenstellungen praktikabel ist. Diese Arbeit untersucht den Einfluss hochdimensionaler strukturierter Daten auf die Vorhersage einer stetigen Variablen am Beispiel der Vorhersage von Airbnb-Preisen mit Hilfe multimodaler Daten. Die Forschungsfrage wird als bedingtes Unabhängigkeitsproblem formuliert: Sind bei gegebenen tabellarischen Daten die Angebotspreise unabhängig von den Angebotsbildern? Ein innovativer Ansatz, der Ideen des statistischen Hypothesentestens und des überwachten Lernens kombiniert, wird verwendet, um die bedingte Abhängigkeit der Preise von den Bildern zu testen. Dabei werden Fortschritte im Deep Learning genutzt, um Bildinformationen durch Einbettungen in den bedingten Unabhängigkeitstest zu integrieren. Verschiedene Vorhersagemodelle werden herangezogen, um die ideale Vorhersagefunktion zu approximieren. Die Komplexität des Datensatzes erschwert die Modellierung und führt zu Unsicherheit über die genaueste Vorhersagefunktion, was die Testergebnisse beeinflussen kann. Überraschenderweise erreichen lineare Regressionsmodelle eine relativ hohe Genauigkeit, was auf eine lineare Beziehung zwischen den unabhängigen Variablen und dem Angebotspreis hindeutet. Die Robustheit der Analyse wird durch eine detaillierte Betrachtung des Stichprobenumfangs und der Bildeinbettungen überprüft. Unter bestimmten Annahmen zeigen die Ergebnisse, dass Bilddaten einen prognostischen Einfluss in Preismodellen haben. Dies unterstreicht das Potenzial der Integration von Bildern in die Preisstrategie von Unternehmen. Zukünftige Forschung könnte untersuchen, ob auch andere hochdimensionale Daten wie Textinformationen einen prädiktiven Einfluss haben., The age of big data has given rise to high-dimensional datasets, opening up new opportunities to make more accurate predictions or inferences. However, the use of such data can make tasks significantly more complex, leading to the question of whether it is practical to consider these data for a given problem. This thesis explores the impact of high-dimensional structured data on the prediction of a scalar-valued output. Specifically, it examines the predictive effect of property images on the accuracy of Airbnb listing price predictions. By framing the research question as a conditional independence problem, the goal is to examine whether listing prices are independent of property images, given tabular listing data. A novel supervised learning-based approach is used to assess the conditional dependence of price on images in the presence of tabular data. Advancements in deep learning are leveraged to incorporate image information in the form of embeddings into the conditional independence test. The analysis considers various predictive models to approximate the optimal prediction functional. Challenges arise from the dimensionality of the preprocessed dataset, and uncertainty remains regarding the optimal prediction functional, which may bias the test results. Surprisingly, linear regression models perform comparatively well, suggesting a more linear than nonlinear relationship between the predictor variables and the listing price. Attempts are made to increase the robustness of the analysis with respect to several aspects, including sample size and image embeddings. Under corresponding assumptions and approximations, the findings indicate a predictive impact of image data in pricing models. This suggests that incorporating images into predictive analytics can refine pricing strategies within companies. In future work, it would be interesting to investigate whether another type of high-dimensional structured object, such as textual information, also has a predictive