Content area

Abstract

The increasing prevalence of e-commerce platforms has transformed online shopping experiences by offering personalized product recommendations, dynamic pricing strategies, and seamless product discovery. However, effective product data integration across diverse web sources remains a challenge due to semantic inconsistencies and the variations in quality of product data. To address these challenges, this thesis explores advanced deep-learning techniques for integrating and normalizing product data found on the Web.

The thesis makes several contributions to the field of product data integration. First, it introduces the WDC Schema.org Dataset Series, a publicly available dataset derived from the Common Crawl, facilitating the analysis of schema.org adoption on the Web and providing distant supervision for machine learning tasks such as product classification and entity resolution. Second, it introduces WDC-Block, a benchmark dataset for evaluating blocking techniques for entity resolution. WDC-Block has a Cartesian product of 200 billion record pairs, making it 166 thousand times larger than existing benchmarks. Third, the thesis develops SC-Block, a supervised contrastive learning-based blocking method that exploits existing training data. Entity resolution pipelines using SC-Block run up to 4 times faster than pipelines using other state-of-the-art blocking methods.

Fourth, this thesis advances hierarchical product classification with pre-trained language models by leveraging domain-specific pre-training on schema.org product annotations that provide distant supervision. Fifth, the thesis investigates the potential of large language models (LLMs) for product attribute value extraction, demonstrating that few-shot learning techniques with GPT-4 outperform existing pre-trained language model baselines. Sixth, to further support research in this area, the thesis introduces WDC-PAVE, a benchmark dataset designed to evaluate attribute value extraction and normalization tasks, addressing the limitation of existing benchmark datasets that evaluate extraction and normalization in isolation. Finally, this thesis examines automated self-refinement techniques for LLM-based attribute value extraction, finding that error-based prompt rewriting and self-correction increase computational costs but do not significantly improve extraction performance.

The findings of this thesis contribute to the advancement of data-driven e-commerce applications by improving the integration, classification, and normalization of product data from diverse web sources. The introduced datasets and methods provide a foundation for future research in product data integration to enhance the efficiency of e-commerce platforms.

Alternate abstract:

Die zunehmende Verbreitung von E-Commerce-Plattformen hat das Onlineshopping durch personalisierte Produktempfehlungen, dynamische Preisstrategien und vereinfachte Produktsuchen verändert. Die effiziente Integration von Produktdaten aus verschiedenen Webquellen bleibt jedoch aufgrund semantischer Inkonsistenzen und Qualitätsunterschieden der Produktdaten eine Herausforderung. Um diesen Herausforderungen zu begegnen, untersucht diese Dissertation Deep-LearningTechniken zur Integration und Normalisierung von Produktdaten aus dem Web.

Die Arbeit leistet mehrere Beiträge im Bereich der Produktdatenintegration. Erstens wird die WDC Schema.org Dataset Series eingeführt. Dieser öffentlich zugängliche Datensatz, der aus dem Common Crawl extrahiert wurde, ermöglicht die Analyse der Verwendung des schema.org Vokabulars im Web und unterstützt maschinelle Lernalgorithmen beim Erlernen von Aufgaben wie Produktklassifikation und Entity Resolution. Zweitens wird WDC-Block vorgestellt, ein BenchmarkDatensatz zur Evaluierung von Blocking-Techniken für Entity Resolution Pipelines. WDC-Block umfasst ein kartesisches Produkt von 200 Milliarden Datensatzpaaren und ist damit 166.000 mal größer als existierende Benchmarks. Drittens wird SC-Block eingeführt, ein Blocking-Verfahren, das auf überwachtem kontrastivem Lernen basiert und vorhandene Trainingsdaten verwendet. Entity Resolution Pipelines, die SC-Block nutzen, laufen bis zu viermal schneller als Pipelines die anderen modernen Blocking Methoden nutzen.

Viertens verbessert diese Arbeit die hierarchische Produktklassifikation durch vortrainierte Sprachmodelle, indem domänenspezifisches Pre-Training mit schema.org Produktannotationen als distant supervison durchgeführt wird. Fünftens wird das Potential von Large Language Models (LLMs) für die Extraktion von Produktattributwerten untersucht. Die Experimente zeigen, dass Few-Shot-LearningTechniken mit GPT-4 bestehenden vortrainierten Sprachmodell-Baselines überlegen sind. Sechstens wird WDC-PAVE, ein Benchmark-Datensatz zur Evaluierung der Extraktion und Normalisierung von Attributwerten, eingeführt, um die Forschung in diesem Bereich weiter zu unterstützen. Dieser Benchmark adressiert die Einschränkungen existierender Datensätze, die Extraktion und Normalisierung isoliert betrachten. Schließlich analysiert die Arbeit automatisierte self-refinement Techniken für die LLM-basierte Extraktion von Attributwerten und zeigt, dass die fehlerbasierte Verbesserung von Prompts und self-correction zwar die Rechenkosten erhöht, aber die Extraktionsleistung nicht signifikant verbessert.

Die Ergebnisse dieser Dissertation tragen zur Weiterentwicklung datengetriebener E-Commerce-Anwendungen bei, indem sie die Integration, Klassifikation und Standardisierung von Produktdaten aus unterschiedlichen Webquellen verbessern. Die vorgestellten Datensätze und Methoden bilden eine Grundlage für zukünftige Forschung im Bereich der Produktdatenintegration und Entity Resolution und tragen letztendlich zur Verbesserung von E-Commerce-Plattformen bei.

Details

1010268
Business indexing term
Title
Integrating Product Data from the Web Using Deep Learning Techniques
Number of pages
209
Publication year
2025
Degree date
2025
School code
1124
Source
DAI-A 87/5(E), Dissertation Abstracts International
ISBN
9798265420763
University/institution
Universitaet Mannheim (Germany)
University location
Germany
Degree
Ph.D.
Source type
Dissertation or Thesis
Language
English
Document type
Dissertation/Thesis
Dissertation/thesis number
32302103
ProQuest document ID
3275478520
Document URL
https://www.proquest.com/dissertations-theses/integrating-product-data-web-using-deep-learning/docview/3275478520/se-2?accountid=208611
Copyright
Database copyright ProQuest LLC; ProQuest does not claim copyright in the individual underlying works.
Database
ProQuest One Academic