Geleitwort | 6 |
Vorwort | 7 |
Inhaltsverzeichnis | 9 |
Abbildungsverzeichnis | 12 |
Tabellenverzeichnis | 15 |
Abkürzungsverzeichnis | 17 |
Teil I Datenbereinigung und Konsolidierung von heterogenen Datenbeständen | 20 |
1 Einleitung | 21 |
1.1 Motivation | 22 |
1.2 Zielsetzung der Arbeit | 23 |
1.3 Aufbau der Arbeit | 23 |
2 Datenqualität | 25 |
2.1 Datenqualität de.nieren | 25 |
2.2 Datenfehler | 26 |
2.3 Qualitätskriterien | 29 |
2.4 Methoden zur Einstufung der Qualität | 32 |
3 Dimensionen und Architektur der Informationsintegration | 42 |
3.1 Verteilung | 42 |
3.2 Heterogenität | 43 |
3.3 Autonomie | 45 |
3.4 Integrationsarchitektur | 46 |
4 Data Cleaning | 52 |
4.1 Datenanalyse | 53 |
4.2 Normalisierung und Validierung | 56 |
4.3 Record Matching | 57 |
4.4 Record Merging | 59 |
5 Konzeption des Data Cleaning Toolkits | 66 |
5.1 Bewertung und Analyse exisitierender Systeme | 66 |
5.2 Anforderungsanalyse | 69 |
5.3 Architektur Data Cleaning Toolkit | 71 |
5.4 Funktionsumfang | 72 |
6 Implementierung | 80 |
6.1 Datenbankentwicklung | 80 |
6.2 Webentwicklung | 88 |
6.3 Probleme während der Implementierungsphase | 94 |
7 Zusammenfassung und Ausblick | 95 |
Literaturverzeichnis | 97 |
Teil II Auffinden und Bereinigen von Duplikaten in heterogenen Datenbeständen | 104 |
8 Einleitung | 105 |
8.1 Motivation | 106 |
8.2 Zielstellungen dieser Arbeit | 107 |
8.3 Gliederung dieser Arbeit | 108 |
9 Informationen, Daten und Wissen- ein De.nitionsversuch | 109 |
9.1 Begriffsdefinitionen | 110 |
9.2 Herkunft von Daten und Informationen | 112 |
9.3 Beschaffenheit von Daten und Zugriff auf Informationen | 112 |
10 Informationsintegration im Fokus der Datenqualität | 117 |
10.1 Ist-Stand in Unternehmen- Notwendigkeit der Integration | 117 |
10.2 Informations- und Datenqualität | 119 |
10.3 Sicherung der Datenqualität | 128 |
10.4 Kosten der Datenqualität | 129 |
11 Duplikate in Datenbeständen | 131 |
11.1 Dubletten und deren Identi.kation | 131 |
11.2 Ein Framework zur Objektidenti.kation | 132 |
11.3 Das Dilemma der Dublettensuche | 134 |
12 Konkrete Verfahren zur Dublettenauf.ndung und Klassi.kation | 139 |
12.1 Ähnlichkeitsmessungen und Klassi.kation | 139 |
12.2 Ähnlichkeitsbestimmung bei Tupeln in einem Datenbestand | 140 |
12.3 Vorselektion für die Dublettensuche | 156 |
13 Konzept der Datenqualitätsanwendung „DCT“ | 160 |
13.1 Zielstellung der Applikation | 160 |
13.2 Anforderungsanalyse | 161 |
13.3 Technologiemodell | 170 |
13.4 Datenbankmodell | 173 |
13.5 Applikationsarchitektur | 177 |
13.6 Applikationsstruktur | 179 |
13.7 Entwicklung einer Benutzerober.äche | 182 |
14 Implementierung, ausgewählte Algorithmen- und Datenstrukturen | 185 |
14.1 „DCT“- Der Verbindungsmanager | 185 |
14.3 „DCT- Data Pro.ling“ | 189 |
14.4 „DCT“-Plausibilitätskontrolle | 192 |
14.5 „DCT“- Auf.nden von Duplikaten | 194 |
15 Fazit und Ausblick | 199 |
Literaturverzeichnis | 201 |