Geleitwort | 5 |
Inhaltsverzeichnis | 7 |
Einleitung: Paradigmenwechsel im Identity Matching | 12 |
Ein Elementarprozess in Wirtschaft und Gesellschaft | 12 |
Die linguistische Herausforderung | 13 |
Für wen wurde dieses Buch geschrieben? | 15 |
Teil I: Grundlagen des linguistischen Identity Matching | 17 |
1 Grundkonzepte | 19 |
1.1 Identity Matching und Name Matching | 19 |
1.2 Datenprofile und Suchabfragen | 20 |
1.3 True und False Positives, True und False Negatives | 22 |
1.4 Trefferquote und Genauigkeit (Recall und Precision) | 23 |
1.5 Linguistisches Identity Matching | 23 |
2 Anwendungsfelder | 26 |
2.1 Know Your Customer (KYC) und Enhanced Due Diligence (EDD | 26 |
2.2 Bekämpfung von Geldwäsche (AML) und Terrorismusfinanzierung(CFT) | 27 |
2.3 Customer Data Integration (CDI) und Daten-Deduplizierung | 29 |
2.4 Customer Relationship Management (CRM) | 31 |
2.5 Kriminalitätsbekämpfung und Strafverfolgung | 32 |
2.6 Informationsdienstleistungen | 33 |
2.7 Fazit | 34 |
3 Grundlegendes zu Personennamen | 35 |
3.1 Drei Merkmale von Personennamen: Unterscheidungskraft, Konstanz, Bekanntheitsgrad | 35 |
3.2 Personennamensysteme in ihrer historischer Entwicklung | 36 |
3.2.1 Rufnamen und Beinamen | 37 |
3.2.2 Patronyme und Metronyme | 38 |
3.2.3 Vornamen und Familiennamen | 39 |
3.3 Personennamensysteme der Welt | 40 |
3.3.1 Westliche Personennamen | 40 |
3.3.2 Russische Personennamen | 42 |
3.3.3 Arabische Personennamen | 43 |
3.3.4 Chinesische Personennamen | 45 |
3.4 Implikationen für das Name Matching | 46 |
4 Transkription | 48 |
4.1 Transkription, Transliteration und Translation | 48 |
4.2 Romanisierung | 51 |
4.3 Romanisierung kyrillischer Namen | 53 |
4.3.1 Geschichte und Verbreitung des kyrillischen Alphabets | 53 |
4.3.2 Variationsquellen | 55 |
4.4 Romanisierung arabischer Namen | 57 |
4.4.1 Geschichte und Verbreitung des arabischen Alphabets | 57 |
4.4.2 Variationsquellen | 58 |
4.5 Romanisierung chinesischer Namen | 62 |
4.5.1 Geschichte und Verbreitung der chinesischen Schrift | 62 |
4.5.2 Variationsquellen | 63 |
4.6 Fazit: Transkription als die Achillesferse des Name Matching | 65 |
5 Abgeleitete Namensformen | 68 |
5.1 Verniedlichungsformen | 68 |
5.2 Namen in Übersetzung | 70 |
5.3 Abgeleitete und übersetzte Formen in Namen juristischer Personen | 72 |
6 Phonetisches Matchen | 74 |
6.1 Homophonie | 74 |
6.2 Das Matchen von Homophonen | 75 |
7 Tippfehler | 78 |
7.1 Begriffliche Abgrenzung: Variationen, Schreibfehler, Tippfehler | 78 |
7.2 Motorisch bedingte Tippfehler und die Rolle der Computertastatur | 79 |
7.3 Optical Character Recognition (OCR) | 80 |
7.4 Fazit: Tippfehler im Name Matching | 81 |
Teil II: Name-Matching-Verfahren | 82 |
8 Name-Matching-Verfahren der 1. Generation | 83 |
8.1 Einleitung | 83 |
8.2 G1 String Comparison: Levensthein Distance und n-gram | 84 |
8.2.1 Ähnlichkeit und Editieroperationen | 84 |
8.2.2 Brauchbarkeit der Levenshtein Distance im Name Matching | 86 |
8.2.3 Vergleich von Substrings mit n-gram-Verfahren | 87 |
8.2.4 Brauchbarkeit von n-gram-Verfahren im Name Matching | 88 |
8.3 G1 Phonetic Encoding mit Soundex | 89 |
8.3.1 Phonetische Similarity Keys | 89 |
8.3.2 Brauchbarkeit von Soundex im Name Matching | 91 |
8.4 G1-Suche mit Varianten: Thesauri | 92 |
8.4.1 Ein Katalog von Namensvariationen | 92 |
8.4.2 Brauchbarkeit von Thesauri im Name Matching | 93 |
8.5 Brauchbarkeit der G1-Verfahren im Überblick | 94 |
8.6 Warum G1-Verfahren heute noch verbreitet sind | 97 |
8.6.1 Name Matching als Mitgift | 97 |
8.6.2 Strukturprobleme auf Anbieterseite | 98 |
8.6.3 Fehlende Expertise auf der Käuferseite | 99 |
8.6.4 Fehlen eines normativen Standards | 100 |
9 Name-Matching-Verfahren der 2. Generation | 102 |
9.1 Einleitung | 102 |
9.2 G2 String Comparison: Erweiterungen von Levenshtein und n-gram | 102 |
9.2.1 Erweiterungen | 102 |
9.2.2 Brauchbarkeit von G2 String Comparison im Name Matching | 103 |
9.3 G2 Phonetic Encoding: Erweiterungen von Soundex | 104 |
9.3.1 Erweiterungen | 104 |
9.3.2 Brauchbarkeit von G2-Phonetic Encoding im Name Matching | 105 |
9.4 G2-Suche mit Varianten: Generative Algorithmen | 106 |
9.4.1 Konzept | 106 |
9.4.2 Anwendungsbeispiele | 107 |
9.4.3 Brauchbarkeit generativer Algorithmen im Name Matching | 110 |
9.5 Brauchbarkeit der G2-Verfahren im Überblick | 111 |
9.6 Fazit: Drei Jahrzehnte Name Matching | 113 |
10 Name-Matching-Verfahren der 3. Generation | 115 |
10.1 Einleitung | 115 |
10.2 Grundanforderungen an G3-Verfahren | 115 |
10.2.1 Allgemeine Grundanforderungen | 116 |
10.2.2 Spezielle Grundanforderungen | 117 |
10.3 Multilinguale Similarity Keys für das Matchen von Transkriptionsvarianten und Homophonen | 120 |
10.3.1 Komplexität durch Sprachenvielfalt | 120 |
10.3.2 Komplexität durch Suchgenauigkeitsstufen | 121 |
10.3.3 Komplexität durch Berücksichtigung des Zeichenkontextes | 122 |
10.4 Thesauri für Vornamensformen und Spezialfälle | 123 |
10.5 Generative Algorithmen für Tippfehler | 124 |
10.6 Integration der Verfahren | 126 |
10.7 Fazit | 130 |
11 Benchmarkstudie: Die Verfahren im Vergleich | 133 |
11.1 Datengrundlage und Testnamen | 133 |
11.2 Verfahren und Versuchsbedingungen | 134 |
11.3 Vorgehen und Ergebnisse | 136 |
11.3.1 G1-Verfahren | 136 |
11.3.2 G2-Verfahren | 137 |
11.3.3 G3-Verfahren | 139 |
11.3.4 Limitationen | 140 |
11.3.5 Schlussfolgerungen | 141 |
Teil III: Bereit für den Paradigmenwechsel | 143 |
12 G3 Name Matching und Identity Matching | 144 |
12.1 Raumbezogene Identitätsattribute | 144 |
12.1.1 Länderdaten: Nationalität, Geburtsland, Gründungsland | 145 |
12.1.2 Oikonyme: Namen von Städten, Stadtteilen und Ortschaften | 147 |
12.1.3 Adressen | 148 |
12.2 Zeitbezogene Identitätsattribute | 149 |
12.3 Klassifikatorische Identitätsattribute | 151 |
12.4 Identifikationscodes | 153 |
12.5 Integration der Einzelvergleiche | 154 |
12.5.1 Das Filtermodell | 154 |
12.5.2 Das Gewichtungsmodell | 155 |
12.5.3 Kombinierte Modelle | 156 |
12.6 Fazit | 157 |
13 Tipps zur Tool-Evaluation | 159 |
13.1 Einleitung | 159 |
13.2 Erhebung der Anforderungen | 161 |
13.3 Long List, Short List und Request for Information | 162 |
13.4 Testgegenstand und Testdesign | 164 |
13.5 Auswahl der Testdaten und der Test-Queries | 165 |
13.6 Vorabstimmung mit dem Anbieter | 168 |
13.7 Auswertung | 170 |
13.7.1 Trefferquote und Präzision | 170 |
13.7.2 Trefferbewertung | 171 |
13.7.3 Konfiguration | 171 |
13.8 Schlussbetrachtung | 172 |
14 The Linguistic Search Standard | 174 |
14.1 Die Notwendigkeit eines Suchstandards | 174 |
14.2 Die Prinzipien | 176 |
14.2.1 Prinzipien 1-6 (Match Level Precise) | 177 |
14.2.2 Zusatzprinzipien 7-10 (Match Level Close) | 178 |
14.2.3 Zusatzprinzipien 11-13 (Match Level Broad) | 179 |
14.3 Der Linguistic Search Standard im Original-Wortlaut | 179 |
Literatur | 186 |
Sachwortverzeichnis | 187 |