1 Einführung | 13 |
1.1 Auswertung von Massendaten | 13 |
1.2 Data Mining und Business Intelligence | 15 |
1.3 Ablauf einer Datenanalyse | 16 |
1.4 Interdisziplinarität | 23 |
1.5 Erfolgreiche Beispiele | 26 |
1.6 Werkzeuge | 28 |
1.6.1 KNIME | 29 |
1.6.2 WEKA | 38 |
1.6.3 JavaNNS | 43 |
2 Grundlagen des Data Mining | 49 |
2.1 Grundbegriffe | 49 |
2.2 Datentypen | 51 |
2.3 Abstands- und Ähnlichkeitsmaße | 55 |
2.4 Grundlagen Künstlicher Neuronaler Netze | 59 |
2.5 Logik | 64 |
2.6 Überwachtes und unüberwachtes Lernen | 67 |
3 Anwendungsklassen | 69 |
3.1 Cluster-Analyse | 69 |
3.2 Klassifikation | 71 |
3.3 Numerische Vorhersage | 73 |
3.4 Assoziationsanalyse | 75 |
3.5 Text Mining | 77 |
3.6 Web Mining | 78 |
4 Wissensrepräsentation | 81 |
4.1 Entscheidungstabelle | 81 |
4.2 Entscheidungsbäume | 83 |
4.3 Regeln | 84 |
4.4 Assoziationsregeln | 85 |
4.5 Instanzenbasierte Darstellung | 91 |
4.6 Repräsentation von Clustern | 91 |
4.7 Neuronale Netze als Wissensspeicher | 92 |
5 Klassifikation | 95 |
5.1 K-Nearest Neighbour | 95 |
5.1.1 K-Nearest-Neighbour-Algorithmus | 97 |
5.1.2 Ein verfeinerter Algorithmus | 101 |
5.2 Entscheidungsbaumlernen | 104 |
5.2.1 Erzeugen eines Entscheidungsbaums | 104 |
5.2.2 Auswahl eines Attributs | 106 |
5.2.3 Der ID3-Algorithmus zur Erzeugung eines Entscheidungsbaums | 108 |
5.2.4 Entropie | 116 |
5.2.5 Der Gini-Index | 118 |
5.2.6 Der C4.5-Algorithmus | 118 |
5.2.7 Probleme beim Entscheidungsbaumlernen | 120 |
5.2.8 Entscheidungsbaum und Regeln | 121 |
5.3 Naive Bayes | 123 |
5.3.1 Bayessche Formel | 123 |
5.3.2 Der Naive-Bayes-Algorithmus | 124 |
5.4 Vorwärtsgerichtete Neuronale Netze | 129 |
5.4.1 Architektur | 129 |
5.4.2 Das Backpropagation-of-Error-Lernverfahren | 131 |
5.4.3 Modifikationen des Backpropagation-Algorithmus | 135 |
5.4.4 Ein Beispiel | 137 |
5.5 Support Vector Machines | 140 |
5.5.1 Grundprinzip | 140 |
5.5.2 Formale Darstellung von Support Vector Machines | 142 |
5.5.3 Ein Beispiel | 144 |
6 Cluster-Analyse | 147 |
6.1 Arten der Cluster-Analyse | 147 |
6.2 Der k-Means-Algorithmus | 151 |
6.3 Der k-Medoid-Algorithmus | 160 |
6.4 Erwartungsmaximierung | 165 |
6.5 Agglomeratives Clustern | 167 |
6.6 Dichtebasiertes Clustern | 172 |
6.7 Clusterbildung mittels selbstorganisierender Karten | 175 |
6.7.1 Aufbau | 175 |
6.7.2 Lernen | 176 |
6.7.3 Visualisierung einer SOM | 179 |
6.7.4 Ein Beispiel | 180 |
6.8 Clusterbildung mittels neuronaler Gase | 182 |
6.9 Clusterbildung mittels ART | 184 |
7 Assoziationsanalyse | 187 |
7.1 Der A-Priori-Algorithmus | 187 |
7.1.1 Generierung der Kandidaten | 189 |
7.1.2 Erzeugen der Regeln | 191 |
7.2 Frequent Pattern Growth | 197 |
7.3 Assoziationsregeln für spezielle Aufgaben | 201 |
7.3.1 Hierarchische Assoziationsregeln | 201 |
7.3.2 Quantitative Assoziationsregeln | 202 |
7.3.3 Erzeugung von temporalen Assoziationsregeln | 204 |
8 Datenvorbereitung | 207 |
8.1 Motivation | 207 |
8.2 Arten der Datenvorbereitung | 209 |
8.2.1 Datenselektion und -integration | 210 |
8.2.2 Datensäuberung | 211 |
8.2.3 Datenreduktion | 218 |
8.2.4 Datentransformation | 221 |
8.3 Ein Beispiel | 227 |
9 Bewertung | 233 |
9.1 Prinzip der minimalen Beschreibungslängen | 234 |
9.2 Interessantheitsmaße für Assoziationsregeln | 234 |
9.2.1 Support | 235 |
9.2.2 Konfidenz | 235 |
9.2.3 Gain-Funktion | 237 |
9.2.4 p-s-Funktion | 238 |
9.2.5 Lift | 239 |
9.3 Gütemaße und Fehlerkosten | 239 |
9.3.1 Fehlerraten | 239 |
9.3.2 Weitere Gütemaße für Klassifikatoren | 240 |
9.3.3 Fehlerkosten | 242 |
9.4 Testmengen | 243 |
9.5 Qualität von Clustern | 245 |
9.6 Visualisierung | 247 |
10 Eine Data-Mining-Aufgabe | 257 |
10.1 Die Aufgabe | 257 |
10.2 Das Problem | 258 |
10.3 Die Daten | 260 |
10.4 Datenvorbereitung | 265 |
10.5 Experimente | 268 |
10.5.1 K-Nearest Neighbour | 270 |
10.5.2 Naive Bayes | 272 |
10.5.3 Entscheidungsbaumverfahren | 274 |
10.5.4 Neuronale Netze | 277 |
10.6 Auswertung der Ergebnisse | 284 |
A Anhang | 287 |
A.1 Iris-Daten | 287 |
A.2 Sojabohnen | 289 |
A.3 Wetter-Daten | 291 |
A.4 Kontaktlinsen-Daten | 293 |
Abbildungsverzeichnis | 295 |
Tabellenverzeichnis | 303 |
Verzeichnis der Symbole | 305 |
Verzeichnis der Abkürzungen | 307 |
Literaturverzeichnis | 309 |
Index | 315 |