Vorwort | 6 |
Inhaltsverzeichnis | 12 |
Der Autor | 12 |
Teil I Rahmen | 23 |
1 Statistik heute | 24 |
1.1 Datenanalyse, Statistik, Data Science und Co. | 25 |
1.2 Wissensgebiete der Datenanalyse | 27 |
1.3 Einige Grundbegriffe | 29 |
1.4 Signal und Rauschen | 30 |
2 Hallo, R | 33 |
2.1 Eine kurze Geschichte von R | 33 |
2.2 Warum R? Warum, R? | 35 |
3 R starten | 40 |
3.1 R und RStudio installieren | 40 |
3.2 Pakete | 42 |
3.3 Hilfe! R startet nicht! | 44 |
3.4 Zuordnung von Paketen zu Befehlen | 46 |
3.5 R-Skript-Dateien | 48 |
3.6 Daten | 48 |
3.7 Grundlagen der Arbeit mit RStudio | 49 |
3.8 Hier werden Sie geholfen | 52 |
4 Erstkontakt | 55 |
4.1 R ist pingelig | 55 |
4.2 Variablen zuweisen und auslesen | 56 |
4.3 Funktionen aufrufen | 57 |
4.4 Logische Prüfungen | 58 |
4.5 Vektorielle Funktionen | 60 |
4.6 Literaturempfehlungen | 61 |
Teil II Daten einlesen | 62 |
5 Datenstrukturen | 63 |
5.1 Überblick über die wichtigsten Objekttypen | 63 |
5.2 Objekttypen in R | 65 |
5.3 Daten auslesen und indizieren | 71 |
5.4 Namen geben | 76 |
6 Datenimport und -export | 79 |
6.1 Daten in R importieren | 79 |
6.2 Textkodierung | 84 |
6.3 Daten exportieren | 85 |
Teil III Daten aufbereiten | 88 |
7 Datenjudo | 89 |
7.1 Daten aufbereiten mit dplyr | 91 |
7.2 Zentrale Bausteine von dplyr | 92 |
7.3 Die Pfeife | 105 |
7.4 Spalten berechnen mit mutate() | 107 |
7.5 Bedingte Analysen mit den Suffixen von dplyr | 110 |
7.6 Tabellen zusammenführen (join) | 113 |
8 Deskriptive Statistik | 116 |
8.1 Univariate Statistik | 117 |
8.2 Korrelationen berechnen | 125 |
9 Praxisprobleme der Datenaufbereitung | 130 |
9.1 Fehlende Werte | 131 |
9.2 Datenanomalien | 138 |
9.3 Daten umformen | 143 |
9.4 Werte umkodieren und partitionieren | 149 |
9.5 Vektoren zu Skalaren zusammenfassen | 154 |
10 Fallstudie: Datenjudo | 157 |
10.1 Deskriptive Statistiken zu den New Yorker Flügen | 158 |
10.2 Visualisierungen zu den deskriptiven Statistiken | 161 |
Teil IV Daten visualisieren | 166 |
11 Datenvisualisierung mit ggplot2 | 167 |
11.1 Einstieg in ggplot2 | 168 |
11.2 Häufige Arten von Diagrammen (Geomen) | 176 |
11.3 Die Gefühlswelt von ggplot2 | 188 |
11.4 ggplot(), der große Bruder von qplot() | 189 |
12 Fortgeschrittene Themen der Visualisierung | 197 |
12.1 Farbwahl | 197 |
12.2 ggplot2-Themen | 204 |
12.3 Interaktive Diagramme | 207 |
13 Fallstudie: Visualisierung | 210 |
13.1 Umfragedaten visualisieren mit „likert“ | 211 |
13.2 Umfragedaten visualisieren mit ggplot | 212 |
14 Geovisualisierung | 224 |
14.1 Kartendaten | 225 |
14.2 Unterschiede in Kartensegmenten visualisieren | 228 |
14.3 Weltkarten | 233 |
14.4 Anwendungsbeispiel: Konkordanz von Kulturwerten und Wohlbefinden | 238 |
14.5 Interaktive Karten | 243 |
Teil V Modellieren | 251 |
15 Grundlagen des Modellierens | 252 |
15.1 Was ist ein Modell? Was ist Modellieren? | 253 |
15.2 Abduktion als Erkenntnisfigur im Modellieren | 255 |
15.3 Ein Beispiel zum Modellieren in der Datenanalyse | 257 |
15.4 Taxonomie der Ziele des Modellierens | 258 |
15.5 Die vier Schritte des statistischen Modellierens | 261 |
15.6 Einfache vs. komplexe Modelle: Unter- vs. Überanpassung | 262 |
15.7 Bias-Varianz-Abwägung | 263 |
15.8 Trainings- vs. Test-Stichprobe | 264 |
15.9 Resampling und Kreuzvalidierung | 266 |
15.10 Wann welches Modell? | 267 |
15.11 Modellgüte | 267 |
15.12 Der Fluch der Dimension | 269 |
16 Inferenzstatistik | 274 |
16.1 Wozu Inferenzstatistik? | 275 |
16.2 Der p-Wert | 276 |
16.3 Wann welcher Inferenztest? | 284 |
16.4 Beispiele für häufige Inferenztests | 285 |
16.5 Alternativen zum p-Wert | 293 |
17 Simulationsbasierte Inferenz | 308 |
17.1 Stichproben, Statistiken und Population | 308 |
17.2 Die Stichprobenverteilung | 311 |
17.3 Der Bootstrap | 315 |
17.4 Nullhypothesen auf Signifikanz testen | 318 |
Teil VI Geleitetes Modellieren | 325 |
18 Lineare Modelle | 326 |
18.1 Die Idee der klassischen Regression | 326 |
18.2 Modellgüte | 329 |
18.3 Die Regression an einem Beispiel erläutert | 332 |
18.4 Überprüfung der Annahmen der linearen Regression | 334 |
18.5 Regression mit kategorialen Prädiktoren | 336 |
18.6 Multiple Regression | 338 |
18.7 Interaktionen | 340 |
18.8 Prädiktorenrelevanz | 342 |
18.9 Anwendungsbeispiel zur linearen Regression | 344 |
19 Klassifizierende Regression | 350 |
19.1 Normale Regression für ein binäres Kriterium | 351 |
19.2 Die logistische Funktion | 352 |
19.3 Interpretation des Logits | 355 |
19.4 Kategoriale Prädiktoren | 356 |
19.5 Multiple logistische Regression | 357 |
19.6 Modellgüte | 358 |
19.7 Vorhersagen | 361 |
19.8 ROC-Kurven und Fläche unter der Kurve (AUC) | 362 |
20 Fallstudie: Titanic | 369 |
20.1 Explorative Analyse | 370 |
20.2 Inferenzstatistik | 372 |
21 Baumbasierte Verfahren | 381 |
21.1 Entscheidungsbäume | 382 |
21.2 Entscheidungsbäume mit caret | 388 |
21.3 Der Algorithmus der Entscheidungsbäume | 395 |
21.4 Regressionsbäume | 395 |
21.5 Stärken und Schwächen von Bäumen | 395 |
21.6 Bagging | 397 |
21.7 Grundlagen von Random Forests | 398 |
21.8 Variablenrelevanz bei Baummodellen | 402 |
22 Fallstudie: Kreditwürdigkeit mit caret | 405 |
22.1 Zwei Arten der prädiktiven Modellierung | 406 |
22.2 Daten aufbereiten | 407 |
22.3 Modelle anpassen | 411 |
22.4 Modellgüte bestimmen | 422 |
22.5 Wichtigkeit der Prädiktoren bestimmen | 430 |
Teil VII Ungeleitetes Modellieren | 438 |
23 Clusteranalyse | 439 |
23.1 Grundlagen der Clusteranalyse | 439 |
23.2 Beispiel für eine einfache Clusteranalyse | 445 |
24 Textmining | 451 |
24.1 Grundlegende Analyse | 452 |
24.2 Sentimentanalyse | 461 |
25 Fallstudie: Twitter-Mining | 465 |
25.1 Zum Einstieg: Moderne Methoden der Sentimentanalyse | 466 |
25.2 Grundlagen des Twitter-Minings | 467 |
Teil VIII Kommunizieren | 475 |
26 RMarkdown | 476 |
26.1 Forderungen an Werkzeuge zur Berichterstellung | 477 |
26.2 Start mit RMarkdown | 479 |
26.3 RMarkdown in Action | 481 |
26.4 Aufbau einer Markdown-Datei | 483 |
26.5 Syntax-Grundlagen von Markdown | 484 |
26.6 Tabellen | 485 |
26.7 Zitieren | 488 |
26.8 Format-Vorlagen für RMarkdown | 490 |
Teil IX Rahmen 2 | 493 |
27 Projektmanagement am Beispiel einer Fallstudie | 494 |
27.1 Was ist Populismus? | 495 |
27.2 Forschungsfrage und Operationalisierung | 496 |
27.3 Emotionslexikon | 497 |
27.4 Daten, Stichprobe und Analysekontext | 498 |
27.5 Prozess der Datenanalyse | 498 |
27.6 Zentrale Ergebnisse | 500 |
27.7 Projektmanagement | 503 |
28 Programmieren mit R | 510 |
28.1 Funktionen schreiben | 510 |
28.2 Wiederholungen | 513 |
28.3 Defensives Programmieren | 522 |
29 Programmieren mit dplyr | 525 |
29.1 Wie man mit dplyr nicht sprechen darf | 525 |
29.2 Standard-Evaluation vs. Non-Standard-Evaluation | 526 |
29.3 NSE als Backen | 528 |
29.4 Wie man Funktionen mit dplyr-Verben schreibt | 532 |
29.5 Beispiele für NSE-Funktionen | 535 |
Anhang A | 539 |
Literatur | 545 |
Sachverzeichnis | 556 |