Sie sind hier
E-Book

Data Science für Unternehmen

Data Mining und datenanalytisches Denken praktisch anwenden

AutorFoster Provost, Tom Fawcett
Verlagmitp Verlags GmbH & Co. KG
Erscheinungsjahr2017
Seitenanzahl432 Seiten
ISBN9783958455474
FormatPDF
Kopierschutzkein Kopierschutz
GerätePC/MAC/eReader/Tablet
Preis29,99 EUR
Die grundlegenden Konzepte der Data Science verstehen, Wissen aus Daten ziehen und für Vorhersagen und Entscheidungen nutzen Die wichtigsten Data-Mining-Verfahren gezielt und gewinnbringend einsetzen Zahlreiche Praxisbeispiele zur Veranschaulichung Die anerkannten Data-Science-Experten Foster Provost und Tom Fawcett stellen in diesem Buch die grundlegenden Konzepte der Data Science vor, die für den effektiven Einsatz im Unternehmen von Bedeutung sind. Sie erläutern das datenanalytische Denken, das erforderlich ist, damit Sie aus Ihren gesammelten Daten nützliches Wissen und geschäftlichen Nutzen ziehen können. Sie erfahren detailliert, welche Methoden der Data Science zu hilfreichen Erkenntnissen führen, so dass auf dieser Grundlage wichtige Entscheidungsfindungen unterstützt werden können. Dieser Leitfaden hilft Ihnen dabei, die vielen zurzeit gebräuchlichen Data-Mining-Verfahren zu verstehen und gezielt und gewinnbringend anzuwenden. Sie lernen u.a., wie Sie: Data Science in Ihrem Unternehmen nutzen und damit Wettbewerbsvorteile erzielen Daten als ein strategisches Gut behandeln, in das investiert werden muss, um echten Nutzen daraus zu ziehen Geschäftliche Aufgaben datenanalytisch angehen und den Data-Mining-Prozess nutzen, um auf effiziente Weise sinnvolle Daten zu sammeln Das Buch beruht auf einem Kurs für Betriebswirtschaftler, den Provost seit rund zehn Jahren an der New York University unterrichtet, und nutzt viele Beispiele aus der Praxis, um die Konzepte zu veranschaulichen. Das Buch richtet sich an Führungskräfte und Projektmanager, die Data-Science-orientierte Projekte managen, an Entwickler, die Data-Science-Lösungen implementieren sowie an alle angehenden Data Scientists und Studenten. Aus dem Inhalt: Datenanalytisches Denken lernen Der Data-Mining-Prozess Überwachtes und unüberwachtes Data Mining Einführung in die Vorhersagemodellbildung: von der Korrelation zur überwachten Segmentierung Anhand der Daten optimale Modellparameter finden mit Verfahren wie lineare und logistische Regression sowie Support Vector Machines Prinzip und Berechnung der Ähnlichkeit Nächste-Nachbarn-Methoden und Clustering Entscheidungsanalyse I: Was ist ein gutes Modell Visualisierung der Leistung von Modellen Evidenz und Wahrscheinlichkeiten Texte repräsentieren und auswerten Entscheidungsanalyse II: Analytisches Engineering Data Science und Geschäftsstrategie

Kaufen Sie hier:

Horizontale Tabs

Blick ins Buch
Inhaltsverzeichnis
Cover1
Titel3
Impressum4
Inhaltsverzeichnis5
Einleitung13
Über die Autoren21
Kapitel 1: Einführung: Datenanalytisches Denken23
1.1 Allgegenwärtige Datenerfassungsmöglichkeiten23
1.2 Beispiel: Hurrikan Frances25
1.3 Beispiel: Vorhersage der Kundenfluktuation26
1.4 Data Science, Engineering und datengestützte Entscheidungsfindung27
1.5 Datenverarbeitung und »Big Data«31
1.6 Von Big Data 1.0 zu Big Data 2.032
1.7 Daten und Data-Science-Fähigkeiten als strategisches Gut33
1.8 Datenanalytische Denkweise36
1.9 Dieses Buch38
1.10 Data Mining und Data Science39
1.11 In der Chemie geht es nicht um Reagenzgläser: Data Science vs. die Aufgabe des Data Scientists40
1.12 Zusammenfassung41
Kapitel 2: Geschäftliche Aufgaben und Data-Science-Lösungen43
2.1 Von geschäftlichen Aufgaben zum Data-Mining- Verfahren44
2.2 Überwachte vs. unüberwachte Verfahren49
2.3 Ergebnisse des Data Minings51
2.4 Der Data-Mining-Prozess52
2.4.1 Aufgabenverständnis53
2.4.2 Datenverständnis54
2.4.3 Datenaufbereitung56
2.4.4 Modellbildung57
2.4.5 Beurteilung57
2.4.6 Deployment59
2.5 Auswirkungen auf das Management des Data-Science-Teams61
2.6 Weitere Analyseverfahren und -Technologien62
2.6.1 Statistik63
2.6.2 Datenbankabfragen65
2.6.3 Data Warehouses66
2.6.4 Regressionsanalyse67
2.6.5 Machine Learning und Data Mining67
2.6.6 Geschäftliche Aufgaben durch diese Verfahren lösen68
2.7 Zusammenfassung70
Kapitel 3: Einführung in die Vorhersagemodellbildung: Von der Korrelation zur überwachten Segmentierung71
3.1 Modelle, Induktion und Vorhersage73
3.2 Überwachte Segmentierung77
3.2.1 Auswahl informativer Merkmale78
3.2.2 Beispiel: Merkmalsauswahl anhand des Informationsgewinns86
3.2.3 Überwachte Segmentierung mit Baumstrukturmodellen92
3.3 Segmentierungen visualisieren98
3.4 Bäume als Regelsätze100
3.5 Wahrscheinlichkeitsabschätzung101
3.6 Beispiel: Abwanderungsrate per Entscheidungsbaum ermitteln104
3.7 Zusammenfassung108
Kapitel 4: Ein Modell an Daten anpassen111
4.1 Klassifizierung via mathematischer Funktionen113
4.1.1 Lineare Diskriminanzfunktion115
4.1.2 Optimieren der Zielfunktion118
4.1.3 Beispiel: Extraktion einer linearen Diskriminanzfunktion aus Daten119
4.1.4 Lineare Diskriminanzfunktionen zur Beurteilung und zum Erstellen einer Rangfolge von Instanzen121
4.1.5 Support Vector Machines kompakt erklärt122
4.2 Regression via mathematischer Funktionen125
4.3 Wahrscheinlichkeitsabschätzung der Klassenzugehörigkeit und logistische »Regression«127
4.3.1 * Logistische Regression: Technische Details131
4.4 Beispiel: Logistische Regression vs. Entscheidungsbaumverfahren134
4.5 Nichtlineare Funktionen, Support Vector Machines und neuronale Netze138
4.6 Zusammenfassung141
Kapitel 5: Überanpassung erkennen und vermeiden143
5.1 Verallgemeinerungsfähigkeit143
5.2 Überanpassung145
5.3 Überanpassung im Detail146
5.3.1 Zurückgehaltene Daten und Fitfunktionen146
5.3.2 Überanpassung bei Entscheidungsbaumverfahren149
5.3.3 Überanpassung bei mathematischen Funktionen151
5.4 Beispiel: Überanpassung linearer Funktionen152
5.5 * Beispiel: Nachteile der Überanpassung156
5.6 Von der Beurteilung durch Testdatenmengen zur Kreuzvalidierung159
5.7 Abwanderungsdaten163
5.8 Lernkurven165
5.9 Überanpassung vermeiden und Steuerung der Komplexität167
5.9.1 Überanpassung von Entscheidungsbäumen vermeiden167
5.9.2 Eine allgemeine Methode zur Vermeidung von Überanpassung168
5.9.3 * Überanpassung bei der Parameteroptimierung vermeiden171
5.10 Zusammenfassung175
Kapitel 6: Ähnlichkeit, Nachbarn und Cluster177
6.1 Ähnlichkeit und Distanz178
6.2 Nächste-Nachbarn-Methoden181
6.2.1 Beispiel: Whisky-Analyse181
6.2.2 Nächste Nachbarn und Vorhersagemodelle184
6.2.3 Anzahl der Nachbarn und ihre Gewichtung187
6.2.4 Geometrische Interpretation, Überanpassung und Steuerung der Komplexität189
6.2.5 Probleme mit Nächste-Nachbarn-Methoden193
6.3 Ähnlichkeit und Nachbarn: Wichtige technische Details196
6.3.1 Heterogene Merkmale196
6.3.2 * Weitere Distanzmaße197
6.3.3 * Zusammenfassende Funktionen: Scores der Nachbarn berechnen200
6.4 Clustering202
6.4.1 Beispiel: Weitere Whisky-Analysen203
6.4.2 Hierarchisches Clustering204
6.4.3 Nächste Nachbarn: Clustering um Zentroiden209
6.4.4 Beispiel: Clustering von Wirtschaftsnachrichten214
6.4.5 Das Ergebnis des Clusterings verstehen218
6.4.6 * Cluster-Beschreibungen durch überwachtes Lernen erzeugen220
6.5 Lösen von geschäftlichen Aufgaben vs. Datenerkundung223
6.6 Zusammenfassung226
Kapitel 7: Entscheidungsanalyse I: Was ist ein gutes Modell?227
7.1 Beurteilung von Klassifizierern228
7.1.1 Korrektklassifizierungsrate und damit verbundene Probleme229
7.1.2 Die Wahrheitsmatrix230
7.1.3 Klassifizierungsaufgaben mit unausgewogener Klassenverteilung230
7.1.4 Klassifizierungsaufgaben mit unausgewogenem Kosten-Nutzen-Verhältnis233
7.2 Verallgemeinerung über Klassifizierungen hinaus234
7.3 Ein wichtiges analytisches Tool: Der Erwartungswert235
7.3.1 Erwartungswerte für Klassifizierer verwenden236
7.3.2 Erwartungswerte zur Beurteilung von Klassifizierern verwenden238
7.4 Beurteilung, Leistung und die Folgen für Investitionen in Daten246
7.5 Zusammenfassung249
Kapitel 8: Visualisierung der Leistung von Modellen251
8.1 Rangfolge statt Klassifizierung252
8.2 Profitkurven254
8.3 ROC-Diagramme und -Kurven257
8.4 Die Fläche unter der ROC-Kurve263
8.5 Kumulative Reaktionskurven und Lift-Kurven263
8.6 Beispiel: Leistungsanalyse266
8.7 Zusammenfassung275
Kapitel 9: Evidenz und Wahrscheinlichkeiten277
9.1 Beispiel: Gezielte Kundenansprache durch Onlinewerbung277
9.2 Evidenzen probabilistisch kombinieren280
9.2.1 Verbundwahrscheinlichkeit und Unabhängigkeit281
9.2.2 Der Satz von Bayes282
9.3 Anwendung des Satzes von Bayes in der Data Science284
9.3.1 Bedingte Unabhängigkeit und naive Bayes-Klassifizierung286
9.3.2 Vor- und Nachteile des naiven Bayes-Klassifizierers288
9.4 Ein Modell für den Lift der Evidenz290
9.5 Beispiel: Lifts der Evidenz von Facebooks-Likes291
9.5.1 Evidenz in Aktion: Gezielte Kundenansprache durch Werbung293
9.6 Zusammenfassung294
Kapitel 10: Texte repräsentieren und auswerten295
10.1 Die Bedeutung von Text296
10.2 Probleme bei der Auswertung von Text297
10.3 Repräsentierung298
10.3.1 Das Bag-of-words-Modell298
10.3.2 Vorkommenshäufigkeiten299
10.3.3 Inverse Dokumenthäufigkeit302
10.3.4 Die Kombination aus Vorkommenshäufigkeit und inverser Dokumenthäufigkeit: TFIDF303
10.4 Beispiel: Jazzmusiker304
10.5 * Der Zusammenhang zwischen IDF und Entropie308
10.6 Jenseits des Bag-of-words-Modells310
10.6.1 N-Gramme310
10.6.2 Eigennamenerkennung311
10.6.3 Topic Models312
10.7 Beispiel: Auswertung von Wirtschaftsnachrichten zwecks Vorhersage von Börsenkursen313
10.7.1 Die Aufgabe314
10.7.2 Die Daten316
10.7.3 Datenvorverarbeitung319
10.7.4 Ergebnisse320
10.8 Zusammenfassung324
Kapitel 11: Entscheidungsanalyse II: Analytisches Engineering325
11.1 Auswahl geeigneter Empfänger eines Spendenaufrufs326
11.1.1 Erwartungswerte: Zerlegung in Teilaufgaben und Kombination der Teilergebnisse326
11.1.2 Ein kurzer Exkurs zum Thema Auswahleffekte328
11.2 Eine noch ausgeklügeltere Vorhersage der Kundenabwanderung329
11.2.1 Erwartungswerte: Strukturierung einer komplizierteren geschäftlichen Aufgabe330
11.2.2 Den Einfluss des Anreizes beurteilen331
11.2.3 Von der Zerlegung eines Erwartungswerts zur Data-Science-Lösung333
11.3 Zusammenfassung336
Kapitel 12: Weitere Verfahren und Methoden der Data Science339
12.1 Gleichzeitiges Auftreten und Assoziationen: Zueinander passende Objekte finden340
12.1.1 Unerwartetheit messen: Lift und Leverage341
12.1.2 Beispiel: Bier und Lotterielose342
12.1.3 Assoziationen von Facebook-Likes343
12.2 Profiling: Typisches Verhalten erkennen347
12.3 Verknüpfungsvorhersagen und Kontaktempfehlungen352
12.4 Datenreduzierung, latente Informationen und Filmempfehlungen354
12.5 Bias, Varianz und Ensemblemethoden358
12.6 Datengestützte Kausalmodelle und ein Beispiel für virales Marketing362
12.7 Zusammenfassung363
Kapitel 13: Data Science und Geschäftsstrategie365
13.1 Datenanalytische Denkweise365
13.2 Durch Data Science Wettbewerbsvorteile erzielen368
13.3 Durch Data Science erzielte Wettbewerbsvorteile bewahren369
13.3.1 Vorteile durch historische Gegebenheiten370
13.3.2 Einzigartiges geistiges Eigentum370
13.3.3 Einzigartige immaterielle Werte371
13.3.4 Überlegene Data Scientists371
13.3.5 Überlegenes Data-Science-Management373
13.4 Gewinnung und Förderung von Data Scientists und ihren Teams375
13.5 Data-Science-Fallstudien377
13.6 Kreative Ideen von beliebigen Quellen übernehmen378
13.7 Beurteilung von Vorschlägen für Data-Science-Projekte379
13.7.1 Beispiel für einen Data-Mining-Projektvorschlag379
13.7.2 Mängel des Projektvorschlags von Big Red380
13.8 Ausgereifte Data Science382
Kapitel 14: Schlussfolgerungen385
14.1 Die fundamentalen Konzepte der Data Science385
14.1.1 Anwendung der fundamentalen Konzepte auf eine neue Aufgabe: Auswertung der Daten von Mobilgeräten388
14.1.2 Eine neue Sichtweise auf die Lösung von geschäftlichen Aufgaben391
14.2 Was Daten nicht leisten können: Der menschliche Faktor392
14.3 Privatsphäre, Ethik und Auswertung der Daten von Einzelpersonen396
14.4 Data Science: Steckt noch mehr dahinter?397
14.5 Ein letztes Beispiel: Vom Crowd-Sourcing zum Cloud-Sourcing398
14.6 Schlussworte400
Anhang A: Leitfaden zur Beurteilung von Projektvorschlägen401
A.1 Aufgaben- und Datenverständnis401
A.2 Datenaufbereitung402
A.3 Modellbildung403
A.4 Beurteilung und Deployment403
Anhang B: Ein weiteres Beispiel für einen Projektvorschlag405
B.1 Szenario und Projektvorschlag405
B.2 Mängel des Projektvorschlags von GGC406
Glossar409
Quellenverzeichnis415
Stichwortverzeichnis423

Weitere E-Books zum Thema: Netzwerke - Clouds - Datenbanken

Sichere Netzwerkkommunikation

E-Book Sichere Netzwerkkommunikation
Grundlagen, Protokolle und Architekturen Format: PDF

Netzwerke werden in allen Bereichen der IT eingesetzt, und es gibt zahlreiche Technologien zur sicheren Netzwerkkommunikation. Doch welche der verfügbaren Techniken lassen sich kombinieren und in der…

Sichere Netzwerkkommunikation

E-Book Sichere Netzwerkkommunikation
Grundlagen, Protokolle und Architekturen Format: PDF

Netzwerke werden in allen Bereichen der IT eingesetzt, und es gibt zahlreiche Technologien zur sicheren Netzwerkkommunikation. Doch welche der verfügbaren Techniken lassen sich kombinieren und in der…

Sichere Netzwerkkommunikation

E-Book Sichere Netzwerkkommunikation
Grundlagen, Protokolle und Architekturen Format: PDF

Netzwerke werden in allen Bereichen der IT eingesetzt, und es gibt zahlreiche Technologien zur sicheren Netzwerkkommunikation. Doch welche der verfügbaren Techniken lassen sich kombinieren und in der…

Sichere Netzwerkkommunikation

E-Book Sichere Netzwerkkommunikation
Grundlagen, Protokolle und Architekturen Format: PDF

Netzwerke werden in allen Bereichen der IT eingesetzt, und es gibt zahlreiche Technologien zur sicheren Netzwerkkommunikation. Doch welche der verfügbaren Techniken lassen sich kombinieren und in der…

Microsoft ISA Server 2006

E-Book Microsoft ISA Server 2006
Leitfaden für Installation, Einrichtung und Wartung Format: PDF

Im Januar 2005 ist mein erstes Buch zum Thema ISA Server 2004 erschienen. Die Erstauflage war bereits nach wenigen Monaten ausverkauft, was offensichtlich bedeutet, dass der Bedarf nach Informationen…

Microsoft ISA Server 2006

E-Book Microsoft ISA Server 2006
Leitfaden für Installation, Einrichtung und Wartung Format: PDF

Im Januar 2005 ist mein erstes Buch zum Thema ISA Server 2004 erschienen. Die Erstauflage war bereits nach wenigen Monaten ausverkauft, was offensichtlich bedeutet, dass der Bedarf nach Informationen…

Veritas Storage Foundation®

E-Book Veritas Storage Foundation®
High End-Computing für UNIX, Design und Implementation von Hochverfügbarkeitslösungen mit VxVM und VCS Format: PDF

Hochkonzentrierter und praxisorientierter Kurs zur 'Veritas Storage Foundation': Storage Virtualisierung (Teil 1) erzeugt virtuelle Diskspeicher, die bei Kompatibilität zu ihren physischen…

Veritas Storage Foundation®

E-Book Veritas Storage Foundation®
High End-Computing für UNIX, Design und Implementation von Hochverfügbarkeitslösungen mit VxVM und VCS Format: PDF

Hochkonzentrierter und praxisorientierter Kurs zur 'Veritas Storage Foundation': Storage Virtualisierung (Teil 1) erzeugt virtuelle Diskspeicher, die bei Kompatibilität zu ihren physischen…

Veritas Storage Foundation®

E-Book Veritas Storage Foundation®
High End-Computing für UNIX, Design und Implementation von Hochverfügbarkeitslösungen mit VxVM und VCS Format: PDF

Hochkonzentrierter und praxisorientierter Kurs zur 'Veritas Storage Foundation': Storage Virtualisierung (Teil 1) erzeugt virtuelle Diskspeicher, die bei Kompatibilität zu ihren physischen…

Weitere Zeitschriften

Baumarkt

Baumarkt

Baumarkt enthält eine ausführliche jährliche Konjunkturanalyse des deutschen Baumarktes und stellt die wichtigsten Ergebnisse des abgelaufenen Baujahres in vielen Zahlen und Fakten zusammen. Auf ...

BMW Magazin

BMW Magazin

Unter dem Motto „DRIVEN" steht das BMW Magazin für Antrieb, Leidenschaft und Energie − und die Haltung, im Leben niemals stehen zu bleiben.Das Kundenmagazin der BMW AG inszeniert die neuesten ...

care konkret

care konkret

care konkret ist die Wochenzeitung für Entscheider in der Pflege. Ambulant wie stationär. Sie fasst topaktuelle Informationen und Hintergründe aus der Pflegebranche kompakt und kompetent für Sie ...

Correo

Correo

 La Revista de Bayer CropScience para la Agricultura ModernaPflanzenschutzmagazin für den Landwirt, landwirtschaftlichen Berater, Händler und am Thema Interessierten mit umfassender ...

Der Steuerzahler

Der Steuerzahler

Der Steuerzahler ist das monatliche Wirtschafts- und Mitgliedermagazin des Bundes der Steuerzahler und erreicht mit fast 230.000 Abonnenten einen weitesten Leserkreis von 1 ...

die horen

die horen

Zeitschrift für Literatur, Kunst und Kritik."...weil sie mit großer Aufmerksamkeit die internationale Literatur beobachtet und vorstellt; weil sie in der deutschen Literatur nicht nur das Neueste ...

Euphorion

Euphorion

EUPHORION wurde 1894 gegründet und widmet sich als „Zeitschrift für Literaturgeschichte“ dem gesamten Fachgebiet der deutschen Philologie. Mindestens ein Heft pro Jahrgang ist für die ...