Sie sind hier

E-Book

Einführung in Machine Learning mit Python

Praxiswissen Data Science

Autor	Andreas C. Müller, Sarah Guido
Verlag	O'Reilly Verlag
Erscheinungsjahr	2017
Reihe	Animals
Seitenanzahl	378 Seiten
ISBN	9783960101116
Format	PDF
Kopierschutz	Wasserzeichen/DRM
Geräte	PC/MAC/eReader/Tablet
Preis	39,90 EUR

Machine Learning ist zu einem wichtigen Bestandteil vieler kommerzieller Anwendungen und Forschungsprojekte geworden, von der medizinischen Diagnostik bis hin zur Suche nach Freunden in sozialen Netzwerken. Um Machine-Learning-Anwendungen zu entwickeln, braucht es keine großen Expertenteams: Wenn Sie Python-Grundkenntnisse mitbringen, zeigt Ihnen dieses Praxisbuch, wie Sie Ihre eigenen Machine-Learning-Lösungen erstellen. Mit Python und der scikit-learn-Bibliothek erarbeiten Sie sich alle Schritte, die für eine erfolgreiche Machine-Learning-Anwendung notwendig sind. Die Autoren Andreas Müller und Sarah Guido konzentrieren sich bei der Verwendung von Machine-Learning-Algorithmen auf die praktischen Aspekte statt auf die Mathematik dahinter. Wenn Sie zusätzlich mit den Bibliotheken NumPy und matplotlib vertraut sind, hilft Ihnen dies, noch mehr aus diesem Tutorial herauszuholen. Das Buch zeigt Ihnen: - grundlegende Konzepte und Anwendungen von Machine Learning - Vor- und Nachteile weit verbreiteter maschineller Lernalgorithmen - wie sich die von Machine Learning verarbeiteten Daten repräsentieren lassen und auf welche Aspekte der Daten Sie sich konzentrieren sollten - fortgeschrittene Methoden zur Auswertung von Modellen und zum Optimieren von Parametern - das Konzept von Pipelines, mit denen Modelle verkettet und Arbeitsabläufe gekapselt werden - Arbeitsmethoden für Textdaten, insbesondere textspezifische Verarbeitungstechniken - Möglichkeiten zur Verbesserung Ihrer Fähigkeiten in den Bereichen Machine Learning und Data Science Dieses Buch ist eine fantastische, super praktische Informationsquelle für jeden, der mit Machine Learning in Python starten möchte - ich wünschte nur, es hätte schon existiert, als ich mit scikit-learn anfing! Hanna Wallach, Senior Researcher, Microsoft Research

Andreas C. Müller hat an der Universität Bonn in Machine Learning promoviert. Bei Amazon hat er an Anwendungen für rechnergestütztes Sehen gearbeitet, heute ist er am Center for Data Science an der New York University tätig. Er ist als Core Contributor an der Entwicklung und Wartung von scikit-learn beteiligt. Sarah Guido ist als Data Scientist tätig und hat viel für Start-ups gearbeitet, zuletzt als Lead Data Scientist bei Bitly. Sie ist eine erfahrene Konferenzrednerin und hat einen Master-Abschluss im Fach Information an der University of Michigan erworben.

Kaufen Sie hier:

Horizontale Tabs

Blick ins Buch

Inhaltsverzeichnis

Inhalt	5
Vorwort	9
Kapitel 1: Einführung	15
Warum Machine Learning?	15
Welche Probleme kann Machine Learning lösen?	16
Ihre Aufgabe und Ihre Daten kennen	19
Warum Python?	19
scikit-learn	20
Installieren von scikit-learn	20
Grundlegende Bibliotheken und Werkzeuge	21
Jupyter Notebook	22
NumPy	22
SciPy	22
matplotlib	24
pandas	24
mglearn	25
Python 2 versus Python 3	26
In diesem Buch verwendete Versionen	27
Eine erste Anwendung: Klassifizieren von Iris-Spezies	28
Die Daten kennenlernen	29
Erfolg nachweisen: Trainings- und Testdaten	31
Das Wichtigste zuerst: Sichten Sie Ihre Daten	33
Ihr erstes Modell konstruieren: k-nächste-Nachbarn	35
Vorhersagen treffen	36
Evaluieren des Modells	37
Zusammenfassung und Ausblick	37
Kapitel 2: Überwachtes Lernen	41
Klassifikation und Regression	41
Verallgemeinerung, Overfitting und Underfitting	42
Zusammenhang zwischen Modellkomplexität und Größe des Datensatzes	45
Algorithmen zum überwachten Lernen	46
Einige Beispieldatensätze	46
k-nächste-Nachbarn	50
Lineare Modelle	59
Naive Bayes-Klassifikatoren	80
Entscheidungsbäume	82
Ensembles von Entscheidungsbäumen	94
Support Vector Machines mit Kernel	102
Neuronale Netze (Deep Learning)	113
Schätzungen der Unsicherheit von Klassifikatoren	126
Die Entscheidungsfunktion	127
Vorhersagen von Wahrscheinlichkeiten	130
Unsicherheit bei der Klassifikation mehrerer Kategorien	132
Zusammenfassung und Ausblick	134
Kapitel 3: Unüberwachtes Lernen und Vorverarbeitung	137
Arten von unüberwachtem Lernen	137
Herausforderungen beim unüberwachten Lernen	138
Vorverarbeiten und Skalieren	138
Unterschiedliche Möglichkeiten der Vorverarbeitung	139
Anwenden von Datentransformationen	140
Trainings- und Testdaten in gleicher Weise skalieren	142
Die Auswirkungen der Vorverarbeitung auf überwachtes Lernen	144
Dimensionsreduktion, Extraktion von Merkmalen und Manifold Learning	146
Hauptkomponentenzerlegung (PCA)	146
Nicht-negative-Matrix-Faktorisierung (NMF)	161
Manifold Learning mit t-SNE	168
Clusteranalyse	172
k-Means-Clustering	172
Agglomeratives Clustering	183
DBSCAN	188
Vergleichen und Auswerten von Clusteralgorithmen	192
Zusammenfassung der Clustering-Methoden	206
Zusammenfassung und Ausblick	207
Kapitel 4: Repräsentation von Daten und Merkmalsgenerierung	209
Kategorische Variablen	210
One-Hot-Kodierung (Dummy-Variablen)	211
Zahlen können kategorische Daten kodieren	216
Binning, Diskretisierung, lineare Modelle und Bäume	218
Interaktionen und Polynome	222
Univariate nichtlineare Transformation	228
Automatische Auswahl von Merkmalen	232
Univariate Statistiken	232
Modellbasierte Auswahl von Merkmalen	235
Iterative Auswahl von Merkmalen	236
Berücksichtigen von Expertenwissen	238
Zusammenfassung und Ausblick	247
Kapitel 5: Evaluierung und Verbesserung von Modellen	249
Kreuzvalidierung	250
Kreuzvalidierung in scikit-learn	251
Vorteile der Kreuzvalidierung	252
Stratifizierte k-fache Kreuzvalidierung und andere Strategien	252
Gittersuche	258
Einfache Gittersuche	259
Die Gefahr des Overfittings von Parametern und Validierungsdaten	260
Gittersuche mit Kreuzvalidierung	262
Evaluationsmetriken	274
Das Ziel im Auge behalten	274
Metriken zur binären Klassifikation	275
Metriken zur Klassifikation mehrerer Kategorien	296
Regressionsmetriken	298
Verwenden von Metriken zur Modellauswahl	299
Zusammenfassung und Ausblick	301
Kapitel 6: Verkettete Algorithmen und Pipelines	303
Parameterauswahl mit Vorverarbeitung	304
Erstellen von Pipelines	306
Pipelines zur Gittersuche einsetzen	307
Die allgemeine Pipeline-Schnittstelle	310
Bequemes Erstellen von Pipelines mit make_pipeline	311
Zugriff auf Attribute von Schritten	312
Zugriff auf Attribute in einer Pipeline mit Gittersuche	313
Gittersuche für Vorverarbeitungsschritte und Modellparameter	314
Gittersuche nach dem richtigen Modell	317
Zusammenfassung und Ausblick	318
Kapitel 7: Verarbeiten von Textdaten	321
Arten von als Strings repräsentierter Daten	321
Anwendungsbeispiel: Meinungsanalyse zu Filmbewertungen	323
Repräsentation von Text als Bag-of-Words	325
Anwenden von Bag-of-Words auf einen einfachen Datensatz	327
Bag-of-Words der Filmbewertungen	328
Stoppwörter	332
Umskalieren der Daten mit tf-idf	333
Untersuchen der Koeffizienten des Modells	336
Bag-of-Words mit mehr als einem Wort (n-Gramme)	337
Fortgeschrittene Tokenisierung, Stemming und Lemmatisierung	341
Modellierung von Themen und Clustering von Dokumenten	345
Latent Dirichlet Allocation	345
Zusammenfassung und Ausblick	352
Kapitel 8: Zusammenfassung und weiterführende Ressourcen	355
Herangehensweise an eine Fragestellung beim maschinellen Lernen	355
Der menschliche Faktor	356
Vom Prototyp zum Produktivsystem	357
Testen von Produktivsystemen	358
Konstruieren eines eigenen Estimators	358
Wie geht es von hier aus weiter?	359
Theorie	359
Andere Umgebungen und Programmpakete zum maschinellen Lernen	360
Ranking, Empfehlungssysteme und andere Arten von Lernen	361
Probabilistische Modellierung, Inferenz und probabilistische Programmierung	361
Neuronale Netze	362
Skalieren auf größere Datensätze	363
Verfeinern Sie Ihre Fähigkeiten	364
Schlussbemerkung	365
Index	367
Über die Autoren	377
Über die Übersetzer	377
Kolophon	377
www.oreilly.de	0

Weitere E-Books zum Thema: Programmiersprachen - Softwareentwicklung

ASP.NET Shortcut

Format: PDF

Shortcut-Tipps für ASP.NET-Profis Die neue .NET-Version der Active Server Pages stellt eine Umgebung zur Entwicklung von Web-Applikationen im .NET-Framework bereit. Viele aus der Desktop-…

ASP.NET Shortcut

Format: PDF

Shortcut-Tipps für ASP.NET-Profis Die neue .NET-Version der Active Server Pages stellt eine Umgebung zur Entwicklung von Web-Applikationen im .NET-Framework bereit. Viele aus der Desktop-…

ASP.NET Shortcut

Format: PDF

Shortcut-Tipps für ASP.NET-Profis Die neue .NET-Version der Active Server Pages stellt eine Umgebung zur Entwicklung von Web-Applikationen im .NET-Framework bereit. Viele aus der Desktop-…

Programmieren lernen in PHP 5

Format: PDF

Mit der Version 5 erreicht PHP einen bemerkenswerten Reifegrad, der PHP zu einer festen Größe in der Welt der Webprogrammierung macht. Gerade die leichte Erlernbarkeit macht PHP zur idealen…

Mathematik für Informatiker

Format: PDF

Die Informatik entwickelt sich in einer unglaublichen Geschwindigkeit. Häufig ist die Mathematik Grundlage von Neuerungen. Deshalb ist sie unverzichtbares Werkzeug jedes Informatikers und Pflichtfach…

Mathematik für Informatiker

Format: PDF

Mathematik für Informatiker

Format: PDF

3D-Spieleprogrammierung mit DirectX 9 und C++

Format: PDF

3., aktualisierte Auflage. Inkl. kompletter Spiele-Engine. DAS UMFASSENDE HANDBUCH ZUR 3D-SPIELEPROGRAMMIERUNG - Behandelt alle wichtigen Techniken der Spieleentwicklung auf Basis von DirectX und C…

3D-Spieleprogrammierung mit DirectX 9 und C++

Format: PDF

3D-Spieleprogrammierung mit DirectX 9 und C++

Format: PDF

Weitere Zeitschriften

Arzneimittel Zeitung

Die Arneimittel Zeitung ist die Zeitung für Entscheider und Mitarbeiter in der Pharmabranche. Sie informiert branchenspezifisch über Gesundheits- und Arzneimittelpolitik, über Unternehmen und ...

Atalanta

Atalanta ist die Zeitschrift der Deutschen Forschungszentrale für Schmetterlingswanderung. Im Atalanta-Magazin werden Themen behandelt wie Wanderfalterforschung, Systematik, Taxonomie und Ökologie. ...

BEHINDERTEPÄDAGOGIK

Für diese Fachzeitschrift arbeiten namhafte Persönlichkeiten aus den verschiedenen Fotschungs-, Lehr- und Praxisbereichen zusammen. Zu ihren Aufgaben gehören Prävention, Früherkennung, ...

Beiträge zur Namenforschung

Beiträge zur Namenforschung. Neue Folge ist eine internationale fachübergreifende Zeitschrift für Namenforschung. In den Artikeln werden Probleme der Ortsnamen- wie Personenamenforschung und der ...

Computerwoche

Die COMPUTERWOCHE berichtet schnell und detailliert über alle Belange der Informations- und Kommunikationstechnik in Unternehmen – über Trends, neue Technologien, Produkte und Märkte. IT-Manager ...

Darum - Magazin aus Mission und Ökumene

Lesen Sie aktuelle Reportagen und Hintergrundberichte über das weltweite Engagement von Christinnen und Christen. Erhalten Sie kompakte Informationen zu den Themen Mission, Kirchen und Christen in ...

Gastronomie Report

News & Infos für die Gastronomie: Tipps, Trends und Ideen, Produkte aus aller Welt, Innovative Konzepte, Küchentechnik der Zukunft, Service mit Zusatznutzen und vieles mehr. Frech, offensiv, ...

Die Versicherungspraxis

Behandlung versicherungsrelevanter Themen. Erfahren Sie mehr über den DVS. Der DVS Deutscher Versicherungs-Schutzverband e.V, Bonn, ist der Interessenvertreter der versicherungsnehmenden Wirtschaft. ...

rfe-Elektrohändler

rfe-Elektrohändler ist die Fachzeitschrift für die CE- und Hausgeräte-Branche. Wichtige Themen sind: Aktuelle Entwicklungen in beiden Branchen, Waren- und Verkaufskunde, Reportagen über ...

DVGW energie | wasser-praxis

Die »DVGW energie | wasser-praxis« ist die führende Fachzeitschrift der deutschen Gas- und Wasser Branche. 11 Mal im Jahr informiert sie mit technischen Fachbeiträgen, praxisorientierten ...