Sie sind hier
E-Book

Einführung in Machine Learning mit Python

Praxiswissen Data Science

AutorAndreas C. Müller, Sarah Guido
VerlagO'Reilly Verlag
Erscheinungsjahr2017
ReiheAnimals 
Seitenanzahl378 Seiten
ISBN9783960101116
FormatPDF
KopierschutzWasserzeichen/DRM
GerätePC/MAC/eReader/Tablet
Preis39,90 EUR
Machine Learning ist zu einem wichtigen Bestandteil vieler kommerzieller Anwendungen und Forschungsprojekte geworden, von der medizinischen Diagnostik bis hin zur Suche nach Freunden in sozialen Netzwerken. Um Machine-Learning-Anwendungen zu entwickeln, braucht es keine großen Expertenteams: Wenn Sie Python-Grundkenntnisse mitbringen, zeigt Ihnen dieses Praxisbuch, wie Sie Ihre eigenen Machine-Learning-Lösungen erstellen. Mit Python und der scikit-learn-Bibliothek erarbeiten Sie sich alle Schritte, die für eine erfolgreiche Machine-Learning-Anwendung notwendig sind. Die Autoren Andreas Müller und Sarah Guido konzentrieren sich bei der Verwendung von Machine-Learning-Algorithmen auf die praktischen Aspekte statt auf die Mathematik dahinter. Wenn Sie zusätzlich mit den Bibliotheken NumPy und matplotlib vertraut sind, hilft Ihnen dies, noch mehr aus diesem Tutorial herauszuholen. Das Buch zeigt Ihnen: - grundlegende Konzepte und Anwendungen von Machine Learning - Vor- und Nachteile weit verbreiteter maschineller Lernalgorithmen - wie sich die von Machine Learning verarbeiteten Daten repräsentieren lassen und auf welche Aspekte der Daten Sie sich konzentrieren sollten - fortgeschrittene Methoden zur Auswertung von Modellen und zum Optimieren von Parametern - das Konzept von Pipelines, mit denen Modelle verkettet und Arbeitsabläufe gekapselt werden - Arbeitsmethoden für Textdaten, insbesondere textspezifische Verarbeitungstechniken - Möglichkeiten zur Verbesserung Ihrer Fähigkeiten in den Bereichen Machine Learning und Data Science Dieses Buch ist eine fantastische, super praktische Informationsquelle für jeden, der mit Machine Learning in Python starten möchte - ich wünschte nur, es hätte schon existiert, als ich mit scikit-learn anfing! Hanna Wallach, Senior Researcher, Microsoft Research

Andreas C. Müller hat an der Universität Bonn in Machine Learning promoviert. Bei Amazon hat er an Anwendungen für rechnergestütztes Sehen gearbeitet, heute ist er am Center for Data Science an der New York University tätig. Er ist als Core Contributor an der Entwicklung und Wartung von scikit-learn beteiligt. Sarah Guido ist als Data Scientist tätig und hat viel für Start-ups gearbeitet, zuletzt als Lead Data Scientist bei Bitly. Sie ist eine erfahrene Konferenzrednerin und hat einen Master-Abschluss im Fach Information an der University of Michigan erworben.

Kaufen Sie hier:

Horizontale Tabs

Blick ins Buch
Inhaltsverzeichnis
Inhalt5
Vorwort9
Kapitel 1: Einführung15
Warum Machine Learning?15
Welche Probleme kann Machine Learning lösen?16
Ihre Aufgabe und Ihre Daten kennen19
Warum Python?19
scikit-learn20
Installieren von scikit-learn20
Grundlegende Bibliotheken und Werkzeuge21
Jupyter Notebook22
NumPy22
SciPy22
matplotlib24
pandas24
mglearn25
Python 2 versus Python 326
In diesem Buch verwendete Versionen27
Eine erste Anwendung: Klassifizieren von Iris-Spezies28
Die Daten kennenlernen29
Erfolg nachweisen: Trainings- und Testdaten31
Das Wichtigste zuerst: Sichten Sie Ihre Daten33
Ihr erstes Modell konstruieren: k-nächste-Nachbarn35
Vorhersagen treffen36
Evaluieren des Modells37
Zusammenfassung und Ausblick37
Kapitel 2: Überwachtes Lernen41
Klassifikation und Regression41
Verallgemeinerung, Overfitting und Underfitting42
Zusammenhang zwischen Modellkomplexität und Größe des Datensatzes45
Algorithmen zum überwachten Lernen46
Einige Beispieldatensätze46
k-nächste-Nachbarn50
Lineare Modelle59
Naive Bayes-Klassifikatoren80
Entscheidungsbäume82
Ensembles von Entscheidungsbäumen94
Support Vector Machines mit Kernel102
Neuronale Netze (Deep Learning)113
Schätzungen der Unsicherheit von Klassifikatoren126
Die Entscheidungsfunktion127
Vorhersagen von Wahrscheinlichkeiten130
Unsicherheit bei der Klassifikation mehrerer Kategorien132
Zusammenfassung und Ausblick134
Kapitel 3: Unüberwachtes Lernen und Vorverarbeitung137
Arten von unüberwachtem Lernen137
Herausforderungen beim unüberwachten Lernen138
Vorverarbeiten und Skalieren138
Unterschiedliche Möglichkeiten der Vorverarbeitung139
Anwenden von Datentransformationen140
Trainings- und Testdaten in gleicher Weise skalieren142
Die Auswirkungen der Vorverarbeitung auf überwachtes Lernen144
Dimensionsreduktion, Extraktion von Merkmalen und Manifold Learning146
Hauptkomponentenzerlegung (PCA)146
Nicht-negative-Matrix-Faktorisierung (NMF)161
Manifold Learning mit t-SNE168
Clusteranalyse172
k-Means-Clustering172
Agglomeratives Clustering183
DBSCAN188
Vergleichen und Auswerten von Clusteralgorithmen192
Zusammenfassung der Clustering-Methoden206
Zusammenfassung und Ausblick207
Kapitel 4: Repräsentation von Daten und Merkmalsgenerierung209
Kategorische Variablen210
One-Hot-Kodierung (Dummy-Variablen)211
Zahlen können kategorische Daten kodieren216
Binning, Diskretisierung, lineare Modelle und Bäume218
Interaktionen und Polynome222
Univariate nichtlineare Transformation228
Automatische Auswahl von Merkmalen232
Univariate Statistiken232
Modellbasierte Auswahl von Merkmalen235
Iterative Auswahl von Merkmalen236
Berücksichtigen von Expertenwissen238
Zusammenfassung und Ausblick247
Kapitel 5: Evaluierung und Verbesserung von Modellen249
Kreuzvalidierung250
Kreuzvalidierung in scikit-learn251
Vorteile der Kreuzvalidierung252
Stratifizierte k-fache Kreuzvalidierung und andere Strategien252
Gittersuche258
Einfache Gittersuche259
Die Gefahr des Overfittings von Parametern und Validierungsdaten260
Gittersuche mit Kreuzvalidierung262
Evaluationsmetriken274
Das Ziel im Auge behalten274
Metriken zur binären Klassifikation275
Metriken zur Klassifikation mehrerer Kategorien296
Regressionsmetriken298
Verwenden von Metriken zur Modellauswahl299
Zusammenfassung und Ausblick301
Kapitel 6: Verkettete Algorithmen und Pipelines303
Parameterauswahl mit Vorverarbeitung304
Erstellen von Pipelines306
Pipelines zur Gittersuche einsetzen307
Die allgemeine Pipeline-Schnittstelle310
Bequemes Erstellen von Pipelines mit make_pipeline311
Zugriff auf Attribute von Schritten312
Zugriff auf Attribute in einer Pipeline mit Gittersuche313
Gittersuche für Vorverarbeitungsschritte und Modellparameter314
Gittersuche nach dem richtigen Modell317
Zusammenfassung und Ausblick318
Kapitel 7: Verarbeiten von Textdaten321
Arten von als Strings repräsentierter Daten321
Anwendungsbeispiel: Meinungsanalyse zu Filmbewertungen323
Repräsentation von Text als Bag-of-Words325
Anwenden von Bag-of-Words auf einen einfachen Datensatz327
Bag-of-Words der Filmbewertungen328
Stoppwörter332
Umskalieren der Daten mit tf-idf333
Untersuchen der Koeffizienten des Modells336
Bag-of-Words mit mehr als einem Wort (n-Gramme)337
Fortgeschrittene Tokenisierung, Stemming und Lemmatisierung341
Modellierung von Themen und Clustering von Dokumenten345
Latent Dirichlet Allocation345
Zusammenfassung und Ausblick352
Kapitel 8: Zusammenfassung und weiterführende Ressourcen355
Herangehensweise an eine Fragestellung beim maschinellen Lernen355
Der menschliche Faktor356
Vom Prototyp zum Produktivsystem357
Testen von Produktivsystemen358
Konstruieren eines eigenen Estimators358
Wie geht es von hier aus weiter?359
Theorie359
Andere Umgebungen und Programmpakete zum maschinellen Lernen360
Ranking, Empfehlungssysteme und andere Arten von Lernen361
Probabilistische Modellierung, Inferenz und probabilistische Programmierung361
Neuronale Netze362
Skalieren auf größere Datensätze363
Verfeinern Sie Ihre Fähigkeiten364
Schlussbemerkung365
Index367
Über die Autoren377
Über die Übersetzer377
Kolophon377
www.oreilly.de0

Weitere E-Books zum Thema: Programmiersprachen - Softwareentwicklung

ASP.NET Shortcut

E-Book ASP.NET Shortcut
Format: PDF

Shortcut-Tipps für ASP.NET-Profis Die neue .NET-Version der Active Server Pages stellt eine Umgebung zur Entwicklung von Web-Applikationen im .NET-Framework bereit. Viele aus der Desktop-…

ASP.NET Shortcut

E-Book ASP.NET Shortcut
Format: PDF

Shortcut-Tipps für ASP.NET-Profis Die neue .NET-Version der Active Server Pages stellt eine Umgebung zur Entwicklung von Web-Applikationen im .NET-Framework bereit. Viele aus der Desktop-…

ASP.NET Shortcut

E-Book ASP.NET Shortcut
Format: PDF

Shortcut-Tipps für ASP.NET-Profis Die neue .NET-Version der Active Server Pages stellt eine Umgebung zur Entwicklung von Web-Applikationen im .NET-Framework bereit. Viele aus der Desktop-…

Programmieren lernen in PHP 5

E-Book Programmieren lernen in PHP 5
Format: PDF

Mit der Version 5 erreicht PHP einen bemerkenswerten Reifegrad, der PHP zu einer festen Größe in der Welt der Webprogrammierung macht. Gerade die leichte Erlernbarkeit macht PHP zur idealen…

Mathematik für Informatiker

E-Book Mathematik für Informatiker
Format: PDF

Die Informatik entwickelt sich in einer unglaublichen Geschwindigkeit. Häufig ist die Mathematik Grundlage von Neuerungen. Deshalb ist sie unverzichtbares Werkzeug jedes Informatikers und Pflichtfach…

Mathematik für Informatiker

E-Book Mathematik für Informatiker
Format: PDF

Die Informatik entwickelt sich in einer unglaublichen Geschwindigkeit. Häufig ist die Mathematik Grundlage von Neuerungen. Deshalb ist sie unverzichtbares Werkzeug jedes Informatikers und Pflichtfach…

Mathematik für Informatiker

E-Book Mathematik für Informatiker
Format: PDF

Die Informatik entwickelt sich in einer unglaublichen Geschwindigkeit. Häufig ist die Mathematik Grundlage von Neuerungen. Deshalb ist sie unverzichtbares Werkzeug jedes Informatikers und Pflichtfach…

Weitere Zeitschriften

aufstieg

aufstieg

Zeitschrift der NaturFreunde in Württemberg Die Natur ist unser Lebensraum: Ort für Erholung und Bewegung, zum Erleben und Forschen; sie ist ein schützenswertes Gut. Wir sind aktiv in der Natur ...

Augenblick mal

Augenblick mal

Die Zeitschrift mit den guten Nachrichten "Augenblick mal" ist eine Zeitschrift, die in aktuellen Berichten, Interviews und Reportagen die biblische Botschaft und den christlichen Glauben ...

Berufsstart Gehalt

Berufsstart Gehalt

»Berufsstart Gehalt« erscheint jährlich zum Sommersemester im Mai mit einer Auflage von 50.000 Exemplaren und ermöglicht Unternehmen sich bei Studenten und Absolventen mit einer ...

BIELEFELD GEHT AUS

BIELEFELD GEHT AUS

Freizeit- und Gastronomieführer mit umfangreichem Serviceteil, mehr als 700 Tipps und Adressen für Tag- und Nachtschwärmer Bielefeld genießen Westfälisch und weltoffen – das zeichnet nicht ...

Demeter-Gartenrundbrief

Demeter-Gartenrundbrief

Einzige Gartenzeitung mit Anleitungen und Erfahrungsberichten zum biologisch-dynamischen Anbau im Hausgarten (Demeter-Anbau). Mit regelmäßigem Arbeitskalender, Aussaat-/Pflanzzeiten, Neuigkeiten ...

SPORT in BW (Württemberg)

SPORT in BW (Württemberg)

SPORT in BW (Württemberg) ist das offizielle Verbandsorgan des Württembergischen Landessportbund e.V. (WLSB) und Informationsmagazin für alle im Sport organisierten Mitglieder in Württemberg. ...

Deutsche Tennis Zeitung

Deutsche Tennis Zeitung

Die DTZ – Deutsche Tennis Zeitung bietet Informationen aus allen Bereichen der deutschen Tennisszene –sie präsentiert sportliche Highlights, analysiert Entwicklungen und erläutert ...

DHS

DHS

Die Flugzeuge der NVA Neben unser F-40 Reihe, soll mit der DHS die Geschichte der "anderen" deutschen Luftwaffe, den Luftstreitkräften der Nationalen Volksarmee (NVA-LSK) der ehemaligen DDR ...

Eishockey NEWS

Eishockey NEWS

Eishockey NEWS bringt alles über die DEL, die DEL2, die Oberliga sowie die Regionalligen und Informationen über die NHL. Dazu ausführliche Statistiken, Hintergrundberichte, Personalities ...