Sie sind hier
E-Book

Big Data in der Praxis

Lösungen mit Hadoop, Spark, HBase und Hive. Daten speichern, aufbereiten, visualisieren. 2. erweiterte Auflage

AutorJonas Freiknecht, Stefan Papp
VerlagCarl Hanser Fachbuchverlag
Erscheinungsjahr2018
Seitenanzahl551 Seiten
ISBN9783446456013
FormatPDF/ePUB
KopierschutzWasserzeichen/DRM
GerätePC/MAC/eReader/Tablet
Preis49,99 EUR
Diese komplett überarbeitete Neuauflage bringt Ihnen das Thema Big Data auf sehr praktische Art und Weise nahe. Sie lernen Technologien, Tools und Methoden kennen, entwickeln Beispiel-Lösungen und erfahren, wie Sie bestehende Systeme vorausschauend auf die mit Big Data einhergehenden Herausforderungen vorbereiten.
Dazu werden Sie neben den bekannten Apache-Projekten wie Hadoop, Hive und HBase auch einige weniger bekannte Frameworks wie Apache UIMA oder Apache OpenNLP kennenlernen, um gezielt die Verarbeitung unstrukturierter Daten zu lernen. Alle hier verwendeten Software-Komponenten stehen im vollen Umfang kostenlos im Internet zur Verfügung.
Gemeinsam mit den Autoren bauen Sie Schritt für Schritt viele kleinere Projekte auf bis hin zu einer fertigen und funktionstüchtigen Implementierung.
Ziel des Buches ist es, Sie auf den Effekt und den Mehrwert der neuen Möglichkeiten aufmerksam zu machen, sodass Sie diese konstruktiv in Ihr Unternehmen tragen können und für sich und Ihre Kollegen somit ein Bewusstsein für den Wert Ihrer Daten schaffen
Die zweite Auflage ergänzt das Buch um zahlreiche neue Themen wie Apache Spark, Apache Kafka und weitere Technologien, die vor allem darauf abzielen, Antwortzeiten kurz zu halten und so ein interaktives Arbeiten zu ermöglichen. Ebenso werden die für Firmen so wichtigen Themen Data Governance und Sicherheit behandelt.
Im Internet: 18 fertige Beispiel-Projekte auf Basis von Hadoop, HBase, Hive und D3.js plus Videotutorials

Dr. Jonas Freiknecht arbeitet als Datenanalyst bei einem größeren IT-Systemhaus. Er hat in praktischer Informatik promoviert und erstellt seit vielen Jahren YouTube Videos zu IT-Themen, schreibt Fachbücher und veröffentlicht Tutorials auf seinem Blog.

Kaufen Sie hier:

Horizontale Tabs

Blick ins Buch
Inhaltsverzeichnis
Inhalt9
1 Einleitung15
2 Big Data21
2.1 Historische Entstehung23
2.2 Big Data – ein passender Begriff?24
2.2.1 Die drei V25
2.2.2 Weitere Vs28
2.2.3 Der Verarbeitungsaufwand ist big28
2.2.4 Sicht der Industrie auf Big Data29
2.3 Eingliederung in BI und Data Mining30
3 Hadoop35
3.1 Hadoop kurz vorgestellt35
3.2 HDFS – das Hadoop Distributed File System37
3.3 Hadoop 2.x und YARN42
3.4 Hadoop als Single-Node-Cluster aufsetzen44
3.4.1 Falls etwas nicht funktioniert58
3.5 Map Reduce60
3.6 Aufsetzen einer Entwicklungsumgebung63
3.7 Implementierung eines Map-Reduce-Jobs70
3.8 Ausführen eines Jobs über Kommandozeile82
3.9 Verarbeitung im Cluster86
3.10 Aufsetzen eines Hadoop-Clusters88
3.11 Starten eines Jobs via Hadoop-API100
3.12 Verketten von Map-Reduce-Jobs113
3.13 Verarbeitung anderer Dateitypen129
3.14 YARN-Anwendungen144
3.14.1 Logging und Log-Aggregation in YARN145
3.14.2 Eine einfache YARN-Anwendung148
3.15 Vor- und Nachteile der verteilten Verarbeitung173
3.16 Die Hadoop Java-API174
3.16.1 Ein einfacher HDFS-Explorer175
3.16.2 Cluster-Monitor187
3.16.3 Überwachen der Anwendungen im Cluster189
3.17 Gegenüberstellung zur traditionellen Verarbeitung191
3.18 Big Data aufbereiten192
3.18.1 Optimieren der Algorithmen zur Datenauswertung192
3.18.2 Ausdünnung und Gruppierung194
3.19 Ausblick auf Apache Spark196
3.20 Markt der Big-Data-Lösungen198
4 Das Hadoop-Ecosystem201
4.1 Ambari202
4.2 Sqoop203
4.3 Flume203
4.4 HBase204
4.5 Hive205
4.6 Pig205
4.7 ZooKeeper205
4.8 Oozie206
4.9 Mahout207
4.10 Data Analytics und das Reporting207
5 NoSQL und HBase209
5.1 Historische Entstehung209
5.2 Das CAP-Theorem210
5.3 ACID und BASE211
5.4 Typen von Datenbanken212
5.5 Umstieg von SQL und Dateisystemen auf NoSQL oder HDFS215
5.5.1 Methoden der Datenmigration215
5.6 HBase217
5.6.1 Das Datenmodell von HBase217
5.6.2 Aufbau von HBase220
5.6.3 Installation als Stand-alone221
5.6.4 Arbeiten mit der HBase Shell223
5.6.5 Verteilte Installation auf dem HDFS225
5.6.6 Laden von Daten228
5.6.7 HBase Java-API240
5.6.8 Der Umstieg von einem RDBMS auf HBase263
6 Data Warehousing mit Hive267
6.1 Installation von Hive268
6.2 Architektur von Hive270
6.3 Das Command Line Interface (CLI)271
6.4 HiveQL als Abfragesprache273
6.4.1 Anlegen von Datenbanken273
6.4.2 Primitive Datentypen274
6.4.3 Komplexe Datentypen274
6.4.4 Anlegen von Tabellen275
6.4.5 Partitionierung von Tabellen276
6.4.6 Externe und interne Tabellen276
6.4.7 Löschen und Leeren von Tabellen277
6.4.8 Importieren von Daten278
6.4.9 Zählen von Zeilen via count279
6.4.10 Das SELECT-Statement279
6.4.11 Beschränken von SELECT über DISTINCT283
6.4.12 SELECT auf partitionierte Tabellen283
6.4.13 SELECT sortieren mit SORT BY und ORDER BY284
6.4.14 Partitionieren von Daten durch Bucketing285
6.4.15 Gruppieren von Daten mittels GROUP BY286
6.4.16 Subqueries – verschachtelte Abfragen287
6.4.17 Ergebnismengen vereinigen mit UNION ALL287
6.4.18 Mathematische Funktionen288
6.4.19 String-Funktionen290
6.4.20 Aggregatfunktionen290
6.4.21 User-Defined Functions291
6.4.22 HAVING299
6.4.23 Datenstruktur im HDFS300
6.4.24 Verändern von Tabellen300
6.4.25 Erstellen von Views303
6.4.26 Löschen einer View303
6.4.27 Verändern einer View303
6.4.28 Tabellen zusammenführen mit JOINs304
6.5 Hive Security306
6.5.1 Implementieren eines Authentication-Providers312
6.5.2 Authentication-Provider für HiveServer2317
6.5.3 Verwenden von PAM zur Benutzerauthentifizierung317
6.6 Hive und JDBC318
6.7 Datenimport mit Sqoop336
6.8 Datenexport mit Sqoop338
6.9 Hive und Impala339
6.10 Unterschied zu Pig340
6.11 Zusammenfassung341
7 Big-Data-Visualisierung343
7.1 Theorie der Datenvisualisierung343
7.2 Diagrammauswahl gemäß Datenstruktur349
7.3 Visualisieren von Big Data erfordert ein Umdenken350
7.3.1 Aufmerksamkeit lenken350
7.3.2 Kontextsensitive Diagramme353
7.3.3 3D-Diagramme355
7.3.4 Ansätze, um Big-Data zu visualisieren356
7.4 Neue Diagrammarten358
7.5 Werkzeuge zur Datenvisualisierung362
7.6 Entwicklung einer einfachen Visualisierungskomponente366
8 Auf dem Weg zu neuem Wissen – Aufbereiten, Anreichern und Empfehlen379
8.1 Eine Big-Data-Table als zentrale Datenstruktur382
8.2 Anreichern von Daten384
8.2.1 Anlegen einer Wissensdatenbank385
8.2.2 Passende Zuordnung von Daten386
8.3 Diagrammempfehlungen über Datentypanalyse390
8.3.1 Diagrammempfehlungen in der BDTable392
8.4 Textanalyse – Verarbeitung unstrukturierter Daten398
8.4.1 Erkennung von Sprachen399
8.4.2 Natural Language Processing400
8.4.3 Mustererkennung mit Apache UIMA408
9 Infrastruktur429
9.1 Hardware430
9.2 Betriebssystem431
9.2.1 Paketmanager431
9.2.2 Git432
9.2.3 VIM433
9.2.4 Terminalumgebung433
9.3 Virtualisierung434
9.4 Container434
9.4.1 Docker-Crashkurs435
9.4.2 Infrastructure as Code438
9.5 Distributionen438
9.6 Reproduzierbarkeit439
9.7 Zusammenfassung439
10 Programmiersprachen441
10.1 Merkmale442
10.1.1 Funktionale Paradigmen442
10.2 Big-Data-Programmiersprachen443
10.2.1 Java443
10.2.2 Scala444
10.2.3 Python447
10.2.4 R450
10.2.5 Weitere Programmiersprachen451
10.3 Zusammenfassung452
11 Polyglot Persistence453
11.1 Praxis454
11.1.1 Redis454
11.1.2 MongoDB457
11.1.3 Neo4j457
11.1.4 S3458
11.1.5 Apache Kudu461
11.2 Zusammenfassung461
12 Apache Kafka463
12.1 Der Kern464
12.2 Erste Schritte464
12.3 Dockerfile468
12.4 Clients468
12.5 Python Chat Client468
12.6 Zusammenfassung470
13 Data Processing Engines471
13.1 Von Map Reduce zu GPPEs471
13.1.1 Herausforderungen472
13.1.2 Verfahren zur Verbesserung473
13.1.3 Von Batch und Streaming zu Lambda475
13.1.4 Frameworks in a Nutshell476
13.2 Apache Spark476
13.2.1 Datasets476
13.2.2 Von RDDs zu Data Frames477
13.2.3 Hands On Apache Spark477
13.2.4 Client-Programme schreiben479
13.2.5 Das Spark-Ecosystem484
13.3 Zusammenfassung488
14 Streaming489
14.1 Kernparadigmen489
14.2 Spark Streaming492
14.2.1 Beispiel493
14.3 Apache Flink494
14.4 Zusammenfassung497
15 Data Governance499
15.1 Begriffsdschungel500
15.2 Governance-Pfeiler501
15.2.1 Transparenz501
15.2.2 Verantwortung502
15.2.3 Standardisierung503
15.3 Fokusthemen von Data Governance503
15.3.1 Policies503
15.3.2 Quality504
15.3.3 Compliance504
15.3.4 Business Intelligence504
15.4 Datenschutz505
15.4.1 Werkzeuge506
15.5 Sicherheit im Hadoop-Ecosystem511
15.6 Metadatenmanagement512
15.6.1 Open-Source-Werkzeuge513
15.6.2 Kommerzielle Datenkataloge514
15.7 Organisatorische Themen514
15.7.1 Privacy by Design515
15.7.2 k-Anonymity515
15.7.3 Standards517
15.8 Zusammenfassung517
16 Zusammenfassung und Ausblick519
16.1 Zur zweiten Auflage 2018519
16.2 Zur ersten Auflage 2014521
17 Häufige Fehler525
18 Anleitungen531
18.1 Installation und Verwendung von Sqoop2531
18.2 Hadoop für Windows 7 kompilieren537
19 Literaturverzeichnis541
Index545

Weitere E-Books zum Thema: Informatik - Algorithmen - Softwaresysteme

Softwaretechnik

E-Book Softwaretechnik
Format: PDF

Software-Projekte geraten oft in Schwierigkeiten: Zeit und Budget werden überschritten; das Projekt tritt auf der Stelle; im schlimmsten Fall wird es ohne Ergebnis abgebrochen. Manche…

Softwaretechnik

E-Book Softwaretechnik
Format: PDF

Software-Projekte geraten oft in Schwierigkeiten: Zeit und Budget werden überschritten; das Projekt tritt auf der Stelle; im schlimmsten Fall wird es ohne Ergebnis abgebrochen. Manche…

Softwaretechnik

E-Book Softwaretechnik
Format: PDF

Software-Projekte geraten oft in Schwierigkeiten: Zeit und Budget werden überschritten; das Projekt tritt auf der Stelle; im schlimmsten Fall wird es ohne Ergebnis abgebrochen. Manche…

Software Engineering

E-Book Software Engineering
Architektur-Design und Prozessorientierung Format: PDF

Das Lehrbuch behandelt alle Aspekte der Software-Entwicklung, besonders aber Methoden und Richtlinien zur Herstellung großer und qualitativ hochwertiger Softwareprodukte. Es vermittelt das zur…

Software Engineering

E-Book Software Engineering
Architektur-Design und Prozessorientierung Format: PDF

Das Lehrbuch behandelt alle Aspekte der Software-Entwicklung, besonders aber Methoden und Richtlinien zur Herstellung großer und qualitativ hochwertiger Softwareprodukte. Es vermittelt das zur…

Weitere Zeitschriften

ARCH+.

ARCH+.

ARCH+ ist eine unabhängige, konzeptuelle Zeitschrift für Architektur und Urbanismus. Der Name ist zugleich Programm: mehr als Architektur. Jedes vierteljährlich erscheinende Heft beleuchtet ...

Arzneimittel Zeitung

Arzneimittel Zeitung

Die Arneimittel Zeitung ist die Zeitung für Entscheider und Mitarbeiter in der Pharmabranche. Sie informiert branchenspezifisch über Gesundheits- und Arzneimittelpolitik, über Unternehmen und ...

Berufsstart Bewerbung

Berufsstart Bewerbung

»Berufsstart Bewerbung« erscheint jährlich zum Wintersemester im November mit einer Auflage von 50.000 Exemplaren und ermöglicht Unternehmen sich bei Studenten und Absolventen mit einer ...

Burgen und Schlösser

Burgen und Schlösser

aktuelle Berichte zum Thema Burgen, Schlösser, Wehrbauten, Forschungsergebnisse zur Bau- und Kunstgeschichte, Denkmalpflege und Denkmalschutz Seit ihrer Gründung 1899 gibt die Deutsche ...

die horen

die horen

Zeitschrift für Literatur, Kunst und Kritik."...weil sie mit großer Aufmerksamkeit die internationale Literatur beobachtet und vorstellt; weil sie in der deutschen Literatur nicht nur das Neueste ...

Die Versicherungspraxis

Die Versicherungspraxis

Behandlung versicherungsrelevanter Themen. Erfahren Sie mehr über den DVS. Der DVS Deutscher Versicherungs-Schutzverband e.V, Bonn, ist der Interessenvertreter der versicherungsnehmenden Wirtschaft. ...

filmdienst#de

filmdienst#de

filmdienst.de führt die Tradition der 1947 gegründeten Zeitschrift FILMDIENST im digitalen Zeitalter fort. Wir begleiten seit 1947 Filme in allen ihren Ausprägungen und Erscheinungsformen.  ...