Sie sind hier
E-Book

Entwicklung eines skalierbaren und verteilten Datenbanksystems

Auf Basis von Apache Cassandra und SECONDO

AutorJan Kristof Nidzwetzki
VerlagSpringer Vieweg
Erscheinungsjahr2016
Seitenanzahl312 Seiten
ISBN9783658124441
FormatPDF
KopierschutzWasserzeichen/DRM
GerätePC/MAC/eReader/Tablet
Preis46,99 EUR

Jan Kristof Nidzwetzki hat in seiner Masterarbeit ein erweiterbares Datenbanksystem mit einem hochverfügbaren Key-Value-Store gekoppelt und untersucht, wie sich die Vorteile beider Systeme kombinieren lassen. Im Gegensatz zu Datenbanksystemen skalieren Key-Value-Stores sehr gut, bieten jedoch nur sehr einfache Operationen für die Abfrageauswertung an. Durch die Kopplung ergibt sich ein skalierbares, ausfallsicheres System, das in der Lage ist, beliebige Updateraten zu unterstützen und auf den gespeicherten Daten komplexe Abfragen auszuführen.



Jan Kristof Nidzwetzki forschte im Zuge seines Masterstudiums an der Fakultät für Mathematik und Informatik der FernUniversität Hagen. Er ist heute als Softwareentwickler sowie als externer Doktorand am Lehrgebiet Datenbanksysteme für neue Anwendungen der FernUniversität in Hagen tätig. 

Kaufen Sie hier:

Horizontale Tabs

Blick ins Buch
Inhaltsverzeichnis
Geleitwort6
Zusammenfassung8
Inhaltsverzeichnis9
Abbildungsverzeichnis15
Tabellenverzeichnis18
Abkürzungsverzeichnis20
1. Einleitung22
1.1. Ziele dieser Arbeit23
1.2. Aufbau dieser Arbeit24
2. Grundlagen27
2.1. Verteilte Datenbankmanagementsysteme27
2.1.1. Architekturmodelle von VDBMS28
2.1.2. Fragmentierung und Allokation29
2.2. Konsistenz30
2.2.1. Datenzentrierte Konsistenmodelle32
2.2.2. Clientzentrierte Konsistenmodelle33
2.3. Fehlerarten34
2.4. Hashing34
2.4.1. Hashtabellen35
2.4.2. Distributed Hashtables35
2.5. Das CAP-Theorem36
2.6. NoSQL-Datenbanken38
2.6.1. Key Value Stores39
2.7. Cassandra41
2.7.1. DataStax, Inc.42
2.7.2. Grundlagen der Cassandra Query Language42
2.7.3. Zusammengesetzte Primärschlüssel46
2.7.4. Sekundärindizes46
2.7.5. Virtuelle Knoten49
2.7.6. Token-Bereiche49
2.8. Stromverarbeitung50
2.9. Speedup und Scaleup52
2.9.1. Speedup52
2.9.2. Scaleup53
2.10. SECONDO53
2.10.1. Second-Order Signature54
2.10.2. Architektur von SECONDO56
2.10.3. Fortschrittschätzung56
2.11. MapReduce58
2.11.1. Hadoop60
2.12. Parallel SECONDO61
2.12.1. Ausführungspläne in Parallel SECONDO61
2.13. Verwandte Arbeiten61
3. Datenströme66
3.1. Aufzeichnungs- und Analysekomponente66
3.2. Aufzeichnung eines Datenstroms67
3.3. Erweiterung der ImEx-Algebra68
3.3.1. Operator csvimport68
3.4. Loadbalancer71
3.4.1. Scheduling72
3.4.2. Umgang mit Ausfällen75
3.4.3. Anwendung77
3.5. Lastgenerator79
4. Kopplung von SECONDO mit Cassandra82
4.1. Cassandra-Algebra82
4.1.1. Operator cspread84
4.1.2. Operator ccollect86
4.1.3. Operator ccollectlocal87
4.1.4. Operator ccollectrange87
4.1.5. Operator ccollectquery88
4.1.6. Operator clist89
4.1.7. Operator cdelete89
4.1.8. Operator cquerylist91
4.1.9. Operator cqueryexecute92
4.1.10. Operator cqueryreset93
4.1.11. Operator cquerywait93
4.1.12. Operator sleep96
4.1.13. Operator statistics96
4.2. Implementation der Cassandra-Algebra98
4.2.1. Export von SECONDO-Tupeln98
4.2.2. Partitionierung von Tupeln99
4.2.3. Adressierung von Tupeln99
4.2.4. Ablage von SECONDO-Relationen in Cassandra100
4.2.5. Bestimmung der lokalen Token-Bereiche101
4.2.6. Loadbalancing des cpp-Treibers102
4.2.7. Parallelisierung von CQL-Abfragen105
4.2.8. Connection Pool106
4.2.9. Bekannte Probleme106
5. Verteilte Abfrageauswertung109
5.1. Grundlagen109
5.1.1. Partitionierung von Daten110
5.1.2. Verteilter Join – Ein erster Ansatz111
5.2. Distributed SECONDO112
5.2.1. Management-System114
5.2.2. QueryExecutor – Verteilung von Abfragen115
5.2.3. Platzhalter in Abfragen116
5.2.4. Beispielumgebung122
5.2.5. Systemtabellen von Distributed SECONDO122
5.2.6. Management von Distributed SECONDO125
5.2.7. Robuste Partitionierung des logischen Ringes128
5.2.8. Robuste Partitionierung –Beispiele134
5.2.9. Atomares Einbringen von Tupeln138
5.2.10. Robustes Lesen von Relationen141
5.2.11. Verteilter Join – Die robuste Variante143
6. Fallstudien145
6.1. Verarbeiten von Positionsdaten145
6.1.1. Problemstellung145
6.1.2. Lösungsmöglichkeit146
6.1.3. Analyse der Koordinaten149
6.2. Analyse des Logfiles eines Webservers152
6.2.1. Problemstellung152
6.2.2. Lösungsmöglichkeit153
6.3. Partition based spatial merge join157
6.3.1. Problemstellung158
6.3.2. Lösungsmöglichkeit159
6.4. Zusammenfassung162
7. Experimente163
7.1. Umgebung163
7.1.1. Grundlegendes zu den Experimenten163
7.1.2. Hardware des Clusters164
7.1.3. Software des Clusters166
7.1.4. Zusätzlich installierte Software167
7.2. Verarbeitung von Datenströmen168
7.2.1. Durchsatz des Operators csvimport168
7.3. Datenstromverarbeitung auf homogenen Systemen172
7.3.1. Durchführung173
7.3.2. Ergebnis175
7.3.3. Zusammenfassung176
7.4. Datenstromverarbeitung auf heterogenen Systemen178
7.4.1. Durchführung179
7.4.2. Ergebnis180
7.4.3. Einfluss der Größe des Bestätigungsfensters182
7.4.4. Zusammenfassung186
7.5. Cassandra als Datenspeicher187
7.5.1. Anzahl der Cassandra-Knoten187
7.5.2. Konsistenz beim Schreiben190
7.5.3. Lokalität in Cassandra191
7.5.4. Größe der Tupel196
7.5.5. Anzahl der Tupel197
7.6. Distributed SECONDO199
7.6.1. Ausführen von verteilten Abfragen199
7.6.2. Token-Ranges und die Laufzeit von verteilten Abfragen203
7.6.3. Verteilter Join204
7.6.4. Ein verzögerter Join mit erhöhter Laufzeit206
7.6.5. Zeit für den Im- und Export von Tupeln214
7.6.6. Verteilter spatial Join214
7.6.7. Verteilter spatial Join ohne Rückschreiben der Ergebnisse220
7.6.8. Fortschrittschätzung226
7.6.9. Fazit228
8. Zusammenfassung und Ausblick229
8.1. Erweiterungen229
8.1.1. Anzahl der Distributed SECONDO-Knoten230
8.1.2. Automatische Skalierung230
8.1.3. Prepared Statements in SECONDO231
8.1.4. Laden von einzelnen Token232
8.1.5. Umstellung auf einen neuen Cassandra-Treiber232
8.2. Ausblick233
Anhang A. Veränderungen am DataStax cpp-driver235
Anhang B. Verwendete Bibliotheken238
Anhang C. Im Cluster eingesetzte Festplatten240
Anhang D. UML-Diagramme243
D.1. CSV-Parser243
D.2. Loadbalancer244
Anhang E. Codeblöcke245
E.1. Zu Kapitel 5 gehörende Codeblöcke245
E.2. Zu Kapitel 6 gehörende Codeblöcke247
E.3. Zu Kapitel 7 gehörende Codeblöcke250
Anhang F. Übersicht über Cassandra257
F.1. Einleitung257
F.1.1. Geschichte258
F.1.2. Grundlagen258
F.1.3. Einsatzbereiche259
F.2. Cassandra260
F.2.1. Datenmodell260
F.2.2. Architektur von Cassandra263
F.2.3. Lesen und Schreiben von Daten269
F.2.4. Sicherheit275
F.2.5. Performance276
F.3. Erweiterungen von Cassandra277
F.3.1. CQL– Cassandra Query Language278
F.3.2. Integration von Hadoop279
F.4. Fazit280
Anhang G. Scripte281
Anhang H. Quellcode299
Listingverzeichnis300
Literaturverzeichnis302

Weitere E-Books zum Thema: Internet - Intranet - Webdesign - Security

Internet für Psychologen

E-Book Internet für Psychologen
Format: PDF

Das Internet kurz zu erklären und gleichzeitig einen aktuellen Überblick über psychologische Themen und Forschungsschwerpunkte zu geben, ist wohl ein hoffnungsloses Unterfangen. Zu…

Internet für Psychologen

E-Book Internet für Psychologen
Format: PDF

Das Internet kurz zu erklären und gleichzeitig einen aktuellen Überblick über psychologische Themen und Forschungsschwerpunkte zu geben, ist wohl ein hoffnungsloses Unterfangen. Zu…

Internet für Psychologen

E-Book Internet für Psychologen
Format: PDF

Das Internet kurz zu erklären und gleichzeitig einen aktuellen Überblick über psychologische Themen und Forschungsschwerpunkte zu geben, ist wohl ein hoffnungsloses Unterfangen. Zu…

Internet für Psychologen

E-Book Internet für Psychologen
Format: PDF

Das Internet kurz zu erklären und gleichzeitig einen aktuellen Überblick über psychologische Themen und Forschungsschwerpunkte zu geben, ist wohl ein hoffnungsloses Unterfangen. Zu…

Texten für das Web

E-Book Texten für das Web
Erfolgreich werben, erfolgreich verkaufen Format: PDF

Dieses Buch bietet das nötige Handwerkszeug, um die Qualität der eigenen Web-Texte zu verbessern bzw. eingekaufte Texte sicherer beurteilen zu können. Es liefert klare Kriterien für die Textanalyse,…

Texten für das Web

E-Book Texten für das Web
Erfolgreich werben, erfolgreich verkaufen Format: PDF

Dieses Buch bietet das nötige Handwerkszeug, um die Qualität der eigenen Web-Texte zu verbessern bzw. eingekaufte Texte sicherer beurteilen zu können. Es liefert klare Kriterien für die Textanalyse,…

Texten für das Web

E-Book Texten für das Web
Erfolgreich werben, erfolgreich verkaufen Format: PDF

Dieses Buch bietet das nötige Handwerkszeug, um die Qualität der eigenen Web-Texte zu verbessern bzw. eingekaufte Texte sicherer beurteilen zu können. Es liefert klare Kriterien für die Textanalyse,…

TCP/IP-Praxis

E-Book TCP/IP-Praxis
Dienste, Sicherheit, Troubleshooting Format: PDF

Netzwerke modernen Standards verlangen weniger nach Rezepten für Neu - Design als vielmehr nach Wegen, Maßnahmen zur Integration in eine bestehende Infrastruktur aufzuzeigen. Diesem Aspekt trägt TCP/…

E-Learning

E-Book E-Learning
Einsatzkonzepte und Geschäftsmodelle Format: PDF

Der vorliegende Band ist dem Lernen und Lehren auf der Basis moderner Informations- und Kommunikationstechnologien gewidmet. Das Buch fasst die wichtigsten Ansätze zur Einführung, Umsetzung und…

E-Learning

E-Book E-Learning
Einsatzkonzepte und Geschäftsmodelle Format: PDF

Der vorliegende Band ist dem Lernen und Lehren auf der Basis moderner Informations- und Kommunikationstechnologien gewidmet. Das Buch fasst die wichtigsten Ansätze zur Einführung, Umsetzung und…

Weitere Zeitschriften

AUTOCAD Magazin

AUTOCAD Magazin

Die herstellerunabhängige Fachzeitschrift wendet sich an alle Anwender und Entscheider, die mit Softwarelösungen von Autodesk arbeiten. Das Magazin gibt praktische ...

Card Forum International

Card Forum International

Card Forum International, Magazine for Card Technologies and Applications, is a leading source for information in the field of card-based payment systems, related technologies, and required reading ...

caritas

caritas

mitteilungen für die Erzdiözese FreiburgUm Kindern aus armen Familien gute Perspektiven für eine eigenständige Lebensführung zu ermöglichen, muss die Kinderarmut in Deutschland nachhaltig ...

küche + raum

küche + raum

Internationale Fachzeitschrift für Küchenforschung und Küchenplanung. Mit Fachinformationen für Küchenfachhändler, -spezialisten und -planer in Küchenstudios, Möbelfachgeschäften und den ...

Deutsche Tennis Zeitung

Deutsche Tennis Zeitung

Die DTZ – Deutsche Tennis Zeitung bietet Informationen aus allen Bereichen der deutschen Tennisszene –sie präsentiert sportliche Highlights, analysiert Entwicklungen und erläutert ...

DGIP-intern

DGIP-intern

Mitteilungen der Deutschen Gesellschaft für Individualpsychologie e.V. (DGIP) für ihre Mitglieder Die Mitglieder der DGIP erhalten viermal jährlich das Mitteilungsblatt „DGIP-intern“ ...

ea evangelische aspekte

ea evangelische aspekte

evangelische Beiträge zum Leben in Kirche und Gesellschaft Die Evangelische Akademikerschaft in Deutschland ist Herausgeberin der Zeitschrift evangelische aspekte Sie erscheint viermal im Jahr. In ...

EineWelt

EineWelt

Lebendige Reportagen, spannende Interviews, interessante Meldungen, informative Hintergrundberichte. Lesen Sie in der Zeitschrift „EineWelt“, was Menschen in Mission und Kirche bewegt Man kann ...