Sie sind hier
E-Book

Data Warehouse Blueprints

Business Intelligence in der Praxis

AutorClaus Jordan, Dani Schnider, Joachim Wehner, Peter Welker
VerlagCarl Hanser Fachbuchverlag
Erscheinungsjahr2016
Seitenanzahl281 Seiten
ISBN9783446451117
FormatPDF/ePUB
KopierschutzWasserzeichen/DRM
GerätePC/MAC/eReader/Tablet
Preis41,99 EUR

Data-Warehouse-Lösungen mit Blueprints erfolgreich umsetzen
Dieses Buch gibt Ihnen einen Überblick über eine typische Data-Warehouse-Architektur und zeigt anhand von zahlreichen Best Practice-Beispielen, wie Sie die einzelnen Komponenten eines Data Warehouses realisieren und betreiben können. Skalierbarkeit, Performance und Integration sind dabei die wichtigsten Erfolgsfaktoren.
Der kompakte und kompetente Leitfaden für Ihr Projekt
Warum benötigt man eine Staging Area? Wie sollen fehlende oder fehlerhafte Daten beim Ladeprozess behandelt werden? Ist es zweckmäßiger, einen oder mehrere Data Marts zu erstellen? Wo werden die Daten aus verschiedenen Datenquellen integriert und wie sollen sie historisiert werden? Zu diesen und vielen weiteren Fragen erhalten Sie Antworten sowie Tipps und Tricks aus der Praxis.
Wertvolles Know-how aus der Praxis
Profitieren Sie von der langjährigen Erfahrung der Autoren. Die vorgestellten Konzepte und Vorgehensweisen haben sich bereits in zahlreichen Projekten bewährt.
AUS DEM INHALT
• Einleitung
• Architektur
• Datenmodellierung
• Datenintegration
• Design der DWH-Schichten
• Physisches Datenbankdesign
• BI-Anwendungen
• Betrieb

Kaufen Sie hier:

Horizontale Tabs

Blick ins Buch
Inhaltsverzeichnis
Inhalt5
Geleitwort14
Über dieses Buch16
Die Autoren18
1 Einleitung20
1.1 Ziele dieses Buches21
1.2 Struktur dieses Buches22
1.3 Hinweis zur Anwendung dieses Buches23
2 Architektur24
2.1 Data Warehouse-Architektur24
2.1.1 Aufbau eines Data Warehouse25
2.1.2 Transformationsschritte28
2.1.3 Architekturgrundsätze29
2.2 Architektur BI-Anwendungen32
2.2.1 Die BI-Plattform zur Integration von Datenquellen34
2.2.2 Die BI-Plattform zur Vereinheitlichung der Frontends36
2.3 Datenhaltung37
2.3.1 Grenzen gängiger DWH/BI-Technologien38
2.3.2 Datenhaltung im Hadoop-Ecosystem39
2.3.3 In-Memory-Datenbanken42
3 Datenmodellierung46
3.1 Vorgehensweise46
3.1.1 Anforderungsgetriebene Modellierung46
3.1.2 Quellsystemgetriebene Modellierung48
3.1.3 Kombination der Ansätze49
3.2 Relationale Modellierung49
3.2.1 Darstellung von relationalen Datenmodellen50
3.2.2 Normalisierung50
3.2.3 Stammdaten und Bewegungsdaten51
3.2.4 Historisierung51
3.2.5 Relationales Core53
3.2.6 Corporate Information Factory54
3.2.7 Data Vault Modeling54
3.3 Dimensionale Modellierung56
3.3.1 Implementierung von dimensionalen Modellen57
3.3.1.1 Relationale Implementierung58
3.3.1.2 Multidimensionale Implementierung59
3.3.2 Dimensionen60
3.3.2.1 Fachliche Attribute60
3.3.2.2 Technische Attribute60
3.3.2.3 Hierarchien61
3.3.2.4 Conformed Dimensions62
3.3.2.5 Slowly Changing Dimensions63
3.3.2.6 Zeitdimension66
3.3.2.7 Bridge Tables67
3.3.2.8 Spezielle Dimensionen69
3.3.3 Fakten70
3.3.3.1 Kennzahlen70
3.3.3.2 Typen von Fakten70
3.3.4 Modellierung spezieller Problemstellungen72
3.3.4.1 Fakten unterschiedlicher Granularität und Rollen72
3.3.4.2 Gemeinsame Hierarchiestufen in verschiedenen Dimensionen73
3.3.4.3 Modellierungsgrundsätze für Dimensionen und Fakten74
3.3.5 Darstellung von dimensionalen Modellen75
3.3.5.1 ADAPT-Notation75
3.3.5.2 Entity-Relationship-Diagramme77
3.3.5.3 Data-Warehouse-Bus-Matrix77
3.3.6 Dimensionales Core78
3.4 Tools zur Datenmodellierung79
3.4.1 Tools für relationale Datenmodellierung79
3.4.2 Tools für dimensionale Datenmodellierung80
4 Datenintegration82
4.1 Data Profiling83
4.1.1 Probleme mangelnder Datenqualität83
4.1.2 Einsatz von Data Profiling84
4.2 ETL85
4.2.1 Aufgaben der ETL-Prozesse86
4.2.1.1 Extraktion aus Quellsystemen86
4.2.1.2 Transformationen86
4.2.1.3 Laden in die Zieltabellen87
4.2.2 ETL-Tools87
4.2.2.1 Funktionalität von ETL-Tools89
4.2.2.2 ETL oder ELT?89
4.2.2.3 Positionierung von ETL-Tools91
4.2.3 Performance-Aspekte91
4.2.3.1 Mengenbasierte statt datensatzbasierte Verarbeitung91
4.2.3.2 ELT-Tool statt ETL-Tool92
4.2.3.3 Reduktion der Komplexität93
4.2.3.4 Frühzeitige Mengeneinschränkung94
4.2.3.5 Parallelisierung95
4.2.4 Steuerung der ETL-Prozesse97
4.2.4.1 Protokollierung des ETL-Ablaufs97
4.2.4.2 Restartfähigkeit und Wiederaufsetzpunkte98
4.3 Extraktion und Delta-Ermittlung99
4.3.1 Delta-Extraktion im Quellsystem100
4.3.1.1 Änderungsmarker und Journaltabellen100
4.3.1.2 Delta-Ermittlung und Pending Commits101
4.3.1.3 Change Data Capture102
4.3.2 Voll-Extraktion und Delta-Abgleich im Data Warehouse103
4.3.2.1 Zwei Versionen des Vollabzugs in der Staging Area104
4.3.2.2 Vorteil einer Voll-Extraktion für die Delta-Ermittlung106
4.3.3 Wann verwende ich was?106
4.4 Fehlerbehandlung107
4.4.1 Fehlende Attribute108
4.4.1.1 Filtern von fehlerhaften Datensätzen108
4.4.1.2 Fehlerhafte Datensätze in Fehlertabelle schreiben108
4.4.1.3 Singletons auf Attributebene109
4.4.2 Unbekannte Codewerte109
4.4.2.1 Filtern von fehlerhaften Datensätzen110
4.4.2.2 Singletons auf Datensatzebene110
4.4.2.3 Generierung von Embryo-Einträgen110
4.4.3 Fehlende Dimensionseinträge111
4.4.3.1 Filtern von unvollständigen Fakten112
4.4.3.2 Referenz auf Singleton-Einträge113
4.4.3.3 Generieren von Embryo-Einträgen114
4.4.4 Doppelte Datensätze115
4.4.4.1 Verwendung von DISTINCT116
4.4.4.2 Nur ersten Datensatz übernehmen116
4.5 Qualitätschecks116
4.5.1 Qualitätschecks vor und während des Ladens117
4.5.2 Qualitätschecks nach dem Laden118
4.5.3 Qualitätschecks mithilfe von Test-Tools118
4.6 Real-Time BI119
4.6.1 Begriffsbestimmung120
4.6.2 Garantierte Verfügbarkeit von Informationen zu gegebenem Zeitpunkt120
4.6.3 Verfügbarkeit von Informationen simultan zur Entstehung121
4.6.4 Verfügbarkeit von Informationen kurz nach ihrer Entstehung123
4.6.4.1 Events und Batchverarbeitung124
4.6.4.2 Real-Time-Partitionen125
4.6.5 Zusammenfassung126
5 Design der DWH-Schichten128
5.1 Staging Area129
5.1.1 Gründe für eine Staging Area130
5.1.2 Struktur der Stage-Tabellen131
5.1.3 ETL-Logik für Stage-Tabellen132
5.1.3.1 Einschränkungen bei der Extraktion133
5.1.3.2 Transformation133
5.1.3.3 Sonstige Informationen134
5.2 Cleansing Area134
5.2.1 Gründe für eine Cleansing Area134
5.2.2 Struktur der Cleanse-Tabellen135
5.2.3 Beziehungen in der Cleansing Area137
5.2.4 ETL-Logik für Cleanse-Tabellen139
5.2.4.1 Einschränkungen bei der Extraktion140
5.2.4.2 Transformation140
5.2.4.3 Sonstige Informationen141
5.3 Core-Datenmodell allgemein141
5.3.1 Aufgaben und Anforderungen an das Core142
5.3.2 Stammdaten im Core143
5.3.3 Bewegungsdaten im Core143
5.3.4 Beziehungen im Core143
5.3.5 Datenmodellierungsmethoden für das Core144
5.4 Core-Datenmodell relational mit Kopf- und Versionstabellen145
5.4.1 Historisierung von Stammdaten mit Kopf- und Versionstabellen146
5.4.2 Struktur der Stammdatentabellen147
5.4.2.1 Tabellenspalten und Schlüssel148
5.4.2.2 Beziehungen (1:n) zwischen Stammdaten151
5.4.2.3 Beziehungen (m:n) zwischen Stammdaten152
5.4.3 ETL-Logik für Stammdatentabellen154
5.4.3.1 Lookups (Schritt 1)155
5.4.3.2 Outer Join (Schritt 2)156
5.4.3.3 Neue Datensätze (Schritt 3)160
5.4.3.4 Schließen einer Version/Fall 1 (Schritt 4)161
5.4.3.5 Aktualisieren/Fall 2 (Schritt 5)161
5.4.3.6 Versionieren/Fall 3 und 4 (Schritt 6)161
5.4.3.7 Singletons161
5.4.4 Typen von Bewegungsdaten162
5.4.4.1 Transaction Tables163
5.4.4.2 Snapshot Tables163
5.4.4.3 Snapshot Tables versioniert164
5.4.5 Struktur der Bewegungstabellen165
5.4.5.1 Tabellenspalten und Schlüssel166
5.4.5.2 Beziehungen zu Stammdaten169
5.4.6 ETL-Logik für Bewegungstabellen172
5.4.6.1 Lookups173
5.4.6.2 Sonstige Informationen174
5.4.7 Views für externen Core-Zugriff174
5.4.7.1 Views für Stammdaten175
5.4.7.2 Views für Bewegungsdaten179
5.5 Core-Datenmodell relational mit Data Vault180
5.5.1 Stammdaten180
5.5.2 Beziehungen181
5.5.3 Bewegungsdaten181
5.5.4 Historisierung182
5.5.5 Struktur der Tabellen182
5.5.5.1 Hubtabellen – Tabellenspalten und Schlüssel182
5.5.5.2 Satellitentabellen – Tabellenspalten und Schlüssel183
5.5.5.3 Linktabellen – Tabellenspalten und Schlüssel184
5.5.6 ETL-Logik185
5.5.7 Views für externen Core-Zugriff auf das Data-Vault-Datenmodell186
5.5.7.1 Views für Stammdaten (ein Satellite pro Hub bzw. Link)186
5.5.7.2 Views für Stammdaten (mehrere Satellites pro Hub bzw. Link)189
5.6 Core-Datenmodell dimensional192
5.6.1 Star- oder Snowflake-Schema193
5.6.1.1 Star-Schema193
5.6.1.2 Snowflake-Schema194
5.6.2 Historisierung von Stammdaten mit SCD196
5.6.3 Struktur der Dimensionstabellen (Snowflake)199
5.6.3.1 Tabellenspalten und Schlüssel200
5.6.3.2 Beziehungen zwischen Hierarchiestufen203
5.6.4 ETL-Logik für Dimensionstabellen (Snowflake)204
5.6.4.1 Lookup204
5.6.4.2 Weitere Schritte205
5.6.5 Struktur der Faktentabellen (Snowflake)205
5.6.6 ETL-Logik für Faktentabellen (Snowflake)207
5.6.7 n:m-Beziehungen im dimensionalen Core207
5.7 Marts209
5.7.1 ROLAP oder MOLAP?210
5.7.2 Historisierung von Data Marts211
5.7.3 Star- oder Snowflake-Schema (ROLAP)212
5.7.4 Struktur der Dimensionstabellen (Star)213
5.7.4.1 Tabellenspalten und Schlüssel213
5.7.4.2 Beispiel für Conformed Rollup216
5.7.4.3 Beispiel für Dimension mit mehreren Hierarchien217
5.7.5 ETL-Logik für Dimensionstabellen (Star)218
5.7.5.1 Extraktion aus dem relationalen Core219
5.7.5.2 Extraktion aus dem dimensionalen Core226
5.7.6 Struktur der Faktentabellen (Star-Schema)228
5.7.7 ETL-Logik für Faktentabellen (Star)229
5.7.8 Multidimensionale Data Marts229
5.7.8.1 Dimensionen (Cube)230
5.7.8.2 Fakten (Cube)231
6 Physisches Datenbankdesign234
6.1 Indexierung235
6.1.1 Staging Area236
6.1.2 Cleansing Area236
6.1.3 Core236
6.1.4 Data Marts237
6.2 Constraints238
6.2.1 Primary Key Constraints238
6.2.2 Foreign Key Constraints239
6.2.3 Unique Constraints240
6.2.4 Check Constraints240
6.2.5 NOT NULL Constraints241
6.3 Partitionierung241
6.3.1 Grundprinzip von Partitionierung242
6.3.2 Gründe für Partitionierung242
6.3.3 Partitionierung in Staging und Cleansing Area243
6.3.4 Partitionierung im Core244
6.3.5 Partitionierung in den Data Marts244
6.4 Datenkomprimierung245
6.4.1 Redundanz246
6.4.2 Wörterbuchmethode/Tokenbasierte Reduktion246
6.4.3 Entropiekodierung246
6.4.4 Deduplikation247
6.4.5 Komprimierung bei spaltenorientierter Datenhaltung247
6.5 Aggregationen248
6.5.1 Vorberechnete Aggregationen249
6.5.2 Query Rewrite249
6.5.3 Einsatz im Data Warehouse250
7 BI-Anwendungen252
7.1 Überblick252
7.2 Standardberichte255
7.3 Ad-hoc-Analyse257
7.4 BI-Portale258
8 Betrieb260
8.1 Release-Management260
8.1.1 Kategorisierung der Anforderungen261
8.1.2 Schnittstellen zu Quellsystemen262
8.1.3 Umgang mit historischen Daten264
8.1.4 Datenbankumgebungen265
8.2 Deployment267
8.2.1 Manuelles Deployment267
8.2.2 Filebasiertes Deployment268
8.2.3 Repository-basiertes Deployment269
8.2.4 Kombiniertes Deployment269
8.3 Monitoring271
8.3.1 Betriebsmonitoring271
8.3.2 System und DB-Monitoring271
8.3.3 ETL-Monitoring271
8.3.4 Performance-Monitoring272
8.4 Migration274
8.4.1 Datenbank275
8.4.2 ETL-Tool276
8.4.3 BI-Tools277
Literatur278
Index280

Weitere E-Books zum Thema: Netzwerke - Clouds - Datenbanken

Sichere Netzwerkkommunikation

E-Book Sichere Netzwerkkommunikation
Grundlagen, Protokolle und Architekturen Format: PDF

Netzwerke werden in allen Bereichen der IT eingesetzt, und es gibt zahlreiche Technologien zur sicheren Netzwerkkommunikation. Doch welche der verfügbaren Techniken lassen sich kombinieren und in der…

Sichere Netzwerkkommunikation

E-Book Sichere Netzwerkkommunikation
Grundlagen, Protokolle und Architekturen Format: PDF

Netzwerke werden in allen Bereichen der IT eingesetzt, und es gibt zahlreiche Technologien zur sicheren Netzwerkkommunikation. Doch welche der verfügbaren Techniken lassen sich kombinieren und in der…

Sichere Netzwerkkommunikation

E-Book Sichere Netzwerkkommunikation
Grundlagen, Protokolle und Architekturen Format: PDF

Netzwerke werden in allen Bereichen der IT eingesetzt, und es gibt zahlreiche Technologien zur sicheren Netzwerkkommunikation. Doch welche der verfügbaren Techniken lassen sich kombinieren und in der…

Sichere Netzwerkkommunikation

E-Book Sichere Netzwerkkommunikation
Grundlagen, Protokolle und Architekturen Format: PDF

Netzwerke werden in allen Bereichen der IT eingesetzt, und es gibt zahlreiche Technologien zur sicheren Netzwerkkommunikation. Doch welche der verfügbaren Techniken lassen sich kombinieren und in der…

Microsoft ISA Server 2006

E-Book Microsoft ISA Server 2006
Leitfaden für Installation, Einrichtung und Wartung Format: PDF

Im Januar 2005 ist mein erstes Buch zum Thema ISA Server 2004 erschienen. Die Erstauflage war bereits nach wenigen Monaten ausverkauft, was offensichtlich bedeutet, dass der Bedarf nach Informationen…

Microsoft ISA Server 2006

E-Book Microsoft ISA Server 2006
Leitfaden für Installation, Einrichtung und Wartung Format: PDF

Im Januar 2005 ist mein erstes Buch zum Thema ISA Server 2004 erschienen. Die Erstauflage war bereits nach wenigen Monaten ausverkauft, was offensichtlich bedeutet, dass der Bedarf nach Informationen…

Veritas Storage Foundation®

E-Book Veritas Storage Foundation®
High End-Computing für UNIX, Design und Implementation von Hochverfügbarkeitslösungen mit VxVM und VCS Format: PDF

Hochkonzentrierter und praxisorientierter Kurs zur 'Veritas Storage Foundation': Storage Virtualisierung (Teil 1) erzeugt virtuelle Diskspeicher, die bei Kompatibilität zu ihren physischen…

Veritas Storage Foundation®

E-Book Veritas Storage Foundation®
High End-Computing für UNIX, Design und Implementation von Hochverfügbarkeitslösungen mit VxVM und VCS Format: PDF

Hochkonzentrierter und praxisorientierter Kurs zur 'Veritas Storage Foundation': Storage Virtualisierung (Teil 1) erzeugt virtuelle Diskspeicher, die bei Kompatibilität zu ihren physischen…

Veritas Storage Foundation®

E-Book Veritas Storage Foundation®
High End-Computing für UNIX, Design und Implementation von Hochverfügbarkeitslösungen mit VxVM und VCS Format: PDF

Hochkonzentrierter und praxisorientierter Kurs zur 'Veritas Storage Foundation': Storage Virtualisierung (Teil 1) erzeugt virtuelle Diskspeicher, die bei Kompatibilität zu ihren physischen…

Weitere Zeitschriften

cards Karten cartes

cards Karten cartes

Die führende Zeitschrift für Zahlungsverkehr und Payments – international und branchenübergreifend, erscheint seit 1990 monatlich (viermal als Fachmagazin, achtmal als ...

CE-Markt

CE-Markt

CE-Markt ist Pflichtlektüre in der Unterhaltungselektronik-Branche. Die Vermarktung von Home und Mobile Electronics mit den besten Verkaufsargumenten und Verkaufsstrategien gehören ebenso zum ...

Das Hauseigentum

Das Hauseigentum

Das Hauseigentum. Organ des Landesverbandes Haus & Grund Brandenburg. Speziell für die neuen Bundesländer, mit regionalem Schwerpunkt Brandenburg. Systematische Grundlagenvermittlung, viele ...

SPORT in BW (Württemberg)

SPORT in BW (Württemberg)

SPORT in BW (Württemberg) ist das offizielle Verbandsorgan des Württembergischen Landessportbund e.V. (WLSB) und Informationsmagazin für alle im Sport organisierten Mitglieder in Württemberg. ...

DGIP-intern

DGIP-intern

Mitteilungen der Deutschen Gesellschaft für Individualpsychologie e.V. (DGIP) für ihre Mitglieder Die Mitglieder der DGIP erhalten viermal jährlich das Mitteilungsblatt „DGIP-intern“ ...

rfe-Elektrohändler

rfe-Elektrohändler

rfe-Elektrohändler ist die Fachzeitschrift für die CE- und Hausgeräte-Branche. Wichtige Themen sind: Aktuelle Entwicklungen in beiden Branchen, Waren- und Verkaufskunde, Reportagen über ...

building & automation

building & automation

Das Fachmagazin building & automation bietet dem Elektrohandwerker und Elektroplaner eine umfassende Übersicht über alle Produktneuheiten aus der Gebäudeautomation, der Installationstechnik, dem ...

filmdienst#de

filmdienst#de

filmdienst.de führt die Tradition der 1947 gegründeten Zeitschrift FILMDIENST im digitalen Zeitalter fort. Wir begleiten seit 1947 Filme in allen ihren Ausprägungen und Erscheinungsformen.  ...