Real-time Data Mining: Datenmodellierung und Mustererkennung in Echtzeit

Autor	Florian Stompe
Verlag	Diplomica Verlag GmbH
Erscheinungsjahr	2009
Seitenanzahl	106 Seiten
ISBN	9783836628792
Format	PDF
Kopierschutz	kein Kopierschutz/DRM
Geräte	PC/MAC/eReader/Tablet
Preis	34,99 EUR

Data Mining ist ein inzwischen etabliertes, erfolgreiches Werkzeug zur Extraktion von neuem, bislang unbekanntem Wissen aus Daten. In mittlerweile fast allen größeren Unternehmen wird es genutzt um Mehrwerte für Kunden zu generieren, den Erfolg von Marketingkampagnen zu erhöhen, Betrugsverdacht aufzudecken oder beispielsweise durch Segmentierung unterschiedliche Kundengruppen zu identifizieren. Ein Grundproblem der intelligenten Datenanalyse besteht darin, dass Daten oftmals in rasanter Geschwindigkeit neu entstehen. Einkäufe im Supermarkt, Telefonverbindungen oder der öffentliche Verkehr erzeugen täglich eine neue Flut an Daten, in denen potentiell wertvolles Wissen steckt. Die versteckten Zusammenhänge und Muster können sich im Zeitverlauf mehr oder weniger stark verändern. Datenmodellierung findet in der Regel aber noch immer einmalig bzw. sporadisch auf dem Snapshot einer Datenbank statt. Einmal erkannte Muster oder Zusammenhänge werden auch dann noch angenommen, wenn diese längst nicht mehr bestehen. Gerade in dynamischen Umgebungen wie zum Beispiel einem Internet-Shop sind Data Mining Modelle daher schnell veraltet. Betrugsversuche können dann unter Umständen nicht mehr erkannt, Absatzpotentiale nicht mehr genutzt werden oder Produktempfehlungen basieren auf veralteten Warenkörben. Um dauerhaft Wettbewerbsvorteile erzielen zu können, muss das Wissen über Daten aber möglichst aktuell und von ausgezeichneter Qualität sein. Der Inhalt dieses Buches skizziert Methoden und Vorgehensweisen von Data Mining in Echtzeit.

Florian Stompe ist seit 2006 bei der Dymatrix Consulting Group GmbH in Stuttgart als Berater für Analytisches Customer Relationship Managment (CRM) tätig. In dieser Funktion hat er zahlreiche Projekte bei namhaften Unternehmen in Branchen wie Telekommunikation, Versandhandel, Energie und Verkehr begleitet.

Kaufen Sie hier:

Horizontale Tabs

Leseprobe

Textprobe: Kapitel 3.3, Inkrementelles Clustering: Das Clustering ist ein wichtiges Teilproblem des Data Mining, das von der deskriptiven Modellierung (Abschnitt 2.1) zugeordnet wird. Beim Clustering werden Objekte einer Datenbank in apriori unbekannte Gruppen, als Cluster bezeichnet, so eingeteilt, dass die Objekte in einem Cluster möglichst ähnlich zueinander und die Objekte in verschiedenen Clustern möglichst unterschiedlich voneinander sind. Aktuelle Herausforderungen für Clustering-Algorithmen in Bezug auf immer größere und komplexere Datenmengen werden in diskutiert. Eine Möglichkeit zur Leistungssteigerung wird neben verbesserten Indexstrukturen, Datenkompression und anderen Ansätzen in der Entwicklung inkrementeller Clustering-Algorithmen gesehen. In diesem Abschnitt sollen einige der bekanntesten Vertreter dieser Verfahren vorgestellt werden. Eine Auswahl an existierenden Algorithmen zum inkrementellen Clustering zeigt Abbildung 9 (siehe Abbildung 9: Inkrementelle Algorithmen zum Clustering).. Darin werden zu den, im folgenden Abschnitt vorgestellten, Klassen von Clustering-Verfahren, einige Vertreter zusammen mit deren inkrementellen Varianten dargestellt. Nach einer kurzen Einführung in das Clustering im Abschnitt 3.3.1 werden die dargestellten Varianten in den darauf folgenden Abschnitten beschrieben. Grundlagen des Clustering: Es existieren drei unterschiedliche Klassen von Verfahren, auf denen existierende Clustering-Algorithmen aufbauen: Partitionierende Verfahren, Dichte-basierte Verfahren, Hierarchische Verfahren. Die partitionierenden Verfahren, deren bekanntester Vertreter der k-Means Algorithmus ist, zerlegen eine Datenmenge in eine festgelegte Anzahl von k Clustern, wobei jeder Cluster mindestens ein Objekt enthalten muss und jedes Objekt genau einem Cluster zugeordnet ist. Im ersten Schritt bestimmt der k-Means Algorithmus k zufällig gewählte Punkte, die cluster center, und ordnet dann jedes Objekt der Datenbasis jeweils dem am nächsten liegenden cluster center zu. Da diese Einteilung in der Regel nicht optimal ist, werden den Objekten im zweiten Schritt näher liegende cluster centers zugeordnet um die Gesamtsumme der Abstände zu verringern. Im Anschluss werden die neuen cluster centers berechnet. Dieser Vorgang wird solange wiederholt, bis keine Änderung in den Clustern mehr auftritt. Der Algorithmus hat eine Laufzeitkomplexität von O(knt) bei t Iterationen. Er arbeitet nur für kleine Datenbanken ausreichend effizient. Für größere Datenbanken, wie VLDBs, verwendet man daher oft sampling-basierte Varianten des k-Means Algorithmus wie z.B. CLARA (Clustering LARge Applications). Inkrementelle Varianten von Clustering Algorithmen konzentrieren sich auf dichte-basierte und hierarchische Verfahren, die im Folgenden beschrieben werden. Dichte-basierte Verfahren betrachten Cluster als beliebig geformte Gebiete mit einer hohen Konzentration von Objekten in einem d-dimensionalen Raum. Zwischen diesen Clustern befinden sich Regionen, die eine sehr geringe Konzentration von Objekten aufweisen. Die sog. lokale Punktdichte eines Objekts o bezeichnet die Anzahl der Objekte innerhalb einer festgelegten Umgebung um o herum. Eine hohe Konzentration von Objekten wird als eine lokale Punktdichte innerhalb von Clustern definiert, die einen bestimmten Grenzwert überschreitet. Der DBSCAN (Density-Based Spatial Clustering of Applications with Noise)-Algorithmus ist ein Vertreter der dichte-basierten Verfahren, für die auch eine inkrementelle Variante existiert. Diese wird im Abschnitt 3.3.2 vorgestellt. Bei hierarchischen Clustering-Verfahren wird eine Menge von Objekten hierarchisch in einer Baumstruktur, dem sog. Dendrogramm, angeordnet. Aus dem Baum kann dann eine Clusterstruktur abgeleitet werden, sodass der Cluster an der Wurzel des Baums sämtliche Objekte enthält und die Cluster an den Blättern die einzelnen Objekte enthalten. Jede Stufe in dem Baum entspricht dann einer Clusterstruktur. Um die Baumstruktur zu generieren, werden agglomerative (bottom-up) und divisive (top-down) Methoden unterschieden. Bei den agglomerativen Methoden wird zunächst jedes Objekt einem eigens generierten Cluster zugeordnet. Diese werden dann in den nächsten Schritten zu größeren Clustern zusammengefasst bis zum Schluss nur noch ein einziger übrig ist. Der Großteil der Methoden des hierarchischen Clustering gehört zu dieser Kategorie. Die divisiven Methoden beginnen mit einem großen Cluster, der zunächst alle Objekte enthält. Schritt für Schritt wird dieser dann aufgespaltet, bis alle Cluster atomar sind, also nur noch ein einziges Objekt enthalten. Ein Algorithmus, der Elemente sowohl der dichte-basierten, als auch der hierarchischen Verfahren verwendet, ist der OPTICS (Ordering Points To Identify the Clustering Structure)-Algorithmus. Er kann als Erweiterung des DBSCAN angesehen werden. Die Grundidee des OPTICS und seine inkrementelle Variante, der IncOPTICS, werden in Abschnitt 3.3.3 vorgestellt.

Blick ins Buch

Inhaltsverzeichnis

Real-time Data Mining	1
INHALT	3
ABBILDUNGEN	5
BEISPIELE	6
LISTINGS	6
TABELLEN	6
ABKÜRZUNGEN	7
1. Einleitung	9
2. Die Evolution des Data Mining	11
2.1. Grundlagen des klassischen Data Mining	11
2.2. Dynamik im Umfeld der Business Intelligence	14
3. Data Mining für große, stark dynamische Datenbanken	19
3.1. Inkrementelle Update-Algorithmen zur Assoziationsanalyse	21
3.1.1. Grundlagen der Assoziationsanalyse	23
3.1.2. Der Fast Update Algorithmus (FUP)	28
3.1.3. Erweiterung des Fast Update Algorithmus (FUP2)	34
3.1.4. Der Updatae Large Itemset Algorithmus (ULI)	37
3.1.5. Weitere Algorithmen zur inkrementellen Assoziationsanalyse	40
3.2. Inkrementelles Mining zur Entdeckung von Sequenzmustern	41
3.3. Inkrementelles Clustering	46
3.3.1. Grundlagen des Clustering	47
3.3.2. Das IncrementalDBSCAN Verfahren	48
3.3.3. Das IncOPTICS Verfahren	55
3.3.4. Weitere inkrementelle Clustering-Verfahren	60
4. Mining von kontinuierlichen Datenflüssen (Data Streams)	61
4.1. Anfragen an Data Streams	63
4.2. Ansätze und Verfahren zur Analyse von Data Streams	64
4.2.1. Klassifizierung stationärer Daten in Streams	64
4.2.2. Klassifizierung nicht-stationärer Daten in Streams	68
4.2.3. Clustern von Daten in Streams	73
4.2.4. Muster- und Regelerkennung in Streams	79
5. Ein Realtime Data Mining Framework	84
5.1. Definition und Konzept	84
5.2. Exemplarischer Einsatz im Verkehr	90
6. Zusammenfassung und Ausblick	93
LITERATUR	95

Weitere E-Books zum Thema: Datenbanken - Datenbanktheorie - Datenbankentwicklung

Microsoft SQL Server 2005 für Administratoren

Format: PDF

Mit Checklisten zur Systemabsicherung und für wiederkehrende ArbeitenEFFIZIENT VERWALTEN - Verwaltungstools wie SQL Server Management Studio effizient nutzen- Viele praktische, speziell…

Microsoft SQL Server 2005 für Administratoren

Format: PDF

Mit Checklisten zur Systemabsicherung und für wiederkehrende ArbeitenEFFIZIENT VERWALTEN - Verwaltungstools wie SQL Server Management Studio effizient nutzen- Viele praktische, speziell…

Microsoft SQL Server 2005 für Administratoren

Format: PDF

Mit Checklisten zur Systemabsicherung und für wiederkehrende ArbeitenEFFIZIENT VERWALTEN - Verwaltungstools wie SQL Server Management Studio effizient nutzen- Viele praktische, speziell…

Oracle Security in der Praxis

Sicherheit für Ihre Oracle-Datenbank Format: PDF

Sicherheit ist gerade für Datenbanken ein zentrales Thema, da sie sehr häufig die Basis für den Geschäftserfolg bilden. Die Angriffsmöglichkeiten sind zahlreich und seit auch über das Internet auf…

Oracle Security in der Praxis

Sicherheit für Ihre Oracle-Datenbank Format: PDF

111 Thesen zur erfolgreichen Softwareentwicklung