Sie sind hier
E-Book

Real-time Data Mining: Datenmodellierung und Mustererkennung in Echtzeit

AutorFlorian Stompe
VerlagDiplomica Verlag GmbH
Erscheinungsjahr2009
Seitenanzahl106 Seiten
ISBN9783836628792
FormatPDF
Kopierschutzkein Kopierschutz/DRM
GerätePC/MAC/eReader/Tablet
Preis34,99 EUR
Data Mining ist ein inzwischen etabliertes, erfolgreiches Werkzeug zur Extraktion von neuem, bislang unbekanntem Wissen aus Daten. In mittlerweile fast allen größeren Unternehmen wird es genutzt um Mehrwerte für Kunden zu generieren, den Erfolg von Marketingkampagnen zu erhöhen, Betrugsverdacht aufzudecken oder beispielsweise durch Segmentierung unterschiedliche Kundengruppen zu identifizieren. Ein Grundproblem der intelligenten Datenanalyse besteht darin, dass Daten oftmals in rasanter Geschwindigkeit neu entstehen. Einkäufe im Supermarkt, Telefonverbindungen oder der öffentliche Verkehr erzeugen täglich eine neue Flut an Daten, in denen potentiell wertvolles Wissen steckt. Die versteckten Zusammenhänge und Muster können sich im Zeitverlauf mehr oder weniger stark verändern. Datenmodellierung findet in der Regel aber noch immer einmalig bzw. sporadisch auf dem Snapshot einer Datenbank statt. Einmal erkannte Muster oder Zusammenhänge werden auch dann noch angenommen, wenn diese längst nicht mehr bestehen. Gerade in dynamischen Umgebungen wie zum Beispiel einem Internet-Shop sind Data Mining Modelle daher schnell veraltet. Betrugsversuche können dann unter Umständen nicht mehr erkannt, Absatzpotentiale nicht mehr genutzt werden oder Produktempfehlungen basieren auf veralteten Warenkörben. Um dauerhaft Wettbewerbsvorteile erzielen zu können, muss das Wissen über Daten aber möglichst aktuell und von ausgezeichneter Qualität sein. Der Inhalt dieses Buches skizziert Methoden und Vorgehensweisen von Data Mining in Echtzeit.

Florian Stompe ist seit 2006 bei der Dymatrix Consulting Group GmbH in Stuttgart als Berater für Analytisches Customer Relationship Managment (CRM) tätig. In dieser Funktion hat er zahlreiche Projekte bei namhaften Unternehmen in Branchen wie Telekommunikation, Versandhandel, Energie und Verkehr begleitet.

Kaufen Sie hier:

Horizontale Tabs

Leseprobe
Textprobe: Kapitel 3.3, Inkrementelles Clustering: Das Clustering ist ein wichtiges Teilproblem des Data Mining, das von der deskriptiven Modellierung (Abschnitt 2.1) zugeordnet wird. Beim Clustering werden Objekte einer Datenbank in apriori unbekannte Gruppen, als Cluster bezeichnet, so eingeteilt, dass die Objekte in einem Cluster möglichst ähnlich zueinander und die Objekte in verschiedenen Clustern möglichst unterschiedlich voneinander sind. Aktuelle Herausforderungen für Clustering-Algorithmen in Bezug auf immer größere und komplexere Datenmengen werden in diskutiert. Eine Möglichkeit zur Leistungssteigerung wird neben verbesserten Indexstrukturen, Datenkompression und anderen Ansätzen in der Entwicklung inkrementeller Clustering-Algorithmen gesehen. In diesem Abschnitt sollen einige der bekanntesten Vertreter dieser Verfahren vorgestellt werden. Eine Auswahl an existierenden Algorithmen zum inkrementellen Clustering zeigt Abbildung 9 (siehe Abbildung 9: Inkrementelle Algorithmen zum Clustering).. Darin werden zu den, im folgenden Abschnitt vorgestellten, Klassen von Clustering-Verfahren, einige Vertreter zusammen mit deren inkrementellen Varianten dargestellt. Nach einer kurzen Einführung in das Clustering im Abschnitt 3.3.1 werden die dargestellten Varianten in den darauf folgenden Abschnitten beschrieben. Grundlagen des Clustering: Es existieren drei unterschiedliche Klassen von Verfahren, auf denen existierende Clustering-Algorithmen aufbauen: Partitionierende Verfahren, Dichte-basierte Verfahren, Hierarchische Verfahren. Die partitionierenden Verfahren, deren bekanntester Vertreter der k-Means Algorithmus ist, zerlegen eine Datenmenge in eine festgelegte Anzahl von k Clustern, wobei jeder Cluster mindestens ein Objekt enthalten muss und jedes Objekt genau einem Cluster zugeordnet ist. Im ersten Schritt bestimmt der k-Means Algorithmus k zufällig gewählte Punkte, die cluster center, und ordnet dann jedes Objekt der Datenbasis jeweils dem am nächsten liegenden cluster center zu. Da diese Einteilung in der Regel nicht optimal ist, werden den Objekten im zweiten Schritt näher liegende cluster centers zugeordnet um die Gesamtsumme der Abstände zu verringern. Im Anschluss werden die neuen cluster centers berechnet. Dieser Vorgang wird solange wiederholt, bis keine Änderung in den Clustern mehr auftritt. Der Algorithmus hat eine Laufzeitkomplexität von O(knt) bei t Iterationen. Er arbeitet nur für kleine Datenbanken ausreichend effizient. Für größere Datenbanken, wie VLDBs, verwendet man daher oft sampling-basierte Varianten des k-Means Algorithmus wie z.B. CLARA (Clustering LARge Applications). Inkrementelle Varianten von Clustering Algorithmen konzentrieren sich auf dichte-basierte und hierarchische Verfahren, die im Folgenden beschrieben werden. Dichte-basierte Verfahren betrachten Cluster als beliebig geformte Gebiete mit einer hohen Konzentration von Objekten in einem d-dimensionalen Raum. Zwischen diesen Clustern befinden sich Regionen, die eine sehr geringe Konzentration von Objekten aufweisen. Die sog. lokale Punktdichte eines Objekts o bezeichnet die Anzahl der Objekte innerhalb einer festgelegten Umgebung um o herum. Eine hohe Konzentration von Objekten wird als eine lokale Punktdichte innerhalb von Clustern definiert, die einen bestimmten Grenzwert überschreitet. Der DBSCAN (Density-Based Spatial Clustering of Applications with Noise)-Algorithmus ist ein Vertreter der dichte-basierten Verfahren, für die auch eine inkrementelle Variante existiert. Diese wird im Abschnitt 3.3.2 vorgestellt. Bei hierarchischen Clustering-Verfahren wird eine Menge von Objekten hierarchisch in einer Baumstruktur, dem sog. Dendrogramm, angeordnet. Aus dem Baum kann dann eine Clusterstruktur abgeleitet werden, sodass der Cluster an der Wurzel des Baums sämtliche Objekte enthält und die Cluster an den Blättern die einzelnen Objekte enthalten. Jede Stufe in dem Baum entspricht dann einer Clusterstruktur. Um die Baumstruktur zu generieren, werden agglomerative (bottom-up) und divisive (top-down) Methoden unterschieden. Bei den agglomerativen Methoden wird zunächst jedes Objekt einem eigens generierten Cluster zugeordnet. Diese werden dann in den nächsten Schritten zu größeren Clustern zusammengefasst bis zum Schluss nur noch ein einziger übrig ist. Der Großteil der Methoden des hierarchischen Clustering gehört zu dieser Kategorie. Die divisiven Methoden beginnen mit einem großen Cluster, der zunächst alle Objekte enthält. Schritt für Schritt wird dieser dann aufgespaltet, bis alle Cluster atomar sind, also nur noch ein einziges Objekt enthalten. Ein Algorithmus, der Elemente sowohl der dichte-basierten, als auch der hierarchischen Verfahren verwendet, ist der OPTICS (Ordering Points To Identify the Clustering Structure)-Algorithmus. Er kann als Erweiterung des DBSCAN angesehen werden. Die Grundidee des OPTICS und seine inkrementelle Variante, der IncOPTICS, werden in Abschnitt 3.3.3 vorgestellt.
Blick ins Buch
Inhaltsverzeichnis
Real-time Data Mining1
INHALT3
ABBILDUNGEN5
BEISPIELE6
LISTINGS6
TABELLEN6
ABKÜRZUNGEN7
1. Einleitung9
2. Die Evolution des Data Mining11
2.1. Grundlagen des klassischen Data Mining11
2.2. Dynamik im Umfeld der Business Intelligence14
3. Data Mining für große, stark dynamische Datenbanken19
3.1. Inkrementelle Update-Algorithmen zur Assoziationsanalyse21
3.1.1. Grundlagen der Assoziationsanalyse23
3.1.2. Der Fast Update Algorithmus (FUP)28
3.1.3. Erweiterung des Fast Update Algorithmus (FUP2)34
3.1.4. Der Updatae Large Itemset Algorithmus (ULI)37
3.1.5. Weitere Algorithmen zur inkrementellen Assoziationsanalyse40
3.2. Inkrementelles Mining zur Entdeckung von Sequenzmustern41
3.3. Inkrementelles Clustering46
3.3.1. Grundlagen des Clustering47
3.3.2. Das IncrementalDBSCAN Verfahren48
3.3.3. Das IncOPTICS Verfahren55
3.3.4. Weitere inkrementelle Clustering-Verfahren60
4. Mining von kontinuierlichen Datenflüssen (Data Streams)61
4.1. Anfragen an Data Streams63
4.2. Ansätze und Verfahren zur Analyse von Data Streams64
4.2.1. Klassifizierung stationärer Daten in Streams64
4.2.2. Klassifizierung nicht-stationärer Daten in Streams68
4.2.3. Clustern von Daten in Streams73
4.2.4. Muster- und Regelerkennung in Streams79
5. Ein Realtime Data Mining Framework84
5.1. Definition und Konzept84
5.2. Exemplarischer Einsatz im Verkehr90
6. Zusammenfassung und Ausblick93
LITERATUR95

Weitere E-Books zum Thema: Datenbanken - Datenbanktheorie - Datenbankentwicklung

Oracle Security in der Praxis

E-Book Oracle Security in der Praxis
Sicherheit für Ihre Oracle-Datenbank Format: PDF

Sicherheit ist gerade für Datenbanken ein zentrales Thema, da sie sehr häufig die Basis für den Geschäftserfolg bilden. Die Angriffsmöglichkeiten sind zahlreich und seit auch über das Internet auf…

Oracle Security in der Praxis

E-Book Oracle Security in der Praxis
Sicherheit für Ihre Oracle-Datenbank Format: PDF

Sicherheit ist gerade für Datenbanken ein zentrales Thema, da sie sehr häufig die Basis für den Geschäftserfolg bilden. Die Angriffsmöglichkeiten sind zahlreich und seit auch über das Internet auf…

111 Thesen zur erfolgreichen Softwareentwicklung

E-Book 111 Thesen zur erfolgreichen Softwareentwicklung
Argumente und Entscheidungshilfen für Manager. Konzepte und Anleitungen für Praktiker Format: PDF

Ziel dieses Buches ist es, Managern Argumente und Entscheidungshilfen für die Einführung effizienter Techniken der Softwareentwi- lung zu geben, und Praktiker von der Notwendigkeit effizienter…

111 Thesen zur erfolgreichen Softwareentwicklung

E-Book 111 Thesen zur erfolgreichen Softwareentwicklung
Argumente und Entscheidungshilfen für Manager. Konzepte und Anleitungen für Praktiker Format: PDF

Ziel dieses Buches ist es, Managern Argumente und Entscheidungshilfen für die Einführung effizienter Techniken der Softwareentwi- lung zu geben, und Praktiker von der Notwendigkeit effizienter…

111 Thesen zur erfolgreichen Softwareentwicklung

E-Book 111 Thesen zur erfolgreichen Softwareentwicklung
Argumente und Entscheidungshilfen für Manager. Konzepte und Anleitungen für Praktiker Format: PDF

Ziel dieses Buches ist es, Managern Argumente und Entscheidungshilfen für die Einführung effizienter Techniken der Softwareentwi- lung zu geben, und Praktiker von der Notwendigkeit effizienter…

111 Thesen zur erfolgreichen Softwareentwicklung

E-Book 111 Thesen zur erfolgreichen Softwareentwicklung
Argumente und Entscheidungshilfen für Manager. Konzepte und Anleitungen für Praktiker Format: PDF

Ziel dieses Buches ist es, Managern Argumente und Entscheidungshilfen für die Einführung effizienter Techniken der Softwareentwi- lung zu geben, und Praktiker von der Notwendigkeit effizienter…

111 Thesen zur erfolgreichen Softwareentwicklung

E-Book 111 Thesen zur erfolgreichen Softwareentwicklung
Argumente und Entscheidungshilfen für Manager. Konzepte und Anleitungen für Praktiker Format: PDF

Ziel dieses Buches ist es, Managern Argumente und Entscheidungshilfen für die Einführung effizienter Techniken der Softwareentwi- lung zu geben, und Praktiker von der Notwendigkeit effizienter…

Weitere Zeitschriften

Correo

Correo

 La Revista de Bayer CropScience para la Agricultura ModernaPflanzenschutzmagazin für den Landwirt, landwirtschaftlichen Berater, Händler und am Thema Interessierten mit umfassender ...

Courier

Courier

The Bayer CropScience Magazine for Modern AgriculturePflanzenschutzmagazin für den Landwirt, landwirtschaftlichen Berater, Händler und generell am Thema Interessierten, mit umfassender ...

DSD Der Sicherheitsdienst

DSD Der Sicherheitsdienst

Der "DSD – Der Sicherheitsdienst" ist das Magazin der Sicherheitswirtschaft. Es erscheint viermal jährlich und mit einer Auflage von 11.000 Exemplaren. Der DSD informiert über aktuelle Themen ...

e-commerce magazin

e-commerce magazin

e-commerce magazin Die Redaktion des e-commerce magazin versteht sich als Mittler zwischen Anbietern und Markt und berichtet unabhängig, kompetent und kritisch über ...