Sie sind hier
E-Book

Text Mining und dessen Implementierung

AutorChristian Zietzsch, Norman Zänker
VerlagDiplomica Verlag GmbH
Erscheinungsjahr2011
Seitenanzahl86 Seiten
ISBN9783842809703
FormatPDF
Kopierschutzkein Kopierschutz/DRM
GerätePC/MAC/eReader/Tablet
Preis44,99 EUR
In der heutigen Zeit, in der der Umgang mit Informationsressourcen den Alltag bestimmt, ist es wichtig, dass es Systeme gibt, die gewährleisten, dass für den Nutzer relevante Informationen gesucht und auf die wichtigsten Fakten reduziert werden. Ein Großteil der gespeicherten Informationen, welche extrahiert werden sollen, sind dabei in Form von Textdokumenten vorhanden. Zu diesem Zweck gibt es in der Informatik ein Fachgebiet, das es sich zur Aufgabe gemacht hat, Analysewerkzeuge zur Bearbeitung von natürlich sprachigen Texten zu entwickeln. Diese Entwicklung hatte ihren Ursprung bereits in den Anfängen der Informatik und ist somit eines der ältesten Probleme der IT-Branche. Mit der erhöhten Zugänglichkeit der Informationen steigen die Anforderungen an Informationssysteme, von denen eine automatische Generierung und Aufbereitung von Wissen erwartet wird. Dabei wird die Entwicklung solcher Informationssysteme mit verschiedenen Problemen konfrontiert. Beispielsweise erschwert die schiere Masse an Daten die Auswahl der Informationsquellen. Allein das Volumen des Internets umfasst ca. 75 Mio. Webseiten, ganz zu schweigen von unternehmensinternen Datenbanken, Email-Verkehr und Dokumentenmanagementsysteme, deren Datenvolumen bereits im Jahr 2000 auf 1000 Petabyte geschätzt wurde. Da elektronische Medien in der modernen Zeit immer mehr an Bedeutung gewinnen, steigen auch die gespeicherten Informationen in unaufhaltsamem Maße fast exponentiell an. Dieser Trend wird auch als Information Overload bezeichnet. Erschwerend dabei ist, dass weder die Inhalte, noch der Zweck des Systems im World Wide Web klar definiert sind.
Desweiteren macht die natürliche Sprache der einzelnen Informationsquellen zu schaffen. Solang die Daten strukturiert in einer Datenbank vorliegen, können sie von Informationssystemen ohne Probleme gelesen und die wichtigsten Informationen herausgefiltert werden. Dieses Verfahren ist bekannt unter dem Begriff ?Data-Mining?. Bei natürlichen Texten liegt jedoch keine feste Datenstruktur vor, da Semantik und Syntax bei der Informationsgewinnung berücksichtigt werden müssen. Hinzu kommt noch, dass statistische Methoden eine große Rolle spielen, um die gewünschten Informationen aus den Texten zu gewinnen. Ohne entsprechende Systeme ist es somit unmöglich, effektiv mit den Informationen aus Texten umzugehen.
Eine Technik, die es dennoch ermöglicht Textdatenbanken zu analysieren und Wissen aus unbekannten Texten zu extrahieren, wird als ?Text-Mining? bezeichnet, welches auf den Grundlagen des Data-Mining basiert.
Nichts desto trotz stecken die Analyseverfahren noch in den Kinderschuhen, da die enorme Fülle an Informationen und deren differenzierter sprachlicher Aufbau der Entwicklung zu schaffen macht.
In dieser Studie geben wir grundlegende Einblicke in das Gebiet des Text-Mining, definieren und beschreiben den Prozess, und erläutern die Methodik an einem eigens konzipierten Text-Mining-Tools.

Kaufen Sie hier:

Horizontale Tabs

Blick ins Buch
Inhaltsverzeichnis
Inhaltsverzeichnis3
Abbildungsverzeichnis5
Tabellenverzeichnis5
1 Einleitung6
1.1 Zielsetzung7
1.2 Aufbau der Arbeit7
2 Grundlagen8
2.1 Was ist Text Mining?8
2.2 Aufbau und Struktur von Text9
2.3 Linguistischer Strukturalismus als Grundlage zur Bedeutungsanalyse11
2.3.1 Die Linguistik und ihre Ebenen11
2.3.2 Syntagmatische und Paradigmatische Relationen16
2.3.3 Semantische Relationen20
3 Text Mining-Prozess23
3.1 Unterschied Text Mining und Data Mining24
3.2 Dokumentsuche25
3.2.1 Information Retrieval25
3.2.2 Aufbau und Funktion eines Information Retrieval Systems26
3.3 Dokumentaufbereitung28
3.3.1 Textressourcen28
3.3.2 Aufbau eines Analysekorpus28
3.4 Text Mining – Statistische Analysemethoden33
3.4.1 Zipfsches Gesetz33
3.4.2 Differenzanalyse33
3.4.3 Part-of-Speech Tagging35
3.4.4 Kookkurrenzanalyse43
3.5. Text Mining – Clusteranalyse47
3.5.1 Nicht-hierarchische Verfahren47
3.5.2 Hierarchische Verfahren49
3.5.3 Fuzzy-Clusteranalyse50
3.5.4 Dokumentähnlichkeit51
3.5.5 Anwendungsbeispiel54
3.6 Text Mining – Musteranalyse56
3.6.1 Reguläre Ausdrücke56
3.6.2 Syntaktische Muster58
4 Text Mining-Prozess anhand des Zalazar Text Miner60
4.1 Programmaufbau61
4.2 Dokumentaufbereitung63
4.2.1 Formatierung des zu analysierenden Textdokuments63
4.2.2 Aufbau des Analysekorpus anhand der Satz- und Wortsegmentierung64
4.3 Dokumentanalyse71
4.3.1 Part-of-Speech Tagging71
4.3.2 Differenzanalyse74
4.3.3 Musteranalyse75
4.4 Ergebnisevaluation77
4.5 Handhabung des Zalazar Text Miner78
4.5.1 Öffnen einer neuen Mail79
4.5.2 Durchführen der Textanalyse80
4.5.3 Speichern der Ergebnisse81
4.5.4 Laden der Ergebnisse einer bereits analysierten Mail82
5 Schlusswort83
Literatur85

Weitere E-Books zum Thema: Informatik - Algorithmen - Softwaresysteme

Softwaretechnik

E-Book Softwaretechnik
Format: PDF

Software-Projekte geraten oft in Schwierigkeiten: Zeit und Budget werden überschritten; das Projekt tritt auf der Stelle; im schlimmsten Fall wird es ohne Ergebnis abgebrochen. Manche…

Softwaretechnik

E-Book Softwaretechnik
Format: PDF

Software-Projekte geraten oft in Schwierigkeiten: Zeit und Budget werden überschritten; das Projekt tritt auf der Stelle; im schlimmsten Fall wird es ohne Ergebnis abgebrochen. Manche…

Softwaretechnik

E-Book Softwaretechnik
Format: PDF

Software-Projekte geraten oft in Schwierigkeiten: Zeit und Budget werden überschritten; das Projekt tritt auf der Stelle; im schlimmsten Fall wird es ohne Ergebnis abgebrochen. Manche…

Software Engineering

E-Book Software Engineering
Architektur-Design und Prozessorientierung Format: PDF

Das Lehrbuch behandelt alle Aspekte der Software-Entwicklung, besonders aber Methoden und Richtlinien zur Herstellung großer und qualitativ hochwertiger Softwareprodukte. Es vermittelt das zur…

Software Engineering

E-Book Software Engineering
Architektur-Design und Prozessorientierung Format: PDF

Das Lehrbuch behandelt alle Aspekte der Software-Entwicklung, besonders aber Methoden und Richtlinien zur Herstellung großer und qualitativ hochwertiger Softwareprodukte. Es vermittelt das zur…

Weitere Zeitschriften

Arzneimittel Zeitung

Arzneimittel Zeitung

Die Arneimittel Zeitung ist die Zeitung für Entscheider und Mitarbeiter in der Pharmabranche. Sie informiert branchenspezifisch über Gesundheits- und Arzneimittelpolitik, über Unternehmen und ...

SPORT in BW (Württemberg)

SPORT in BW (Württemberg)

SPORT in BW (Württemberg) ist das offizielle Verbandsorgan des Württembergischen Landessportbund e.V. (WLSB) und Informationsmagazin für alle im Sport organisierten Mitglieder in Württemberg. ...

die horen

die horen

Zeitschrift für Literatur, Kunst und Kritik."...weil sie mit großer Aufmerksamkeit die internationale Literatur beobachtet und vorstellt; weil sie in der deutschen Literatur nicht nur das Neueste ...