Sie sind hier
E-Book

Wikipedia als Wissensquelle: Die Online-Enzyklopädie als Basis einer Lernumgebung

AutorMarcel Minke
Verlagdisserta Verlag
Erscheinungsjahr2015
Seitenanzahl186 Seiten
ISBN9783954251452
FormatPDF
KopierschutzWasserzeichen/DRM
GerätePC/MAC/eReader/Tablet
Preis39,99 EUR
In der heutigen Informationsgesellschaft erweist sich der effiziente Umgang mit dem Produktionsfaktor Wissen als entscheidender Wettbewerbsfaktor. Aufgrund der geringeren Halbwertszeit des Wissens tritt das reine Faktenlernen zunehmend in den Hintergrund und das Lernen von Zusammenhängen gewinnt an Bedeutung. Diese Studie beschreibt einen auf der deutschen Wikipedia basierenden Prototyp, der zum einen zum automatisierten Abfragen von Zusammenhängen genutzt werden kann und zum anderen ein neuartiges didaktisches Konzept zum Lernen von Assoziationen einführt. Zur Definition von Wissensdomänen werden Algorithmen vorgestellt, welche die einem Wikipedia-Artikel zugeordneten Kategorien auf vordefinierte Hauptkategorien aggregieren. Da Daten zu inhaltlichen Zusammenhängen zwischen verschiedenen Wikipedia-Einträgen bisher noch nicht erhoben wurden, stellt diese Arbeit solche Assoziationen anhand der semantischen Ähnlichkeit her. Die im entwickelten Prototyp implementierten Konzepte ermöglichen das spielerische Lernen von Zusammenhängen durch die Bearbeitung zufälliger oder vordefinierter Navigationsaufgaben.

Dr. Marcel Minke, geboren 1980 in Hildesheim, studierte Informationsmanagement und Informationstechnologie mit den Schwerpunkten Datenbanken, Web-Programmierung und Data Mining und schloss sein Studium an der Universität Hildesheim 2006 mit einem Master of Science ab. Seit 2009 Leiter einer IT-Beratungsfirma mit dem Schwerpunkt Online-Befragungen (auf Basis der Open-Source Umfragesoftware 'Limesurvey') arbeitete er berufsbegleitend an seiner Promotion am Institut für Mathematik und Angewandte Informatik der Universität Hildesheim. Die 2012 erfolgreich abgeschlossene Dissertation bildet die Basis dieses Buches, in das die während der Promotion gewonnenen Erkenntnisse rund um die Online-Enzyklopädie 'Wikipedia' einfließen.

Kaufen Sie hier:

Horizontale Tabs

Leseprobe
Textprobe: Kapitel 5.3, Bestimmung von Ähnlichkeiten zwischen Wikipedia-Artikeln: Vor einer Einführung in die genutzten Konzepte zur Ähnlichkeitsbestimmung bei Texten sei zunächst definiert, wie der verwendete Begriff der Ähnlichkeit im gegebenen Kontext zu verstehen ist: Wikipedia-Artikel werden als einander ähnlich klassifiziert, wenn eine signifikante semantische Relation nachweisbar ist. Dabei bedeutet signifikant in diesem Zusammenhang, dass über die Ähnlichkeit von Artikeln nicht binär entschieden werden kann; vielmehr erfolgt die Zuweisung eines Wertes innerhalb eines festen Intervalls, um den Grad der Ähnlichkeit anhand dieses Maßes definieren und später vergleichen zu können. Die o. g. Auslegung orientiert sich eng an der sogenannten Assoziationshypothese, die besagt, dass bei der Erstellung von Texten gedankliche Assoziationen einfließen, die sich in der Verwendung wiederkehrender Begriffe in verschiedenen Texten niederschlagen. Das vermehrte Auftreten bestimmter Wörter in verschiedenen Kontexten wird als Kookkurrenz bezeichnet, die statistisch auf Basis von Worthäufigkeiten nachweisbar ist. Eine solche Häufung mündet in der Schlussfolgerung, dass oft kookkurrierende Worte in einer assoziativen Relation stehen müssen (Giuliano 1964). Die genannte Theorie war Gegenstand vieler Forschungsarbeiten, bis es (Wettler et al. 1993) im Jahr 1993 gelang, sie methodisch zu verifizieren. Eine Übertragung der Assoziationshypothese auf die Artikel der Wikipedia hätte zur Folge, dass die Artikelinhalte über das verwendete Vokabular beschreibbar würden. Mit Ausnahme der den Artikeln zugewiesenen Kategorien (vgl. Kapitel 4.2) existieren in der Wikipedia bisher jedoch keinerlei Verfahren, um den Inhalt eines Artikels anhand bestimmter Schlagwörter zu charakterisieren. Einzig die interne Verlinkung von Artikeln untereinander könnte als eine semantische Relation gedeutet werden, die in vielen Fällen jedoch sehr schwach ausgeprägt ist (vgl. dazu das Beispiel zu 'Willy Brandt' in Kapitel 5.1). (Medelyan et al. 2009) unterzogen die interne Linkstruktur der englischen Wikipedia einer genauen Untersuchung und beschrieben sie als 'hyperlinked structure of web pages, a microcosm of the web' (Medelyan et al. 2009, S. 15). Grundsätzlich bietet die reichhaltige Verlinkung der Inhalte untereinander - im Schnitt besitzt jeder Artikel 25 Links zu anderen Artikeln (Medelyan et al. 2009, S. 7) - vielfältige Zusatz-informationen, doch diese Daten können eher als Basis für Web-Structure-Mining-Methoden genutzt werden, um beispielsweise bedeutendere Artikel anhand der Anzahl der auf sie verweisenden Links von nebensächlichen Einträgen zu differenzieren (für weitere Klassifikationsmethoden siehe auch (Markovitch, Gabrilovich 2006)). Wegen fehlender Möglichkeiten zur Ermittlung eines semantisch ähnlichen Textes zu einem vorgegebenen Ausgangsdokument erweisen sich diese Methoden für die behandelte Problemstellung als ungeeignet. (Strube, Ponzetto 2006) nutzten die Wikipedia lediglich als Vergleichsmaßstab für entwickelte Ähnlichkeitsmaße und betrachteten stets nur einen geringen Ausschnitt des Gesamtdatenbestandes, den sie für ihre Benchmarks heranzogen. (Milne 2007) analysierte die Linkstruktur losgelöst von inhaltlichen Konzepten der Artikel und arbeitet demnach ebenfalls allein auf der strukturellen Ebene des Informationsbestandes. In der wissenschaftlichen Forschung erfolgte die Anwendung von Web Content Mining-Methoden zur Ähnlichkeitsbestimmung zwischen verschiedenen Wikipedia-Artikeln somit bisher nicht in ausreichendem Maße, um sie zur Lösung der bearbeiteten Problemstellung heranziehen zu können. Der Gewinn der angestrebten Erkenntnisse erfordert daher neben der Verwendung spezieller Werkzeuge auch die Entwicklung eines eigenen Verfahrens. 5.4, Vorstellung Findlink-Programm: Zur Bestimmung der Ähnlichkeit zwischen Wikipedia-Artikeln wird im Versuchskontext auf ein Programm namens Findlink zurückgegriffen. Es wurde seinerzeit durch die Firma connex GmbH, Hildesheim, in Kooperation mit dem damaligen Institut für Mathematik der Universität Hildesheim entwickelt. Findlink nutzt verschiedene Mechanismen zur Berechnung der Ähnlichkeit, von denen viele an klassische Werkzeuge des Information Retrieval angelehnt sind. Die einzelnen Konzepte werden im Abschnitt 5.4.1 vorgestellt. Für Simpedia mussten Schnittstellen geschaffen werden, um Daten zwischen Wikipedia, Findlink und eigenen Skripten austauschen zu können. Die Präsentation dieser Schnittstellen sowie die vorgenommenen Erweiterungen der Wikipedia-Datenbank zur Aufnahme eigener Zusatzinformationen erfolgt in Unterkapitel 5.4.2, in dem auch die genaue Einbindung von Findlink in die Problemstellung skizziert wird. Außerdem umfasst dieser Abschnitt eine Einführung in die Konfigurationsparameter von Findlink sowie eine Beschreibung der zur Prozessoptimierung durchgeführten Vorarbeiten.
Blick ins Buch
Inhaltsverzeichnis
Abbildungsverzeichnis8
Tabellenverzeichnis10
1 Einleitung11
2 Einführung und Forschungsaufbau15
2.1 Problem der Informationsflut15
2.2 Ökonomische Betrachtung16
2.3 Definition Wissen/Wissensmanagement18
2.4 Einordnung in den Forschungszusammenhang21
2.5 Forschungsaufbau23
3 Die freie Enzyklopädie Wikipedia27
3.1 Entwicklung und Organisationsstruktur28
3.2 Schwesterprojekte33
3.3 Kollaborative Wissensgenerierung – Analyse eines revolutionären Konzeptes40
3.4 Wikipediaforschung47
3.5 Technischer Aufbau und Konfiguration der Testumgebung56
4 Ableitung von Kategorien zur Abbildung von Wissensdomänen61
4.1 Zielsetzung61
4.2 Das Kategoriesystem in Wikipedia62
4.3 Forschungsgebiet Kategorisierung64
4.4 Implementierung des eigenen Algorithmus69
4.5 Ergebnisse80
5 Berechnung der Ähnlichkeit zwischen Artikeln85
5.1 Zielsetzung86
5.2 Forschungsgebiet Ähnlichkeitsbestimmung87
5.3 Bestimmung von Ähnlichkeiten zwischen Wikipedia-Artikeln89
5.4 Vorstellung Findlink-Programm90
5.5 Notwendige Vorarbeiten vor Ähnlichkeitsberechnung94
6 Konstellationen Versuchsaufbau101
6.1 Beeinflussbare Versuchsparameter102
6.2 Versuch 1: Einbeziehung aller Daten103
6.3 Versuch 2: Reduktion der Textmenge104
6.4 Versuch 3: Einfluss „MAX_HITS“ Parameter106
6.5 Exkurs 1: Identifikation wichtiger Artikel107
6.6 Versuch 4: Einführung Gütemaß „Wertung“111
6.7 Versuch 5: Eliminierung von Datumsangaben113
6.8 Exkurs 2: Ansätze zum Aufbrechen der Netzstruktur114
6.9 Versuch 6: Filterung häufiger Substantive116
6.10 Versuch 7: Einbeziehung themenfremder Artikel120
6.11 Versuch 8: Kombination der Konfigurationsdateien122
6.12 Zusammenfassung124
7 Aufbau und Benutzeroberfläche des Prototyps127
7.1 Anbindung des Prototyps an die Mediawiki-Software128
7.2 Sentrax-Engine als Alternative zum Prototyp138
7.3 Zusammenfassung151
8 Zusammenfassung und Ausblick155
8.1 Ergebnisse155
8.2 Ansätze zur Weiterentwicklung160
9 Anhang165
9.1 Zu Kapitel 3.1.1: Wikipedia in Zahlen165
10 Literaturverzeichnis167

Weitere E-Books zum Thema: Informatik - Algorithmen - Softwaresysteme

Softwaretechnik

E-Book Softwaretechnik
Format: PDF

Software-Projekte geraten oft in Schwierigkeiten: Zeit und Budget werden überschritten; das Projekt tritt auf der Stelle; im schlimmsten Fall wird es ohne Ergebnis abgebrochen. Manche…

Softwaretechnik

E-Book Softwaretechnik
Format: PDF

Software-Projekte geraten oft in Schwierigkeiten: Zeit und Budget werden überschritten; das Projekt tritt auf der Stelle; im schlimmsten Fall wird es ohne Ergebnis abgebrochen. Manche…

Softwaretechnik

E-Book Softwaretechnik
Format: PDF

Software-Projekte geraten oft in Schwierigkeiten: Zeit und Budget werden überschritten; das Projekt tritt auf der Stelle; im schlimmsten Fall wird es ohne Ergebnis abgebrochen. Manche…

Software Engineering

E-Book Software Engineering
Architektur-Design und Prozessorientierung Format: PDF

Das Lehrbuch behandelt alle Aspekte der Software-Entwicklung, besonders aber Methoden und Richtlinien zur Herstellung großer und qualitativ hochwertiger Softwareprodukte. Es vermittelt das zur…

Software Engineering

E-Book Software Engineering
Architektur-Design und Prozessorientierung Format: PDF

Das Lehrbuch behandelt alle Aspekte der Software-Entwicklung, besonders aber Methoden und Richtlinien zur Herstellung großer und qualitativ hochwertiger Softwareprodukte. Es vermittelt das zur…

Weitere Zeitschriften

Arzneimittel Zeitung

Arzneimittel Zeitung

Die Arneimittel Zeitung ist die Zeitung für Entscheider und Mitarbeiter in der Pharmabranche. Sie informiert branchenspezifisch über Gesundheits- und Arzneimittelpolitik, über Unternehmen und ...

Atalanta

Atalanta

Atalanta ist die Zeitschrift der Deutschen Forschungszentrale für Schmetterlingswanderung. Im Atalanta-Magazin werden Themen behandelt wie Wanderfalterforschung, Systematik, Taxonomie und Ökologie. ...

Das Grundeigentum

Das Grundeigentum

Das Grundeigentum - Zeitschrift für die gesamte Grundstücks-, Haus- und Wohnungswirtschaft. Für jeden, der sich gründlich und aktuell informieren will. Zu allen Fragen rund um die Immobilie. Mit ...

Deutsche Hockey Zeitung

Deutsche Hockey Zeitung

Informiert über das nationale und internationale Hockey. Die Deutsche Hockeyzeitung ist Ihr kompetenter Partner für Ihren Auftritt im Hockeymarkt. Sie ist die einzige bundesweite Hockeyzeitung ...

DGIP-intern

DGIP-intern

Mitteilungen der Deutschen Gesellschaft für Individualpsychologie e.V. (DGIP) für ihre Mitglieder Die Mitglieder der DGIP erhalten viermal jährlich das Mitteilungsblatt „DGIP-intern“ ...

e-commerce magazin

e-commerce magazin

e-commerce magazin Die Redaktion des e-commerce magazin versteht sich als Mittler zwischen Anbietern und Markt und berichtet unabhängig, kompetent und kritisch über ...

filmdienst#de

filmdienst#de

filmdienst.de führt die Tradition der 1947 gegründeten Zeitschrift FILMDIENST im digitalen Zeitalter fort. Wir begleiten seit 1947 Filme in allen ihren Ausprägungen und Erscheinungsformen.  ...