Sie sind hier

E-Book

Wikipedia als Wissensquelle: Die Online-Enzyklopädie als Basis einer Lernumgebung

Autor	Marcel Minke
Verlag	disserta Verlag
Erscheinungsjahr	2015
Seitenanzahl	186 Seiten
ISBN	9783954251452
Format	PDF
Kopierschutz	Wasserzeichen/DRM
Geräte	PC/MAC/eReader/Tablet
Preis	39,99 EUR

In der heutigen Informationsgesellschaft erweist sich der effiziente Umgang mit dem Produktionsfaktor Wissen als entscheidender Wettbewerbsfaktor. Aufgrund der geringeren Halbwertszeit des Wissens tritt das reine Faktenlernen zunehmend in den Hintergrund und das Lernen von Zusammenhängen gewinnt an Bedeutung. Diese Studie beschreibt einen auf der deutschen Wikipedia basierenden Prototyp, der zum einen zum automatisierten Abfragen von Zusammenhängen genutzt werden kann und zum anderen ein neuartiges didaktisches Konzept zum Lernen von Assoziationen einführt. Zur Definition von Wissensdomänen werden Algorithmen vorgestellt, welche die einem Wikipedia-Artikel zugeordneten Kategorien auf vordefinierte Hauptkategorien aggregieren. Da Daten zu inhaltlichen Zusammenhängen zwischen verschiedenen Wikipedia-Einträgen bisher noch nicht erhoben wurden, stellt diese Arbeit solche Assoziationen anhand der semantischen Ähnlichkeit her. Die im entwickelten Prototyp implementierten Konzepte ermöglichen das spielerische Lernen von Zusammenhängen durch die Bearbeitung zufälliger oder vordefinierter Navigationsaufgaben.

Dr. Marcel Minke, geboren 1980 in Hildesheim, studierte Informationsmanagement und Informationstechnologie mit den Schwerpunkten Datenbanken, Web-Programmierung und Data Mining und schloss sein Studium an der Universität Hildesheim 2006 mit einem Master of Science ab. Seit 2009 Leiter einer IT-Beratungsfirma mit dem Schwerpunkt Online-Befragungen (auf Basis der Open-Source Umfragesoftware 'Limesurvey') arbeitete er berufsbegleitend an seiner Promotion am Institut für Mathematik und Angewandte Informatik der Universität Hildesheim. Die 2012 erfolgreich abgeschlossene Dissertation bildet die Basis dieses Buches, in das die während der Promotion gewonnenen Erkenntnisse rund um die Online-Enzyklopädie 'Wikipedia' einfließen.

Kaufen Sie hier:

Horizontale Tabs

Leseprobe

Textprobe: Kapitel 5.3, Bestimmung von Ähnlichkeiten zwischen Wikipedia-Artikeln: Vor einer Einführung in die genutzten Konzepte zur Ähnlichkeitsbestimmung bei Texten sei zunächst definiert, wie der verwendete Begriff der Ähnlichkeit im gegebenen Kontext zu verstehen ist: Wikipedia-Artikel werden als einander ähnlich klassifiziert, wenn eine signifikante semantische Relation nachweisbar ist. Dabei bedeutet signifikant in diesem Zusammenhang, dass über die Ähnlichkeit von Artikeln nicht binär entschieden werden kann; vielmehr erfolgt die Zuweisung eines Wertes innerhalb eines festen Intervalls, um den Grad der Ähnlichkeit anhand dieses Maßes definieren und später vergleichen zu können. Die o. g. Auslegung orientiert sich eng an der sogenannten Assoziationshypothese, die besagt, dass bei der Erstellung von Texten gedankliche Assoziationen einfließen, die sich in der Verwendung wiederkehrender Begriffe in verschiedenen Texten niederschlagen. Das vermehrte Auftreten bestimmter Wörter in verschiedenen Kontexten wird als Kookkurrenz bezeichnet, die statistisch auf Basis von Worthäufigkeiten nachweisbar ist. Eine solche Häufung mündet in der Schlussfolgerung, dass oft kookkurrierende Worte in einer assoziativen Relation stehen müssen (Giuliano 1964). Die genannte Theorie war Gegenstand vieler Forschungsarbeiten, bis es (Wettler et al. 1993) im Jahr 1993 gelang, sie methodisch zu verifizieren. Eine Übertragung der Assoziationshypothese auf die Artikel der Wikipedia hätte zur Folge, dass die Artikelinhalte über das verwendete Vokabular beschreibbar würden. Mit Ausnahme der den Artikeln zugewiesenen Kategorien (vgl. Kapitel 4.2) existieren in der Wikipedia bisher jedoch keinerlei Verfahren, um den Inhalt eines Artikels anhand bestimmter Schlagwörter zu charakterisieren. Einzig die interne Verlinkung von Artikeln untereinander könnte als eine semantische Relation gedeutet werden, die in vielen Fällen jedoch sehr schwach ausgeprägt ist (vgl. dazu das Beispiel zu 'Willy Brandt' in Kapitel 5.1). (Medelyan et al. 2009) unterzogen die interne Linkstruktur der englischen Wikipedia einer genauen Untersuchung und beschrieben sie als 'hyperlinked structure of web pages, a microcosm of the web' (Medelyan et al. 2009, S. 15). Grundsätzlich bietet die reichhaltige Verlinkung der Inhalte untereinander - im Schnitt besitzt jeder Artikel 25 Links zu anderen Artikeln (Medelyan et al. 2009, S. 7) - vielfältige Zusatz-informationen, doch diese Daten können eher als Basis für Web-Structure-Mining-Methoden genutzt werden, um beispielsweise bedeutendere Artikel anhand der Anzahl der auf sie verweisenden Links von nebensächlichen Einträgen zu differenzieren (für weitere Klassifikationsmethoden siehe auch (Markovitch, Gabrilovich 2006)). Wegen fehlender Möglichkeiten zur Ermittlung eines semantisch ähnlichen Textes zu einem vorgegebenen Ausgangsdokument erweisen sich diese Methoden für die behandelte Problemstellung als ungeeignet. (Strube, Ponzetto 2006) nutzten die Wikipedia lediglich als Vergleichsmaßstab für entwickelte Ähnlichkeitsmaße und betrachteten stets nur einen geringen Ausschnitt des Gesamtdatenbestandes, den sie für ihre Benchmarks heranzogen. (Milne 2007) analysierte die Linkstruktur losgelöst von inhaltlichen Konzepten der Artikel und arbeitet demnach ebenfalls allein auf der strukturellen Ebene des Informationsbestandes. In der wissenschaftlichen Forschung erfolgte die Anwendung von Web Content Mining-Methoden zur Ähnlichkeitsbestimmung zwischen verschiedenen Wikipedia-Artikeln somit bisher nicht in ausreichendem Maße, um sie zur Lösung der bearbeiteten Problemstellung heranziehen zu können. Der Gewinn der angestrebten Erkenntnisse erfordert daher neben der Verwendung spezieller Werkzeuge auch die Entwicklung eines eigenen Verfahrens. 5.4, Vorstellung Findlink-Programm: Zur Bestimmung der Ähnlichkeit zwischen Wikipedia-Artikeln wird im Versuchskontext auf ein Programm namens Findlink zurückgegriffen. Es wurde seinerzeit durch die Firma connex GmbH, Hildesheim, in Kooperation mit dem damaligen Institut für Mathematik der Universität Hildesheim entwickelt. Findlink nutzt verschiedene Mechanismen zur Berechnung der Ähnlichkeit, von denen viele an klassische Werkzeuge des Information Retrieval angelehnt sind. Die einzelnen Konzepte werden im Abschnitt 5.4.1 vorgestellt. Für Simpedia mussten Schnittstellen geschaffen werden, um Daten zwischen Wikipedia, Findlink und eigenen Skripten austauschen zu können. Die Präsentation dieser Schnittstellen sowie die vorgenommenen Erweiterungen der Wikipedia-Datenbank zur Aufnahme eigener Zusatzinformationen erfolgt in Unterkapitel 5.4.2, in dem auch die genaue Einbindung von Findlink in die Problemstellung skizziert wird. Außerdem umfasst dieser Abschnitt eine Einführung in die Konfigurationsparameter von Findlink sowie eine Beschreibung der zur Prozessoptimierung durchgeführten Vorarbeiten.

Blick ins Buch

Inhaltsverzeichnis

Abbildungsverzeichnis	8
Tabellenverzeichnis	10
1 Einleitung	11
2 Einführung und Forschungsaufbau	15
2.1 Problem der Informationsflut	15
2.2 Ökonomische Betrachtung	16
2.3 Definition Wissen/Wissensmanagement	18
2.4 Einordnung in den Forschungszusammenhang	21
2.5 Forschungsaufbau	23
3 Die freie Enzyklopädie Wikipedia	27
3.1 Entwicklung und Organisationsstruktur	28
3.2 Schwesterprojekte	33
3.3 Kollaborative Wissensgenerierung – Analyse eines revolutionären Konzeptes	40
3.4 Wikipediaforschung	47
3.5 Technischer Aufbau und Konfiguration der Testumgebung	56
4 Ableitung von Kategorien zur Abbildung von Wissensdomänen	61
4.1 Zielsetzung	61
4.2 Das Kategoriesystem in Wikipedia	62
4.3 Forschungsgebiet Kategorisierung	64
4.4 Implementierung des eigenen Algorithmus	69
4.5 Ergebnisse	80
5 Berechnung der Ähnlichkeit zwischen Artikeln	85
5.1 Zielsetzung	86
5.2 Forschungsgebiet Ähnlichkeitsbestimmung	87
5.3 Bestimmung von Ähnlichkeiten zwischen Wikipedia-Artikeln	89
5.4 Vorstellung Findlink-Programm	90
5.5 Notwendige Vorarbeiten vor Ähnlichkeitsberechnung	94
6 Konstellationen Versuchsaufbau	101
6.1 Beeinflussbare Versuchsparameter	102
6.2 Versuch 1: Einbeziehung aller Daten	103
6.3 Versuch 2: Reduktion der Textmenge	104
6.4 Versuch 3: Einfluss „MAX_HITS“ Parameter	106
6.5 Exkurs 1: Identifikation wichtiger Artikel	107
6.6 Versuch 4: Einführung Gütemaß „Wertung“	111
6.7 Versuch 5: Eliminierung von Datumsangaben	113
6.8 Exkurs 2: Ansätze zum Aufbrechen der Netzstruktur	114
6.9 Versuch 6: Filterung häufiger Substantive	116
6.10 Versuch 7: Einbeziehung themenfremder Artikel	120
6.11 Versuch 8: Kombination der Konfigurationsdateien	122
6.12 Zusammenfassung	124
7 Aufbau und Benutzeroberfläche des Prototyps	127
7.1 Anbindung des Prototyps an die Mediawiki-Software	128
7.2 Sentrax-Engine als Alternative zum Prototyp	138
7.3 Zusammenfassung	151
8 Zusammenfassung und Ausblick	155
8.1 Ergebnisse	155
8.2 Ansätze zur Weiterentwicklung	160
9 Anhang	165
9.1 Zu Kapitel 3.1.1: Wikipedia in Zahlen	165
10 Literaturverzeichnis	167

Weitere E-Books zum Thema: Informatik - Algorithmen - Softwaresysteme

Einführung in die Informatik für Naturwissenschaftler und Ingenieure

Format: PDF

Grundlagenwissen im Bereich Informatik Es gibt kaum ein technisches oder naturwissenschaftliches Problem, das nicht von der Informatik beeinflusst wird. Deshalb gehören die Grundlagen der…

Einführung in die Informatik für Naturwissenschaftler und Ingenieure

Format: PDF

Grundlagenwissen im Bereich Informatik Es gibt kaum ein technisches oder naturwissenschaftliches Problem, das nicht von der Informatik beeinflusst wird. Deshalb gehören die Grundlagen der…

Einführung in die Informatik für Naturwissenschaftler und Ingenieure

Format: PDF

Grundlagenwissen im Bereich Informatik Es gibt kaum ein technisches oder naturwissenschaftliches Problem, das nicht von der Informatik beeinflusst wird. Deshalb gehören die Grundlagen der…

Softwaretechnik

Format: PDF

Software-Projekte geraten oft in Schwierigkeiten: Zeit und Budget werden überschritten; das Projekt tritt auf der Stelle; im schlimmsten Fall wird es ohne Ergebnis abgebrochen. Manche…

Softwaretechnik

Format: PDF

Software-Projekte geraten oft in Schwierigkeiten: Zeit und Budget werden überschritten; das Projekt tritt auf der Stelle; im schlimmsten Fall wird es ohne Ergebnis abgebrochen. Manche…

Softwaretechnik

Format: PDF

Software-Projekte geraten oft in Schwierigkeiten: Zeit und Budget werden überschritten; das Projekt tritt auf der Stelle; im schlimmsten Fall wird es ohne Ergebnis abgebrochen. Manche…

Software Engineering

Architektur-Design und Prozessorientierung Format: PDF

Das Lehrbuch behandelt alle Aspekte der Software-Entwicklung, besonders aber Methoden und Richtlinien zur Herstellung großer und qualitativ hochwertiger Softwareprodukte. Es vermittelt das zur…

Software Engineering

Architektur-Design und Prozessorientierung Format: PDF

Das Lehrbuch behandelt alle Aspekte der Software-Entwicklung, besonders aber Methoden und Richtlinien zur Herstellung großer und qualitativ hochwertiger Softwareprodukte. Es vermittelt das zur…

Corporate Performance Management mit Business Intelligence Werkzeugen

Format: PDF

Vertrauen ist gut - Corporate Performance Management ist besser - Management- und Technologieaspekte werden gemeinsam und verständlich dargestellt - Zahlreiche Praxisbeispiele aus der…

Corporate Performance Management mit Business Intelligence Werkzeugen

Format: PDF

Vertrauen ist gut - Corporate Performance Management ist besser - Management- und Technologieaspekte werden gemeinsam und verständlich dargestellt - Zahlreiche Praxisbeispiele aus der…

Weitere Zeitschriften

Altenheim - Lösungen fürs Management

Altenheim ist die Fachzeitschrift für Träger, Heimleitungen und leitende Mitarbeiter/innen der teilstationären und stationären Altenhilfe. Hier erfahren Sie, wie Sie Ihre Einrichtung zu ...

artist window: art to buy magazin und internetgalerie

Das artist window stellt Künstler bzw. deren Werke vor und gibt somit einen Einblick in die Ateliers und Werkstätten der Kunstschaffenden. Das besondere am artist window ist, dass die ...

Berufsstart Bewerbung

»Berufsstart Bewerbung« erscheint jährlich zum Wintersemester im November mit einer Auflage von 50.000 Exemplaren und ermöglicht Unternehmen sich bei Studenten und Absolventen mit einer ...

Blätter für deutsche Landesgeschichte

Einzelbeiträge und Sammelrezensionen zur vergleichenden Landesgeschichte. Im Gesamtverein der deutschen Geschichts- und Altertumsvereine haben sich die deutschen Geschichtsvereine, die Historischen ...

Branchenbrief international - Spielzeugbranche aktuell

Informationsdienst für die Spielwarenbranche Seit 1980 ist der „BRANCHENBRIEF INTERNATIONAL - Spielzeugbranche aktuell" der Informationsdienst der Spielwarenbranche, bekannt unter dem Kürzel ...

DER PRAKTIKER

Technische Fachzeitschrift aus der Praxis für die Praxis in allen Bereichen des Handwerks und der Industrie. “der praktiker“ ist die Fachzeitschrift für alle Bereiche der fügetechnischen ...

SPORT in BW (Württemberg)

SPORT in BW (Württemberg) ist das offizielle Verbandsorgan des Württembergischen Landessportbund e.V. (WLSB) und Informationsmagazin für alle im Sport organisierten Mitglieder in Württemberg. ...

Deutsche Hockey Zeitung

Informiert über das nationale und internationale Hockey. Die Deutsche Hockeyzeitung ist Ihr kompetenter Partner für Ihren Auftritt im Hockeymarkt. Sie ist die einzige bundesweite Hockeyzeitung ...

DGIP-intern

Mitteilungen der Deutschen Gesellschaft für Individualpsychologie e.V. (DGIP) für ihre Mitglieder Die Mitglieder der DGIP erhalten viermal jährlich das Mitteilungsblatt „DGIP-intern“ ...

building & automation

Das Fachmagazin building & automation bietet dem Elektrohandwerker und Elektroplaner eine umfassende Übersicht über alle Produktneuheiten aus der Gebäudeautomation, der Installationstechnik, dem ...