Sie sind hier
E-Book

Automatische Indexierung von Dokumenten in einer wissenschaftlichen Bibliothek

Implementierung und Evaluierung am Beispiel der Deutschen Zentralbibliothek für Wirtschaftswissenschaften

AutorThomas Groß
VerlagDiplomica Verlag GmbH
Erscheinungsjahr2011
Seitenanzahl97 Seiten
ISBN9783842808010
FormatPDF/ePUB
Kopierschutzkein Kopierschutz/DRM
GerätePC/MAC/eReader/Tablet
Preis34,99 EUR
Die Bewertung der Indexierungsqualität bzw. -güte ist ein grundlegendes Problem von intellektuellen und automatischen Indexierungsverfahren. Letztere werden aber gerade im digitalen Zeitalter als einzige Möglichkeit angesehen, den zunehmenden Schwierigkeiten bibliothekarischer Informationsstrukturierung gerecht zu werden. Diese Studie befasst sich mit der Funktionsweise, Implementierung und Evaluierung der Sacherschließungssoftware MindServer Categorizer der Firma Recommind an der Deutschen Zentralbibliothek für Wirtschaftswissenschaften. Grundlage der maschinellen Sacherschließung und anschließenden quantitativen und qualitativen Auswertung bilden rund 39.000 wirtschaftswissenschaftliche Dokumente aus den Datenbanken Econis und EconStor. Unter Zuhilfenahme des rund 6.000 Schlagwörter umfassenden Standard-Thesaurus Wirtschaft wird der ursprünglich rein statistische Indexierungsansatz des MindServer Categorizer zu einem begriffsorientierten Verfahren weiterentwickelt und zur Inhaltserschließung digitaler Informationsressourcen eingesetzt. Der zentrale Fokus dieser Studie liegt vor allem auf der Evaluierung der maschinell beschlagworteten Titel, in Anlehnung an die hierzu von Stock und Lancaster vorgeschlagenen Kriterien: Indexierungskonsistenz, -tiefe, -breite, -spezifität, -effektivität. Weiterhin wird die Belegungsbilanz des STW evaluiert und es erfolgt zusätzlich eine qualitative, stichprobenartige Bewertung der Ergebnisse seitens der zuständigen Fachreferenten und -referentinnen.Thomas Groß, Jahrgang 1980, studierte von 2001 bis 2006 Politikwissenschaft auf Diplom mit den Nebenfächern Volkswirtschaftslehre und Rechtswissenschaft, zuerst an der Universität Leipzig, später an der Freien Universität Berlin. Seit 2007 ist er Fachreferent an der Deutschen Zentralbibliothek für Wirtschaftswissenschaften in Kiel. Von 2008-2010 absolvierte der Autor berufsbegleitend ein Masterstudium der Bibliotheks- und Informationswissenschaft an der Humboldt-Universität zu Berlin.

Kaufen Sie hier:

Horizontale Tabs

Leseprobe
Textprobe: Kapitel 3.1, Der MindServer als statistisches Verfahren: Automatische Indexierungsverfahren können in vier Kategorien eingeteilt werden. Statistische Verfahren (1. Kategorie) bestimmen die Häufigkeit von Wörtern bzw. Termen in einem Text und weisen den signifikanten, weil in der ermittelten Häufigkeitsliste oben stehenden Wörtern eine sinntragende Bedeutung für den Dokumenteninhalt zu. Die informationslinguistischen (bzw. computerlinguistischen) Verfahren (2. Kategorie) fokussieren demgegenüber auf die Sprach- und Schriftsystemerkennung von Texten. Diese Verfahren gehen deshalb folgendermaßen vor, um die sprachliche Ebene des Dokumentes zu analysieren Entfernung nicht sinntragender Wörter, Rückführung der Flexionsform eines Wortes auf seine Grund- oder Stammform, Erkennung zusammengehöriger Wortterme und Pronomina sowie Kompositazerlegung. Informationslinguistische Verfahren können wiederum unterteilt werden in regelbasierte und wörterbuchbezogene Ansätze, die sich aber auch miteinander kombinieren lassen. Pattern-Matching- bzw. Mustererkennungsverfahren (3. Kategorie) bestimmen auf Basis vorher trainierter Muster die in Dokumenten entsprechend relevanten/sinntragenden Wortgruppen. Begriffsorientierte (oder additive) Verfahren (4. Kategorie) abstrahieren vom Dokumenteninhalt auf die Bedeutung des Textes und weisen diesem dann eine oder mehrere Kategorien (Deskriptoren oder Notationen) aus einem kontrollierten Vokabular zu. Letzteres Verfahren beinhaltet auch ordnungstheoretische Aspekte, gilt es doch, die Vorlage in ein ontologisches Begriffssystem - hierzu zählen domänenspezifische Konzepträume - einzuordnen. Zudem weist Luckhardt darauf hin, dass ein Additionsverfahren, wie es in dieser Arbeit zur Anwendung kommt, generell zu einer geringeren Indexierungskonsistenz führt als eingesetzte Extraktionsverfahren. Die in der ZBW zur automatischen Indexierung eingesetzte MindServer-Software bedient sich der PLSA (Probabilistic Latent Semantic Analysis). Dahinter verbirgt sich eine Maschinenlerntechnik, mit deren Hilfe in einer vorhandenen Dokumentensammlung relevante Konzepte oder Themen automatisch identifiziert und entsprechend strukturiert werden. Die Analyse der sinntragenden Teile eines Dokumentes erfolgt hierbei über ein konsequent statistisches Verfahren, das 'im Gegensatz zu linguistischen Ansätzen ein Kategorieverständnis über das gemeinsame Auftreten von Worten erlangt. Im Kategorisierungsfall werden dem System Kategorien/Taxonomien vorgegeben, die zur Verschlagwortung herangezogen werden sollen. Für jede der Kategorien werden dann Trainingsdokumente, die bereits kategorisiert sind, in das Softwaresystem eingespeist. Über diese vorkategorisierten Trainingsdokumente ist das System in der Lage, eine Konfiguration für jede Kategorie zu extrahieren, die es dem System ermöglicht, Dokumente unter Angabe der Konfidenz in die Kategorien einzusortieren'. Der PLSA-Algorithmus benötigt für diese eben beschriebene Kategorisierung generell keinen Input in Form von Lexika, Klassifikationen, Thesauri oder Ontologien. Die Software stellt ein lernendes System dar, welches Informationsstrukturen aus einer Gesamtdokumentenanzahl abstrahiert und Lernmuster generiert. Dies geschieht mit Hilfe eines statistischen Verfahrens und mündet in einer quantitativen und zugleich qualitativen Beschreibung aller Dokumente. Die semantische Verknüpfung von Worttermen oder Inhaltsaspekten erfolgt über die statistische Ermittlung von Häufigkeiten. Diese Vorgehensweise ermöglicht eine sprach- und fachspezifisch unabhängige Analyse der vorliegenden Texte. Zudem ermöglicht dieser Ansatz, latent im Dokument enthaltene Inhalte durch den Abgleich mit der Gesamtdokumentenzahl zu erkennen, die ein manueller Indexierer durch seinen eingeschränkten Blickwinkel normalerweise nicht erkennen kann. Die generelle Lernfähigkeit der eingesetzten Indexierungssoftware wird durch deren Einsatz im Rahmen eines semi-automatischen Verfahrens noch erhöht. Mit Hilfe dieses Verfahrens können durch die FachreferentInnen Indexierungsfehler ausgebessert und Wortkombinationen, eine Schwachstelle vieler maschineller Verfahren, dem System als Regeldefinition vorgegeben werden, um die Kontexterkennung zu verbessern. Dadurch werden nicht nur statistisch häufige Muster erkannt, sondern darüber hinaus durch die Trainingsdokumente auch Gesetzmäßigkeiten konstruiert, die bei der Erschließung von neuen Dokumenten ('unseen documents') Berücksichtigung finden. Die in der ZBW momentan vorgenommene Implementierung einer semi-automatischen Indexierung läuft folgendermaßen ab. Zuerst wird ein Trainingsset benötigt, auf dessen Basis die Indexierungssoftware die Vergabe der einzelnen Kategorien/Schlagwörter auf Grundlage des manuellen Indexierungsverhaltens trainieren kann. In der Regel braucht das System eine ausreichende Anzahl an Dokumenten pro Kategorie (mindestens 50 Titel), um diese eindeutig zuzuordnen. Hierbei extrahiert das System nicht nur einzelne, häufig vorkommende Stichworte, sondern Wortmuster, die wiederum für die Entscheidung bezüglich einer Kategoriezuordnung genutzt werden. Dieser Lernvorgang wird mit Hilfe des sog. Taxonomie-Browsers durchgeführt. Auf dieser Erfahrungsbasis können jetzt neue Dokumente dem System im Rahmen des alltäglichen Geschäftsprozesses zur Verschlagwortung zur Verfügung gestellt werden. Neue Dokumente stellen damit das jeweilige Testset dar, welches unter Zuhilfenahme des Annotationstoolskategorisiert wird. Diese Kategorien bzw. Deskriptoren können nun vom menschlichen Indexierer angenommen, geändert oder abgelehnt werden. Das dann vollendet erschlossene Testdokument wird im Anschluss an diesen Arbeitsvorgang publiziert, d. h. durch den Fachreferenten als fertig bearbeiteter Titel angesehen. Gleichzeitig dient dieses Testdokument wiederum als Verbreiterung der Lernbasis innerhalb des Trainingssets. Damit wird erreicht, dass nicht nur die Oberbegriffe innerhalb einer vorgegebenen Thesaurusstruktur ausreichend trainiert werden, sondern auch die entsprechenden Unterbegriffe. Neben dem Taxonomie-Browser und dem Annotationstool steht das Administrationstool zur Verwaltung der eingespielten und wieder auszuwerfenden Daten zur Verfügung. Während die eingesetzte Indexierungssoftware MindServer auf der Basis von PLSA bei der Kategorisierung von Dokumenten grundsätzlich ohne manuellen Input, d. h. irgendeine Form von vorgegebenen Kategorien, auskommt, weil es auf Basis der vorliegenden Dokumenteninhalte lernt, erfolgt im Rahmen ihres Einsatzes an der ZBW nunmehr eine qualitative, weil semantische Erweiterung des ursprünglich rein statistischen Ansatzes. Die Ergebnisse der statistischen Textanalyse werden anschließend mit entsprechenden Thesaurusbegriffen abgebildet. Dadurch erfolgt eine Zuordnung in einen domänenspezifischen Konzeptraum, in diesem Falle die Volks- und Betriebswirtschaftslehre. Durch diese Verbindung erfährt das ursprünglich rein statistische Verfahren eine Erweiterung hin zu einem begriffsorientierten Verfahren. Diese Art automatischer Sacherschließung ermöglicht eine 'sprachunabhängige, auf Bedeutung abhebende Analyse', weil sie inhalts- und nicht stichwortbezogen funktioniert. Aus diesen Gründen kann das Verfahren, das dieser Arbeit zugrunde liegt, gleichfalls in den Bereich der Additionsverfahren subsumiert werden, denn es erfolgt keine reine Wortextraktion aus einem Text, sondern diese Extraktion wird mit einem informatorischen Mehrwert versehen. Gerade in Bezug auf die Informationsstrukturierung im Semantic-Web-Kontext, die vor allem auf die Bedeutungsebene von Informationen und dessen Kontextualisierungsfunktion bei der Wissensgenerierung abzielt, wird sich im weiteren Verlauf dieser Arbeit zeigen, ob das anzuwendende und zu evaluierende Verfahren geeignet ist, dies zu gewährleisten. Grundsätzlich kommen begriffsorientierte Ansätze dem Verhalten eines menschlichen Indexierers näher als statistische oder informationslinguistische Verfahren. Die Imitation eines manuellen Arbeitsprozesses wird aber auch mit diesem Verfahren nicht vollständig gelingen, denn es wird zunächst mit statistischen Methoden und damit 'letztlich wiederum über die Sprachoberfläche auf Bedeutungen geschlossen'. Trotzdem kann über die Messung der Indexierungskonsistenz dieser Abbildungsvorgang, bei dem Inhalte über zugewiesene Deskriptoren beschrieben werden, gemessen und entsprechend bewertet werden.
Blick ins Buch
Inhaltsverzeichnis
Zusammenfassung3
Inhaltsverzeichnis5
Abbildungsverzeichnis6
Tabellenverzeichnis7
Abkürzungsverzeichnis8
1 Einleitung9
2 Forschungsstand18
2.1 Überblicks- und theoretische Arbeiten18
2.2 Evaluierungsverfahren I: Retrievaltests21
2.3 Evaluierungsverfahren II: Indexierungskonsistenz23
2.3.1 Manuelle Sacherschließung24
2.3.2 Manuelle vs. automatische Sacherschließung28
2.4 Evaluierungsverfahren III: Sonstige30
2.5 Evaluierung des MindServers31
3 Methode, Daten, Messverfahren33
3.1 Der MindServer als statistisches Verfahren33
3.2 Datenlage und Stichprobenumfang37
3.3 Zum Messverfahren: Die Evaluierung der Indexierungsqualität38
4 Ergebnisse44
4.1 Indexierungskonsistenz44
4.2 Indexierungstiefe47
4.2.1 Indexierungsbreite48
4.2.2 Indexierungsspezifität53
4.3 Indexierungseffektivität55
4.4 Belegungsbilanz58
4.5 Referentenauswertung61
5 Fazit66
Literaturverzeichnis73
Anhang79

Weitere E-Books zum Thema: Software - Betriebssysteme - Anwenderprogramme

Softwaretechnik

E-Book Softwaretechnik
Format: PDF

Software-Projekte geraten oft in Schwierigkeiten: Zeit und Budget werden überschritten; das Projekt tritt auf der Stelle; im schlimmsten Fall wird es ohne Ergebnis abgebrochen. Manche…

Softwaretechnik

E-Book Softwaretechnik
Format: PDF

Software-Projekte geraten oft in Schwierigkeiten: Zeit und Budget werden überschritten; das Projekt tritt auf der Stelle; im schlimmsten Fall wird es ohne Ergebnis abgebrochen. Manche…

Softwaretechnik

E-Book Softwaretechnik
Format: PDF

Software-Projekte geraten oft in Schwierigkeiten: Zeit und Budget werden überschritten; das Projekt tritt auf der Stelle; im schlimmsten Fall wird es ohne Ergebnis abgebrochen. Manche…

Statistische Grafiken mit Excel

E-Book Statistische Grafiken mit Excel
Format: PDF

Die grafische Veranschaulichung von Sachverhalten oder Entwicklungsverläufen spielt in allen empirisch orientierten Bereichen eine besondere Rolle. Empirische Informationen grafisch aufzubereiten,…

Statistische Grafiken mit Excel

E-Book Statistische Grafiken mit Excel
Format: PDF

Die grafische Veranschaulichung von Sachverhalten oder Entwicklungsverläufen spielt in allen empirisch orientierten Bereichen eine besondere Rolle. Empirische Informationen grafisch aufzubereiten,…

Computergrafik und OpenGL

E-Book Computergrafik und OpenGL
Format: PDF

Das Lehrbuch stellt die theoretischen Grundlagen zu den wichtigsten Themenbereichen der Computergrafik, wie Rastergrafik, Modellierung, Transformation, Projektion, Clipping, Sichtbarkeit, Farbe und…

Computergrafik und OpenGL

E-Book Computergrafik und OpenGL
Format: PDF

Das Lehrbuch stellt die theoretischen Grundlagen zu den wichtigsten Themenbereichen der Computergrafik, wie Rastergrafik, Modellierung, Transformation, Projektion, Clipping, Sichtbarkeit, Farbe und…

Computergrafik und OpenGL

E-Book Computergrafik und OpenGL
Format: PDF

Das Lehrbuch stellt die theoretischen Grundlagen zu den wichtigsten Themenbereichen der Computergrafik, wie Rastergrafik, Modellierung, Transformation, Projektion, Clipping, Sichtbarkeit, Farbe und…

Citrix Presentation Server

E-Book Citrix Presentation Server
Format: PDF

Der Citrix MetaFrame Presentation Server ist unangefochtener Marktführer unter den Terminalservern für Windows-Systeme. Unternehmen setzen ihn ein, um die Systemverwaltung von Windows-Netzwerken…

Citrix Presentation Server

E-Book Citrix Presentation Server
Format: PDF

Der Citrix MetaFrame Presentation Server ist unangefochtener Marktführer unter den Terminalservern für Windows-Systeme. Unternehmen setzen ihn ein, um die Systemverwaltung von Windows-Netzwerken…

Weitere Zeitschriften

Ärzte Zeitung

Ärzte Zeitung

Zielgruppe:  Niedergelassene Allgemeinmediziner, Praktiker und Internisten. Charakteristik:  Die Ärzte Zeitung liefert 3 x pro Woche bundesweit an niedergelassene Mediziner ...

Berufsstart Bewerbung

Berufsstart Bewerbung

»Berufsstart Bewerbung« erscheint jährlich zum Wintersemester im November mit einer Auflage von 50.000 Exemplaren und ermöglicht Unternehmen sich bei Studenten und Absolventen mit einer ...

Courier

Courier

The Bayer CropScience Magazine for Modern AgriculturePflanzenschutzmagazin für den Landwirt, landwirtschaftlichen Berater, Händler und generell am Thema Interessierten, mit umfassender ...

Gastronomie Report

Gastronomie Report

News & Infos für die Gastronomie: Tipps, Trends und Ideen, Produkte aus aller Welt, Innovative Konzepte, Küchentechnik der Zukunft, Service mit Zusatznutzen und vieles mehr. Frech, offensiv, ...

SPORT in BW (Württemberg)

SPORT in BW (Württemberg)

SPORT in BW (Württemberg) ist das offizielle Verbandsorgan des Württembergischen Landessportbund e.V. (WLSB) und Informationsmagazin für alle im Sport organisierten Mitglieder in Württemberg. ...

DGIP-intern

DGIP-intern

Mitteilungen der Deutschen Gesellschaft für Individualpsychologie e.V. (DGIP) für ihre Mitglieder Die Mitglieder der DGIP erhalten viermal jährlich das Mitteilungsblatt „DGIP-intern“ ...

Die Versicherungspraxis

Die Versicherungspraxis

Behandlung versicherungsrelevanter Themen. Erfahren Sie mehr über den DVS. Der DVS Deutscher Versicherungs-Schutzverband e.V, Bonn, ist der Interessenvertreter der versicherungsnehmenden Wirtschaft. ...