Sie sind hier

E-Book

Automatische Indexierung von Dokumenten in einer wissenschaftlichen Bibliothek

Implementierung und Evaluierung am Beispiel der Deutschen Zentralbibliothek für Wirtschaftswissenschaften

Autor	Thomas Groß
Verlag	Diplomica Verlag GmbH
Erscheinungsjahr	2011
Seitenanzahl	97 Seiten
ISBN	9783842808010
Format	PDF/ePUB
Kopierschutz	kein Kopierschutz/DRM
Geräte	PC/MAC/eReader/Tablet
Preis	34,99 EUR

Die Bewertung der Indexierungsqualität bzw. -güte ist ein grundlegendes Problem von intellektuellen und automatischen Indexierungsverfahren. Letztere werden aber gerade im digitalen Zeitalter als einzige Möglichkeit angesehen, den zunehmenden Schwierigkeiten bibliothekarischer Informationsstrukturierung gerecht zu werden. Diese Studie befasst sich mit der Funktionsweise, Implementierung und Evaluierung der Sacherschließungssoftware MindServer Categorizer der Firma Recommind an der Deutschen Zentralbibliothek für Wirtschaftswissenschaften. Grundlage der maschinellen Sacherschließung und anschließenden quantitativen und qualitativen Auswertung bilden rund 39.000 wirtschaftswissenschaftliche Dokumente aus den Datenbanken Econis und EconStor. Unter Zuhilfenahme des rund 6.000 Schlagwörter umfassenden Standard-Thesaurus Wirtschaft wird der ursprünglich rein statistische Indexierungsansatz des MindServer Categorizer zu einem begriffsorientierten Verfahren weiterentwickelt und zur Inhaltserschließung digitaler Informationsressourcen eingesetzt. Der zentrale Fokus dieser Studie liegt vor allem auf der Evaluierung der maschinell beschlagworteten Titel, in Anlehnung an die hierzu von Stock und Lancaster vorgeschlagenen Kriterien: Indexierungskonsistenz, -tiefe, -breite, -spezifität, -effektivität. Weiterhin wird die Belegungsbilanz des STW evaluiert und es erfolgt zusätzlich eine qualitative, stichprobenartige Bewertung der Ergebnisse seitens der zuständigen Fachreferenten und -referentinnen.Thomas Groß, Jahrgang 1980, studierte von 2001 bis 2006 Politikwissenschaft auf Diplom mit den Nebenfächern Volkswirtschaftslehre und Rechtswissenschaft, zuerst an der Universität Leipzig, später an der Freien Universität Berlin. Seit 2007 ist er Fachreferent an der Deutschen Zentralbibliothek für Wirtschaftswissenschaften in Kiel. Von 2008-2010 absolvierte der Autor berufsbegleitend ein Masterstudium der Bibliotheks- und Informationswissenschaft an der Humboldt-Universität zu Berlin.

Kaufen Sie hier:

Horizontale Tabs

Leseprobe

Textprobe: Kapitel 3.1, Der MindServer als statistisches Verfahren: Automatische Indexierungsverfahren können in vier Kategorien eingeteilt werden. Statistische Verfahren (1. Kategorie) bestimmen die Häufigkeit von Wörtern bzw. Termen in einem Text und weisen den signifikanten, weil in der ermittelten Häufigkeitsliste oben stehenden Wörtern eine sinntragende Bedeutung für den Dokumenteninhalt zu. Die informationslinguistischen (bzw. computerlinguistischen) Verfahren (2. Kategorie) fokussieren demgegenüber auf die Sprach- und Schriftsystemerkennung von Texten. Diese Verfahren gehen deshalb folgendermaßen vor, um die sprachliche Ebene des Dokumentes zu analysieren Entfernung nicht sinntragender Wörter, Rückführung der Flexionsform eines Wortes auf seine Grund- oder Stammform, Erkennung zusammengehöriger Wortterme und Pronomina sowie Kompositazerlegung. Informationslinguistische Verfahren können wiederum unterteilt werden in regelbasierte und wörterbuchbezogene Ansätze, die sich aber auch miteinander kombinieren lassen. Pattern-Matching- bzw. Mustererkennungsverfahren (3. Kategorie) bestimmen auf Basis vorher trainierter Muster die in Dokumenten entsprechend relevanten/sinntragenden Wortgruppen. Begriffsorientierte (oder additive) Verfahren (4. Kategorie) abstrahieren vom Dokumenteninhalt auf die Bedeutung des Textes und weisen diesem dann eine oder mehrere Kategorien (Deskriptoren oder Notationen) aus einem kontrollierten Vokabular zu. Letzteres Verfahren beinhaltet auch ordnungstheoretische Aspekte, gilt es doch, die Vorlage in ein ontologisches Begriffssystem - hierzu zählen domänenspezifische Konzepträume - einzuordnen. Zudem weist Luckhardt darauf hin, dass ein Additionsverfahren, wie es in dieser Arbeit zur Anwendung kommt, generell zu einer geringeren Indexierungskonsistenz führt als eingesetzte Extraktionsverfahren. Die in der ZBW zur automatischen Indexierung eingesetzte MindServer-Software bedient sich der PLSA (Probabilistic Latent Semantic Analysis). Dahinter verbirgt sich eine Maschinenlerntechnik, mit deren Hilfe in einer vorhandenen Dokumentensammlung relevante Konzepte oder Themen automatisch identifiziert und entsprechend strukturiert werden. Die Analyse der sinntragenden Teile eines Dokumentes erfolgt hierbei über ein konsequent statistisches Verfahren, das 'im Gegensatz zu linguistischen Ansätzen ein Kategorieverständnis über das gemeinsame Auftreten von Worten erlangt. Im Kategorisierungsfall werden dem System Kategorien/Taxonomien vorgegeben, die zur Verschlagwortung herangezogen werden sollen. Für jede der Kategorien werden dann Trainingsdokumente, die bereits kategorisiert sind, in das Softwaresystem eingespeist. Über diese vorkategorisierten Trainingsdokumente ist das System in der Lage, eine Konfiguration für jede Kategorie zu extrahieren, die es dem System ermöglicht, Dokumente unter Angabe der Konfidenz in die Kategorien einzusortieren'. Der PLSA-Algorithmus benötigt für diese eben beschriebene Kategorisierung generell keinen Input in Form von Lexika, Klassifikationen, Thesauri oder Ontologien. Die Software stellt ein lernendes System dar, welches Informationsstrukturen aus einer Gesamtdokumentenanzahl abstrahiert und Lernmuster generiert. Dies geschieht mit Hilfe eines statistischen Verfahrens und mündet in einer quantitativen und zugleich qualitativen Beschreibung aller Dokumente. Die semantische Verknüpfung von Worttermen oder Inhaltsaspekten erfolgt über die statistische Ermittlung von Häufigkeiten. Diese Vorgehensweise ermöglicht eine sprach- und fachspezifisch unabhängige Analyse der vorliegenden Texte. Zudem ermöglicht dieser Ansatz, latent im Dokument enthaltene Inhalte durch den Abgleich mit der Gesamtdokumentenzahl zu erkennen, die ein manueller Indexierer durch seinen eingeschränkten Blickwinkel normalerweise nicht erkennen kann. Die generelle Lernfähigkeit der eingesetzten Indexierungssoftware wird durch deren Einsatz im Rahmen eines semi-automatischen Verfahrens noch erhöht. Mit Hilfe dieses Verfahrens können durch die FachreferentInnen Indexierungsfehler ausgebessert und Wortkombinationen, eine Schwachstelle vieler maschineller Verfahren, dem System als Regeldefinition vorgegeben werden, um die Kontexterkennung zu verbessern. Dadurch werden nicht nur statistisch häufige Muster erkannt, sondern darüber hinaus durch die Trainingsdokumente auch Gesetzmäßigkeiten konstruiert, die bei der Erschließung von neuen Dokumenten ('unseen documents') Berücksichtigung finden. Die in der ZBW momentan vorgenommene Implementierung einer semi-automatischen Indexierung läuft folgendermaßen ab. Zuerst wird ein Trainingsset benötigt, auf dessen Basis die Indexierungssoftware die Vergabe der einzelnen Kategorien/Schlagwörter auf Grundlage des manuellen Indexierungsverhaltens trainieren kann. In der Regel braucht das System eine ausreichende Anzahl an Dokumenten pro Kategorie (mindestens 50 Titel), um diese eindeutig zuzuordnen. Hierbei extrahiert das System nicht nur einzelne, häufig vorkommende Stichworte, sondern Wortmuster, die wiederum für die Entscheidung bezüglich einer Kategoriezuordnung genutzt werden. Dieser Lernvorgang wird mit Hilfe des sog. Taxonomie-Browsers durchgeführt. Auf dieser Erfahrungsbasis können jetzt neue Dokumente dem System im Rahmen des alltäglichen Geschäftsprozesses zur Verschlagwortung zur Verfügung gestellt werden. Neue Dokumente stellen damit das jeweilige Testset dar, welches unter Zuhilfenahme des Annotationstoolskategorisiert wird. Diese Kategorien bzw. Deskriptoren können nun vom menschlichen Indexierer angenommen, geändert oder abgelehnt werden. Das dann vollendet erschlossene Testdokument wird im Anschluss an diesen Arbeitsvorgang publiziert, d. h. durch den Fachreferenten als fertig bearbeiteter Titel angesehen. Gleichzeitig dient dieses Testdokument wiederum als Verbreiterung der Lernbasis innerhalb des Trainingssets. Damit wird erreicht, dass nicht nur die Oberbegriffe innerhalb einer vorgegebenen Thesaurusstruktur ausreichend trainiert werden, sondern auch die entsprechenden Unterbegriffe. Neben dem Taxonomie-Browser und dem Annotationstool steht das Administrationstool zur Verwaltung der eingespielten und wieder auszuwerfenden Daten zur Verfügung. Während die eingesetzte Indexierungssoftware MindServer auf der Basis von PLSA bei der Kategorisierung von Dokumenten grundsätzlich ohne manuellen Input, d. h. irgendeine Form von vorgegebenen Kategorien, auskommt, weil es auf Basis der vorliegenden Dokumenteninhalte lernt, erfolgt im Rahmen ihres Einsatzes an der ZBW nunmehr eine qualitative, weil semantische Erweiterung des ursprünglich rein statistischen Ansatzes. Die Ergebnisse der statistischen Textanalyse werden anschließend mit entsprechenden Thesaurusbegriffen abgebildet. Dadurch erfolgt eine Zuordnung in einen domänenspezifischen Konzeptraum, in diesem Falle die Volks- und Betriebswirtschaftslehre. Durch diese Verbindung erfährt das ursprünglich rein statistische Verfahren eine Erweiterung hin zu einem begriffsorientierten Verfahren. Diese Art automatischer Sacherschließung ermöglicht eine 'sprachunabhängige, auf Bedeutung abhebende Analyse', weil sie inhalts- und nicht stichwortbezogen funktioniert. Aus diesen Gründen kann das Verfahren, das dieser Arbeit zugrunde liegt, gleichfalls in den Bereich der Additionsverfahren subsumiert werden, denn es erfolgt keine reine Wortextraktion aus einem Text, sondern diese Extraktion wird mit einem informatorischen Mehrwert versehen. Gerade in Bezug auf die Informationsstrukturierung im Semantic-Web-Kontext, die vor allem auf die Bedeutungsebene von Informationen und dessen Kontextualisierungsfunktion bei der Wissensgenerierung abzielt, wird sich im weiteren Verlauf dieser Arbeit zeigen, ob das anzuwendende und zu evaluierende Verfahren geeignet ist, dies zu gewährleisten. Grundsätzlich kommen begriffsorientierte Ansätze dem Verhalten eines menschlichen Indexierers näher als statistische oder informationslinguistische Verfahren. Die Imitation eines manuellen Arbeitsprozesses wird aber auch mit diesem Verfahren nicht vollständig gelingen, denn es wird zunächst mit statistischen Methoden und damit 'letztlich wiederum über die Sprachoberfläche auf Bedeutungen geschlossen'. Trotzdem kann über die Messung der Indexierungskonsistenz dieser Abbildungsvorgang, bei dem Inhalte über zugewiesene Deskriptoren beschrieben werden, gemessen und entsprechend bewertet werden.

Blick ins Buch

Inhaltsverzeichnis

Zusammenfassung	3
Inhaltsverzeichnis	5
Abbildungsverzeichnis	6
Tabellenverzeichnis	7
Abkürzungsverzeichnis	8
1 Einleitung	9
2 Forschungsstand	18
2.1 Überblicks- und theoretische Arbeiten	18
2.2 Evaluierungsverfahren I: Retrievaltests	21
2.3 Evaluierungsverfahren II: Indexierungskonsistenz	23
2.3.1 Manuelle Sacherschließung	24
2.3.2 Manuelle vs. automatische Sacherschließung	28
2.4 Evaluierungsverfahren III: Sonstige	30
2.5 Evaluierung des MindServers	31
3 Methode, Daten, Messverfahren	33
3.1 Der MindServer als statistisches Verfahren	33
3.2 Datenlage und Stichprobenumfang	37
3.3 Zum Messverfahren: Die Evaluierung der Indexierungsqualität	38
4 Ergebnisse	44
4.1 Indexierungskonsistenz	44
4.2 Indexierungstiefe	47
4.2.1 Indexierungsbreite	48
4.2.2 Indexierungsspezifität	53
4.3 Indexierungseffektivität	55
4.4 Belegungsbilanz	58
4.5 Referentenauswertung	61
5 Fazit	66
Literaturverzeichnis	73
Anhang	79

Weitere E-Books zum Thema: Software - Betriebssysteme - Anwenderprogramme

Softwaretechnik

Format: PDF

Software-Projekte geraten oft in Schwierigkeiten: Zeit und Budget werden überschritten; das Projekt tritt auf der Stelle; im schlimmsten Fall wird es ohne Ergebnis abgebrochen. Manche…

Softwaretechnik

Format: PDF

Software-Projekte geraten oft in Schwierigkeiten: Zeit und Budget werden überschritten; das Projekt tritt auf der Stelle; im schlimmsten Fall wird es ohne Ergebnis abgebrochen. Manche…

Softwaretechnik

Format: PDF

Software-Projekte geraten oft in Schwierigkeiten: Zeit und Budget werden überschritten; das Projekt tritt auf der Stelle; im schlimmsten Fall wird es ohne Ergebnis abgebrochen. Manche…

Statistische Grafiken mit Excel

Format: PDF

Die grafische Veranschaulichung von Sachverhalten oder Entwicklungsverläufen spielt in allen empirisch orientierten Bereichen eine besondere Rolle. Empirische Informationen grafisch aufzubereiten,…

Statistische Grafiken mit Excel

Format: PDF

Computergrafik und OpenGL

Format: PDF

Das Lehrbuch stellt die theoretischen Grundlagen zu den wichtigsten Themenbereichen der Computergrafik, wie Rastergrafik, Modellierung, Transformation, Projektion, Clipping, Sichtbarkeit, Farbe und…

Computergrafik und OpenGL

Format: PDF

Computergrafik und OpenGL

Format: PDF

Citrix Presentation Server

Format: PDF

Der Citrix MetaFrame Presentation Server ist unangefochtener Marktführer unter den Terminalservern für Windows-Systeme. Unternehmen setzen ihn ein, um die Systemverwaltung von Windows-Netzwerken…

Citrix Presentation Server

Format: PDF

Der Citrix MetaFrame Presentation Server ist unangefochtener Marktführer unter den Terminalservern für Windows-Systeme. Unternehmen setzen ihn ein, um die Systemverwaltung von Windows-Netzwerken…

Weitere Zeitschriften

Menschen. Inklusiv leben

MENSCHEN. das magazin informiert über Themen, die das Zusammenleben von Menschen in der Gesellschaft bestimmen -und dies konsequent aus Perspektive der Betroffenen. Die Menschen, um die es geht, ...

Ärzte Zeitung

Zielgruppe: Niedergelassene Allgemeinmediziner, Praktiker und Internisten. Charakteristik: Die Ärzte Zeitung liefert 3 x pro Woche bundesweit an niedergelassene Mediziner ...

Atalanta

Atalanta ist die Zeitschrift der Deutschen Forschungszentrale für Schmetterlingswanderung. Im Atalanta-Magazin werden Themen behandelt wie Wanderfalterforschung, Systematik, Taxonomie und Ökologie. ...

Auszüge aus den Patentschriften (2 Ausgaben)

Vom Deutschen Patent- und Markenamt erteilte Patente. Bibliographie, Patentanspruch, wichtigste Zeichnung. Thomson Reuters is the world’s leading source of intelligent information for businesses ...

bank und markt

Zeitschrift für Banking - die führende Fachzeitschrift für den Markt und Wettbewerb der Finanzdienstleister, erscheint seit 1972 monatlich. Leitthemen Absatz und Akquise im Multichannel ...

BMW Magazin

Unter dem Motto „DRIVEN" steht das BMW Magazin für Antrieb, Leidenschaft und Energie − und die Haltung, im Leben niemals stehen zu bleiben.Das Kundenmagazin der BMW AG inszeniert die neuesten ...

CE-Markt

CE-Markt ist Pflichtlektüre in der Unterhaltungselektronik-Branche. Die Vermarktung von Home und Mobile Electronics mit den besten Verkaufsargumenten und Verkaufsstrategien gehören ebenso zum ...

küche + raum

Internationale Fachzeitschrift für Küchenforschung und Küchenplanung. Mit Fachinformationen für Küchenfachhändler, -spezialisten und -planer in Küchenstudios, Möbelfachgeschäften und den ...

Dr. med. Mabuse, Zeitschrift für alle Gesundheitsberufe

Zeitschrift für alle Gesundheitsberufe Seit über 40 Jahren sorgt die Zeitschrift Dr. med. Mabuse für einen anderen Blick auf die Gesundheits- und Sozialpolitik. Das Konzept einer Zeitschrift ...

DW DIREKT INFO für Architekten und Bauplaner

Direktversand an Architekturbüros, Generalplaner, Generalunternehmer, Bauträger, Bauämter, Wohnungs- und Siedlungsgesellschaften, Bauabteilungen von Industrie, Banken, Versicherungen, ...