Sie sind hier
E-Book

Informationsextraktion von Webseiten via RoadRunner

AutorPawel Broda
VerlagGRIN Verlag
Erscheinungsjahr2010
Seitenanzahl21 Seiten
ISBN9783640518449
FormatPDF
Kopierschutzkein Kopierschutz/DRM
GerätePC/MAC/eReader/Tablet
Preis13,99 EUR
Forschungsarbeit aus dem Jahr 2009 im Fachbereich Didaktik - Informatik, Note: 1, Ludwig-Maximilians-Universität München (Centrum für Informations- und Sprachverarbeitung), Veranstaltung: Web Data Mining, Sprache: Deutsch, Abstract: Das Web hat sich in den letzten Jahren zum größten existierenden und frei verfügbaren Daten- und Informationsbestand entwickelt. Im Netz, wo es ein absoluter Datenüberfluss und Informationenchaos herrscht, ist beinahe alles zu finden. Auf der Suche nach benötigten Informationen wird durch unzählige Dokumente gestöbert, die von unterschiedlicher Struktur und unterschiedlicher Relevanz sind. Während die Suchmaschinen einen gewissen Teil des Webs crawlen und somit auch indexiert können, bleibt ein sehr großer Teil des Webs verschlossen. Dieser Umstand wird auf die stets wachsende Anzahl von dynamisch generierten Webseiten zurückgeführt. Die gesuchten Informationen sind nicht mehr statisch verfügbar sondern werden aufgrund von benutzerspezifischen Anfragen aus den relationalen Datenbanken dynamisch erzeugt. In diesem riesigen Dokumentenbestand, in den statischen und dynamisch generierten Webseiten, werden mit Information Retrieval Verfahren relevante Daten gesucht und nach dem Finden so abgespeichert, dass sie bequem weiterverarbeitet werden können. Im nächsten Schritt wird es versucht, aus den semi-strukturierten Dokumenten relevante Informationen zu gewinnen.

Kaufen Sie hier:

Horizontale Tabs

Blick ins Buch

Weitere E-Books zum Thema: Pädagogik - Erziehungswissenschaft

Weitere Zeitschriften

Menschen. Inklusiv leben

Menschen. Inklusiv leben

MENSCHEN. das magazin informiert über Themen, die das Zusammenleben von Menschen in der Gesellschaft bestimmen -und dies konsequent aus Perspektive der Betroffenen. Die Menschen, um die es geht, ...

Archiv und Wirtschaft

Archiv und Wirtschaft

"Archiv und Wirtschaft" ist die viermal jährlich erscheinende Verbandszeitschrift der Vereinigung der Wirtschaftsarchivarinnen und Wirtschaftsarchivare e. V. (VdW), in der seit 1967 rund 2.500 ...

aufstieg

aufstieg

Zeitschrift der NaturFreunde in Württemberg Die Natur ist unser Lebensraum: Ort für Erholung und Bewegung, zum Erleben und Forschen; sie ist ein schützenswertes Gut. Wir sind aktiv in der Natur ...

Augenblick mal

Augenblick mal

Die Zeitschrift mit den guten Nachrichten "Augenblick mal" ist eine Zeitschrift, die in aktuellen Berichten, Interviews und Reportagen die biblische Botschaft und den christlichen Glauben ...

BONSAI ART

BONSAI ART

Auflagenstärkste deutschsprachige Bonsai-Zeitschrift, basierend auf den renommiertesten Bonsai-Zeitschriften Japans mit vielen Beiträgen europäischer Gestalter. Wertvolle Informationen für ...

Correo

Correo

 La Revista de Bayer CropScience para la Agricultura ModernaPflanzenschutzmagazin für den Landwirt, landwirtschaftlichen Berater, Händler und am Thema Interessierten mit umfassender ...

Gastronomie Report

Gastronomie Report

News & Infos für die Gastronomie: Tipps, Trends und Ideen, Produkte aus aller Welt, Innovative Konzepte, Küchentechnik der Zukunft, Service mit Zusatznutzen und vieles mehr. Frech, offensiv, ...

ea evangelische aspekte

ea evangelische aspekte

evangelische Beiträge zum Leben in Kirche und Gesellschaft Die Evangelische Akademikerschaft in Deutschland ist Herausgeberin der Zeitschrift evangelische aspekte Sie erscheint viermal im Jahr. In ...