Jump label

Service navigation

Main navigation

You are here:

Main content

Fachprojekt Dokumentenanalyse

Das Fachprojekt Dokumentenanalyse befasst sich mit der automatischen Verarbeitung von Texten, die sowohl maschinenlesbar als auch in Form von Dokumentenabbildern vorliegen können. Die automatische Verarbeitung dient dabei dem Wissensgewinn und der Interpretation der entsprechenden Inhalte. Insbesondere soll ausgenutzt werden, dass sich die verwendeten Methoden von der Domäne der maschinenlesbaren Texte in die Domäne der durch Bilder repräsentierten Texte übertragen lassen.

Maschinenlesbare Dokumente

Dabei kommen sogenannte Bag-of-Words Modelle zum Einsatz. Durch diese werden Texte anhand von besonders häufigen Wortvorkommen charakterisiert. Abbildung 1 zeigt beispielhaft welche Wörter besonders typisch für die Textkategorien "Genetics", "Evolution", "Disease" und "Computers" sind.

Textkategorien
Abb. 1: Beispiel für Textkategorien und entsprechend typische Wörter (Quelle: D. Blei. Probabilistic topic models. Communications of the ACM, 55(4):77–84, 2012)

Dokumentenabbilder

Durch die Verallgemeinerung dieses Konzepts zu Bag-of-Features lässt sich die Vorgehensweise auch auf Bilder anwenden. Ein Wort entspricht dabei einem lokalen Bilddeskriptor. In dem in Abbildung 2 gezeigten Beispiel sollen alle Vorkommen von "the" gefunden werden. Ein Nutzer selektiert dazu exemplarisch ein Vorkommen (links). Über den Bag-of-Features Ansatz lassen sich nun Bildbereiche identifizieren, die der Anfragebildregion visuell ähnlich sind (mitte). Schließlich kann dem Nutzer das Ergebnis als sortierte Liste relevanter Bildbereiche angezeigt werden (rechts). Dies ist konzeptionell äquivalent zu der Verwendung einer Suchmaschine im Internet.

Word Spotting
Abb 2: Beispiel für Word Spotting (Quelle der Dokumentabbilder: The Library of Congress

Aufgaben

Die praktischen Aufgaben sollen mit Python und SciPy umgesetzt werden. Die Sprache Python bietet eine Fülle von funktionalen und objektorientierten Konzepten, die sich in diesem Zusammenhang eignen. Darüber hinaus steht mit SciPy eine Programmbibliothek für wissenschaftliche numerische Berechnungen zur Verfügung.

Nach einer Einführungsphase gliedert sich das Fachprojekt in zwei Bearbeitungsphasen. In der ersten Phase bearbeiten die Studierenden Aufgaben zur Analyse maschinenlesbarer Dokumente, wie z.B. die Schlagwortsuche oder die Kategorisierung von Texten. In der zweiten Phase schließen sich bis zu vier Studierende zur Bearbeitung einer Projektaufgabe aus dem Bereich der bildbasierten Dokumentenanalyse zusammen. Dabei wenden die Studierenden die in der ersten Phase erlernten Methoden an und erweitern diese auf die Analyse von Dokumentenabbildern.

Material

Aufgaben: Download 

Daten: Download 

Folien: Download 

Wordspotting Projekt: Download 

Video

Das folgende Video vermittelt einen Eindruck vom Word Spotting. Zunächst wird das Anfragewort durch ein Rechteck-Auswahlwerkzeug markiert. Nach der Bestätigung der Anfrage werden die Suchergebnisse in Form einer sortierten Liste angezeigt. Zusätzlich können die Ergebnisse auch auf der gewählten Seite angezeigt werden.



Sub content

Contact

Dipl.-Inf. Leonard Rothacker
Tel.: 0231 755-4645
leonard.rothacker(at)udo.edu
Prof. Dr.-Ing. Gernot A. Fink
Head of Research Group
Tel.: 0231 755-6151
gernot.fink(at)udo.edu