Jump label

Service navigation

Main navigation

You are here:

Main content

Fachprojekt Dokumentenanalyse

Das Fachprojekt Dokumentenanalyse befasst sich mit der automatischen Verarbeitung von Texten, die sowohl maschinenlesbar als auch in Form von Dokumentenabbildern vorliegen können. Die automatische Verarbeitung dient dabei dem Wissensgewinn und der Interpretation der entsprechenden Inhalte. Insbesondere soll ausgenutzt werden, dass sich die verwendeten Methoden von der Domäne der maschinenlesbaren Texte in die Domäne der durch Bilder repräsentierten Texte übertragen lassen.

Dabei kommen sogenannte Bag-of-Words Modelle zum Einsatz. Durch diese werden Texte anhand von besonders häufigen Wortvorkommen charakterisiert. Abbildung 1 zeigt beispielhaft welche Wörter besonders typisch für die Textkategorien "Genetics", "Evolution", "Disease" und "Computers" sind.

Textkategorien
Abb. 1: Beispiel für Textkategorien und entsprechend typische Wörter (Quelle: D. Blei. Probabilistic topic models. Communications of the ACM, 55(4):77–84, 2012)

Durch die Verallgemeinerung dieses Konzepts zu Bag-of-Features lässt sich die Vorgehensweise auch auf Bilder anwenden. Ein Wort entspricht dabei einem lokalen Bilddeskriptor. In dem in Abbildung 2 gezeigten Beispiel sollen alle Vorkommen von "the" gefunden werden. Ein Nutzer selektiert dazu exemplarisch ein Vorkommen (links). Über den Bag-of-Features Ansatz lassen sich nun Bildbereiche identifizieren, die der Anfragebildregion visuell ähnlich sind (mitte). Schließlich kann dem Nutzer das Ergebnis als sortierte Liste relevanter Bildbereiche angezeigt werden (rechts). Dies ist konzeptionell äquivalent zu der Verwendung einer Suchmaschine im Internet.

Word Spotting
Abb 2: Beispiel für Word Spotting (Quelle der Dokumentabbilder: The Library of Congress

Die praktischen Aufgaben sollen mit Python und SciPy umgesetzt werden. Die Sprache Python bietet eine Fülle von funktionalen und objektorientierten Konzepten, die sich in diesem Zusammenhang eignen. Darüber hinaus steht mit SciPy eine Programmbibliothek für wissenschaftliche numerische Berechnungen zur Verfügung.

Nach einer Einführungsphase gliedert sich das Fachprojekt in zwei Bearbeitungsphasen. In der ersten Phase bearbeiten die Studierenden Aufgaben zur Analyse maschinenlesbarer Dokumente, wie z.B. die Schlagwortsuche oder die Kategorisierung von Texten. In der zweiten Phase schließen sich bis zu vier Studierende zur Bearbeitung einer Projektaufgabe aus dem Bereich der bildbasierten Dokumentenanalyse zusammen. Dabei wenden die Studierenden die in der ersten Phase erlernten Methoden an und erweitern diese auf die Analyse von Dokumentenabbildern.

 

Material

Eclipse mit Python Entwicklungs-Plugin: Download 

Eclipse Workspace mit den Übungsaufgaben der Wochen 1-3: Download 

Aufgaben (laufend aktualisiert): Download 

Folien (laufend aktualisiert): Download 

Wordspotting Projekt: Download 

 



Sub content

Contact

Dipl.-Inf. Leonard Rothacker
Tel.: 0231 755-4645
leonard.rothacker(at)udo.edu
M. Sc. René Grzeszick
Researcher
Tel.: 0231 755-4616
rene.grzeszick(at)udo.edu
Prof. Dr.-Ing. Gernot A. Fink
Head of Research Group
Tel.: 0231 755-6151
gernot.fink(at)udo.edu