Zum Inhalt
Fakultät für Informatik
Fachprojekt

Dokumententanalyse


Informationen

Die Veranstaltung wird in Präsenz stattfinden.

Zeiten: Donnerstags 14 - 18 Uhr (erstes Treffen am 11.04.2024)
Ort: OH16, U08
Veranstalter: Arthur Matei

Moodle-Link: wird noch veröffentlicht

Die Veranstaltung wird in Präsenz stattfinden.

Zeiten: Donnerstags 14:15 - 17:45 Uhr (ab 06.04.2023)
Ort: OH16, U08

https://moodle.tu-dortmund.de/course/view.php?id=39403

Die Veranstaltung wird in Präsenz stattfinden.

Zeiten: Dienstags 14:15 - 17:45 Uhr (ab 11.10.2022)
Ort: OH16, U08

 

Inhalt

Das Fachprojekt Dokumentenanalyse befasst sich mit der automatischen Verarbeitung von Texten, die sowohl maschinenlesbar als auch in Form von Dokumentenabbildern vorliegen können. Die automatische Verarbeitung dient dabei dem Wissensgewinn und der Interpretation der entsprechenden Inhalte. Insbesondere soll ausgenutzt werden, dass sich die verwendeten Methoden von der Domäne der maschinenlesbaren Texte in die Domäne der durch Bilder repräsentierten Texte übertragen lassen.

Maschinenlesbare Dokumente

Dabei kommen sogenannte Bag-of-Words Modelle zum Einsatz. Durch diese werden Texte anhand von besonders häufigen Wortvorkommen charakterisiert. Abbildung 1 zeigt beispielhaft welche Wörter besonders typisch für die Textkategorien "Genetics", "Evolution", "Disease" und "Computers" sind.

Abbildung 1: Beispiel für Textkategorien und entsprechend typische Wörter

Dokumentenabbilder

Durch die Verallgemeinerung dieses Konzepts zu Bag-of-Features lässt sich die Vorgehensweise auch auf Bilder anwenden. Ein Wort entspricht dabei einem lokalen Bilddeskriptor. In dem in Abbildung 2 gezeigten Beispiel sollen alle Vorkommen von "the" gefunden werden. Dazu wird exemplarisch ein Vorkommen selektiert (links). Über den Bag-of-Features Ansatz lassen sich nun Bildbereiche identifizieren, die der Anfragebildregion visuell ähnlich sind (mitte). Schließlich kann das Ergebnis als sortierte Liste relevanter Bildbereiche angezeigt werden (rechts). Dies ist konzeptionell äquivalent zu der Verwendung einer Suchmaschine im Internet.

Abbildung 2: Beispiel für Word Spotting

Praktische Ar­beit wäh­rend des Fachprojekts

Die praktischen Aufgaben sollen mit Python und SciPy umgesetzt werden. Die Sprache Python bietet eine Fülle von funktionalen und objektorientierten Konzepten, die sich in diesem Zusammenhang eignen. Darüber hinaus steht mit SciPy eine Programmbibliothek für wissenschaftliche numerische Berechnungen zur Verfügung.

 

Inhalt und Gliederung des Fachprojekts

Nach einer Einführungsphase gliedert sich das Fachprojekt in zwei Bearbeitungsphasen. In der ersten Phase bearbeiten die Studierenden Aufgaben zur Analyse maschinenlesbarer Dokumente, wie z.B. die Schlagwortsuche oder die Kategorisierung von Texten. In der zweiten Phase schließen sich bis zu vier Studierende zur Bearbeitung einer Projektaufgabe aus dem Bereich der bildbasierten Dokumentenanalyse zusammen. Dabei wenden die Studierenden die in der ersten Phase erlernten Methoden an und erweitern diese auf die Analyse von Dokumentenabbildern.