Jump label

Service navigation

Main navigation

You are here:

Main content

Time Machine

Projektgruppe: Time Machine

Termine


PG-Einzelpräsentation

02.06.2020 16:00 Uhr (s.t.) Zoom

https://tu-dortmund.zoom.us/j/92454040244?pwd=UnVMNC9JQXZoWW1pejhKVlNzbktkdz09

Meeting ID: 924 5404 0244

Password: 162786

Motivation


Wie lebten unsere Vorfahren vor einhundert Jahren? In welchen sozialen Netzwerken bewegten sich die Menschen und welche Themen definierten ihren Alltag? Diese Fragen beschäftigen Forscher schon seit jeher und eine finale Antwort ließe sich wohl nur mit einer Reise durch die Zeit beantworten. Was zunächst nach Science Fiction klingt, steht im Zentrum einer groß angelegten europäischen Forschungsinitative, dem Time Machine Project. Doch wie rückt eine Reise durch die Zeit in greifbare Nähe? Die Antwort lässt sich in der Analyse großer Datenmengen finden. Während sich unser alltägliches Leben vermehrt im digitalen Raum abspielt und wir auf natürliche Art und Weise einen digitalen Fußabdruck unseres Leben erzeugen, sind diese Informationen für unsere Vergangenheit zurzeit nicht zugänglich. Die "Big Data of the Past" liegt verborgen in Unmengen von Dokumenten verteilt in den Archiven Europas. Die europäische Union sieht es als zentrale Aufgabe diesen Schatz unseres kulturellen Erbes durch Digitalisierung, Analyse und künstliche Intelligenz zu erschließen und somit dem Ziel einer Zeitreise näher zu kommen. In dem folgenden Video ist die Vision des Projekts visualiert worden.


Ein zentrales Element dieses Projektes ist das verteilte Sammeln und Digitalisieren von Daten, da eine Vielzahl kleiner, privater Sammlungen historischer Dokumente existiert. Ganz dem Paradigma "Think Big! Start small!" folgend soll im Rahmen der Projektgruppe "Time Machine" ein Prototyp einer digitalen Zeitmaschine entwickelt werden. Dieser soll das gesamte Szenario der Time Machine darstellen. Im Zentrum steht eine historische Dokumentenkollektion, welche beispielsweise aus Postkarten besteht. Um aus ihnen eine Art soziales Netzwerk der Vergangenheit zu generieren, müssen verschiedene Metainformation wie beispielsweise Absender, Empfänger oder Datierung extrahiert werden. Dies sollte möglichst automatisiert geschehen, wobei sich für diesen Schritt Methoden des maschinellen Lernens und neuronale Netze besonders eignen. Allerdings werden selbst neuste Methoden nicht alle relevanten Informationen extrahieren können, weshalb ein interaktives System notwendig ist, welches nicht von einem Experten bedient werden muss. Als zentrales Ergebnis der automatisierten Analyse entsteht ein "Knowledgegraph". Dessen dynamische Veränderung über die extrahierte Zeitachse erlaubt auf Basis einer geeigneten Visualisierung eine Reise durch die Vergangenheit.

Aufgabenstellung


Die Studierenden sollen auf Basis einer historischen Dokumentenkollektion eine digitale Zeitmaschine bauen. Dazu ist zunächst die Auswahl beziehungsweise Erstellung eines geeigneten Datensatzes notwendig. Dieser könnte beispielsweise aus der in der Arbeitsgruppe vorhandenen und digitalisierten Feldpostkartensammlung bestehen. Postkarten sind an dieser Stelle gut geeignet, da sie in komprimierter Form viele Informationen enthalten, welche sich mit anderen Elementen der Kollektion in Verbindung bringen lassen. Hierbei besteht eine besondere Herausforderung in der Identifikation einzelner Entitäten, deren Beziehungen, sowie der zeitliche und örtliche Verlauf der Korrespondenz.

fp4fp1fp2fp3

fp0fp5fp6fp8

Abb. 1: Beispiele aus dem Feldpostkarten Datensatz der AG Mustererkennung

Auf Basis des gewählten Datensatzes, lassen sich die Komponenten des angestrebten Prototyps in drei Elemente unterteilen:

  • Automatische Analyse mittels maschinellen Lernens
  • Interaktive Informationsextraktion mit ChatBot Unterstützung
  • Visuelle Darstellung aller relevanten Informationen und Beziehungen

Hier bietet sich auch die Bildung von drei eng kooperierender Teilgruppen an. Bei der automatischen Analyse sollen durch die Verwendung von Methoden der Handschrifterkennung, Natural Language Processing, Named Entity Recognition oder Word Spotting verschiedene Metainformation aus den Elementen des Datensatzes extrahiert werden. Neuronale Netze und "Deep Learning" zeigten sich in den letzten Jahren als hervorragend geeignet für die Analyse historischer Dokumente und sollen auch im Zentrum der verwendeten Methoden stehen. Die benötigte Infrastruktur und entsprechende Grafikkarten zum Trainieren tiefer Netze sind am Lehrstuhl vorhanden und können von der Projektgruppe genutzt werden.

Gerade im Kontext historischer Dokumente, welche eine besondere Herausforderungen darstellen, ist es anzunehmen, dass ein automatisches System nicht alle gewünschten Information identifizieren kann. Dies ist vor allem dann eine Herausforderung, wenn beispielsweise eine Privatperson ihre Dokumente der Zeitmaschine hinzufügen möchte. Um dieses Szenario zu lösen, soll auf Basis eines ChatBots ein interaktives System entworfen werden. Das neue Element wird zunächst automatisch analysiert. Daraufhin können auf Basis der Interaktion mit dem ChatBot vorgeschlagene Informationen verifiziert oder ergänzt werden.

Das Ergebnis der automatischen und interaktiven Analyse ist eine Vielzahl von Metadaten und Beziehungen der Elemente des Datensatzes. Damit der Nutzer diese effektiv durchsuchen und begutachten kann, ist eine interaktive Visualisierung notwendig. Bei der Gestaltung der Visualisierung ergibt sich eine Vielzahl von Möglichkeiten zur Darstellung von Beziehungen und räumlicher Information. Hier wird eine webbasierte Lösung angestrebt, welche einen möglichst einfachen Zugang und Interaktion mit den extrahierten Daten erlaubt. Während die explizite Ausgestaltung den Studierenden obliegt, soll allerdings die zeitliche Komponente eine zentrale Rolle spielen, um eine Reise durch die digitale Zeit zu ermöglichen.

Teilnahmevorraussetzungen


Für die Realisierung der Projektgruppe ist ein Zusammenarbeiten in Präsenzform nicht zwingend notwendig. In Abhängigkeit von der Entwicklung der COVID-19 Pandemie ist es somit möglich, wenn auch nicht geplant, Seminar- und Arbeitsphase über verschiedene Kollaborationstools umzusetzen. Folgende Kenntnisse sind für die Teilnahme an der Projektgruppe notwendig:

  • Grundkenntnisse in der Programmierung (Python bevorzugt)
  • Grundkenntnisse im Umgang mit Unix basierten Betriebssystemen

Folgende Kenntnisse sind für die Teilnahme an der Projektgruppe hilfreich, werden jedoch nicht vorausgesetzt:

  • Grundkenntnisse in der Mustererkennung
  • Grundkenntnisse in der Webentwicklung

Die Grundlagen für hilfreiche Kenntnisse werden im Laufe des Projekts vermittelt.

Sonstiges


Den vollständigen Antragstext zur geplanten Projektgruppe finden Sie hier.