Time Machine
Motivation
Wie lebten unsere Vorfahren vor einhundert Jahren? In welchen sozialen Netzwerken bewegten sich die Menschen und welche Themen definierten ihren Alltag? Diese Fragen beschäftigen Forschende schon seit jeher und eine finale Antwort ließe sich wohl nur mit einer Reise durch die Zeit beantworten. Was zunächst nach Science Fiction klingt, steht im Zentrum einer groß angelegten europäischen Forschungsinitative, dem Time Machine Project. Doch wie rückt eine Reise durch die Zeit in greifbare Nähe? Die Antwort lässt sich in der Analyse großer Datenmengen finden. Während sich unser alltägliches Leben vermehrt im digitalen Raum abspielt und wir auf natürliche Art und Weise einen digitalen Fußabdruck unseres Leben erzeugen, sind diese Informationen für unsere Vergangenheit zurzeit nicht zugänglich. Die "Big Data of the Past" liegt verborgen in Unmengen von Dokumenten verteilt in den Archiven Europas. Die europäische Union sieht es als zentrale Aufgabe diesen Schatz unseres kulturellen Erbes durch Digitalisierung, Analyse und künstliche Intelligenz zu erschließen und somit dem Ziel einer Zeitreise näher zu kommen. In dem folgenden Video ist die Vision des Projekts visualiert worden.
Bitte bestätigen Sie die Aktivierung dieses Videos.
Nach der Aktivierung werden Cookies gesetzt und Daten an YouTube (Google) übermittelt.
Zur Datenschutzerklärung von Google
Ein zentrales Element dieses Projektes ist das verteilte Sammeln und Digitalisieren von Daten, da eine Vielzahl kleiner, privater Sammlungen historischer Dokumente existiert. Ganz dem Paradigma "Think Big! Start small!" folgend soll im Rahmen der Projektgruppe "Time Machine" ein Prototyp einer digitalen Zeitmaschine entwickelt werden. Dieser soll das gesamte Szenario der Time Machine darstellen. Im Zentrum steht eine historische Dokumentenkollektion, welche beispielsweise aus Postkarten besteht. Um aus ihnen eine Art soziales Netzwerk der Vergangenheit zu generieren, müssen verschiedene Metainformation wie beispielsweise Absender:in, Empfänger:in oder Datierung extrahiert werden. Dies sollte möglichst automatisiert geschehen, wobei sich für diesen Schritt Methoden des maschinellen Lernens und neuronale Netze besonders eignen. Allerdings werden selbst neuste Methoden nicht alle relevanten Informationen extrahieren können, weshalb ein interaktives System notwendig ist, welches nicht von einem Experten bedient werden muss. Als zentrales Ergebnis der automatisierten Analyse entsteht ein "Knowledgegraph". Dessen dynamische Veränderung über die extrahierte Zeitachse erlaubt auf Basis einer geeigneten Visualisierung eine Reise durch die Vergangenheit.
Aufgabenstellung
Die Studierenden sollen auf Basis einer historischen Dokumentenkollektion eine digitale Zeitmaschine bauen. Dazu ist zunächst die Auswahl beziehungsweise Erstellung eines geeigneten Datensatzes notwendig. Dieser könnte beispielsweise aus der in der unten gezeigten, digitalisierten Feldpostkartensammlung bestehen. Postkarten sind an dieser Stelle gut geeignet, da sie in komprimierter Form viele Informationen enthalten, welche sich mit anderen Elementen der Kollektion in Verbindung bringen lassen. Hierbei besteht eine besondere Herausforderung in der Identifikation einzelner Entitäten, deren Beziehungen, sowie der zeitliche und örtliche Verlauf der Korrespondenz.
Auf Basis des gewählten Datensatzes, lassen sich die Komponenten des angestrebten Prototyps in drei Elemente unterteilen:
- Automatische Analyse mittels maschinellen Lernens
- Interaktive Informationsextraktion mit ChatBot Unterstützung
- Visuelle Darstellung aller relevanten Informationen und Beziehungen
Hier bietet sich auch die Bildung von drei eng kooperierender Teilgruppen an. Bei der automatischen Analyse sollen durch die Verwendung von Methoden der Handschrifterkennung, Natural Language Processing, Named Entity Recognition oder Word Spotting verschiedene Metainformation aus den Elementen des Datensatzes extrahiert werden. Neuronale Netze und "Deep Learning" zeigten sich in den letzten Jahren als hervorragend geeignet für die Analyse historischer Dokumente und sollen auch im Zentrum der verwendeten Methoden stehen. Die benötigte Infrastruktur und entsprechende Grafikkarten zum Trainieren tiefer Netze sind am Lehrstuhl vorhanden und können von der Projektgruppe genutzt werden.
Gerade im Kontext historischer Dokumente, welche eine besondere Herausforderungen darstellen, ist es anzunehmen, dass ein automatisches System nicht alle gewünschten Information identifizieren kann. Dies ist vor allem dann eine Herausforderung, wenn beispielsweise eine Privatperson ihre Dokumente der Zeitmaschine hinzufügen möchte. Um dieses Szenario zu lösen, soll auf Basis eines ChatBots ein interaktives System entworfen werden. Das neue Element wird zunächst automatisch analysiert. Daraufhin können auf Basis der Interaktion mit dem ChatBot vorgeschlagene Informationen verifiziert oder ergänzt werden.
Das Ergebnis der automatischen und interaktiven Analyse ist eine Vielzahl von Metadaten und Beziehungen der Elemente des Datensatzes. Damit der Nutzer diese effektiv durchsuchen und begutachten kann, ist eine interaktive Visualisierung notwendig. Bei der Gestaltung der Visualisierung ergibt sich eine Vielzahl von Möglichkeiten zur Darstellung von Beziehungen und räumlicher Information. Hier wird eine webbasierte Lösung angestrebt, welche einen möglichst einfachen Zugang und Interaktion mit den extrahierten Daten erlaubt. Während die explizite Ausgestaltung den Studierenden obliegt, soll allerdings die zeitliche Komponente eine zentrale Rolle spielen, um eine Reise durch die digitale Zeit zu ermöglichen.
Material
- Erstes Treffen PG PDF (8 MB)