Skip to content

BOWSR2.0 – Build your Own Web-based Speech Recognizer

Betreuer: Daniel Reich, Moritz Meier, Dennis Küster, Felix Putze, Tanja Schultz

Projektzeitraum: Wintersemester 2019/2020 und Sommersemester 2020

 

Kurzbeschreibung

HoloAI steht für „holographic Artificial Intelligence“. Holografische Projektionen sind ein beliebtes Motiv in der Sciencefiction Pop-Kultur. In Star Wars gibt es mobile holografische Telefonie, im Spiel Half-Life wird man mit holografischen Assistenten durch das Tutorial geführt, und in Star Trek wird sogar ein holografischer Bordarzt eingesetzt.

Das holoAI-Projekt hat als Ziel die Entwicklung eines holografischen Agenten, der interaktiv auf die Anfragen seiner Benutzer reagiert. Teil des Projekts sind sowohl die Gestaltung eines dreidimensionalen, humanoiden Avatars, als auch die Entwicklung eines leistungsstarken Backends unter Anwendung moderner KI-Technologie. Ausgestattet mit multimodaler Sensorik ist der Agent in der Lage auf Sprache, Mimik und Gestik von Menschen zu reagieren, sowie wiederkehrende Benutzer zu erkennen. Ansässig im Cartesium-Gebäude sollen Besucher begrüßt und über standortspezifische Fakten informiert werden. Der Aufbau ist Teil des Wissenschaftsschwerpunktes „Mind, Media, Machines“ (MMM).

 

Details

Teil der Entwicklung ist sowohl ein Framework zur leichten Implementation von Inhalten und Funktionen eines Agenten für die holografische Plattform, als auch der Agent und dessen Verhalten selber. Dabei werden sich die Teilnehmer mit Fragestellungen aus den Bereichen des maschinellen Lernens, der automatischen Analyse von Sprache und Video sowie der Echtzeit-Verarbeitung großer Datenströme auseinandersetzen. Damit ein solches Vorhaben gelingt, stellen wir euch zahlreiche State-of-the-Art-Werkzeuge zur Verfügung, welche die Entwicklung komplexer interaktiver Systeme unterstützen: Zur Programmierung werden wir hauptsächlich Python einsetzen. Es ist geplant, dass die einzelnen Module über die ROS-Middleware (Robot Operating System) verbunden werden. Die Gestaltung des 3D-Avatars wird mit Unity und Blender umgesetzt werden. Des Weiteren ist die Entwicklung der kognitiven Fähigkeiten des Agenten wichtig, wie die Erkennung von Körperposen oder der Erfassung von Aufmerksamkeit anhand der Mimik. Dazu werden ebenfalls moderne Werkzeuge aus dem Bereich des maschinellen Lernens und der Bildverarbeitung eingesetzt. Für die Sprachverarbeitung werden unsere SpracherkennungsKomponenten und eine moderne Pipeline zum Sprachverstehen auf der Basis neuronaler Netze verwendet.

Zur Durchführung des Projekts stellen wir die Hardware für die Projektion des Avatars, die notwendige Sensorik, Arbeitsplätze für die Teamarbeit und eine Testumgebung zur Verfügung. Darüber hinaus stehen zahlreiche Software-Tools für einen schnellen Start bereit. Wir bieten eine intensive Betreuung an und sind sehr interessiert an den Ergebnissen, weil wir diese auch für unsere eigene Forschung weiter nutzen möchten. Beim Entwurf und der Implementierung sollen Prinzipien des agilen Projektmanagements sowie Werkzeuge der modernen Softwareentwicklung zum Einsatz kommen.

Organisatorisches

Das Angebot richtet sich an Studierende im Bachelorstudiengang Informatik. Gute Programmierkenntnisse oder Erfahrung mit 3DModellierung oder Animation werden vorausgesetzt. Bei Interesse möchten wir das Projekt auch als ein anschließendes Master-Projekt (bis September 2021) weiterführen. Das Projekt bereitet, je nach Schwerpunktsetzung, auf die Masterprofile KIKR und DMI vor. 

Empfohlene Veranstaltungen zur Vorbereitung

  •  Grundlagen des Maschinellen Lernens (SS 2019, Bachelor)
  •  Biosignale und Benutzerschnittstellen (SS 2019, Bachelor)
  •  Automatische Spracherkennung (WS 2019/20, Master)