BOWSR2.0 – Build your Own Web-based Speech Recognizer

BOWSR2.0 – Build your Own Web-based Speech Recognizer

 

Betreuer:Miguel Angrick, Ayimunishagu Abulimiti, Solomon Teferra Abate, Martha Yifiru Tachbelie, Lorenz Diener, Tanja Schultz

Projektzeitraum: Wintersemester 2019, Sommersemester 2020

Kurzbeschreibung

Im Rahmen des BOWSR2.0-Projekts soll am CSL ein System entstehen, mit dem schnell und mit wenig komplizierter Vorarbeit auch von Laien Sprachdaten gesammelt und Spracherkenner für beliebige Sprachen entwickelt werden können.

Im BOWSR-Bachelorprojekt wurde hierfür schon gut Vorarbeit geleistet: Es wurde eine Web-Oberfläche entwickelt, mit dem man mit etwas Vorwissen Spracherkenner bauen sowie Benutzen kann. Im BOWSR2.0-Projekt soll hierauf aufgebaut werden.

Das Ziel des Projekts ist es, mehrere Spracherkenner zu entwickeln. Hierbei soll eng mit Menschen, die Sprachen sprechen für die es wenige Spracherkennungs-Ressourcen gibt zusammengearbeitet werden, um für sowohl Amharisch also auch für Bremer Platt Spracherkenner zu entwickeln. Dafür ist es nötig, das das BOWSR-System nicht nur wie bisher in kleinem Umfang und für technisch versierte Benutzer verwendbar ist – gerade für die Datensammlung wird es nötig werden, auf Crowdsourcing und auf die Hilfe von Menschen, die sich mit Sprache, nicht aber unbedingt mit Spracherkennung auskennen, zurückzugreifen.

Im Zuge des BOWSR2.0-Projekts sollen mehrere Ziele erreicht werden. Zum einen soll die Oberfläche von BOWSR dahingehend verbessert werden, das sie problemlos und intuitiv auch auf Mobilgeräten genutzt werden kann und das Vorkenntnisse in der Spracherkennung bei den Benutzern nach möglichkeit nicht vorhanden sein müssen. Auf technischer Ebene wollen wir uns Anschauen, inwiefern wir automatisiert Textdaten für eine Zeilsprache sammeln können, basierend auf einen kleinen Corpus in der jeweiligen Sprache. Hierfür wollen wir die vorhandenen Webcrawling-Möglichkeiten aus dem vorherigen BOWSR-Projekt ausbauen.

Insgesamt ist das Ziel, unter Leitung der Studierenden als Verantwortliche für je eins der Systeme Spracherkenner für Amharisch und Bremer Platt zu bauen.

Für die Durchführung des Projekts stellen wir einen Arbeitsplatz für Teamarbeit und einen Server als Testumgebung sowie selbstverständlich das aktuelle BOWSR-System aus dem Bachelorprojekt zur Verfügung. Wir bieten eine intensive Betreuung an und sind sehr interessiert an den Ergebnissen, weil wir diese auch für unsere eigene Forschung weiter nutzen möchten. Beim Entwurf und der Implementierung sollen Prinzipien des agilen Projektmanagements sowie Werkzeuge der modernen Softwareentwicklung zum Einsatz kommen.

Das BOWSR-System basiert auf einem Python-Webframework, im Hintergrund kommen aktuelle Spracherkennungs-Methoden sowie Libraries für Crawling und Textverarbeitung zur Verwendung.

Organisatorisches

Das Angebot richtet sich an Studierende im Masterstudiengang Informatik. Programmierkenntnisse werden vorausgesetzt. Kenntnisse in der Spracherkennung sind hilfreich.

Empfohlene Veranstaltungen zur Vorbereitung

  • Grundlagen des Maschinellen Lernens (Sommersemester 2019, Bachelor)

  • Biosignale und Benutzerschnittstellen (Sommersemester 2019, Bachelor)

  • Automatische Spracherkennung (Wintersemester 2019/20, Master)