Sprachprogramme
 Die interkulturelle Universität Nopoki in Peru, mit der ­Oncevay zusammenarbeitet, bildet zwei­sprachige Lehrkräfte für Spanisch und Shipibo-Konibo aus.

privat

Sprachprogramme

Mit KI das Sterben von Sprachen verzögern

Der Informatiker Arturo Oncevay entwickelt Programme, um indigenen Sprachen neues Leben einzuhauchen Wie bringt man einer künstlichen Intelligenz Sprachen bei, die nur von 40.000 Menschen im Amazonasgebiet gesprochen werden? Im Projekt „Chana“, das von der Katholischen Universität Perus gefördert wird, kümmern sich Linguisten und Programmierer genau darum.

Von der Gelbbürzelkassikke (Cacicus Cela) könnte sich so manches Sprachprogramm etwas abgucken. Der schwarze Singvogel mit den gelben Federn auf dem Rücken lebt im Amazonasgebiet und ist dafür bekannt, dass er hervorragend Stimmen anderer Vögel nachmachen kann. „Chana“ nennt die indigene Volksgruppe der Shipibo den Singvogel. Und „Chana“ nennt sich auch das Projekt, in dem der peruanische Informatiker Arturo Oncevay den Strukturen indigener Sprachen auf die Schliche kommen will.

Wer heute einen Text in Englisch, Spanisch oder Deutsch am PC schreibt, hat meist ein Grammatikprogramm eingeschaltet, das Rechtschreib- oder Deklinationsfehler automatisch korrigiert. In den letzten Jahren sind Sprach- und Übersetzungsprogramme immer besser geworden. Damit sie funktionieren, haben die Programme vorher unzählige Sprechdaten gespeichert, aus denen die Algorithmen die richtige Schreibweise kombinieren und sogar Vorschläge für die Beendigung eines Satzes liefern. 

Doch wie kann ein solches automatisches Korrekturprogramm funktionieren, wenn die Sprache keine Weltsprache ist, sondern nur von 40.000 Menschen in abgelegenen Dörfern im amazonischen Tiefland Perus gesprochen wird? Diese Frage treibt Arturo Oncevay um. Er ist 32 Jahre alt, hat an der Katholischen Universität Perus Informatik studiert und blickt mich mit wachen Augen aus dem Bildschirm an. Die langen dunklen Haare hat er zu einem Pferdeschwanz zusammengebunden. Er spricht mit mir per Videocall aus dem schottischen Edinburgh, wo er für seine Doktorarbeit forscht. Zugeschaltet ist auch Linguistik-Professor Roberto Zariquiey, 42, der das Projekt „Chana“ an der Katholischen Universität Perus leitet. „Eigentlich sind wir noch keine formelle Forschungsgruppe, sondern eine Gruppe von Informatikern, Computerlinguisten und Linguisten, die zusammenarbeiten, um die indigenen Sprachen des Amazonasgebietes zu erforschen“, sagt Zariquiey. 

 Arturo Oncevay ist als Informatiker fasziniert von der Komplexität der Sprachen.privat

Die Komplexität von Sprachen fasziniere ihn, sagt Oncevay, und dass Sprache menschliche Gedanken ausdrücken kann. Seine Masterarbeit hat er noch über Texte und die automatische Auswertung großer Datenmengen in sozialen Netzwerken geschrieben. „Aber danach wollte ich etwas mit Sprachen machen, doch mit meinem Hintergrund als Informatiker.“ Die Anfrage von Roberto Zariquiey kam gerade recht. 

Im peruanischen Amazonasgebiet gibt es 44 Sprachen

Zariquiey ist als Linguist auf die Sprachen des Amazonas spezialisiert und suchte einen Informatiker, der seine linguistischen Forschungen technologisch unterstützen konnte, indem er Sprachprogramme für die indigenen Sprachen programmiert. Wenn im spanischsprachigen Peru schon Quechua – das immerhin 13 Prozent der Bevölkerung sprechen – eine Randstellung hat, so sind die vielen amazonischen Sprachen in der Hauptstadt gänzlich abwesend. Auch Arturo Oncevay hatte keine Ahnung, dass allein im peruanischen Amazonasgebiet 44 Sprachen offiziell anerkannt sind, die man zwölf Sprachfamilien zuordnet. Und er wusste nicht, dass diese 44 Sprachen im Mittel von weniger als tausend Menschen gesprochen werden, acht Sprachen sogar von weniger als zehn Personen.

Das erste gemeinsame Projekt startete 2015. Zwei Jahre lang entwickelte Arturo Oncevay einen Prototyp eines Übersetzungsprogramms für die Sprache Shipibo-Konibo. Die wird immerhin von 40.000 Menschen gesprochen und gehört damit zu den drei größten amazonischen Sprachen Perus. Für ein weiteres Projekt arbeiteten sie mit der interkulturellen Universität Nopoki in Atalaya zusammen, die zweisprachige Lehrer in Shipibo-Konibo und Spanisch ausbildet. Von 2019 bis 2022 erstellten sie gemeinsam ein Korrekturprogramm für die indigenen Sprachen Shipibo-Konibo, Ashaninka, Yanesha und Yine. Beide Projekte wurden mit staatlichen Forschungsgeldern gefördert.

Autorin

Hildegard Willer

ist freie Journalistin und lebt in Lima (Peru).
Amazonische Sprachen werden nur mündlich weitergegeben, erst seit kurzem gibt es einen Standard für die Verschriftlichung. Das automatische Korrekturprogramm hilft besonders den zweisprachigen Lehrern, ihre Muttersprache besser schreiben zu lernen. Doch es zu erstellen, war schwierig, sagt Arturo Oncevay: „Jedes Sprachenprogramm ist unzulänglich, sogar Google Translator. Aber wenn so wenige Daten vorhanden sind wie im Shipibo-Konibo, dann ist das eine echte Herausforderung.“ Die hat auch das Thema seiner Doktorarbeit inspiriert: Er erforscht Grundlagen, wie man Übersetzungsprogramme mit wenigen Daten programmieren kann.  

Die KI lernt übersetzen

Der Vorteil der Anwendung der künstlichen Sprachintelligenz besteht darin, dass ein Computer eine große Menge von Daten verarbeiten und dann als Text darstellen kann, sagt Arturo Oncevay. Er erklärt, wie man die KI dazu bringt: Für das Übersetzungsprogramm füttert man das System mit dem Text in einer Sprache, und das System muss ihn in einer anderen Sprache ausspielen. Das Korrekturprogramm erhält einen Text mit Fehlern und spielt den Text in derselben Sprache, aber ohne Fehler, aus. Damit die KI diese Prozesse lernt, muss es viele Beispiele oder Datensätze kennen.

Ein Datensatz für ein Übersetzungsprogramm besteht aus zwei ähnlichen Dokumenten, Zeile für Zeile, aber in unterschiedlichen Sprachen. Bei einem Datensatz für das Korrekturprogramm sind beide Dokumente in derselben Sprache, aber auf der einen Seite falsch, auf der anderen Seite richtig geschrieben. Um die KI zu trainieren, braucht es zum einen Programmierer, die die Datensätze verarbeiten und im passenden Format aufbereiten. Zum anderen braucht es Linguisten, zweisprachige Übersetzer und Lehrpersonen, die die Datensätze vor der „Speisung“ der KI kontrollieren und dann auch das „Ergebnis“ der KI auf seine Richtigkeit überprüfen.  

Bis zu tausend Sprachen könnten mit KI verglichen oder, bei richtigen analytischen Entscheidungen, zu Gruppen zusammengefasst werden. „Aber die Technik ist nur unterstützend. Das letzte Wort, die Interpretation des Textes, muss der Mensch machen“, sagt Oncevay. Auch das Übersetzungsprogramm aus dem Shipibo-Konibo wird ohne menschliche Übersetzer, die die Richtigkeit und den Sinn prüfen können, nicht auskommen. 

Die Sprachen-Apps haben auch einen psychologischen Effekt

Doch der Einsatz moderner Kommunikationsmittel und Apps für indigene Sprachen hat einen wichtigen psychologischen Effekt: Junge Indigene merken, dass es kein Widerspruch ist, die Sprache der Großeltern zu lernen und ein Handy zu haben. Und mittels Apps bekommen Schüler und Studierende in Lima erstmals eine Ahnung davon, dass in Peru viel mehr als nur Spanisch gesprochen wird. „Uns ist wichtig, dass das neue Projekt, „Chana“, auch sozial über die Uni hinaus Wirkung entfaltet“, sagt Zariquiey.

Denn „Chana“ ist ambitioniert. Die Katholische Universität Peru hat extra für das Projekt eine Forschungsstation mit Sprachlabor in der Amazonas-Stadt Pucallpa finanziert. Dort möchten die Linguisten vermehrt indigene Studierende nicht nur als Sprachzeugen, sondern als Mitarbeitende und künftige Forscher gewinnen. Das Max-Planck-Institut für evolutionäre Anthropologie in Leipzig unterstützt das Projekt ebenso wie die Universität Zürich. Denn es hat auch ein wissenschaftliches Ziel: Die Forschungen in Pucallpa sollen einen Beitrag leisten zum Wissen über die Evolution von Sprachen weltweit und darüber, welche Rolle die südamerikanischen und speziell die amazonischen Sprachen dabei gespielt haben. 

Noch weiß Arturo Oncevay nicht, wohin ihn sein Weg nach der Promotion führen wird – ob zurück nach Peru, wo ihn Professor Zariquiey gerne mehr ins „Chana“-Projekt einbinden würde, oder an einen anderen Ort. Doch er möchte sein Wissen weiterhin für den Erhalt der indigenen Sprachen einsetzen. Es sei wichtig, auch Minderheitensprachen in auf KI basierende Sprachprogramme aufzunehmen und ihre Sprechenden zu stärken. „Mit meiner Arbeit möchte ich das Aussterben der Sprachen zumindest hinauszögern“, sagt Oncevay. „Denn mit jeder Sprache, die stirbt, stirbt auch ein Stück Welt.“

erschienen in Ausgabe 12 / 2022: Schlaue Maschinen

Neuen Kommentar schreiben

Unterstützen Sie unseren anderen Blick auf die Welt!
welt-sichten“ schaut auf vernachlässigte Themen und bringt Sichtweisen aus dem globalen Süden. Dafür brauchen wir Ihre Unterstützung. Warum denn das?
Ja, „welt-sichten“ ist mir etwas wert! Ich unterstütze es mit
Schon 3 Euro im Monat helfen
Unterstützen Sie unseren anderen Blick auf die Welt!