Die maschinelle Übersetzung ist eine der erfolgreichsten Anwendungen künstlicher Intelligenz in der Verarbeitung natürlicher Sprache. Hochwertige maschinelle Übersetzungssysteme wie Google Translate oder Microsofts Bing Translator benötigen große zweisprachige Datensätze mit bis zu Millionen von Satzpaaren, um das Modell zu trainieren.

Allerdings verfügen viele Sprachen auf der Welt nicht über genügend Ressourcen. Daher ist die Entwicklung eines effektiven maschinellen Übersetzungsmodells für ressourcenarme Sprachen, einschließlich derjenigen der südostasiatischen Region, dringend und eine Herausforderung.

Vor kurzem hat das Institute of Information Technology (Vietnam Academy of Science and Technology) die derzeit fortschrittlichste Technologie für maschinelle Übersetzung erforscht und entwickelt. Diese Einheit hat außerdem erfolgreich ein mehrsprachiges Textübersetzungssystem zwischen Vietnamesisch und Regionalsprachen wie Lao, Khmer, Thai, Malaysisch und Indonesisch aufgebaut.

Laut dem Entwickler stellen Sprachen wie Lao, Thai und Khmer große Herausforderungen beim Erstellen maschineller Übersetzungsmodelle dar. Die Schwierigkeit ergibt sich nicht nur aus der Knappheit zweisprachiger Daten, sondern auch aus dem morphologischen Reichtum dieser Sprachen, der ihnen Wortsegmentierung, Satzsegmentierung und Polysemie fehlt.

Das vom Institut für Informationstechnologie entwickelte KI-Modell hat „gelernt“, sich an alle Besonderheiten der oben genannten Sprachen „anzupassen“. Von dort aus ermöglicht die Software bei Bedarf das schnelle Hinzufügen weiterer Sprachen mit einer Übersetzungsqualität, die der von fortgeschrittenen Fremdsprachenprodukten entspricht.

Das Besondere ist, dass diese mehrsprachige Übersetzungssoftware separat läuft, Daten lokal speichert und nicht die API eines anderen Dienstanbieters verwenden muss. Dies trägt dazu bei, Sicherheit und Schutz zu gewährleisten und Informationslecks zu vermeiden.

W-vien-han-lam-illustration-ai-tri-tue-nhan-tao-1.jpg
Einige wissenschaftliche und technologische Produkte der Vietnamesischen Akademie für Wissenschaft und Technologie werden auf der Vietnam International Innovation Exhibition 2023 ausgestellt. Foto: Trong Dat

Ein Problem von Übersetzungssystemen wie Google Translate oder Bing Translator ist die domänenspezifische Anpassbarkeit. Das heißt, sie können zwar gute Übersetzungen für allgemeine, populäre und der Öffentlichkeit dienende Sprachbereiche erstellen, die Übersetzungsqualität ist jedoch in spezialisierten Sprachbereichen wie Medizin, Recht, Sicherheit usw. mangelhaft.

Um die oben genannten Mängel zu beheben, hat das Forschungsteam des Instituts für Informationstechnologie ein vietnamesischzentriertes Übersetzungssystem entwickelt, das eine bidirektionale Übersetzung in ressourcenarme Sprachen mit guter Qualität ermöglicht.

Insbesondere bietet diese Software für denselben Text die gleiche oder eine höhere Qualität als Google Translate. Darüber hinaus gibt es in der Software keine Beschränkung der Textlänge.

Im Zeitraum 2022–2023 konzentriert sich das System auf den Einsatz von Techniken großer Sprachmodelle (LLMs), wobei die folgenden Sprachpaare priorisiert werden: Vietnamesisch – Khmer, Vietnamesisch – Laotisch, Vietnamesisch – Thailändisch, Vietnamesisch – Malaiisch und Vietnamesisch – Indonesisch.

Bei der englischen Sprache (einer sehr umfangreichen Datenressource und einer vorrangigen Stärke von Google) gewährleistet die Software des Information Technology Institute eine Qualität, die fast der von Google Translate entspricht. Insbesondere verfügt das System über die Fähigkeit, sich an spezielle Sprachdomänen wie Medizin, Recht usw. entsprechend den spezifischen Anforderungen des Partners anzupassen.

Dieses System wurde vom Forschungsteam selbst entwickelt und basiert auf der technischen Infrastruktur, die die Speicherung großer Sprachdaten und die stärkste Supercomputerkapazität für künstliche Intelligenz/maschinelles Lernen (KI/ML) in Vietnam unterstützt.

Das Institut für Informationstechnologie beherrscht die entsprechenden Technologien umfassend. Daher kann diese Einheit die Anwendung bei Bedarf problemlos auf neue Zielsprachen erweitern, einschließlich der Sprachen ethnischer Minderheiten in Vietnam (die oft über sehr schlechte Datenressourcen verfügen) wie Muong, Thai usw. und beliebte Fremdsprachen wie Chinesisch, Französisch, Russisch usw.

Diese mehrsprachige Übersetzungssoftware „Made in Vietnam“ soll die Lösung für das Problem des Informationszugangs für ethnische Minderheiten sein.

Der Markt für künstliche Intelligenz in Vietnam hat einen Wert von 100 Millionen US-Dollar . In Vietnam wird KI-Technologie derzeit in großem Umfang im Kundendienst eingesetzt, insbesondere im Bankwesen und bald auch im Versicherungswesen.