Die maschinelle Übersetzung ist eine der erfolgreichsten Anwendungen der künstlichen Intelligenz in der Verarbeitung natürlicher Sprache. Hochwertige maschinelle Übersetzungssysteme wie Google Translate oder Microsoft Bing Translator benötigen große zweisprachige Datensätze mit bis zu Millionen von Satzpaaren, um das Modell zu trainieren.
Für viele Sprachen der Welt fehlen jedoch ausreichende Ressourcen. Daher ist die Entwicklung eines effektiven maschinellen Übersetzungsmodells für ressourcenarme Sprachen, einschließlich der Sprachen Südostasiens, eine dringende und herausfordernde Aufgabe.
Vor kurzem hat das Institute of Information Technology (Vietnam Academy of Science and Technology) die derzeit fortschrittlichste Technologie für maschinelle Übersetzung erforscht und entwickelt. Diese Einheit hat außerdem erfolgreich ein mehrsprachiges Textübersetzungssystem zwischen Vietnamesisch und Regionalsprachen wie Lao, Khmer, Thailändisch, Malaiisch und Indonesisch aufgebaut.
Laut dem Entwickler stellen Sprachen wie Lao, Thai und Khmer große Herausforderungen beim Aufbau maschineller Übersetzungsmodelle dar. Die Schwierigkeit ergibt sich nicht nur aus dem Mangel an zweisprachigen Daten, sondern auch aus dem morphologischen Reichtum dieser Sprachen, der ihnen Wortsegmentierung, Satzsegmentierung und Polysemie fehlt.
Das vom Institut für Informationstechnologie entwickelte KI-Modell hat „gelernt“, sich an alle Besonderheiten der oben genannten Sprachen „anzupassen“. Von dort aus ermöglicht die Software bei Bedarf das schnelle Hinzufügen weiterer Sprachen mit einer Übersetzungsqualität, die der von fortgeschrittenen ausländischen Produkten entspricht.
Das Besondere ist, dass diese mehrsprachige Übersetzungssoftware separat läuft, Daten lokal speichert und nicht die API eines anderen Dienstanbieters verwenden muss. Dadurch wird die Sicherheit gewährleistet und es kommt nicht zu Informationslecks.
Ein Problem von Übersetzungssystemen wie Google Translate oder Bing Translator ist die domänenspezifische Anpassbarkeit. Das heißt, sie können zwar gute Übersetzungen für allgemeine, populäre Sprachbereiche erstellen, die der Öffentlichkeit dienen, die Übersetzungsqualität ist jedoch in Fachsprachenbereichen wie Medizin, Recht, Sicherheit usw. mangelhaft.
Um die oben genannten Mängel zu beheben, hat das Forschungsteam des Instituts für Informationstechnologie ein vietnamesischzentriertes Übersetzungssystem entwickelt, das eine bidirektionale Übersetzung in ressourcenarme Sprachen in guter Qualität ermöglicht.
Insbesondere bietet diese Software für denselben Text die gleiche oder eine höhere Qualität als Google Translate. Darüber hinaus gibt es durch die Software keine Beschränkung hinsichtlich der Textlänge.
Im Zeitraum 2022–2023 konzentriert sich das System auf den Einsatz von Techniken für große Sprachmodelle (LLMs), wobei die folgenden Sprachenpaare priorisiert werden: Vietnamesisch – Khmer, Vietnamesisch – Laotisch, Vietnamesisch – Thailändisch, Vietnamesisch – Malaiisch und Vietnamesisch – Indonesisch.
Für die englische Sprache (eine äußerst umfangreiche Datenressource und eine vorrangige Stärke von Google) gewährleistet die Software des Information Technology Institute eine Qualität, die fast mit der von Google Translate vergleichbar ist. Insbesondere verfügt das System über die Fähigkeit zur Feinabstimmung und Anpassung an spezielle Sprachdomänen wie Medizin, Recht usw. entsprechend den spezifischen Anforderungen des Partners.
Dieses System wurde vom Forschungsteam selbst entwickelt und basiert auf der technischen Infrastruktur, die die Speicherung großer Sprachdaten unterstützt, und der stärksten Supercomputerkapazität für künstliche Intelligenz/maschinelles Lernen (KI/ML) in Vietnam.
Das Institut für Informationstechnologie verfügt über umfassende Kenntnisse zu den entsprechenden Technologien. Daher kann diese Einheit die Anwendung problemlos auf neue Zielsprachen erweitern, einschließlich ethnischer Minderheitensprachen in Vietnam (oft sehr arm an Datenressourcen) wie Muong, Thai usw. beliebte Fremdsprachen wie Chinesisch, Französisch, Russisch... wenn nötig.
Diese mehrsprachige Übersetzungssoftware „Made in Vietnam“ soll das Problem des Informationszugangs für ethnische Minderheiten lösen.
[Anzeige_2]
Quelle
Kommentar (0)