Die Forschungsergebnisse zweier Studenten der Technischen Universität Ho Chi Minh-Stadt wurden auf der AAAI, der weltweit führenden KI-Konferenz, veröffentlicht. Dabei kommen Methoden des kontroversen Trainings zum Einsatz, mit denen KI neue Daten generieren kann.
Die Forschungsergebnisse von Pham Khanh Trinh und Le Minh Khoi (23) zu mehrsprachigen Modellen zum Trainieren der KI zur Erstellung von Synonymen wurden in den Dokumenten der AAAI-24-Konferenz zur künstlichen Intelligenz veröffentlicht, die Ende Februar in Vancouver, Kanada, stattfand.
Außerordentlicher Professor Dr. Quan Thanh Tho, stellvertretender Dekan der Fakultät für Informatik und Ingenieurwesen der Technischen Universität Ho Chi Minh-Stadt, bewertete dies als ein lobenswertes Ergebnis. Herr Tho sagte, dass AAAI von Forschern und Experten als Spitzenorganisation für wissenschaftliche Konferenzen in den Bereichen Informatik und künstliche Intelligenz angesehen werde, die Annahmequote für Artikel sei jedoch sehr niedrig und liege in diesem Jahr bei 23,75 %.
Minh Khoi und Khanh Trinh (Mitte) während ihrer Abschlussarbeitsverteidigung, 2023. Foto: Zur Verfügung gestellt von der Figur
Trinh und Khoi teilen eine Leidenschaft für Deep Learning und natürliche Sprachverarbeitung und entschieden sich für die Forschung zu großen Sprachmodellen (LLMs). Beide wollten die Grenzen des LLM herausfinden und verbessern.
Khanh Trinh sagte, dass Chat-GPT oder LLMs anhand einer riesigen Menge an Textdaten trainiert werden müssen, um genaue und vielfältige Antworten für Benutzer zu generieren. Die beiden Jungen stellten fest, dass Chat-GPTs und LLMs bei weniger verbreiteten Sprachen wie Hindi, Kasachisch oder Indonesisch oft unerwartete Ergebnisse lieferten, weil sie diese Sprachen nicht viel gelernt hatten oder ihnen nicht genügend Daten zum Lernen zur Verfügung standen.
„Warum erstellen wir nicht mehr Textdaten aus den ‚wenigen Ressourcen‘ dieser Sprachen, um die KI weiter zu trainieren?“, fragten die beiden männlichen Studenten. Daraus entstand das LAMPAT-Modell (Low-rank Adaptation for Multilingual Paraphrasing using Adversarial Training) – mehrsprachige Paraphrasierung mithilfe der von Trinh und Khoi erforschten Methode des kontroversen Trainings.
LAMPAT ist in der Lage, aus einem vorhandenen Eingabesatz einen Synonymsatz zu generieren, um zusätzliche Textdaten zu generieren. Der Erklärer „Adversarial Training“ ist ein relativ neuer Ansatz zum Trainieren großer Sprachmodelle. Bei Verwendung herkömmlicher Trainingsmethoden generiert die Anwendung bei gegebenem Eingabesatz einen Ausgabesatz. Aber mit dem gegnerischen Training kann sich die Anwendung selbst korrigieren, den Ausgabesatz bearbeiten und „gegen sich selbst spielen“, um weitere Sätze zu generieren.
Die Mehrsprachigkeit von LAMPAT liegt darin, dass das Modell 60 Sprachen gleichzeitig integriert. Basierend auf den gesammelten Datensätzen trainierte das Team LAMPAT weiter, um Synonymsätze zu generieren. Die von LAMPAT generierte Menge an Textdaten wird weiterhin für LLMs trainiert, sodass diese Modelle viele verschiedene Möglichkeiten erlernen können, Informationen für denselben Inhalt auszudrücken und so unterschiedliche Antworten mit einer höheren Wahrscheinlichkeit zu geben, richtig zu sein. Mit dieser Funktion glaubt der Teamvertreter, dass LAMPAT in Anwendungen wie ChatGPT integriert werden kann, um dieses Modell weiter zu perfektionieren.
Darüber hinaus zwingt der Mangel an Daten für Chat-GPT oder LLMs einige Unternehmen dazu, nach zahlreichen externen Quellen wie Büchern, Zeitungen, Blogs usw. zu suchen, ohne auf Urheberrechtsfragen zu achten. Laut Khanh Trinh ist die Erstellung von Synonymen auch eine Möglichkeit, Plagiate und Urheberrechtsverletzungen einzuschränken.
Nam Sinh nannte ein Beispiel für Anwendungen wie Chat GPT: Wenn ein Benutzer eine Zusammenfassung eines vorhandenen Textes A anfordert, generiert die Anwendung einen zusammenfassenden Text B. Wenn die Forschungsmethode der Gruppe integriert ist, generiert die Anwendung beim Empfang von Text A basierend auf dem Mechanismus zur Generierung von Synonymen mehrere Texte mit demselben Inhalt A1, A2, A3, aus denen sie den Text zusammenfasst und viele Ergebnisse generiert, aus denen der Benutzer auswählen kann.
In der Anfangsphase der Untersuchung hatte das Team Schwierigkeiten, Bewertungsdaten für 60 Sprachen vorzubereiten. Da wir nicht auf eine ausreichend große Datenmenge zugreifen konnten, stellte das Team einen vielfältigen und vollständigen Datensatz in 13 Sprachen zusammen, um das Modell objektiv bewerten zu können, darunter: Vietnamesisch, Englisch, Französisch, Deutsch, Russisch, Japanisch, Chinesisch, Spanisch, Ungarisch, Portugiesisch, Schwedisch, Finnisch und Tschechisch. Dies ist auch ein zuverlässiger Datensatz für den abschließenden Schritt der menschlichen Bewertung (Bewertung).
Minh Khoi (links) und Khanh Trinh (rechts) machten am Abschlusstag im November 2023 ein Erinnerungsfoto mit Lehrer Quan Thanh Tho. Foto: Charakter bereitgestellt
Für die Sprachen Englisch, Vietnamesisch, Deutsch, Französisch und Japanisch extrahierte das Team jeweils 200 zufällig ausgewählte Satzpaare (ein Paar bestehend aus dem Ausgabesatz und der richtigen Bezeichnung) zur Auswertung. Für jede der oben genannten Sprachen bat das Team fünf Sprachexperten, sie unabhängig voneinander anhand von drei Kriterien zu bewerten: semantische Erhaltung; Wortwahl und Wortschatzähnlichkeit, Flüssigkeit und Kohärenz des Ausgabesatzes. Die Skala wird von 1 bis 5 berechnet. Infolgedessen liegt die durchschnittliche Bewertungsnote von Sprachexperten in diesen 5 Sprachen zwischen 4,2 und 4,6/5 Punkten.
Das Beispiel zeigt ein Paar vietnamesischer Sätze mit einer Bewertung von 4,4/5, wobei der Eingabesatz lautet: „Er erklärte das Problem im Detail“ und der Ausgabesatz lautet: „Er erklärte das Problem im Detail“.
Es gibt aber auch Satzpaare mit mangelhafter Qualität und semantischen Fehlern, wie etwa das Satzpaar „Wir essen, solange die Suppe heiß ist – Wir essen die Suppe, solange wir heiß sind“, das nur 2/5 Punkte erreicht.
Khanh Trinh sagte, die Recherche und Fertigstellung dieses Projekts habe acht Monate gedauert. Dies ist auch das Thema der Abschlussarbeit von Trinh und Khoi. Die Abschlussarbeit belegte im Computer Science Council 2 mit 9,72/10 Punkten den ersten Platz.
Laut Herrn Quan Thanh Tho hat LAMPAT zwar seine Kompetenz bei der Generierung menschenähnlicher Synonymphrasen in mehreren Sprachen unter Beweis gestellt, muss aber noch verbessert werden, um Redewendungen, Volkslieder und Sprichwörter in verschiedenen Sprachen verarbeiten zu können.
Darüber hinaus umfasst der Auswertungsdatensatz des Teams nur 13 Sprachen, sodass immer noch viele Sprachen, insbesondere Minderheitensprachen, außen vor bleiben. Daher muss die Gruppe Forschung betreiben, um die Fähigkeiten aktueller mehrsprachiger Interpretationsmodelle zu verbessern und zu erweitern. Von hier aus können wir Sprachbarrieren zwischen Ländern und Völkern beseitigen.
Ende 2023 schlossen Trinh und Khoi ihr Bachelorstudium der Informatik mit Auszeichnung und einem Notendurchschnitt (GPA) von 3,7 bzw. 3,9/4 ab. Beide planen, im Ausland einen Master-Abschluss zu machen und in den Bereichen künstliche Intelligenz und maschinelles Lernen zu forschen.
„Wir forschen weiterhin an diesem Thema mit dem Ziel, LAMPAT stärker auf zukünftige wissenschaftliche Projekte anzuwenden und ein zuverlässiges mehrsprachiges Produkt für die Benutzer zu schaffen“, erklärte Trinh.
Le Nguyen
[Anzeige_2]
Quellenlink
Kommentar (0)