الترجمة الآلية هي واحدة من أنجح تطبيقات تكنولوجيا الذكاء الاصطناعي في معالجة اللغة الطبيعية. تحتاج أنظمة الترجمة الآلية عالية الجودة مثل Google Translate أو Bing Translator من Microsoft إلى مجموعات بيانات ثنائية اللغة واسعة النطاق، تصل إلى ملايين أزواج الجمل، لتدريب النموذج.
ومع ذلك، فإن العديد من اللغات في العالم لا تملك الموارد الكافية. ومن ثم، فإن بناء نموذج فعال للترجمة الآلية للغات ذات الموارد المحدودة، بما في ذلك تلك الموجودة في منطقة جنوب شرق آسيا، أمر ملح ويمثل تحديا كبيرا.
في الآونة الأخيرة، قام معهد تكنولوجيا المعلومات (الأكاديمية الفيتنامية للعلوم والتكنولوجيا) بالبحث وإتقان تكنولوجيا الترجمة الآلية الأكثر تقدمًا اليوم. كما نجحت هذه الوحدة في بناء نظام ترجمة نصية متعدد اللغات بين الفيتنامية واللغات الإقليمية بما في ذلك اللاوية والخميرية والتايلاندية والماليزية والإندونيسية.
وفقًا للمطور، فإن اللغات مثل اللاوية والتايلاندية والخميرية تشكل تحديات ضخمة عند بناء نماذج الترجمة الآلية. لا تأتي الصعوبة من ندرة البيانات الثنائية اللغة فحسب، بل أيضًا لأن هذه اللغات غنية من الناحية الصرفية، وتفتقر إلى تقسيم الكلمات، وتقسيم الجملة، والتعدد في المعاني.
لقد "تعلم" نموذج الذكاء الاصطناعي الذي طوره معهد تكنولوجيا المعلومات كيفية "التكيف" مع جميع الميزات الخاصة للغات المذكورة أعلاه. ومن هناك، يسمح البرنامج بإضافة لغات أخرى بسرعة عند الحاجة إليها بجودة ترجمة تعادل المنتجات الأجنبية المتقدمة.
الأمر المميز هو أن برنامج الترجمة المتعددة اللغات هذا يعمل بشكل منفصل، ويخزن البيانات محليًا، ولا يتعين عليه استخدام واجهة برمجة التطبيقات لمزود خدمة آخر. يساعد هذا على ضمان الأمن والسلامة وعدم تسرب المعلومات.
إحدى المشكلات المتعلقة بأنظمة الترجمة مثل Google Translate أو Bing Translator هي القدرة على التكيف مع المجال المحدد. وهذا يعني أنهم قادرون على الترجمة بشكل جيد في مجالات اللغة المشتركة والشائعة التي تخدم الجمهور، ولكن جودة الترجمة تكون رديئة في مجالات اللغة المتخصصة مثل الطب والقانون والأمن وما إلى ذلك.
وللتغلب على هذه العيوب، قام فريق البحث في معهد تكنولوجيا المعلومات بتطوير نظام ترجمة يركز على اللغة الفيتنامية، وقادر على الترجمة في الاتجاهين إلى اللغات ذات الموارد المحدودة بجودة جيدة.
على وجه التحديد، يتمتع هذا البرنامج بنفس الجودة أو جودة أعلى من Google Translate لنفس النص. وبالإضافة إلى ذلك، فإن البرنامج لا يضع حدًا لطول النص.
في الفترة 2022-2023، يركز النظام على نشر تقنيات نماذج اللغة الكبيرة (LLMs)، مع إعطاء الأولوية لأزواج اللغات التالية: الفيتنامية - الخميرية، الفيتنامية - اللاوية، الفيتنامية - التايلاندية، الفيتنامية - الملايوية والفيتنامية - الإندونيسية.
بفضل اللغة الإنجليزية (وهي مصدر بيانات وفير للغاية وقوة ذات أولوية لدى جوجل)، فإن برامج معهد تكنولوجيا المعلومات تضمن جودة تعادل تقريبًا جودة ترجمة جوجل. وعلى وجه الخصوص، يتمتع النظام بالقدرة على التكيف مع المجالات اللغوية المتخصصة مثل الطب والقانون وما إلى ذلك وفقًا للمتطلبات المحددة للشريك.
تم تطوير هذا النظام من قبل فريق البحث، بناءً على البنية التحتية التقنية التي تدعم تخزين البيانات اللغوية الكبيرة وأقوى قدرة الحوسبة الفائقة للذكاء الاصطناعي/التعلم الآلي (AI/ML) في فيتنام.
يتمتع معهد تكنولوجيا المعلومات بإتقان كامل للتقنيات ذات الصلة. لذلك، يمكن لهذه الوحدة توسيع نطاق التطبيق بسهولة ليشمل لغات مستهدفة جديدة بما في ذلك لغات الأقليات العرقية في فيتنام (غالبًا ما تكون فقيرة جدًا في موارد البيانات) مثل المونغ والتايلاندية وما إلى ذلك، واللغات الأجنبية الشائعة مثل الصينية والفرنسية، الروسية... عندما تكون هناك حاجة إليها.
ومن المتوقع أن يكون برنامج الترجمة المتعدد اللغات هذا، الذي تم تصنيعه في فيتنام، بمثابة الحل لمشكلة الوصول إلى المعلومات بالنسبة للأقليات العرقية.
[إعلان رقم 2]
مصدر
تعليق (0)