الترجمة الآلية هي واحدة من أنجح تطبيقات تكنولوجيا الذكاء الاصطناعي في معالجة اللغة الطبيعية. تحتاج أنظمة الترجمة الآلية عالية الجودة مثل Google Translate أو Bing Translator من Microsoft إلى مجموعات بيانات ثنائية اللغة واسعة النطاق، تصل إلى ملايين أزواج الجمل، لتدريب النموذج.
ومع ذلك، فإن العديد من اللغات في العالم لا تملك الموارد الكافية. ومن ثم، فإن بناء نموذج فعال للترجمة الآلية للغات ذات الموارد المحدودة، بما في ذلك لغات منطقة جنوب شرق آسيا، أمر ملح ويمثل تحدياً كبيراً.
في الآونة الأخيرة، قام معهد تكنولوجيا المعلومات (الأكاديمية الفيتنامية للعلوم والتكنولوجيا) بالبحث وإتقان أحدث تكنولوجيا الترجمة الآلية اليوم. كما نجحت هذه الوحدة في بناء نظام ترجمة نصية متعدد اللغات بين الفيتنامية واللغات الإقليمية بما في ذلك اللاوية والخميرية والتايلاندية والماليزية والإندونيسية.
وبحسب المطور، فإن اللغات مثل اللاوية والتايلاندية والخميرية تشكل تحديات ضخمة عند بناء نماذج الترجمة الآلية. لا تأتي الصعوبة من ندرة البيانات ثنائية اللغة فحسب، بل أيضًا لأن هذه اللغات غنية من الناحية الصرفية، وتفتقر إلى تقسيم الكلمات، وتقسيم الجملة، والتعدد المعاني.
لقد "تعلم" نموذج الذكاء الاصطناعي الذي طوره معهد تكنولوجيا المعلومات كيفية "التكيف" مع جميع الميزات الخاصة للغات المذكورة أعلاه. ومن هناك، يسمح البرنامج بإضافة لغات أخرى بسرعة عند الحاجة إليها بجودة ترجمة تعادل المنتجات الأجنبية المتقدمة.
الأمر المميز هو أن برنامج الترجمة متعدد اللغات هذا يعمل بشكل منفصل، ويخزن البيانات محليًا، ولا يتعين عليه استخدام واجهة برمجة التطبيقات الخاصة بمزود خدمة آخر. يساعد هذا على ضمان الأمن والسلامة وعدم تسرب المعلومات.
إحدى المشكلات المتعلقة بأنظمة الترجمة مثل Google Translate أو Bing Translator هي القدرة على التكيف مع المجال المحدد. وهذا يعني أنهم قادرون على الترجمة بشكل جيد في مجالات اللغة الشائعة التي تخدم الجمهور، ولكن جودة الترجمة تكون ضعيفة في مجالات اللغة المتخصصة مثل الطب والقانون والأمن وما إلى ذلك.
وللتغلب على هذه العيوب، قام فريق البحث في معهد تكنولوجيا المعلومات بتطوير نظام ترجمة يركز على اللغة الفيتنامية، قادر على الترجمة في الاتجاهين إلى اللغات ذات الموارد المحدودة بجودة جيدة.
على وجه التحديد، يتمتع هذا البرنامج بنفس الجودة أو جودة أعلى من Google Translate لنفس النص. وبالإضافة إلى ذلك، فإن البرنامج لا يضع حدًا لطول النص.
في الفترة 2022-2023، يركز النظام على نشر تقنيات نماذج اللغة الكبيرة (LLMs)، مع إعطاء الأولوية لأزواج اللغات التالية: الفيتنامية - الخميرية، الفيتنامية - اللاوية، الفيتنامية - التايلاندية، الفيتنامية - الملايوية والفيتنامية - الإندونيسية.
بفضل اللغة الإنجليزية (وهي مصدر بيانات وفير للغاية وقوة ذات أولوية لدى Google)، يضمن برنامج معهد تكنولوجيا المعلومات جودة تعادل تقريبًا جودة Google Translate. وعلى وجه الخصوص، يتمتع النظام بالقدرة على التكيف مع المجالات اللغوية المتخصصة مثل الطب والقانون وما إلى ذلك وفقًا للمتطلبات المحددة للشريك.
تم تطوير هذا النظام ذاتيًا من قبل فريق البحث، استنادًا إلى البنية التحتية التقنية التي تدعم تخزين بيانات اللغة الكبيرة وأقوى قدرة الحوسبة الفائقة للذكاء الاصطناعي/التعلم الآلي (AI/ML) في فيتنام.
يتمتع معهد تكنولوجيا المعلومات بإتقان كامل للتقنيات ذات الصلة. لذلك، يمكن لهذه الوحدة توسيع نطاق التطبيق بسهولة ليشمل لغات مستهدفة جديدة بما في ذلك لغات الأقليات العرقية في فيتنام (غالبًا ما تكون فقيرة جدًا في موارد البيانات) مثل المونغ والتايلاندية وما إلى ذلك واللغات الأجنبية الشائعة مثل الصينية والفرنسية والروسية وما إلى ذلك عند الحاجة.
ومن المتوقع أن يكون برنامج الترجمة متعدد اللغات هذا المصنوع في فيتنام بمثابة الحل لمشكلة الوصول إلى المعلومات بالنسبة للأقليات العرقية.
[إعلان 2]
مصدر
تعليق (0)