عند دخوله إلى بهو المطار، وسط صخب وضجيج الأشخاص العائدين من رحلة عمل، توقف هو مينه دوك لبضع ثوانٍ عندما سمع صوتًا أنثويًا لطيفًا مألوفًا يقرأ إعلانًا على النظام.
موظفو Vbee يعملون في المقر الرئيسي للشركة في هانوي - الصورة: NVCC
ابتسم، وشعر بالارتياح والسعادة وكأنه التقى أحد أقاربه مرة أخرى. هذا "القريب" هو واحد من 20 صوتًا للذكاء الاصطناعي التي "أكلها ونام" بها ديوك وفريق Vbee لعدة أيام وأشهر، وصبوا كل قلوبهم في كل سطر صوتي، مع الاهتمام بكل فارق بسيط في الصوت لجعلها أكثر طبيعية وأكثر تشبه الإنسان.
بداية صعبة
لا أعلم كم مرة شعر الرئيس التنفيذي هو مينه دوك والمديرة التقنية نجوين ثي تو ترانج - المؤسسان لشركة Vbee Data Solutions and Services Joint Stock Company - بمثل هذا الشعور من الفرح والفخر.
لقد التقوا بـ "معارف خاصين" في العديد من المواقف المختلفة: أصوات واضحة على أنظمة مكبرات الصوت في المدارس، أو أصوات دافئة في المباني، أو أصوات مهنية من لوحات التوزيع الأوتوماتيكية للعديد من الشركات.
لم تعد أفكار Vbee مجرد نتاج خوارزميات وأكواد، بل إنها دخلت الحياة بالفعل، وقدمت مساهمات صامتة ولكنها قوية في العديد من المجالات.
من تقديم الكتب إلى دبلجة الأفلام إلى الإعلانات الآلية لمركز الاتصال، تعمل Vbee على إعطاء حياة جديدة لتكنولوجيا الصوت.
باعتبارها "أم" تقنية TTS الأساسية، تطمح الدكتورة نجوين ثي ثو ترانج دائمًا إلى تقديم منتجات من تقنية تركيب الكلام الفيتنامية - وهي التقنية التي كرست لها الكثير من الجهد منذ أطروحتها للدكتوراه في جامعة باريس 11 - للمستخدمين الحقيقيين.
كانت الأيام الأولى لـ Vbee مليئة بالصعوبات. وعلى الرغم من كونها مجانية لمدة العامين الأولين، فإن محرك تحويل النص إلى كلام (TTS) الخاص بها لم يجذب سوى مجموعة صغيرة من المستخدمين. ولكن بعد ذلك، تبين أن كوفيد-19 كان بمثابة نقطة تحول غير متوقعة.
في مواجهة قواعد التباعد الاجتماعي الصارمة، يتعين على الشركات مثل FE Credit، وMomo، وViet Credit، وSacombank... إيجاد طرق للوصول إلى آلاف العملاء. وهنا جاء دور Vbee: من تذكير الديون إلى الردود الآلية، وأصبح منتجهم على الفور الحل الأمثل. في ذلك الوقت، كان المساعدون الافتراضيون والوكلاء الافتراضيون يحققون 80% من إيرادات Vbee.
عندما انتهى الوباء وانخفض الاقتصاد العالمي، واجهت Vbee تحديات جديدة. أدت موجة الذكاء الاصطناعي التوليدي (GenAI) واتجاهات المحتوى الرقمي إلى إحياء محركات تحويل النص إلى كلام. اليوم، من TikTok إلى YouTube وFacebook، أصبحت أصوات الذكاء الاصطناعي الخاصة بـ Vbee موجودة في كل مكان.
قال السيد هو مينه دوك بفخر: "نقدم اليوم قدرًا كبيرًا من محتوى TTS". في الوقت الحالي، تجاوزت قاعدة مستخدمي Vbee الفعلية 2 مليون مستخدم، وهذا الرقم لا يزال يتزايد بشكل مطرد بنسبة 20% كل شهر.
لقد قامت شركة Vbee بتدريب أكثر من 20 صوتًا مؤسسيًا عالي الجودة، وإذا قمت بحساب الأصوات المخصصة، فقد قاموا بإنشاء أكثر من 200 صوت مختلف للذكاء الاصطناعي.
بفضل تقنية نسخ الصوت الجديدة التي تم البحث عنها واختبارها مؤخرًا، أصبح الصوت الجديد يحتاج الآن إلى 3 دقائق فقط من البيانات المسجلة للتدريب بدلاً من 4 إلى عشرات الساعات من التسجيل كما كان الحال قبل عامين.
الرئيس التنفيذي هو مينه دوك والمدير التنفيذي للتكنولوجيا نجوين ثي تو ترانج - اثنان من مؤسسي شركة Vbee Data Solutions and Services المساهمة - الصورة: NVCC
"نحن أفضل في فهم اللغة الفيتنامية"
وفي السباق نحو تكنولوجيا تركيب الكلام، يرى الرئيس التنفيذي هو مينه دوك أن هناك وقتاً ستصل فيه جهود الابتكار التكنولوجي تدريجياً إلى حدودها القصوى.
وبحسب قوله، فإن شركة Vbee لا تعمل فقط على تطوير التكنولوجيا الأساسية لمعالجة الكلام الفيتنامي، بل إنها تعمل أيضًا على بناء نظام تكنولوجي قادر على فهم اللغة الفيتنامية بشكل عميق - مع كل التفاصيل الدقيقة والنغمات والثقافة الفريدة التي لا يستطيع إلا الشعب الفيتنامي الحقيقي فهمها بالكامل.
باعتبارها شركة رائدة في سوق TTS في فيتنام، يعتقد رئيسا شركة Vbee أن أداةهما أصبحت المعيار لقراءة الصوت بالذكاء الاصطناعي للغة الفيتنامية. لا يستمتع المستخدمون بالدقة فحسب، بل يشعرون أيضًا "بالعاطفة" في كل صوت تم تطويره بواسطة Vbee.
على سبيل المثال، في اللغة الفيتنامية، تحمل كلمة "alley" فقط العديد من الأسماء المختلفة اعتمادًا على المنطقة مثل "hèm" و"kiệt" و"xếc" - كل كلمة لها فارق بسيط مختلف يحتاج الذكاء الاصطناعي إلى فهمه.
ولتحقيق ذلك، استثمرت Vbee بشكل كبير في جمع مجموعات البيانات النموذجية بالإضافة إلى الاستثمار في أنظمة خادم قوية لتدريب الذكاء الاصطناعي.
"لمساعدة الذكاء الاصطناعي على فهم ومعالجة كل فارق بسيط إقليمي بشكل صحيح، كان علينا بناء مجموعات عينات لا حصر لها، وكانت تكلفة خادم المعالجة مرتفعة للغاية أيضًا"، كما شارك الرئيس التنفيذي هو مينه دوك.
لقد أمضت الدكتورة نجوين ثي تو ترانج أكثر من 15 عامًا في البحث في تقنية تحويل النص إلى كلام الأساسية في Vbee لفك تشفير نغمات وخصائص القواعد النحوية للغة الفيتنامية. بالنسبة لها، لغتها الأم هي عالم دقيق مليء بالدلالات التعبيرية.
"لغتي الفيتنامية معقدة ومثيرة للاهتمام للغاية، ونبراتها هي الأصعب والأكثر اختلافًا عن العديد من اللغات الشائعة الأخرى في العالم. كلما فهمتُ اللغة أكثر، كان نموذجي أكثر دقة"، أوضحت.
تؤكد شركة Vbee تدريجيًا أنها ستصبح جزءًا لا غنى عنه من الأدوات والأجهزة التي تحتوي على برامج معالجة اللغة الفيتنامية المتكاملة في عصر التكنولوجيا.
في كل كلمة وكل صوت، لا يقوم فريق Vbee بالبحث والتطوير التكنولوجي فحسب، بل يسعى أيضًا إلى خلق "عاطفة فيتنامية" حقيقية في أصوات الذكاء الاصطناعي الخاصة بهم.
اسم Vbee هو اختصار لعبارة "الفيتنامية كن عينيك"، والتي نشأت من رغبتي الأولية في بناء أداة تصبح "عيونًا" للأشخاص ضعاف البصر. ولكن في اتجاه التطوير الحالي، عندما يريد العديد من الأشخاص التحول إلى الاستماع أكثر من الرؤية، نعتقد أن Vbee سيصبح أيضًا "عيون" الجميع.
الدكتورة نجوين ثي ثو ترانج (محاضرة، كلية تكنولوجيا المعلومات، جامعة هانوي للعلوم والتكنولوجيا، مؤسسة ومديرة التكنولوجيا في شركة Vbee)
لقاء محبي الكتب الصوتية
وُلدت Vbee من مصير الدكتورة نجوين ثي تو ترانج مع مجتمع المكفوفين. منذ أيام دراستها، شاركت في تسجيل الكتب الصوتية وتطوير القراء الفيتناميين لدعم ضعاف البصر.
ألهمتها هذه التجارب لتطوير برنامج القراءة الفيتنامية - وهو السلف لبرنامج Vbee. في عام 2018، أسست هي والسيد هو مينه دوك - زميل الدراسة في جامعة هانوي للعلوم والتكنولوجيا الذي يتمتع بخبرة من مشروع Socbay.com ورقمنة الكتب الصوتية - شركة Vbee، وهي شركة رائدة في مجال تحويل النص إلى كلام في فيتنام.
إنجازات Vbee المتميزة
- الجائزة الأولى في تحدي كوالكوم للابتكار في فيتنام 2024
- جائزة خاصة لجائزة Tuoi Tre للشركات الناشئة لعام 2023
- شركة ناشئة فائزة في برنامج Grab Venture Ignite 2020 Accelerator
- الجائزة الأولى للمواهب الفيتنامية 2018، والجائزة الثانية للمواهب الفيتنامية 2020
- شهادة التكنولوجيا الأساسية الفيتنامية في برنامج التحول الرقمي الوطني 2025 - 2030 التابع لوزارة المعلومات والاتصالات
- مشروع فائز بجائزة فيتنام للإعلام الرقمي 2018 وصندوق Vingroup 2019.
رؤية إقليمية
بعد تأكيد مكانتها في السوق الفيتنامية، تهدف Vbee إلى التوسع في جنوب شرق آسيا مع خطط لجلب تقنية TTS إلى دول مثل لاوس وتايلاند وكمبوديا والفلبين بحلول عام 2026.
وبحسب الدكتورة نجوين ثي تو ترانج، فإن التقدم السريع للتكنولوجيا اليوم مع ظهور نماذج متعددة اللغات سيجعل من الأسهل تطوير أدوات تحويل النص إلى كلام للغات أخرى.
وهي تقوم حاليًا بالبحث في تكنولوجيات الكلام للغة التايلاندية والصينية والإنجليزية، مما يفتح خطوات جديدة لشركة Vbee في السوق الدولية.
[إعلان 2]
المصدر: https://tuoitre.vn/vbee-va-no-luc-chap-canh-cho-tieng-viet-20250217102146767.htm
تعليق (0)