'การเชี่ยวชาญข้อมูลของเวียดนามถือเป็นก้าวแรกในการพัฒนาและเชี่ยวชาญเทคโนโลยีของเวียดนาม'

Báo Thanh niênBáo Thanh niên27/05/2024


TS Đào Đức Minh: 'Làm chủ dữ liệu Việt là bước đầu phát triển và nắm giữ công nghệ Việt'- Ảnh 1.

หลังจากที่ได้ทำงานให้กับองค์กรปัญญาประดิษฐ์ขนาดใหญ่แห่งหนึ่งในสหรัฐอเมริกา ทำไมคุณจึงตัดสินใจกลับบ้านเกิดเพื่อเข้าร่วม VinBigdata?

ระหว่างที่ทำงานในสหรัฐฯ แม้ว่าฉันจะมีส่วนร่วมในโครงการขนาดใหญ่ของรัฐบาลหลายโครงการ แต่ผลลัพธ์ที่ฉันได้รับมักจะเป็นเพียงขั้นตอนเล็ก ๆ น้อย ๆ ในกระบวนการประมวลผลขนาดใหญ่เท่านั้น ในความเป็นจริง หลายครั้งเนื่องจากขั้นตอนการรักษาความลับที่เข้มงวดมากของโครงการ ฉันจึงไม่รู้ด้วยซ้ำว่าโซลูชันที่ฉันพัฒนาขึ้นถูกนำไปใช้อย่างไร

ฉันกลับไปเวียดนามอีกครั้งในปี 2017 ซึ่งเป็นช่วงที่เวียดนามยังอยู่ในช่วงพัฒนา และมีปัญหาต่างๆ มากมายเกี่ยวกับข้อมูลขนาดใหญ่และปัญญาประดิษฐ์ที่จำเป็นต้องได้รับการแก้ไข ฉันยอมรับคำเชิญของศาสตราจารย์ Vu Ha Van เพื่อร่วมกันบรรลุเป้าหมายในการพัฒนาโซลูชั่นเทคโนโลยีของเวียดนามเพื่อรองรับชีวิตของชาวเวียดนาม ฉันพบว่าการกลับมาเวียดนามของฉันมีความหมายมากขึ้น เพราะฉันจะสามารถทำปัญหาที่มีผลกระทบมากขึ้นได้

TS Đào Đức Minh: 'Làm chủ dữ liệu Việt là bước đầu phát triển và nắm giữ công nghệ Việt'- Ảnh 2.

ดร. เดา ดึ๊ก มินห์ ในการประชุมเชิงปฏิบัติการ

ในกลยุทธ์การพัฒนาปัญญาประดิษฐ์ Big Data มีบทบาทและอิทธิพลอย่างไรครับ?

ข้อมูลมีบทบาทสำคัญและมีคุณค่าอย่างยิ่งในการฝึกปัญญาประดิษฐ์ การฝึกอบรมโมเดลปัญญาประดิษฐ์คุณภาพสูงโดยปกติจะเริ่มต้นด้วยการฝึกอบรมชุดข้อมูลขนาดใหญ่ ดังนั้นเพื่อให้มีปัญญาประดิษฐ์ที่มีคุณภาพ เราต้องมีข้อมูลที่ดีก่อน

ข้อมูลที่ดีจะต้องมีคุณภาพดีทั้งในด้านปริมาณและขนาด คุณภาพ ความหลากหลาย และความเป็นสากล กระบวนการรวบรวมและประมวลผลข้อมูลนับพันชั่วโมงตั้งแต่ขั้นตอนการทำความสะอาดข้อมูลดิบจนถึงการสร้างข้อมูลคุณภาพสูงสุดเพื่อป้อนเข้าสู่โมเดลปัญญาประดิษฐ์นั้นมีค่าใช้จ่ายสูงและซับซ้อนมาก ในทางกลับกัน การจะวิเคราะห์ข้อมูลขนาดใหญ่ เราจำเป็นต้องใช้ปัญญาประดิษฐ์เพื่อให้แน่ใจว่าสามารถประมวลผลข้อมูลในระดับขนาดใหญ่ได้อย่างแม่นยำ จึงสร้างผลลัพธ์ที่เด็ดขาดหรือทำนายผลได้ดีขึ้น

ตัวอย่างเช่น ในกระบวนการพัฒนาผลิตภัณฑ์ผู้ช่วยเสมือนสำหรับชาวเวียดนาม (ViVi) เราต้องรวบรวมและประมวลผลข้อมูลเสียงคุณภาพสูงจำนวนหลายหมื่นชั่วโมง จากเสียงหลายแสนเสียงจากภูมิภาคต่างๆ อายุและเพศที่หลากหลาย โดยมีเนื้อหาที่ครอบคลุมหลายร้อยสาขา...

หรือล่าสุดคือการเปิดตัว ViGPT - “ChatGPT เวอร์ชันภาษาเวียดนามตัวแรกสำหรับผู้ใช้ปลายทาง” ที่พัฒนาจาก Large Language Model ซึ่งเป็นของ VinBigdata อย่างสมบูรณ์ โมเดลนี้ได้รับการฝึกอบรมบนข้อมูลเวียดนามที่ปรับแต่งละเอียดขนาด 600 GB จากโดเมนต่างๆ ด้วยความรู้ภาษาและข้อมูลเวียดนามที่เรามี เราพบแนวทางใหม่ในการย่นระยะเวลาเปิดตัว ViGPT ให้สั้นลงเหลือเพียง 9 เดือนหลังจากที่ ChatGPT ถือกำเนิด

นี่คือเสียงสะท้อนระหว่างข้อมูลขนาดใหญ่และปัญญาประดิษฐ์

TS Đào Đức Minh: 'Làm chủ dữ liệu Việt là bước đầu phát triển và nắm giữ công nghệ Việt'- Ảnh 3.
TS Đào Đức Minh: 'Làm chủ dữ liệu Việt là bước đầu phát triển và nắm giữ công nghệ Việt'- Ảnh 4.

คุณมีความคิดเห็นอย่างไรเกี่ยวกับการเชื่อมโยงงานวิจัยกับมูลค่าเชิงปฏิบัติเพื่อให้บริการชุมชน?

- ฉันเชื่อว่าการวิจัยเทคโนโลยีจะประสบความสำเร็จอย่างแท้จริงได้ก็ต่อเมื่อมันนำมาใช้ในชีวิตจริง แก้ไขปัญหาด้านสังคม และปรับปรุงคุณภาพชีวิตของผู้คน

ในการสร้างผลิตภัณฑ์เชิงพาณิชย์ที่ใช้งานได้จริงซึ่งช่วยแก้ไขปัญหาทางธุรกิจและสังคม เราจะต้องใส่ใจและถามคำถามเสมอว่าข้อมูลจะสร้างมูลค่าอะไรให้กับชีวิต

จนถึงขณะนี้ เราได้วิจัยและพัฒนาผลิตภัณฑ์และโซลูชันต่างๆ มากมายสำหรับหลายอุตสาหกรรมและหลายสาขา โดยทั่วไปแล้วจะเป็น ViGPT, VinDr ที่ให้บริการโซลูชัน AI ในการวินิจฉัยด้วยภาพทางการแพทย์, VinBase ซึ่งเป็นแพลตฟอร์มปัญญาประดิษฐ์ทางชีวภาพ หรือ Vizone ซึ่งเป็นชุดโซลูชันการวิเคราะห์ภาพอัจฉริยะ

TS Đào Đức Minh: 'Làm chủ dữ liệu Việt là bước đầu phát triển và nắm giữ công nghệ Việt'- Ảnh 5.

พร้อมด้วยบุคลากรสำคัญของ VinBigdata ในงานของ Vingroup Corporation

การปฏิวัติอุตสาหกรรมครั้งที่ 4 ได้เกิดขึ้นอย่างรุนแรงในระดับโลก คุณคิดว่าเวียดนามมีข้อได้เปรียบอะไรบ้าง?

เมื่อเทียบกับการปฏิวัติก่อนๆ ฉันคิดว่าปัจจุบันเวียดนามมีข้อได้เปรียบหลายประการที่สามารถก้าวข้ามผ่านการปฏิวัติอุตสาหกรรม 4.0 ได้ ซึ่งจะช่วยปรับปรุงตำแหน่งของประเทศบนแผนที่โลก กุญแจสำคัญสองประการในการบรรลุเป้าหมายนี้คือข้อมูลและบุคลากร

ในปัจจุบันประเทศเวียดนามมีประชากรเกือบ 100 ล้านคน ซึ่งคนหนุ่มสาวจำนวนมากใช้โทรศัพท์และคอมพิวเตอร์ส่วนบุคคล นอกจากนี้ เรายังมีผู้เชี่ยวชาญด้านปัญญาประดิษฐ์ที่มีชื่อเสียง และบุคลากรรุ่นใหม่ที่มีคุณภาพในด้านเทคโนโลยีสารสนเทศ และมีพื้นฐานทางคณิตศาสตร์ที่ดีมาก

แล้วมีข้อจำกัดอะไรบ้าง?

ข้อจำกัดที่เห็นได้ชัดประการแรกก็คือ แม้ว่าจะมีประชากรจำนวนมาก เราก็ยังคงประสบปัญหาในการควบคุมข้อมูล โดยเฉพาะการทำให้ข้อมูลเป็นมาตรฐานและซิงโครไนซ์ข้อมูลในสถานที่ หน่วยธุรกิจ และฝ่ายบริหาร

นอกจากนี้ เรายังเผชิญกับข้อจำกัดอื่นๆ เช่น ทรัพยากรการลงทุนที่มีจำกัด โดยเฉพาะการลงทุนในโครงสร้างพื้นฐานการประมวลผลประสิทธิภาพสูง

TS Đào Đức Minh: 'Làm chủ dữ liệu Việt là bước đầu phát triển và nắm giữ công nghệ Việt'- Ảnh 6.

ในความคิดของคุณ บทบาทของความเชี่ยวชาญข้อมูลของเวียดนามมีความสำคัญเพียงใดในการเดินทางสู่การสร้างและเชี่ยวชาญเทคโนโลยีเพื่อรองรับชีวิตของประชาชนชาวเวียดนาม?

ในปัจจุบันมีผลิตภัณฑ์ปัญญาประดิษฐ์ชั้นนำจากทั่วโลกอยู่มากมาย โดยทั่วไปแล้วผลิตภัณฑ์แอปพลิเคชัน AI ที่สร้างขึ้นโดยอิงจากโมเดลภาษาขนาดใหญ่ เช่น ChatGPT โดย OpenAI หรือ Bard โดย Google อย่างไรก็ตาม ภาษาเวียดนามไม่ใช่กลุ่มภาษาหลักสำหรับการพัฒนาผลิตภัณฑ์เหล่านี้

ดังนั้นคุณภาพของเนื้อหาเฉพาะภาษาเวียดนามที่ส่งคืนให้แก่ผู้ใช้จึงได้รับผลกระทบมากหรือน้อยและมีความเสี่ยงต่อข้อผิดพลาดสูง และที่อันตรายกว่านั้นคือข้อผิดพลาดในความรู้พื้นฐาน

เนื่องจากเราเป็นชาวเวียดนาม เราจึงมีข้อได้เปรียบในการเข้าถึงแหล่งข้อมูลของเราเอง เราเท่านั้นที่มีความสามารถในการเข้าใจลักษณะข้อมูลของชาวเวียดนาม ความต้องการและลักษณะเฉพาะของชาวเวียดนาม ดังนั้น การเชี่ยวชาญข้อมูลของเวียดนามจึงเป็นกุญแจสำคัญในการเชี่ยวชาญเทคโนโลยีหลัก ซึ่งเป็นเทคโนโลยีที่จะให้บริการแก่ชาวเวียดนาม

TS Đào Đức Minh: 'Làm chủ dữ liệu Việt là bước đầu phát triển và nắm giữ công nghệ Việt'- Ảnh 7.

การฝึกอบรมภายในสำหรับสมาชิก VinBigdata

จะเข้าถึงแหล่งข้อมูลเฉพาะเจาะจงได้อย่างไร โดยเฉพาะอย่างยิ่งเมื่อคนเวียดนามส่วนใหญ่ในปัจจุบันใช้เว็บไซต์เครือข่ายโซเชียลจากต่างประเทศ?

ความจริงก็คือแหล่งที่มาข้อมูลของมนุษย์ที่ใหญ่ที่สุดในปัจจุบัน (ไม่ใช่แค่ชาวเวียดนามเท่านั้น) อยู่บนอินเทอร์เน็ตและเครือข่ายโซเชียล อย่างไรก็ตาม เราสามารถเข้าถึงและรวบรวมข้อมูลจากแหล่งต่าง ๆ ได้โดยอาศัยความเข้าใจเกี่ยวกับลักษณะข้อมูลของเวียดนาม ซึ่งขึ้นอยู่กับลักษณะที่กำหนดโดยแต่ละโครงการ

ตัวอย่างเช่น โมเดล GPT ของ OpenAI มีพารามิเตอร์นับร้อยหรือแม้แต่ล้านล้านตัว ได้รับการฝึกด้วยข้อมูลจำนวนมหาศาล และมีต้นทุนนับพันล้านดอลลาร์ หากเปรียบเทียบกับพวกเขา เราได้เลือกแนวทางที่แตกต่างอย่างสิ้นเชิงโดยอิงจากการวิจัย ความสามารถ และทรัพยากรที่เรามี นั่นคือ การสร้างแบบจำลองภาษาเวียดนามด้วยสถาปัตยกรรมที่ประกอบด้วยพารามิเตอร์เพียงไม่กี่พันล้านตัว ฝึกอบรมบนชุดข้อมูลภาษาเวียดนามขนาด 600 GB ที่เราเก็บรวบรวมและปรับแต่งเอง แต่มีศักยภาพที่เทียบเท่ากันในแง่ของความสามารถในการประมวลผลภาษาเวียดนาม ผลลัพธ์แสดงให้เห็นว่าสถาปัตยกรรมที่เราพัฒนาเองสามารถปรับให้เหมาะสมเอง ลดระยะเวลาการฝึกอบรมโมเดลภาษา ลดต้นทุน ในขณะที่ยังคงรับประกันคุณภาพของโมเดล

คุณและทีมของคุณเผชิญกับความท้าทายอะไรบ้างในกระบวนการวิจัยและพัฒนาผลิตภัณฑ์ปัญญาประดิษฐ์?

ความท้าทายแรกก็คือเวลาแน่นอน คลื่นเทคโนโลยีปัญญาประดิษฐ์กำลังมาอย่างรวดเร็วและอยู่ในช่วงเวลาเฟื่องฟู บริษัทเทคโนโลยีชั้นนำทั่วโลกเปิดตัวผลิตภัณฑ์อันสมบูรณ์แบบซึ่งได้รับการอัปเดตและปรับปรุงอย่างต่อเนื่องอย่างรวดเร็ว ถ้าเราช้าและไม่ส่งสินค้าตรงตามเวลาเราจะตกยุคแน่นอน

ในทางกลับกัน หากเราต้องการสร้างผลิตภัณฑ์ที่สามารถนำไปประยุกต์ใช้และแก้ไขปัญหาสังคมในทางปฏิบัติได้ เราก็ต้องพิจารณาการค้นหาและพัฒนาคุณสมบัติที่โดดเด่น พิเศษ และไม่เหมือนใครของผลิตภัณฑ์ด้วย

TS Đào Đức Minh: 'Làm chủ dữ liệu Việt là bước đầu phát triển và nắm giữ công nghệ Việt'- Ảnh 8.

การนำเสนอที่ Vietnam Artificial Intelligence Day (AI4VN 2023)

ในความเป็นจริง บุคคลและองค์กรจำนวนมากในเวียดนามและทั่วโลกต้องประสบกับความสูญเสียครั้งใหญ่จากการรั่วไหลของข้อมูล คุณมองปัญหาความปลอดภัยของข้อมูลอย่างไร?

อาจกล่าวได้ว่าในปัจจุบันการประยุกต์ใช้งานใดๆ ก็ตามล้วนมาจากข้อมูล เมื่อทำงานกับข้อมูล ในด้านหนึ่ง เราต้องมั่นใจว่าเป้าหมายของการใช้ข้อมูลเพื่อสร้างเทคโนโลยีที่ดีที่สุดสำหรับชีวิต และในอีกด้านหนึ่ง เราต้องแน่ใจว่าข้อมูลมีความปลอดภัยสำหรับบุคคลและองค์กร

ปัจจัยด้านมนุษย์ถือเป็นปัจจัยสำคัญอย่างยิ่งในกระบวนการรักษาความปลอดภัยของข้อมูล ซึ่งรวมถึงนักพัฒนา ผู้ใช้ผลิตภัณฑ์ และผู้ใช้ สำหรับนักพัฒนา จำเป็นต้องตระหนักถึงความปลอดภัยของข้อมูลตั้งแต่เริ่มต้นการรวบรวมและประมวลผลข้อมูล

บ่อยครั้งที่เมื่อไม่มีอะไรเกิดขึ้น เรามักจะไม่ตระหนักถึงความสำคัญของการรักษาความปลอดภัยข้อมูล แต่หากเกิดการละเมิดข้อมูล ความเสียหายอาจมหาศาล การละเมิดข้อมูลอาจเกิดขึ้นได้เนื่องมาจากปัญหาทางเทคนิคหรือจากการโจมตีขโมยข้อมูลโดยเจตนา เมื่อข้อมูลรั่วไหล บุคคลหรือองค์กรต่างๆ อาจถูกผู้ไม่ประสงค์ดีนำข้อมูลของตนไปใช้เพื่อจุดประสงค์ที่ผิดกฎหมาย ขณะเดียวกัน ธุรกิจต่างๆ อาจต้องสูญเสียทางการเงินจากการแก้ไขปัญหาที่เกี่ยวข้อง และอาจส่งผลเสียหายต่อแบรนด์ของตนเองได้ด้วย

TS Đào Đức Minh: 'Làm chủ dữ liệu Việt là bước đầu phát triển và nắm giữ công nghệ Việt'- Ảnh 9.

ดร. Dao Duc Minh และทีมงาน VinBigdata ในงานสัมมนา

หลังจากที่มีความมุ่งมั่นในการเชี่ยวชาญเทคโนโลยีเพื่อให้บริการประชาชนชาวเวียดนามแล้ว จะมีขั้นตอนใดที่จะก้าวไปสู่ระดับโลกหรือไม่

องค์กรหรือธุรกิจใดก็ตามที่ต้องการนำผลิตภัณฑ์ของตนเข้าสู่ตลาดต่างประเทศจะต้องปฏิบัติตามมาตรฐานสากล VinBigdata มีจุดแข็งทั้งด้านโซลูชันและเทคโนโลยี ดังนั้น การกำหนดวิสัยทัศน์ในการพิชิตโลกจึงเป็นเรื่องธรรมดา

แน่นอนว่าการที่จะนำไปใช้กับผลิตภัณฑ์และแอปพลิเคชันต่างๆ มากมายนั้น จำเป็นต้องมีการสนับสนุนจากหน่วยงานระดับนานาชาติที่มีประสบการณ์หลายปีและมีความเข้าใจผู้ใช้ทั่วโลก

ขอบคุณ!



ที่มา: https://thanhnien.vn/ts-dao-duc-minh-lam-chu-du-lieu-viet-la-buoc-dau-phat-trien-va-nam-giu-cong-nghe-viet-18524052710263732.htm

การแสดงความคิดเห็น (0)

No data
No data

หัวข้อเดียวกัน

หมวดหมู่เดียวกัน

อินโดนีเซียยิงปืนใหญ่ 7 นัดต้อนรับเลขาธิการใหญ่โตลัมและภริยา
ชื่นชมอุปกรณ์ล้ำสมัยและรถหุ้มเกราะที่จัดแสดงโดยกระทรวงความมั่นคงสาธารณะบนถนนของฮานอย
“Tunnel: Sun in the Dark”: ภาพยนตร์ปฏิวัติวงการเรื่องแรกที่ไม่มีเงินทุนสนับสนุนจากรัฐ
ผู้คนนับพันในเมืองโฮจิมินห์รอขึ้นรถไฟฟ้าใต้ดินสาย 1 ในวันเปิดตัว

ผู้เขียนเดียวกัน

มรดก

รูป

ธุรกิจ

No videos available

ข่าว

กระทรวง-สาขา

ท้องถิ่น

ผลิตภัณฑ์