ภาพที่ 19.jpg
Felix Yanwei Wang - นักศึกษาปริญญาเอกสาขาวิศวกรรมไฟฟ้าและวิทยาการคอมพิวเตอร์ (EECS) MIT ที่มา: MIT News

ลองจินตนาการถึงหุ่นยนต์ช่วยคุณล้างจาน คุณขอให้มันหยิบสบู่จากอ่างล้างจาน แต่ที่จับของมันจับไม่ตรงตำแหน่งที่ควรจับ

ด้วยกรอบการทำงานใหม่ที่พัฒนาโดยนักวิจัยจาก MIT และ NVIDIA คุณสามารถปรับเปลี่ยนพฤติกรรมของหุ่นยนต์ด้วยท่าทางง่ายๆ คุณสามารถชี้ไปที่ชามหรือวาดเส้นทางบนหน้าจอหรือเพียงแค่สะกิดแขนของหุ่นยนต์ไปในทิศทางที่ถูกต้อง

ต่างจากวิธีการปรับเปลี่ยนพฤติกรรมหุ่นยนต์แบบอื่น เทคนิคนี้ไม่จำเป็นต้องให้ผู้ใช้รวบรวมข้อมูลใหม่และฝึกอบรมโมเดลการเรียนรู้ของเครื่องที่ควบคุมหุ่นยนต์อีกครั้ง แต่จะช่วยให้หุ่นยนต์สามารถใช้ข้อมูลตอบรับทางภาพของมนุษย์แบบเรียลไทม์เพื่อเลือกลำดับการกระทำที่ตรงกับความตั้งใจของผู้ใช้มากที่สุด

เมื่อนักวิจัยทำการทดสอบกรอบงานนี้ อัตราความสำเร็จสูงกว่าแนวทางทางเลือกที่ไม่ใช้การแทรกแซงของมนุษย์ถึง 21%

ในอนาคต กรอบงานนี้อาจช่วยให้ผู้ใช้สั่งหุ่นยนต์ที่ได้รับการฝึกอบรมจากโรงงานให้ทำหน้าที่ต่างๆ ในบ้านได้อย่างง่ายดาย แม้ว่าหุ่นยนต์จะไม่เคยเห็นสภาพแวดล้อมหรือวัตถุในบ้านหลังนั้นมาก่อนก็ตาม

“เราไม่สามารถคาดหวังให้ผู้ใช้ทั่วไปรวบรวมข้อมูลและปรับแต่งโมเดลเครือข่ายประสาทเองได้ พวกเขาคาดหวังว่าหุ่นยนต์จะทำงานได้ทันทีหลังแกะกล่อง และหากมีอะไรผิดพลาด พวกเขาต้องมีกลไกที่ใช้งานง่ายเพื่อปรับแต่งมัน “นี่คือความท้าทายที่เราได้กล่าวถึงในการศึกษาครั้งนี้” เฟลิกซ์ หยานเหว่ย หวัง นักศึกษาระดับปริญญาตรีจากภาควิชาวิศวกรรมไฟฟ้าและวิทยาการคอมพิวเตอร์ (EECS) ที่สถาบัน MIT และหัวหน้าคณะผู้จัดทำการศึกษากล่าว

ลดการเบี่ยงเบนให้น้อยที่สุด

เมื่อไม่นานนี้ นักวิจัยได้ใช้โมเดล AI เชิงสร้างสรรค์ที่ได้รับการฝึกอบรมไว้ล่วงหน้าเพื่อเรียนรู้ "นโยบาย" ซึ่งเป็นชุดกฎที่หุ่นยนต์ปฏิบัติตามเพื่อทำงานให้เสร็จสมบูรณ์ โมเดลเหล่านี้สามารถแก้ไขงานที่ซับซ้อนได้หลายอย่าง

ระหว่างการฝึกอบรม โมเดลจะได้รับการเปิดเผยเฉพาะการเคลื่อนไหวของหุ่นยนต์ที่ถูกต้องเท่านั้น จึงเรียนรู้ที่จะสร้างวิถีการเคลื่อนไหวที่เหมาะสม

อย่างไรก็ตาม นี่ไม่ได้หมายความว่าการกระทำทุกอย่างของหุ่นยนต์จะสอดคล้องกับความต้องการของผู้ใช้ในความเป็นจริง ตัวอย่างเช่น หุ่นยนต์อาจได้รับการฝึกให้หยิบกล่องบนชั้นวางโดยไม่ทำให้กล่องล้ม แต่หุ่นยนต์อาจไม่สามารถหยิบกล่องบนชั้นวางหนังสือของใครบางคนได้ หากเค้าโครงของชั้นวางหนังสือแตกต่างไปจากสิ่งที่เห็นระหว่างการฝึก

เพื่อแก้ไขข้อผิดพลาดดังกล่าว วิศวกรมักจะรวบรวมข้อมูลเพิ่มเติมเกี่ยวกับงานใหม่และฝึกอบรมโมเดลใหม่ ซึ่งเป็นกระบวนการที่ใช้เวลานานและมีค่าใช้จ่ายสูง ซึ่งต้องอาศัยความเชี่ยวชาญด้านการเรียนรู้ของเครื่อง

อย่างไรก็ตาม ทีม MIT ต้องการให้ผู้ใช้สามารถปรับเปลี่ยนพฤติกรรมของหุ่นยนต์ได้ทันทีที่เกิดข้อผิดพลาด

อย่างไรก็ตาม หากมนุษย์เข้ามาแทรกแซงกระบวนการตัดสินใจของหุ่นยนต์ อาจทำให้โมเดลกำเนิดเลือกการดำเนินการที่ไม่ถูกต้องโดยไม่ได้ตั้งใจ หุ่นยนต์สามารถหยิบกล่องที่ผู้ใช้ต้องการได้ แต่ก็อาจจะล้มหนังสือบนชั้นวางได้ด้วยเช่นกัน

“เราต้องการให้ผู้ใช้โต้ตอบกับหุ่นยนต์โดยไม่เกิดข้อผิดพลาด ซึ่งจะทำให้มีพฤติกรรมที่ตรงกับความตั้งใจของผู้ใช้มากขึ้น ในขณะเดียวกันก็ยังคงความถูกต้องและความเป็นไปได้” Felix Yanwei Wang กล่าว

เพิ่มความสามารถในการตัดสินใจ

เพื่อให้แน่ใจว่าการโต้ตอบเหล่านี้จะไม่ทำให้หุ่นยนต์ดำเนินการที่ไม่ถูกต้อง ทีมงานจึงใช้ขั้นตอนการสุ่มตัวอย่างพิเศษ เทคนิคนี้ช่วยให้โมเดลเลือกการดำเนินการจากชุดตัวเลือกที่ถูกต้องซึ่งตรงกับเป้าหมายของผู้ใช้มากที่สุด

“แทนที่จะบังคับใช้เจตนาของผู้ใช้ เราช่วยให้หุ่นยนต์เข้าใจเจตนาของพวกเขา ในขณะที่ปล่อยให้กระบวนการสุ่มตัวอย่างผันผวนไปตามพฤติกรรมที่มันเรียนรู้” เฟลิกซ์ หยานเหว่ย หวัง กล่าว

ด้วยแนวทางนี้ กรอบงานวิจัยของพวกเขาจึงเหนือกว่าวิธีอื่นๆ ในการทดลองจำลอง รวมถึงการทดสอบด้วยแขนหุ่นยนต์จริงในห้องครัวจำลอง

แม้วิธีนี้จะไม่ทำให้ภารกิจเสร็จสิ้นในทันที แต่ก็มีข้อดีอย่างมากต่อผู้ใช้ นั่นคือผู้ใช้สามารถแก้ไขหุ่นยนต์ได้ทันทีที่ตรวจพบข้อผิดพลาด แทนที่จะต้องรอให้หุ่นยนต์ทำงานเสร็จสิ้นแล้วค่อยให้คำแนะนำใหม่

นอกจากนี้ หลังจากที่ผู้ใช้เขย่าหุ่นยนต์เบาๆ สองสามครั้งเพื่อนำทางให้หยิบชามที่ถูกต้อง หุ่นยนต์ก็จะจดจำการแก้ไขนั้นและนำไปรวมเข้ากับการเรียนรู้ในอนาคตได้ ด้วยเหตุนี้ ในวันถัดไป หุ่นยนต์ก็สามารถหยิบชามที่ถูกต้องได้ โดยไม่ต้องได้รับคำสั่งซ้ำอีก

“แต่กุญแจสำคัญของการปรับปรุงอย่างต่อเนื่องนี้คือการมีกลไกที่ให้ผู้ใช้โต้ตอบกับหุ่นยนต์ และนั่นคือสิ่งที่เราได้สาธิตให้เห็นในการศึกษาครั้งนี้” Felix Yanwei Wang กล่าว

ในอนาคตทีมงานต้องการเพิ่มความเร็วของกระบวนการสุ่มตัวอย่างพร้อมทั้งรักษาหรือปรับปรุงประสิทธิภาพการทำงาน พวกเขายังต้องการทดสอบวิธีการในสภาพแวดล้อมใหม่เพื่อประเมินความสามารถในการปรับตัวของหุ่นยนต์

(ที่มา: MIT News)