ด้วยเหตุนี้ แม้แต่การกำหนดค่าโมเดลปัญญาประดิษฐ์ที่มีประสิทธิภาพดีที่สุดที่พวกเขาทดสอบ ซึ่งก็คือ GPT-4-Turbo ของ OpenAI ก็ยังสามารถทำอัตราตอบถูกต้องได้เพียง 79% เท่านั้น แม้จะอ่านโปรไฟล์ทั้งหมด และมักพบกับ "ภาพหลอน" ของตัวเลขหรือเหตุการณ์ที่ไม่จริง

“อัตราส่วนประสิทธิภาพแบบนั้นถือว่ายอมรับไม่ได้อย่างสิ้นเชิง” Anand Kannappan ผู้ก่อตั้งร่วมของ Patronus AI กล่าว “อัตราการตอบที่ถูกต้องจะต้องสูงกว่านี้มากจึงจะสามารถทำงานอัตโนมัติและพร้อมสำหรับการผลิตได้”

ผลการวิจัยเน้นย้ำถึงความท้าทายบางประการที่โมเดล AI ต้องเผชิญ เนื่องจากบริษัทขนาดใหญ่ โดยเฉพาะในอุตสาหกรรมที่มีกฎระเบียบควบคุมสูง เช่น ภาคการเงิน มักมองหาการนำเทคโนโลยีขั้นสูงเข้ามาใช้ในกระบวนการทำงาน ไม่ว่าจะเป็นบริการลูกค้าหรือการวิจัย

“ภาพลวงตา” ข้อมูลทางการเงิน

ความสามารถในการดึงตัวเลขสำคัญและวิเคราะห์งบการเงินได้อย่างรวดเร็วได้รับการยกย่องว่าเป็นหนึ่งในแอปพลิเคชั่นที่มีแนวโน้มมากที่สุดสำหรับแชทบอทตั้งแต่ ChatGPT เปิดตัวเมื่อปลายปีที่แล้ว

เอกสารที่ยื่นต่อ SEC ประกอบด้วยข้อมูลที่สำคัญ และหากบอทสามารถสรุปข้อมูลได้อย่างแม่นยำหรือตอบคำถามเกี่ยวกับเนื้อหาได้อย่างรวดเร็ว ก็อาจทำให้ผู้ใช้มีความได้เปรียบในอุตสาหกรรมการเงินที่มีการแข่งขันสูง

llm ภาพ 100941414 ขนาดใหญ่.jpg
AI ประสบปัญหาในขั้นตอนการรวบรวมข้อมูล ซึ่งเป็นงานที่คาดหวังว่าจะช่วยเหลือมนุษย์ได้มากที่สุด

ในช่วงปีที่ผ่านมา Bloomberg LP ได้พัฒนาโมเดล AI สำหรับข้อมูลทางการเงินของตัวเอง และศาสตราจารย์จากโรงเรียนธุรกิจได้ศึกษาว่า ChatGPT สามารถวิเคราะห์พาดหัวข่าวทางการเงินได้หรือไม่

ในขณะเดียวกัน JPMorgan กำลังพัฒนาเครื่องมือลงทุนอัตโนมัติที่ขับเคลื่อนด้วย AI อีกด้วย การพยากรณ์ล่าสุดของ McKinsey ระบุว่า AI เชิงสร้างสรรค์สามารถส่งเสริมอุตสาหกรรมการธนาคารได้เป็นล้านล้านดอลลาร์ต่อปี

อย่างไรก็ตามการเดินทางนี้ยังอีกไกลมาก เมื่อ Microsoft เปิดตัว Bing Chat ด้วยการผสานรวม GPT ของ OpenAI เป็นครั้งแรก พวกเขาได้ใช้แชทบอทเพื่อสรุปข่าวเผยแพร่ผลประกอบการอย่างรวดเร็ว ผู้สังเกตการณ์ตระหนักได้อย่างรวดเร็วว่าตัวเลขที่ AI ตอบนั้นเบี่ยงเบนหรืออาจถึงขั้นถูกแต่งขึ้น

ข้อมูลเดียวกันแต่คำตอบต่างกัน

ส่วนหนึ่งของความท้าทายในการนำ LLM เข้าใช้กับผลิตภัณฑ์ในโลกแห่งความเป็นจริงก็คือ อัลกอริทึมไม่มีการกำหนดแน่นอน ซึ่งหมายความว่าไม่มีการรับประกันว่าจะส่งผลลัพธ์เดียวกันเมื่อได้รับอินพุตที่เหมือนกัน ซึ่งหมายความว่าบริษัทต่างๆ จำเป็นต้องดำเนินการทดสอบที่เข้มงวดมากขึ้นเพื่อให้แน่ใจว่า AI ทำงานได้อย่างแม่นยำ ไม่หลุดประเด็น และให้ผลลัพธ์ที่เชื่อถือได้

Patronus AI จัดทำชุดคำถามและคำตอบมากกว่า 10,000 ข้อที่ดึงมาจากเอกสารที่ยื่นต่อ SEC จากบริษัทจดทะเบียนในตลาดหลักทรัพย์ขนาดใหญ่ เรียกว่า FinanceBench ชุดข้อมูลประกอบด้วยคำตอบที่ชัดเจนรวมถึงตำแหน่งที่แน่นอนในไฟล์ที่กำหนดเพื่อค้นหาคำตอบเหล่านั้น

ไม่ใช่ว่าคำตอบทั้งหมดจะนำมาจากข้อความโดยตรงได้ และบางคำถามก็ต้องใช้การคำนวณหรือการใช้เหตุผลเบื้องต้น

แบบทดสอบย่อย 150 คำถามเกี่ยวข้องกับโมเดล LLM สี่โมเดล ได้แก่ GPT-4 และ GPT-4-Turbo ของ OpenAI, Claude 2 ของ Anthropic และ Llama 2 ของ Meta

ผลลัพธ์ก็คือ เมื่อได้รับอนุญาตให้เข้าถึงเอกสารที่ยื่นต่อ SEC ก็มีอัตราความแม่นยำเพียง 85% เท่านั้น (เมื่อเทียบกับคำตอบที่ไม่ถูกต้อง 88% เมื่อไม่ได้รับสิทธิ์เข้าถึงข้อมูล) ถึงแม้ว่ามนุษย์จะชี้เมาส์ไปที่ข้อความที่แน่นอนเพื่อให้ AI ค้นหาคำตอบก็ตาม

Llama 2 ซึ่งเป็นโมเดล AI โอเพนซอร์สที่พัฒนาโดย Meta มี "ภาพหลอน" มากที่สุด โดยตอบคำถามผิดถึง 70% และตอบถูกเพียง 19% เมื่อได้รับอนุญาตให้เข้าถึงเอกสารพื้นฐานบางส่วน

Claude 2 ของ Anthropic มีประสิทธิภาพเมื่อมี "บริบทยาว" ซึ่งรวมถึงเอกสาร SEC ที่เกี่ยวข้องเกือบทั้งหมดพร้อมคำถามด้วย สามารถตอบคำถามที่ถูกถามได้ 75%, ตอบผิด 21% และปฏิเสธที่จะตอบ 3% GPT-4-Turbo ยังทำงานได้ดีกับบริบทที่ยาว โดยตอบคำถามถูกต้อง 79% และผิด 17%

(ตามรายงานของซีเอ็นบีซี)

การแข่งขันของ Big Tech ในการลงทุนในสตาร์ทอัพด้าน AI

การแข่งขันของ Big Tech ในการลงทุนในสตาร์ทอัพด้าน AI

การถือกำเนิดของเทคโนโลยี AI ได้สั่นสะเทือนโลกเทคโนโลยี แต่สิ่งหนึ่งที่ยังคงไม่เปลี่ยนแปลง นั่นก็คือ บริษัทเทคโนโลยียักษ์ใหญ่ยังคงมีอำนาจสูงสุด
เทคโนโลยี AI ปฏิวัติธุรกิจเริ่มต้นด้านอีคอมเมิร์ซ

เทคโนโลยี AI ปฏิวัติธุรกิจเริ่มต้นด้านอีคอมเมิร์ซ

ในพื้นที่อีคอมเมิร์ซที่มีการแข่งขันสูง AI ช่วยให้สตาร์ทอัพมีโอกาสใช้ประโยชน์จากเทคโนโลยีเพื่อให้บริการลูกค้าและปรับปรุงการดำเนินงานให้มีประสิทธิภาพ
AI สามารถเปลี่ยนความคิดของมนุษย์ให้เป็นภาพที่สมจริงได้สำเร็จเป็นครั้งแรก

AI สามารถเปลี่ยนความคิดของมนุษย์ให้เป็นภาพที่สมจริงได้สำเร็จเป็นครั้งแรก

ด้วยความช่วยเหลือของเทคโนโลยีปัญญาประดิษฐ์ (AI) การค้นพบใหม่ๆ ในการวิจัยความคิดของมนุษย์สามารถเทียบได้กับการเปิดโลกใหม่ภายในตัวเรา