ដូច្នោះហើយ សូម្បីតែការកំណត់រចនាសម្ព័ន្ធគំរូបញ្ញាសិប្បនិមិត្តដែលដំណើរការបានល្អបំផុត ដែលពួកគេបានសាកល្បង GPT-4-Turbo របស់ OpenAI នៅតែទទួលបានអត្រាចម្លើយត្រឹមត្រូវត្រឹមតែ 79% ប៉ុណ្ណោះ បើទោះបីជាបានអានទម្រង់ទាំងមូល ហើយជារឿយៗជួបប្រទះនឹង "ការយល់ច្រឡំ" នៃតួលេខ ឬព្រឹត្តិការណ៍មិនពិត។
លោក Anand Kannappan សហស្ថាបនិកក្រុមហ៊ុន Patronus AI បាននិយាយថា "សមាមាត្រនៃការអនុវត្តបែបនេះគឺមិនអាចទទួលយកបានទាំងស្រុង" ។ "អត្រាចម្លើយត្រឹមត្រូវត្រូវមានខ្ពស់ជាងនេះដើម្បីធ្វើឱ្យមានលក្ខណៈស្វ័យប្រវត្តិ និងការផលិតរួចរាល់"។
ការរកឃើញនេះបានបង្ហាញពីបញ្ហាប្រឈមមួយចំនួនដែលប្រឈមមុខនឹងគំរូ AI នៅពេលដែលក្រុមហ៊ុនធំៗ ជាពិសេសនៅក្នុងឧស្សាហកម្មដែលមានការគ្រប់គ្រងខ្ពស់ដូចជាហិរញ្ញវត្ថុ សម្លឹងមើលការបញ្ចូលបច្ចេកវិទ្យាទំនើបទៅក្នុងប្រតិបត្តិការរបស់ពួកគេ មិនថាវាជាសេវាកម្មអតិថិជន ឬការស្រាវជ្រាវនោះទេ។
ទិន្នន័យហិរញ្ញវត្ថុ "ការបំភាន់"
សមត្ថភាពក្នុងការទាញយកលេខគន្លឹះយ៉ាងឆាប់រហ័ស និងធ្វើការវិភាគរបាយការណ៍ហិរញ្ញវត្ថុត្រូវបានគេមើលឃើញថាជាកម្មវិធីដ៏ជោគជ័យបំផុតមួយសម្រាប់ chatbots ចាប់តាំងពី ChatGPT ត្រូវបានចេញផ្សាយកាលពីចុងឆ្នាំមុន។
ឯកសារ SEC មានទិន្នន័យសំខាន់ៗ ហើយប្រសិនបើ bot អាចសង្ខេបបានយ៉ាងត្រឹមត្រូវ ឬឆ្លើយសំណួរអំពីមាតិការបស់ពួកគេបានយ៉ាងរហ័ស វាអាចផ្តល់ឱ្យអ្នកប្រើប្រាស់នូវភាពប្រកួតប្រជែងនៅក្នុងឧស្សាហកម្មហិរញ្ញវត្ថុដែលមានការប្រកួតប្រជែង។
កាលពីឆ្នាំមុន Bloomberg LP បានបង្កើតគំរូ AI ផ្ទាល់ខ្លួនសម្រាប់ទិន្នន័យហិរញ្ញវត្ថុ ហើយសាស្រ្តាចារ្យសាលាធុរកិច្ចបានកំពុងសិក្សាថាតើ ChatGPT អាចវិភាគចំណងជើងហិរញ្ញវត្ថុបានដែរឬទេ។
ទន្ទឹមនឹងនេះ ក្រុមហ៊ុន JPMorgan ក៏កំពុងបង្កើតឧបករណ៍វិនិយោគស្វ័យប្រវត្តិដែលដំណើរការដោយ AI ផងដែរ។ ការព្យាករណ៍របស់ McKinsey ថ្មីៗនេះបាននិយាយថា AI ជំនាន់ថ្មីអាចជំរុញឧស្សាហកម្មធនាគារបានរាប់ពាន់លានដុល្លារក្នុងមួយឆ្នាំ។
ទោះជាយ៉ាងណាការធ្វើដំណើរនេះនៅឆ្ងាយណាស់។ នៅពេលដែលក្រុមហ៊ុន Microsoft បើកដំណើរការ Bing Chat ជាលើកដំបូងជាមួយនឹងការរួមបញ្ចូល GPT របស់ OpenAI ពួកគេបានប្រើ chatbot ដើម្បីសង្ខេបសេចក្តីប្រកាសព័ត៌មានប្រាក់ចំណូលយ៉ាងឆាប់រហ័ស។ អ្នកសង្កេតការណ៍បានដឹងយ៉ាងឆាប់រហ័សថា លេខដែល AI ឆ្លើយគឺមានការភ័ន្តច្រឡំ ឬសូម្បីតែប្រឌិត។
ទិន្នន័យដូចគ្នា ចម្លើយខុសគ្នា
ផ្នែកមួយនៃបញ្ហាប្រឈមនៃការបញ្ចូល LLM ទៅក្នុងផលិតផលក្នុងពិភពពិតគឺថា ក្បួនដោះស្រាយគឺមិនត្រូវបានកំណត់ មានន័យថាពួកគេមិនត្រូវបានធានាដើម្បីត្រឡប់លទ្ធផលដូចគ្នាដែលបានផ្តល់ការបញ្ចូលដូចគ្នានោះទេ។ នេះមានន័យថា ក្រុមហ៊ុនត្រូវធ្វើការសាកល្បងយ៉ាងម៉ត់ចត់បន្ថែមទៀត ដើម្បីធានាថា AI កំពុងដំណើរការបានត្រឹមត្រូវ មិនចេញពីប្រធានបទ និងផ្តល់នូវលទ្ធផលដែលអាចទុកចិត្តបាន។
Patronus AI បានបង្កើតសំណុំនៃសំណួរ និងចម្លើយច្រើនជាង 10,000 ដែលដកស្រង់ចេញពីឯកសារ SEC ពីក្រុមហ៊ុនពាណិជ្ជកម្មសាធារណៈធំៗ ដែលហៅថា FinanceBench។ សំណុំទិន្នន័យរួមបញ្ចូលចម្លើយពិតប្រាកដ ក៏ដូចជាទីតាំងពិតប្រាកដនៅក្នុងឯកសារដែលបានផ្តល់ឱ្យណាមួយដើម្បីស្វែងរកពួកគេ។
មិនមែនចម្លើយទាំងអស់អាចយកដោយផ្ទាល់ពីអត្ថបទទេ ហើយសំណួរខ្លះទាមទារការគណនា ឬហេតុផលស្រាលៗ។
ការធ្វើតេស្តសំណុំរងចំនួន 150 សំណួរពាក់ព័ន្ធនឹងម៉ូដែល LLM ចំនួនបួន៖ GPT-4 របស់ OpenAI និង GPT-4-Turbo, Anthropic's Claude 2 និង Meta's Llama 2 ។
ជាលទ្ធផល GPT-4-Turbo នៅពេលដែលបានផ្តល់សិទ្ធិចូលប្រើឯកសារមូលដ្ឋានរបស់ SEC ទទួលបានអត្រាភាពត្រឹមត្រូវត្រឹមតែ 85% (ធៀបនឹង 88% នៃចម្លើយមិនត្រឹមត្រូវនៅពេលដែលមិនត្រូវបានផ្តល់សិទ្ធិចូលប្រើទិន្នន័យ) ទោះបីជាមនុស្សបានចង្អុលកណ្តុរទៅកាន់អត្ថបទពិតប្រាកដសម្រាប់ AI ដើម្បីស្វែងរកចម្លើយក៏ដោយ។
Llama 2 ដែលជាគំរូ AI ប្រភពបើកចំហរដែលបង្កើតឡើងដោយ Meta មានចំនួន "ការយល់ច្រលំ" ខ្ពស់បំផុត ដោយទទួលបានចម្លើយខុស 70% នៃពេលវេលា និងទទួលបានត្រឹម 19% នៃពេលវេលានៅពេលដែលបានផ្តល់សិទ្ធិចូលទៅកាន់ផ្នែកមួយនៃឯកសារមូលដ្ឋាន។
Claude 2 របស់ Anthropic ដំណើរការបានល្អនៅពេលដែលបានផ្តល់ "បរិបទវែង" ដែលស្ទើរតែឯកសារ SEC ពាក់ព័ន្ធទាំងមូលត្រូវបានរួមបញ្ចូលជាមួយនឹងសំណួរ។ វាអាចឆ្លើយបាន 75% នៃសំណួរដែលបានសួរ ឆ្លើយមិនត្រឹមត្រូវ 21% និងបដិសេធមិនឆ្លើយ 3% ។ GPT-4-Turbo ក៏ដំណើរការបានល្អជាមួយនឹងបរិបទវែង ដោយឆ្លើយសំណួរបាន 79% ត្រឹមត្រូវ និង 17% មិនត្រឹមត្រូវ។
(យោងតាម CNBC)
ការប្រណាំងរបស់ Big Tech ដើម្បីវិនិយោគលើការចាប់ផ្តើមអាជីវកម្ម AI
បច្ចេកវិទ្យា AI ធ្វើបដិវត្តការចាប់ផ្តើមអាជីវកម្មអេឡិចត្រូនិក
AI ប្រែក្លាយគំនិតរបស់មនុស្សទៅជារូបភាពជាក់ស្តែងជាលើកដំបូងដោយជោគជ័យ
ប្រភព
Kommentar (0)