GPT와 강력한 AI 모델은 이 테스트 전에 아직 '포기'해야 합니다.

[광고1]

따라서 테스트한 인공지능 모델 중 성능이 가장 뛰어난 OpenAI의 GPT-4-Turbo도 프로필 전체를 읽었음에도 불구하고 정답률이 79%에 그쳤고, 비현실적인 형상이나 사건에 대한 "환각"을 자주 경험했습니다.

"이런 종류의 성과 비율은 완전히 용납할 수 없습니다." Patronus AI의 공동 창립자인 Anand Kannappan의 말입니다. "자동화되고 생산에 적합하려면 정답률이 훨씬 높아야 합니다."

연구 결과는 금융과 같이 규제가 심한 산업의 대기업이 고객 서비스든 연구든 운영에 첨단 기술을 도입하려고 할 때 AI 모델이 직면하는 과제 중 일부를 강조합니다.

재무 데이터 "환상"

ChatGPT가 작년 말에 출시된 이래로, 주요 수치를 빠르게 추출하고 재무제표를 분석하는 기능은 챗봇에 가장 유망한 응용 분야 중 하나로 여겨져 왔습니다.

SEC 제출 서류에는 중요한 데이터가 포함되어 있으며, 봇이 해당 내용을 정확하게 요약하거나 질문에 빠르게 답할 수 있다면 사용자는 경쟁이 치열한 금융 업계에서 우위를 점할 수 있습니다.

llm 이미지 100941414 큰.jpg — AI는 데이터 수집 단계에서 어려움을 겪습니다. 바로 이 단계에서 인간에게 가장 큰 도움이 될 것으로 기대됩니다.

작년에 Bloomberg LP는 금융 데이터를 위한 자체 AI 모델을 개발했으며, 경영대학원 교수들은 ChatGPT가 금융 헤드라인을 분석할 수 있는지 여부를 연구해 왔습니다.

한편, JPMorgan은 AI 기반 자동 투자 도구도 개발하고 있습니다. 맥킨지의 최근 예측에 따르면, 생성적 AI가 은행업에 연간 수조 달러를 확대할 수 있을 것으로 예상됩니다.

하지만 이 여정은 아직도 꽤 멀리 있습니다. Microsoft가 OpenAI의 GPT 통합을 통해 Bing Chat을 처음 출시했을 때, 이 챗봇을 이용해 수익 관련 보도자료를 빠르게 요약했습니다. 관찰자들은 AI가 답한 숫자가 왜곡되었거나 심지어 조작된 것이라는 사실을 금세 깨달았습니다.

동일한 데이터, 다른 답변

LLM을 실제 제품에 통합하는 데 있어 과제 중 하나는 알고리즘이 비결정적이라는 점입니다. 즉, 동일한 입력이 주어졌을 때 동일한 결과가 반환된다는 보장이 없습니다. 즉, 기업에서는 AI가 정확하게 작동하는지, 주제에서 벗어나지 않는지, 신뢰할 수 있는 결과를 제공하는지 확인하기 위해 더 엄격한 테스트를 수행해야 합니다.

Patronus AI는 FinanceBench라는 대형 상장 기업의 SEC 제출 자료에서 추출한 10,000개 이상의 질문과 답변 세트를 구축했습니다. 데이터 세트에는 정확한 답변과 해당 파일에서 답변을 찾을 수 있는 정확한 위치가 포함되어 있습니다.

모든 답변을 글에서 직접 얻을 수 있는 것은 아니며, 일부 질문은 계산이나 가벼운 추론이 필요합니다.

150개 문제로 구성된 하위 집합 테스트에는 OpenAI의 GPT-4와 GPT-4-Turbo, Anthropic의 Claude 2, Meta의 Llama 2 등 4개의 LLM 모델이 포함되었습니다.

그 결과, GPT-4-Turbo는 SEC의 기본 제출물에 대한 접근 권한이 부여되었을 때, 사람이 AI가 정답을 찾을 수 있도록 마우스로 정확한 텍스트를 가리켰음에도 불구하고 정확도가 85%에 그쳤습니다(데이터에 접근할 수 없었을 때는 88%).

Meta가 개발한 오픈소스 AI 모델인 Llama 2는 "환각"이 가장 많았으며, 기본 문서 일부에 접근했을 때 70%의 답변을 틀렸고, 19%만 맞혔습니다.

Anthropic의 Claude 2는 "긴 맥락"이 주어졌을 때 효과적이며, 질문과 함께 관련 SEC 제출물의 거의 전체가 포함되어 있습니다. 질문에 75%는 답할 수 있었고, 21%는 틀리게 답했으며, 3%는 답변을 거부했습니다. GPT-4-Turbo는 긴 맥락에서도 좋은 성과를 보여, 79%의 질문에 올바르게 답하고 17%는 잘못 답했습니다.

(CNBC에 따르면)