따라서 테스트한 인공지능 모델 중 성능이 가장 뛰어난 OpenAI의 GPT-4-Turbo도 프로필 전체를 읽었음에도 불구하고 정답률이 79%에 그쳤고, 비현실적인 형상이나 사건에 대한 "환각"을 자주 경험했습니다.

"이런 종류의 성과 비율은 완전히 용납할 수 없습니다." Patronus AI의 공동 창립자인 Anand Kannappan의 말입니다. "자동화되고 생산에 적합하려면 정답률이 훨씬 높아야 합니다."

연구 결과는 금융과 같이 규제가 심한 산업의 대기업이 고객 서비스든 연구든 운영에 첨단 기술을 도입하려고 할 때 AI 모델이 직면하는 과제 중 일부를 강조합니다.

재무 데이터 "환상"

ChatGPT가 작년 말에 출시된 이래로, 주요 수치를 빠르게 추출하고 재무제표를 분석하는 기능은 챗봇에 가장 유망한 응용 분야 중 하나로 여겨져 왔습니다.

SEC 제출 서류에는 중요한 데이터가 포함되어 있으며, 봇이 해당 내용을 정확하게 요약하거나 질문에 빠르게 답할 수 있다면 사용자는 경쟁이 치열한 금융 업계에서 우위를 점할 수 있습니다.

llm 이미지 100941414 큰.jpg
AI는 데이터 수집 단계에서 어려움을 겪습니다. 바로 이 단계에서 인간에게 가장 큰 도움이 될 것으로 기대됩니다.

작년에 Bloomberg LP는 금융 데이터를 위한 자체 AI 모델을 개발했으며, 경영대학원 교수들은 ChatGPT가 금융 헤드라인을 분석할 수 있는지 여부를 연구해 왔습니다.

한편, JPMorgan은 AI 기반 자동 투자 도구도 개발하고 있습니다. 맥킨지의 최근 예측에 따르면, 생성적 AI가 은행업에 연간 수조 달러를 확대할 수 있을 것으로 예상됩니다.

하지만 이 여정은 아직도 꽤 멀리 있습니다. Microsoft가 OpenAI의 GPT 통합을 통해 Bing Chat을 처음 출시했을 때, 이 챗봇을 이용해 수익 관련 보도자료를 빠르게 요약했습니다. 관찰자들은 AI가 답한 숫자가 왜곡되었거나 심지어 조작된 것이라는 사실을 금세 깨달았습니다.

동일한 데이터, 다른 답변

LLM을 실제 제품에 통합하는 데 있어 과제 중 하나는 알고리즘이 비결정적이라는 점입니다. 즉, 동일한 입력이 주어졌을 때 동일한 결과가 반환된다는 보장이 없습니다. 즉, 기업에서는 AI가 정확하게 작동하는지, 주제에서 벗어나지 않는지, 신뢰할 수 있는 결과를 제공하는지 확인하기 위해 더 엄격한 테스트를 수행해야 합니다.

Patronus AI는 FinanceBench라는 대형 상장 기업의 SEC 제출 자료에서 추출한 10,000개 이상의 질문과 답변 세트를 구축했습니다. 데이터 세트에는 정확한 답변과 해당 파일에서 답변을 찾을 수 있는 정확한 위치가 포함되어 있습니다.

모든 답변을 글에서 직접 얻을 수 있는 것은 아니며, 일부 질문은 계산이나 가벼운 추론이 필요합니다.

150개 문제로 구성된 하위 집합 테스트에는 OpenAI의 GPT-4와 GPT-4-Turbo, Anthropic의 Claude 2, Meta의 Llama 2 등 4개의 LLM 모델이 포함되었습니다.

그 결과, GPT-4-Turbo는 SEC의 기본 제출물에 대한 접근 권한이 부여되었을 때, 사람이 AI가 정답을 찾을 수 있도록 마우스로 정확한 텍스트를 가리켰음에도 불구하고 정확도가 85%에 그쳤습니다(데이터에 접근할 수 없었을 때는 88%).

Meta가 개발한 오픈소스 AI 모델인 Llama 2는 "환각"이 가장 많았으며, 기본 문서 일부에 접근했을 때 70%의 답변을 틀렸고, 19%만 맞혔습니다.

Anthropic의 Claude 2는 "긴 맥락"이 주어졌을 때 효과적이며, 질문과 함께 관련 SEC 제출물의 거의 전체가 포함되어 있습니다. 질문에 75%는 답할 수 있었고, 21%는 틀리게 답했으며, 3%는 답변을 거부했습니다. GPT-4-Turbo는 긴 맥락에서도 좋은 성과를 보여, 79%의 질문에 올바르게 답하고 17%는 잘못 답했습니다.

(CNBC에 따르면)

AI 스타트업에 투자하기 위한 빅테크의 경쟁

AI 스타트업에 투자하기 위한 빅테크의 경쟁

AI 기술의 등장은 기술계를 뒤흔들었지만, 한 가지 변함없는 것은 거대 기술 기업이 여전히 절대적인 권력을 갖고 있다는 것입니다.
AI 기술은 전자상거래 스타트업을 혁신합니다

AI 기술은 전자상거래 스타트업을 혁신합니다

경쟁이 치열한 전자상거래 분야에서 AI는 스타트업이 기술을 활용하여 고객에게 서비스를 제공하고 운영을 간소화할 수 있는 기회를 제공합니다.
AI, 최초로 인간의 생각을 현실적인 이미지로 변환하는 데 성공

AI, 최초로 인간의 생각을 현실적인 이미지로 변환하는 데 성공

인공지능(AI) 기술의 도움으로 인간 사고 연구에서 새로운 발견이 이루어졌다는 것은 마치 우리 내부에 완전히 새로운 세계가 열리는 것과도 같다고 할 수 있습니다.