<aside>
</aside>
OpenAI와 Meta와 같은 대기업들이 선보이는 대형 언어 모델(LLM)은 그 성능이 뛰어나지만, 구축과 운영에 상당한 비용이 소요됩니다. 반면에, 소형 언어 모델(sLLM)은 비용 효율성이 높으면서도 각 분야에 특화된 언어 처리를 충분히 수행할 수 있다는 장점이 있습니다.
이러한 배경 속에서 한국거래소(KRX)는 금융 도메인에 특화된 언어 모델 개발의 필요성을 느끼고, 이를 촉진하기 위해 제3회 금융 언어 모델 경진대회를 개최했습니다. KRX 경진대회를 통해 국내 금융 시장의 효율성을 높이고, 투자자들에게 더 정확하고 유용한 정보를 제공하고자 하였습니다. (:youtube: KRX 경진대회)
<aside>
</aside>
ChatGPT나 Claude 등 챗봇형 AI 서비스를 써보신 분들은 아마 겪어보셨을 것 같습니다. “AI가 틀린 대답을 꽤나 많이 생성해서 믿고 쓰긴 어렵겠는걸” 혹은 “AI가 똑똑해 보이지만 금융 투자 분야에는 믿고 쓰기 어렵겠다”처럼 AI를 금융 서비스에 접목시키기에는 신뢰하기 어려울 수 있습니다. 특히, AI가 엉뚱한 대답을 생성했는데, 이런 잘못된 대답을 그대로 믿고 투자 결정에 활용하면 리스크가 엄청나기 때문입니다.
따라서, 이런 문제를 해결하려면 금융 AI의 성능을 평가할 Benchmark가 필요합니다. 특히, 한글이면서 금융에 특화된 Benchmark가 필요합니다. 참고로 Benchmark란, AI가 생성하는 답변의 정확도, 추론 능력, 유창성 등을 평가하는 표준화된 프레임워크를 의미합니다. 즉, AI에게는 수능과도 같은 평가 테스트라 볼 수 있습니다.
[공매도 금지 조치가 시행되던 시기에 챗봇형 AI가 생성한 잘못된 답변 예시]
이러한 필요성에 따라 KRX는 OneLineAI와 함께 대한민국 자본시장에 최적화된 Benchmark를 만들었습니다. KRX-Bench는 링크에서 살펴보실 수 있습니다. (🔗 KRX-Bench)
<aside>
</aside>