KRX 금융 언어 모델 경진대회와 ₩ON 모델 제작 이야기

인공지능의 발전은 모든 산업을 빠르게 변화시키고 있습니다. 그중에서도 금융 분야는 AI 기술이 빠르게 확산되고 있는 대표적인 산업군 중 하나입니다. 이러한 빠른 발전에 발맞춰서 KRX는 금융 특화 언어 모델의 개발과 성능 향상을 촉진하고, 이를 통해 더욱 정확하고 효율적인 금융 정보 분석 및 예측 서비스를 제공하고자 KRX 금융 언어 모델 경진대회를 개최하였습니다.

해당 대회에서 참가자들이 제출한 금융 특화 언어 모델을 평가하기 위해 KRX와 OnelineAI가 공동 개발한 'KRX-Bench'를 이용하였습니다. 참가자들은 각자의 방법론을 활용하여 모델을 학습시키고 제출하면, KRX-Bench로 제출 모델의 금융 능력을 평가하여 리더보드를 구축하는 방식으로 대회가 진행되었습니다.

약 2개월간 진행된 경진대회에서 쌓인 다양한 데이터와 경험을 바탕으로, 금융 언어 모델 개발의 생생한 노하우가 담긴 Technical Review와 이 노하우를 기반으로 탄생한 한국어 금융 특화 언어 모델 ₩ON을 자세히 소개합니다.

KRX 금융 언어 모델 경진대회에 대하여..

</aside>

본 경진대회는 한국 금융 분야에서 최초로 시도된 공개적인 LLM 평가 리더보드 구축 및 모델 평가 경진대회입니다. 약 2개월간 진행된 이번 대회는 233개의 팀이 참가 등록을 완료하였으며, 총 1,119개의 모델이 제출되는 등 놀라운 성과를 기록하며 마무리되었습니다. 또한 참가팀의 절반 이상인 52.5%가 기업 참가자였으며, 그 외에는 모두 학계 관계자인 것으로 보아 금융 LLM 분야가 다양한 도메인으로부터 관심을 받고 있다는 것을 보여주었습니다. 여기에 추가적으로 현재까지도 약 600개 이상의 모델이 HuggingFace를 통해 공개적으로 활용 가능하며, 한국 금융 NLP 연구를 위한 소중한 자산으로 남아있습니다.

경진대회는 예선과 본선, 총 2가지 단계로 나눠서 진행되었으며 각 단계에서는 다음과 같이 서로 다른 방향성으로 진행하였습니다:

예선: MCQA 유형의 비교적 쉬운 질문으로 구성된 5개의 서브셋을 포함하는 벤치마크 평가. (재무회계, 금융시장, 주가 예측, 국내 기업, 금융 에이전트)
본선: MCQA 및 Instruction-Response 유형의 비교적 어려운 질문으로 구성된 3개의 서브셋을 포함하는 벤치마크 평가. (재무회계, 금융시장, 금융 질의응답)

경진대회에 사용된 벤치마크는 다음과 같이 6가지 서브셋에서 총 5,500개 이상의 평가 항목으로 구성되었습니다. 이때 각 서브셋에 대한 자세한 설명은 다음과 같습니다:

재무회계(MCQA): 대학 시험에서 출제된 4지선다형 객관식 문제로 구성되어 있으며, 예선에서는 4개, 본선에서는 8개의 보기로 확장하였습니다. 문제의 난이도를 높이기 위해 임베딩 기반의 유사 문제 혼합과 "위의 보기 중 없음"과 같은 규칙 기반의 보기 교체와 같은 데이터 증강 기법을 사용하였습니다.
금융시장(MCQA): 재무회계 서브셋과 유사한 방식으로 구성되었으며, 주로 한국의 금융 시스템과 관련 법률에 대한 이해를 평가하는 시험 문제를 기반으로 하고 있습니다.
주가 예측(MCQA): 한국 주식 시장의 최신 데이터를 사용하여 OHLCV(시가, 고가, 저가, 종가, 거래량)와 같은 기본 데이터를 무작위로 추출한 후, 기술적 지표(예: 최근 5일, 10일, 15일, 20일, 25일, 30일 동안의 변화율 등)를 계산하여 제공하였습니다. 모델은 주가가 향후 상승할지 하락할지를 이진 분류 문제로 예측해야 하며, 기본적인 모멘텀 또는 평균 회귀 신호 탐지 능력 등을 평가합니다.
국내 기업(MCQA): KRX-Bench를 직접 사용하여 구성하였으며, GPT-4o를 활용하여 한국 상장 기업의 연례 보고서를 바탕으로 자동 생성된 객관식 문제로 이루어져 있습니다. 이 서브셋은 기업의 제품 제공, 재무 정책, 사업 전략과 같은 특정 분야의 지식을 평가합니다.