한국어 언어모델 성능 평가 벤치마크서 1위
독자 기술력으로 국산 AI 모델 가능성 입증 평가
‘카나나’ 지속 개발…소버린AI 경쟁력 강화 총력전
경기도 성남시 카카오 판교 아지트. [카카오 제공]
[헤럴드경제=박세정 기자] 카카오의 자체 개발 인공지능(AI) 모델 ‘카나나’가 한국어 언어 모델 AI 성능 평가에서 상위권을 기록했다. 독자 기술을 기반으로, 국산 AI 모델의 경쟁력과 가능성을 입증했다는 평가다. 카카오는 ‘카나나’를 지속적으로 개발해 ‘소버린AI(국가주권형 AI)’ 경쟁력 강화에 총력을 쏟을 방침이다.
26일 업계에 따르면 카카오가 최근 오픈소스로 공개한 ‘Kanana-1.5-8b-instruct’ 모델이 한국어 언어 모델(LLM)의 성능을 평가하기 위해 설계된 벤치마크 플랫폼 ‘호랑이(Horang-i) 리더보드’에서 8B 사이즈(매개변수 80억개) 이하의 모델 가운데 1위를 기록했다.
호랑이 리더보드는 미국 AI 개발자 플랫폼 웨이트앤바이어스(W&B)가 LLM의 한국어 성능 평가 결과의 랭킹을 공개하기 위해 운영하는 평가 리더보드다.
언어 모델의 한국어 능력을 비교하고, 국내외 다양한 언어모델을 대상으로 한국어 범용 성능, 정렬성, 정보 탐색 능력 등을 종합 평가하는 리더보드다. 특히 한국어 환경에서의 실질적 유용성을 중점적으로 평가해 국내 사용자 환경에 특화된 LLM 경쟁력을 가늠하는 중요한 기준으로 자리 잡고 있다.
‘Kanana-1.5-8b-instruct’ 모델은 8B 이하의 모델 가운데 총점 0.691점을 기록하며 국내 모델 가운데 가장 높은 순위를 차지했다. 이와 더불어 호랑이 리더보드가 공개하는 15B 미만의 모델 중에서는 1위를 기록한 ‘Qwen2.5-14B’와 0.04점의 근소한 차이로 종합 순위 4위 기록했다.
정신아 카카오 대표이사. [카카오 제공]
이는 모델의 아키텍처(구조), 데이터셋, 학습 프로세스 등을 모두 처음부터 구축하는 ‘프롬 스크래치(From scratch)’ 방식을 통해 설계 및 개발된 국내 LLM 중 가장 높은 순위에 해당한다.
프롬 스크래치 방식은 해외 모델의 단순 파인튜닝을 거친 방식과 달리, 모델의 아키텍처 최적화 및 자체 데이터를 통해 학습된 국산 모델이라는 의미를 갖는다. 독자적인 기술력을 바탕으로 개발했다는 점과 동시에 모델이 높은 성능을 확보했다는 점도 주목할 점으로 꼽힌다.
카카오 관계자는 “한국어와 영어 모두에서 강력한 성능을 보이는 범용 언어모델이자, 성능과 비용 효율의 균형을 고려해 설계된 중형 크기의 모델”이라며 “다양한 AI 응용 서비스 구현에 효과적이며, 번역과 추론, 지식/질의응답, 구문해석 등의 벤치마크에서 전체 1위를 기록해 다수의 글로벌 모델과 비교해도 뛰어난 경쟁력을 보유했다”고 전했다.
카카오는 국내 AI 생태계 확장을 위해 AI 일부 모델을 오픈소스로 공개하고 있다. [카카오 제공]
한편, 카카오는 자체 개발 AI 모델 ‘카나나’의 개발을 지속해 가고 있다. 카나나 모델은 세 가지 종류의 언어모델(LLM)과 멀티모달 언어모델(MLLM) 3종을 비롯해 비주얼 생성모델 2종, 음성모델 2종으로 크기나 종류, 특성에 따른 하위 모델들과 함께 구성된다.
국내 AI 생태계의 확장과 기술 접근성의 강화를 위해 일부 모델을 오픈소스로도 공개하고 있다. 지난 2월 말 언어모델 카나나의 연구 성과를 담은 테크니컬 리포트를 아카이브(ArXiv)에 공개했으며, 언어모델 라인업 중 ‘Kanana Nano 2.1B’ 모델을 오픈소스로 배포했다.
이어 지난달에는 8B와 2.1B 크기의 모델을 오픈소스로 공개하면서 누구나 자유로운 수정과 사업적 활용이 가능한 아파치 2.0(Apache 2.0) 라이선스를 적용하기도 했다. 현재 더욱 향상된 버전의 Kanana 2를 개발 중이다.
이 밖에도 국내 최초로 텍스트와 음성, 이미지까지 다양한 형태의 정보를 동시에 이해하고 처리할 수 있는 통합 멀티모달 언어모델 ‘Kanana-o’의 성능을 공개하기도 했다. 텍스트, 음성, 이미지 중 어떠한 조합으로 질문을 입력하더라도 처리 가능하며, 상황에 맞는 텍스트나 자연스러운 음성으로 응답 가능한 구조로 설계됐다.
Copyright © 헤럴드경제. 무단전재 및 재배포 금지.
매주 일요일 밤 0시에 랭킹을 초기화합니다.