로그인
보증업체
스포츠중계
스포츠분석
먹튀사이트
지식/노하우
판매의뢰
업체홍보/구인
뉴스
커뮤니티
포토
포인트
보증카지노
보증토토
보증홀덤
스포츠 중계
기타
축구
야구
농구
배구
하키
미식축구
카지노 먹튀
토토 먹튀
먹튀제보
카지노 노하우
토토 노하우
홀덤 노하우
기타 지식/노하우
유용한 사이트
제작판매
제작의뢰
게임
구인
구직
총판
제작업체홍보
실시간뉴스
스포츠뉴스
연예뉴스
IT뉴스
자유게시판
유머★이슈
동영상
연예인
섹시bj
안구정화
출석하기
포인트 랭킹
포인트 마켓
로그인
자동로그인
회원가입
정보찾기
뉴스
더보기
[실시간뉴스]
일본, ‘강제동원’ 빠진 사도광산 보고서…정부 “약속이행 촉구”
N
[연예뉴스]
'동상이몽2' 조째즈, "아내가 먼저 플러팅···초면에 내 배 만졌다" 꽃미모 아내 사로잡은 비결
N
[연예뉴스]
‘메이드 인 코리아’ 제작발표회 성료
N
[연예뉴스]
김성령, 장영란 만취 수습 비화 “김민정 강아지 얼굴에 토…고무장갑치운 사연”
N
[연예뉴스]
‘체인지스트릿’ 최종 라인업
N
커뮤니티
더보기
[자유게시판]
드디어 금요일이군요
[자유게시판]
오늘 다저스 어떻게 생각하시나요
[자유게시판]
하아 댓노
[자유게시판]
식곤증지립니다요
[자유게시판]
벌써 불금이네요
목록
글쓰기
[IT뉴스]“국내 AI, 수능 보기 아직 멀었다”…대부분 낙제
온카뱅크관리자
조회:
21
2025-12-15 07:17:35
<div id="layerTranslateNotice" style="display:none;"></div> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="UAbrbaztvI"> <p contents-hash="f89d69807cb8ae8a919e17c2b05b086c8990dc2c34932e0ab30d8f31c2f5b15f" dmcf-pid="ucKmKNqFvO" dmcf-ptype="general">국가대표 인공지능(AI)에 도전하는 한국 팀들의 기존 대형언어모델(LLM) 모델들이 수학 수능 및 논술 문제 풀이에서 해외 모델에 한참 못 미치는 성능을 내는 것으로 분석됐다.</p> <p contents-hash="28374217822af1dbb71af5ecb3f5552b91c0fb3da6389ef464c66d9d8e3bac52" dmcf-pid="7k9s9jB3ys" dmcf-ptype="general">김종락 서강대 수학과 교수 연구팀은 국내 국가대표 AI 도전 5개 팀의 주요 LLM과 챗GPT 등 해외 5개 모델에게 수능 수학 20문제, 논술 30문제를 풀게 한 결과 이같이 나타났다고 15일 밝혔다.</p> <p contents-hash="e2127701ff6319013765de2782f088fdca6dda184e55d0de1f54a97b4dda2453" dmcf-pid="zm8l8DV7Cm" dmcf-ptype="general">연구팀은 수능 문제로는 공통과목, 확률과 통계, 미적분, 기하에서 가장 어려운 문항 5개씩을 뽑아 20문제를 설정했고, 논술 문제는 국내 10개 대학 기출 문제와 인도 대학입시 10문제, 일본 도쿄대 공대 대학원 입시 수학 10문제 등 30문제를 설정해 총 50개 문제를 10개 모델에 풀게 했다.</p> <p contents-hash="c4d63238db14a23a148ed0e2824e0e680d57df4e76177c91a1e0b39938898511" dmcf-pid="qs6S6wfzSr" dmcf-ptype="general">한국 모델로는 업스테이지의 ‘솔라 프로-2’, LG AI연구원의 ‘엑사원 4.0.1’, 네이버의 ‘HCX-007’ SK텔레콤[017670]의 ‘A.X 4.0(72B)’ 엔씨소프트 경량모델 ‘라마 바르코 8B 인스트럭트’를 활용했다.</p> <p contents-hash="1fe9f650307653c7472e5b48778c3ed327bd1294ccd2d27f7cfdc1850638fc98" dmcf-pid="BOPvPr4qWw" dmcf-ptype="general">해외 모델에는 GPT-5.1, 제미니 3 프로 프리뷰, 클라우드 오푸스 4.5, 그록 4.1 패스트, 딥시크 V3.2 등이 활용됐다.</p> <p contents-hash="3c25de6cc88c192daeedafd048caa5c1b8aae4a3c4447c0cbf0e0a1ca51b84c5" dmcf-pid="bIQTQm8BWD" dmcf-ptype="general">그 결과 해외 모델은 76~92점을 받았지만, 한국 모델은 솔라 프로2만 58점을 받았을 뿐 나머지는 20점대 낮은 점수를 기록했다. 라마 바르코 8B 인스트럭트는 2점으로 가장 낮은 점수를 받았다.</p> <p contents-hash="6282ae51dc7355f23f62a0f85516f19fb4b6420f6f1638fb2e51a6d2edd6a55d" dmcf-pid="KCxyxs6blE" dmcf-ptype="general">연구팀은 국내 5개 모델의 경우 단순 추론으로는 문제를 대부분 풀지 못해 파이선을 툴로 사용하도록 설계해 문제 적중률을 높였음에도 이런 결과가 나왔다고 설명했다.</p> <p contents-hash="f56ebefef400d67a99f52d764c7daefb4235f640618a76094c4a5b53e7d0675c" dmcf-pid="9hMWMOPKSk" dmcf-ptype="general">이어 연구팀은 대학교 수준부터 교수급 논문 연구 수준까지 난이도를 세분화한 자체 문제 세트 ‘엔트로피매스’(EntropyMath) 100문제 중 10문제를 구성해 10개 모델에 문제를 풀게 했다.</p> <p contents-hash="79bf9fb08bc549ed861a7a077ee2e1c167465991553e12f17dd2fd1f1873bc13" dmcf-pid="2lRYRIQ9yc" dmcf-ptype="general">여기서도 해외 모델은 82.8~90점을 기록했지만, 국내 모델은 7.1~53.3점으로 낮았다.</p> <p contents-hash="a009a44c90056e71a98a946d5ab125b3d085cec1934d0e784fc2a030972170a1" dmcf-pid="VSeGeCx2lA" dmcf-ptype="general">세 차례 문제 풀이를 시도해 정답을 맞히면 통과하는 방식을 활용했을 때 그록은 만점, 나머지 해외 모델은 90점을 기록했지만, 한국 모델은 솔라 프로-2가 70점, 엑사원이 60점을 기록했다.</p> <p contents-hash="51a74d68f4e934059d7ae2fb96980a8823f4377acd5b116cf9951759d2a9ccc0" dmcf-pid="fvdHdhMVyj" dmcf-ptype="general">HCX-007은 40점, A.X 4.0은 30점, 라마 바르코 8B 인스트럭트는 20점을 기록했다.</p> <p contents-hash="49234d4c681d6601309cc061322fa4de673d143b648fb180bedbef3aef05b3ba" dmcf-pid="4TJXJlRfhN" dmcf-ptype="general">김 교수는 “주위에서 왜 수능 문제에 대한 국내 5개 소버린 AI 모델 평가가 없는지 문의가 많아 팀원들과 테스트를 진행했다”며 “국내 모델 수준이 해외 프런티어 모델보다 많이 뒤처짐을 알 수 있었다”고 설명했다.</p> <p contents-hash="ee912c7f571d1f5e74f2ee381b579d18f6a8569f9c2522ad0fad761e541143a1" dmcf-pid="8yiZiSe4ya" dmcf-ptype="general">연구팀은 이번에 쓰인 국내 5개 모델은 기존 공개 버전인 만큼 각 팀의 국가대표 AI 버전이 새로 공개되면 자체 개발 문제로 다시 성능을 테스트하겠다고 밝혔다.</p> <p contents-hash="cfcc304e323ec8b6894045d66c11f862deceaf05a607eb5158d183ade351dbbf" dmcf-pid="6Wn5nvd8hg" dmcf-ptype="general">김 교수는 “엔트로피매스 데이터세트를 기반으로 수학 리더보드를 개설했으며 이를 국제적인 수준으로 키울 것”이라며 “자체 개발 문제 생성 알고리즘과 파이프라인을 개선해 수학뿐 아니라 과학, 제조, 문화 도메인 데이터세트를 생성해 도메인 특화 모델 성능 개선에 기여할 것”이라고 말했다.</p> <p contents-hash="0dad67cd300e2996b1a9e228314533cf51ee8a6aaca195281c490a56d9a970fa" dmcf-pid="PYL1LTJ6Co" dmcf-ptype="general">이번 실험은 서강대 수리과학 및 데이터사이언스 연구소(IMDS), 딥파운틴에서 공동 지원했다.</p> <figure class="figure_frm origin_fig" contents-hash="f7f7cf0591e2110dd45c161ff64851916a726d1bb438c0f134ce13bcd55e1fa7" dmcf-pid="QyiZiSe4lL" dmcf-ptype="figure"> <p class="link_figure"><img alt="인공지능. 연합뉴스" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202512/15/dt/20251215071228930oceq.png" data-org-width="640" dmcf-mid="pCdHdhMVWC" dmcf-mtype="image" height="auto" src="https://img3.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202512/15/dt/20251215071228930oceq.png" width="658"></p> <figcaption class="txt_caption default_figure"> 인공지능. 연합뉴스 </figcaption> </figure> <p contents-hash="2090e05348c433f1ed01ea08f4e7b497c6813d02afb5da7cf9b01adbc0cde491" dmcf-pid="xWn5nvd8Wn" dmcf-ptype="general"><br> 정용석 기자 kudljang@dt.co.kr</p> </section> </div> <p class="" data-translation="true">Copyright © 디지털타임스. 무단전재 및 재배포 금지.</p>
댓글등록
댓글 총
0
개
맨위로
이번주
포인트
랭킹
매주 일요일 밤 0시에 랭킹을 초기화합니다.
1
4,000
상품권
2
3,000
상품권
3
2,000
상품권
업체홍보/구인
더보기
[구인]
유투브 BJ 구인중이자나!완전 럭키비키자나!
[구인]
에카벳에서 최대 조건으로 부본사 및 회원님들 모집합니다
[구인]
카지노 1번 총판 코드 내립니다.
[구인]
어느날 부본사 총판 파트너 모집합니다.
[구인]
고액전용 카지노 / 헬렌카지노 파트너 개인 팀 단위 모집중 최고우대
지식/노하우
더보기
[카지노 노하우]
혜택 트렌드 변화 위험성 다시 가늠해 보기
[카지노 노하우]
호기심이 부른 화 종목 선택의 중요성
[카지노 노하우]
카지노 블랙잭 카드 조합으로 히트와 스탠드를 결정하는 방법
[카지노 노하우]
흥부가 놀부될때까지 7
[카지노 노하우]
5월 마틴하면서 느낀점
판매의뢰
더보기
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
포토
더보기
채팅하기