로그인
보증업체
스포츠중계
스포츠분석
먹튀사이트
지식/노하우
판매의뢰
업체홍보/구인
뉴스
커뮤니티
포토
포인트
보증카지노
보증토토
보증홀덤
스포츠 중계
기타
축구
야구
농구
배구
하키
미식축구
카지노 먹튀
토토 먹튀
먹튀제보
카지노 노하우
토토 노하우
홀덤 노하우
기타 지식/노하우
유용한 사이트
제작판매
제작의뢰
게임
구인
구직
총판
제작업체홍보
실시간뉴스
스포츠뉴스
연예뉴스
IT뉴스
자유게시판
유머★이슈
동영상
연예인
섹시bj
안구정화
출석하기
포인트 랭킹
포인트 마켓
로그인
자동로그인
회원가입
정보찾기
뉴스
더보기
[실시간뉴스]
속초 장사동 민간임대주택, 대출 이자 못내 ‘기한이익상실’
N
[실시간뉴스]
몸은 무기력, 속은 답답...명절 후유증 극복하려면
N
[실시간뉴스]
등에 생긴 여드름, 피할 수 없다면 ‘이렇게’ 관리해야
N
[실시간뉴스]
이재명 '공직선거법 위반' 11월 15일 1심 선고…“제가 이 나라의 적인가”
N
[실시간뉴스]
체코 신규 원전에 두산스코다파워 터빈 공급... 尹 대통령 “두 나라가 함께 짓는 원전”
N
커뮤니티
더보기
[자유게시판]
집가는데 비가오네요
N
[자유게시판]
내일은 드디어 그날이네요.
N
[자유게시판]
퇴근 하시는분들
N
[자유게시판]
감튀 맞춰보실분
N
[자유게시판]
커담 땡겨서 나왔네요
N
제휴문의 @spostar
제휴문의 @spostar
목록
글쓰기
[IT뉴스]못믿을 AI 순위표? "성적 올리려 기출문제만 달달 외우게 한다" [팩플]
온카뱅크관리자
조회:
45
2024-05-02 06:00:28
<div id="layerTranslateNotice" style="display:none;"></div> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="9uGNZnf5WE"> <figure class="figure_frm origin_fig" dmcf-pid="2Mbv2IaVvk" dmcf-ptype="figure"> <p class="link_figure"><img alt="글로벌 AI 플랫폼인 허깅페이스는 AI 챗봇의 핵심 기술인 대규모언어모델(LLM)의 성능 시험 점수를 줄 세워 평가하는 '리더보드(순위표)'를 운영하고 있다. 사진 허깅페이스 홈페이지 캡처" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202405/02/joongang/20240502060030505yxgu.jpg" data-org-width="560" dmcf-mid="qIzhbmLKlm" dmcf-mtype="image" height="auto" src="https://img3.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202405/02/joongang/20240502060030505yxgu.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 글로벌 AI 플랫폼인 허깅페이스는 AI 챗봇의 핵심 기술인 대규모언어모델(LLM)의 성능 시험 점수를 줄 세워 평가하는 '리더보드(순위표)'를 운영하고 있다. 사진 허깅페이스 홈페이지 캡처 </figcaption> </figure> <p dmcf-pid="VDiuoFSgWc" dmcf-ptype="general"><br> 인공지능(AI) 모델의 성능 비교·평가 방식을 둘러싼 AI기업들의 고민이 깊어지고 있다. AI 모델 성능의 척도로 통했던 ‘리더보드(순위표)’가 실제 성능을 보장해주지 않는다는 불만이 쌓이면서다. </p> <div dmcf-pid="fwn7g3vaWA" dmcf-ptype="general"> ━ <br> <h2> 무슨 일이야 </h2> <br> 리더보드는 AI 모델 성능을 측정하는 시험인 ‘벤치마크(성능시험)’ 점수를 줄 세워 평가한 순위표다. 그간 국내 기업이 자사 AI 모델의 성능에 대해 “글로벌 1위”라고 발표했던 근거가 됐다. 글로벌 AI 플랫폼 허깅페이스가 운영하는 ‘오픈 LLM 리더보드’가 가장 널리 쓰인다. 지난 3월 국내 AI 기업 솔트룩스는 오픈 LLM 리더보드에서 글로벌 1위(매개변수 350억개 이하 모델 기준)를 기록했다고 밝혔다. AI 스타트업 업스테이지와 모레는 각각 지난해 말과, 올해 1월 같은 리더보드 전체 부문에서 글로벌 1위에 올랐다고 발표했다. </div> <p dmcf-pid="4xBS9Og2Tj" dmcf-ptype="general">좋은 성과지만 최근 AI기업들 사이에선 리더보드 순위에 크게 의미부여를 하기 어렵다는 평가가 많이 나온다. 카카오뱅크 AI 개발부서 한 관계자는 “리더보드 상위권의 AI 모델을 사용해봐도, 각종 정성평가를 해보면 만족스럽지 않았다”고 말했다. 익명을 요청한 네이버 AI 관련 부서 관계자도 “해외를 중심으로 성능이 좋지 않은 소규모 LLM이 높은 순위를 기록하면서 리더보드의 신뢰성에 대한 업계의 의문이 꾸준히 늘었다”며 “모두가 신뢰할만한 거대언어모델(LLM) 평가 지표를 찾는 게 업계의 큰 과제”라고 말했다. </p> <div dmcf-pid="8Mbv2IaVhN" dmcf-ptype="general"> ━ <br> <h2> <br> </h2> </div> <div dmcf-pid="6RKTVCNfva" dmcf-ptype="general"> ━ <br> <h2> 이게 왜 중요해 </h2> <br> 스탠퍼드대 인간 중심 AI 연구소(HAI)가 지난달 15일 발간한 보고서 ‘AI 인덱스 2024’에 따르면, 지난해 AI 모델의 기초가 되는 파운데이션모델은 149개가 출시됐다. 1년 전(72개)과 비교하면 두 배 이상 늘었다. 업계에선 이를 활용한 경량 모델, 버티컬 모델의 숫자는 훨씬 더 많았을것으로 추정하고 있다. AI모델 수가 기하급수적으로 늘다보니 이를 도입하려는 기업들 입장에선 어떤 모델이 더 적합하고 좋은지 비교해야하는 상황. 하지만 현재 리더보드 만으로는 어렵다는 평가다. 오픈AI의 GPT-4, 구글의 제미나이 등 빅테크의 LLM을 서비스에 도입한 뤼튼테크놀로지스의 박민준 AI 연구 수석은 “최근 수많은 종류의 AI 모델이 쏟아져 나오는 탓에, 이를 기술자가 일일이 직접 검사하기는 어렵다”며 “사전 검사를 통해 정량적 수치로 좋은 LLM을 찾아내는게 중요해졌다”고 말했다. </div> <div dmcf-pid="PgP5MYrRhg" dmcf-ptype="general"> ━ <br> <h2> 리더보드, 뭐가 문제야 </h2> <br> 리더보드에 대한 불신이 커진 건 소규모 LLM이 난립해서다. 특히 일부 해외 LLM 개발사의 경우 ‘편법’을 쓰기도 한다. LLM 성능을 개선하기 위해 다양한 자료를 학습시켜 성능을 개선하는 대신 시험(벤치마크) 고득점에 유리한 자료만 학습시킨다는 것. 예컨대, AI 모델의 상식 수준을 판단하는 벤치마크에 나올 시험 문제에 유리한 데이터만 집중 학습시키는 식이다. 기출문제만 달달 외우는 방식인 셈이다. 카카오뱅크의 AI 기술 개발부서 관계자는 “일부 리더보드에 높은 순위를 기록한 해외 LLM을 자세히 살펴보니 오염된 데이터를 사용한 사례도 많았다”고 말했다. </div> <div dmcf-pid="QaQ1RGmelo" dmcf-ptype="general"> AI 모델의 특정 능력을 측정할 벤치마크가 없어서 리더보드에 반영하지 못하는 경우도 있다. 오픈AI의 최신 LLM인 GPT-4는 지난해 3월 발표됐는데, AI 모델의 한국어 능력을 가늠하는 벤치마크인 ‘해례 벤치’는 그로부터 두 달이 지난 5월에서야 시범 출시됐다. 네이버 관계자는 “지난해 오픈AI의 GPT-4의 한국어 능력을 가늠하기 위해 영어 능력 평가 시험인 MMLU를 임시로 번역해 측정에 사용했다”면서 “MMLU에 영어 문화권에만 통용되는 상식이 있었고, 번역 오류도 않았던 탓에 평가의 정확도가 낮아졌다”고 말했다. <br> </div> <figure class="figure_frm origin_fig" dmcf-pid="xNxteHsdlL" dmcf-ptype="figure"> <p class="link_figure"><img alt="글로벌 AI 플랫폼인 허깅페이스는 AI 챗봇의 핵심 기술인 대규모언어모델(LLM)의 성능 시험 점수를 줄 세워 평가하는 '리더보드(순위표)'를 운영하고 있다. 사진 허깅페이스 홈페이지 캡처" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202405/02/joongang/20240502060031986wzit.jpg" data-org-width="560" dmcf-mid="bNsxC4phCw" dmcf-mtype="image" height="auto" src="https://img2.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202405/02/joongang/20240502060031986wzit.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 글로벌 AI 플랫폼인 허깅페이스는 AI 챗봇의 핵심 기술인 대규모언어모델(LLM)의 성능 시험 점수를 줄 세워 평가하는 '리더보드(순위표)'를 운영하고 있다. 사진 허깅페이스 홈페이지 캡처 </figcaption> </figure> <div dmcf-pid="yuGNZnf5Wn" dmcf-ptype="general"> <br> ━ <br> <h2> <br> </h2> </div> <div dmcf-pid="W7Hj5L41hi" dmcf-ptype="general"> ━ <br> <h2> 해결책은 </h2> <br> 업계는 AI 모델 성능 비교를 위해 자체적으로 여러 가지 벤치마크 점수를 혼합해 성능을 가늠하거나, 정성평가를 병행하고 있다. 네이버는 자사의 LLM 하이퍼클로바X의 성능 평가에 한국어 능력 평가(3개), 영어 능력 평가(4개), 일반상식 평가(5개) 등 여러 종류 벤치마크 점수를 섞어서 사용한다. 독자적인 평가체계를 구축하는 곳도 있다. 뤼튼테크놀로지스 관계자는 “LLM을 도입한 AI 서비스가 이용자에게 원하는 답을 얼마나 빠르게 도출하는지 계산하고 평가에 반영한다”고 밝혔다. </div> <div dmcf-pid="YzXA1o8tyJ" dmcf-ptype="general"> ━ <br> <h2> 앞으로는 </h2> <br> AI 모델을 서로 비교하기 위한 업계의 고민은 계속될 전망이다. 업계에선 AI 모델이 윤리적인 답을 내놓는지 여부를 가늠하는 ‘AI 안정성’과 각 문화나 특정 국가에 통용되는 가치와 부합하는지 여부 등, 다양한 평가 요소가 등장할 것이라는 예측을 내놓는다. 박민준 뤼튼테크놀로지스 AI 연구 수석은 “하나의 제품인 카메라가 스마트폰에 장착되면 성능을 가늠할 중요한 구성요소가 되듯, 앞으로 생성AI도 특정 분야에서 얼마나 뛰어난 성능을 나타내는지가 중요한 평가 요소가 될 것”이라고 말했다. </div> <p dmcf-pid="GPzhbmLKTd" dmcf-ptype="general">윤상언 기자 youn.sangun@joongang.co.kr</p> </section> </div> <p class="" data-translation="true">Copyright © 중앙일보. 무단전재 및 재배포 금지.</p>
댓글등록
댓글 총
0
개
맨위로
이번주
포인트
랭킹
매주 일요일 밤 0시에 랭킹을 초기화합니다.
1
4,000
상품권
2
3,000
상품권
3
2,000
상품권
1
혈마
700
2
올나잇스머프
700
3
풀카
600
4
여수짱똥깨
600
업체홍보/구인
더보기
[구인]
온카 정싸에서 유튜브 방송 BJ 구인중입니다
[구인]
클릭계열 빙고 최상부 카지노1.2% 동행파워볼2% 양방가능 부본사 파트너 모십니다.
[구인]
해외에서 업무 가능 하신 분 구인 합니다
[구인]
★★재택근무 장기적으로 함께하실팀원 모십니다★★
[구인]
다양한 경험의 개발자 구직 합니다. 안정적인 업체 원합니다.
지식/노하우
더보기
[카지노 노하우]
흥부가 놀부될때까지 7
[카지노 노하우]
5월 마틴하면서 느낀점
[카지노 노하우]
바카라 노하우
[카지노 노하우]
룰렛 시스템 가장 큰 팁!
[카지노 노하우]
기회가 온다면 잡으세요.
판매의뢰
더보기
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
포토
더보기
N
N
N
N
N
N
채팅하기