로그인
보증업체
스포츠중계
스포츠분석
먹튀사이트
지식/노하우
판매의뢰
업체홍보/구인
뉴스
커뮤니티
포토
포인트
보증카지노
보증토토
보증홀덤
스포츠 중계
기타
축구
야구
농구
배구
하키
미식축구
카지노 먹튀
토토 먹튀
먹튀제보
카지노 노하우
토토 노하우
홀덤 노하우
기타 지식/노하우
유용한 사이트
제작판매
제작의뢰
게임
구인
구직
총판
제작업체홍보
실시간뉴스
스포츠뉴스
연예뉴스
IT뉴스
자유게시판
유머★이슈
동영상
연예인
섹시bj
안구정화
출석하기
포인트 랭킹
포인트 마켓
로그인
자동로그인
회원가입
정보찾기
뉴스
더보기
[스포츠뉴스]
‘진짜 테니스’ 보여준 알카라스-신네르, 호주서 왕좌의 게임 이어간다
N
[스포츠뉴스]
[GS칼텍스배 프로기전] 세계 무대에서도 날았다
N
[스포츠뉴스]
[밀라노 ★은 나] "매일 200바퀴 빙판 돌아 … 3연속 금빛 질주 기대하세요"
N
[스포츠뉴스]
새해에도 지는 법 잊었다 … 안세영 첫 대회부터 포효
N
[스포츠뉴스]
안세영, 말레이시아 오픈 3연패 달성...2026년 힘찬 스타트
N
커뮤니티
더보기
[자유게시판]
드디어 금요일이군요
[자유게시판]
오늘 다저스 어떻게 생각하시나요
[자유게시판]
하아 댓노
[자유게시판]
식곤증지립니다요
[자유게시판]
벌써 불금이네요
목록
글쓰기
[IT뉴스]챗GPT는 '내가 최고', 제미나이는 '겸손'…AI 심사위원 결정 뜯어보니 [팩플]
온카뱅크관리자
조회:
16
2026-01-09 16:18:01
<div id="layerTranslateNotice" style="display:none;"></div> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="7ZZ9XftWTC"> <figure class="figure_frm origin_fig" contents-hash="ab780c7f2fbbd1db0af92b80fa4df5fc3631d8dcf57a37e423ea7c00921604bc" dmcf-pid="z552Z4FYvI" dmcf-ptype="figure"> <p class="link_figure"><img alt="챗GPT 로고. 연합뉴스" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202601/09/joongang/20260109161457195zmdq.jpg" data-org-width="560" dmcf-mid="UvJmdILxyl" dmcf-mtype="image" height="auto" src="https://img4.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202601/09/joongang/20260109161457195zmdq.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 챗GPT 로고. 연합뉴스 </figcaption> </figure> <p contents-hash="97477ac08ef6b24a2f2e77871370ad7571fa2e7fb04b89b9c815950f2523fd52" dmcf-pid="q11V583GlO" dmcf-ptype="general"><br> 인공지능(AI)의 팔도 안으로 굽을까? 최근 인간 대신 AI가 AI의 품질을 평가하는 ‘심사위원 AI(AI Judge)’가 주목받고 있는 가운데 챗GPT가 다른 AI 모델의 답보다 자신의 답이 더 뛰어나다고 판단하는 경향이 높다는 분석이 나와 관심을 모은다. </p> <div contents-hash="ae400728fcc70cd0adff51705b246807f7490014e271e130a21ff8fcda492883" dmcf-pid="Bttf160HTs" dmcf-ptype="general"> ━ <br> <p> 무슨 일이야 </p> <br> 9일 IT업계에 따르면 구글 AI 스프린트 참가자들은 각 AI 모델이 스스로 생성한 답변을 어떻게 평가하는지에 대한 조사 결과를 블로그 플랫폼 서브스택에 공개했다. 구글 AI 스프린트는 구글 개발자 프로그램이 주최하는 해커톤 형식의 개발 프로젝트다. 참가자들은 오픈AI의 챗GPT, 구글 제미나이, 앤스로픽 클로드의 심층(Thinking) 및 일반(Fast) 모델을 대상으로 실험을 진행했다. 실험은 각각의 모델에서 답변을 생성한 후, 이를 익명화해 AI에 어떤 답변이 우수한지 평가하도록 했다. 평가 지표로는 엠티-벤치(MT-Bench)를 이용했다. </div> <figure class="figure_frm origin_fig" contents-hash="997133856884ee1d6a1806ff71fabc2285b4bf7d5a6b7c0c0743e3025a0d3069" dmcf-pid="bFF4tPpXym" dmcf-ptype="figure"> <p class="link_figure"><img alt="사진 서브스택 캡처" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202601/09/joongang/20260109161458471rvzw.jpg" data-org-width="1279" dmcf-mid="u5UQpRzthh" dmcf-mtype="image" height="auto" src="https://img2.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202601/09/joongang/20260109161458471rvzw.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 사진 서브스택 캡처 </figcaption> </figure> <p contents-hash="4e690dfe18ac75a6db7f5defecc18821de21b7bca6cc23ab1963c4872727b77b" dmcf-pid="KeewRsiPTr" dmcf-ptype="general"><br> 조사 결과 챗GPT가 자사 모델을 1순위로 평가하는 자기선호도가 70%로 가장 높게 나타났다. 제미나이와 클로드는 각각 33%, 31%로 기준선(33%)과 유사한 수준이었다. 모든 AI가 공통으로 챗GPT의 답변을 선호했지만, 챗GPT의 경우 다른 AI의 평균적인 선호도보다 그 정도가 더 높았다. </p> <p contents-hash="aa14fcc87d18a1e6e36f570faf196876206974307f475ab2c0fb3955f38b95af" dmcf-pid="9ddreOnQSw" dmcf-ptype="general">영역별로 챗GPT는 주로 글쓰기, 역할극 같은 창의적 영역에서 자기선호도가 높게 나타났다. 제미나이는 수학이나 추론 분야에서 자신의 답변을 더 선호했다. 클로드는 모든 영역에 걸쳐 비교적 공정한 판단을 유지했다. 또 모든 AI가 심층 모델이 만든 답변에 더 높은 점수를 줬다. </p> <div contents-hash="c2bf833d348b2d6cd889c8ebf9c156892d6b653e366c193efc33d6ec8f56ee0e" dmcf-pid="2JJmdILxCD" dmcf-ptype="general"> ━ <br> <p> 이게 왜 중요해 </p> <br> 대형언어모델(LLM) 개발 경쟁이 치열해지면서 인간이 모든 모델을 일일이 평가하기 어려워졌다. 그만큼 AI가 다른 AI의 성능을 평가하는 체계가 필수적이다. 이런 심사위원 AI는 주로 AI의 답변에 정량적 점수를 부여하거나, 두 개 이상의 응답 중 어느 것이 더 우수한지 상대평가를 한다.하지만 AI가 특정 모델의 답변을 선호해 편파 판정을 내릴 수 있다는 한계도 문제점으로 제기됐다. </div> <p contents-hash="eeb17c1128701c5628bf72b6995bc8219be481504d9bc25b72fbe29cff2e0b74" dmcf-pid="ViisJCoMyE" dmcf-ptype="general">평가 방식에 따라 AI의 자기편향성도 달라질 수 있다. 이번 실험에서는 어떤 평가 방식이 AI의 자기편향을 최소화할 수 있는지도 검증했다. 앞선 블라인드 테스트와 달리 ①자사 모델 정보만 공개한 경우 ②타사 모델 정보만 공개한 경우 ③모든 정보를 공개한 경우로 나눠 답변 주체의 힌트를 제공했다. 그 결과 모든 모델의 자기선호도가 낮아졌다. 여전히 챗GPT의 자기선호도가 가장 높았고, ①의 경우 클로드가, ②는 제미나이가 가장 높았다. </p> <p contents-hash="78f8b8d8b68369b02168a7e8a1ab765f0c860a2f54186e9042c989a4fd027a52" dmcf-pid="fnnOihgRyk" dmcf-ptype="general">■ 더중앙플러스 : 팩플</p> <p contents-hash="b5cb30446f32aa2c2fedbc432d39023003a9ef7e2d16a815079e6ab937215cde" dmcf-pid="4LLInlaeTc" dmcf-ptype="general">「 더 자세한 기사내용이 궁금하시다면 주소창에 링크를 붙여넣으세요. </p> <p contents-hash="58d29bf730239b19a5f643066c98e1e3ef03b57ab907c7e9a0276cb39d65c899" dmcf-pid="8ooCLSNdvA" dmcf-ptype="general">챗GPT는 오픈AI도 싹 바꿨다…매일 저녁 6시, 그 임원 활용법 <br> 무서운 속도로 사무실에서 확산 중인 AI는 인간의 일을 어떻게 재편하게 될까. 오픈AI가 궁극적으로 구현하려는 범용 AI(AGI)는 어떤 형태일까. 그 과정에서 끊임없이 제기되고 있는 ‘AI 버블론’에 대한 입장은 무엇인가. 구글 등 막강한 자본력을 지닌 빅테크와 저비용·고효율이 무기인 중국 AI 기업의 추격이 계속되는 가운데 오픈AI만의 경쟁력은? 2021년 오픈AI의 법률 고문으로 합류한 뒤 현재 오픈AI의 정책·전략, 글로벌 협력 업무 등을 총괄하고 있는 제이슨 권 CSO에게 물었다. <br> https://www.joongang.co.kr/article/25395798 <br> 」</p> <p contents-hash="21401dfa2e053b7df52a7491ca399bdf8ef2301c3b7d4fd341ffb1a172921cdf" dmcf-pid="6gghovjJyj" dmcf-ptype="general">장윤서 기자 chang.yoonseo1@joongang.co.kr</p> </section> </div> <p class="" data-translation="true">Copyright © 중앙일보. 무단전재 및 재배포 금지.</p>
댓글등록
댓글 총
0
개
맨위로
이번주
포인트
랭킹
매주 일요일 밤 0시에 랭킹을 초기화합니다.
1
4,000
상품권
2
3,000
상품권
3
2,000
상품권
업체홍보/구인
더보기
[구인]
유투브 BJ 구인중이자나!완전 럭키비키자나!
[구인]
에카벳에서 최대 조건으로 부본사 및 회원님들 모집합니다
[구인]
카지노 1번 총판 코드 내립니다.
[구인]
어느날 부본사 총판 파트너 모집합니다.
[구인]
고액전용 카지노 / 헬렌카지노 파트너 개인 팀 단위 모집중 최고우대
지식/노하우
더보기
[카지노 노하우]
혜택 트렌드 변화 위험성 다시 가늠해 보기
[카지노 노하우]
호기심이 부른 화 종목 선택의 중요성
[카지노 노하우]
카지노 블랙잭 카드 조합으로 히트와 스탠드를 결정하는 방법
[카지노 노하우]
흥부가 놀부될때까지 7
[카지노 노하우]
5월 마틴하면서 느낀점
판매의뢰
더보기
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
포토
더보기
채팅하기