로그인
보증업체
스포츠중계
스포츠분석
먹튀사이트
지식/노하우
판매의뢰
업체홍보/구인
뉴스
커뮤니티
포토
포인트
보증카지노
보증토토
보증홀덤
스포츠 중계
기타
축구
야구
농구
배구
하키
미식축구
카지노 먹튀
토토 먹튀
먹튀제보
카지노 노하우
토토 노하우
홀덤 노하우
기타 지식/노하우
유용한 사이트
제작판매
제작의뢰
게임
구인
구직
총판
제작업체홍보
실시간뉴스
스포츠뉴스
연예뉴스
IT뉴스
자유게시판
유머★이슈
동영상
연예인
섹시bj
안구정화
출석하기
포인트 랭킹
포인트 마켓
로그인
자동로그인
회원가입
정보찾기
뉴스
더보기
[스포츠뉴스]
한국, 아시아 남자핸드볼 선수권 결선리그서 이라크 제압
N
[실시간뉴스]
통일교 닮은꼴 신천지 수사…'교주 지시·유착 목적' 규명 관건
N
[IT뉴스]
[AI혁명]"AI로 만든 캐릭터, 블록체인 통해 저작권 증명 가능"
N
[연예뉴스]
"이건 싸가지 문제" 성시경, 공연 앞두고 금주·금연 선언(먹을텐데)
N
[연예뉴스]
"복싱은 내게 신 같은 존재"…'아이 엠 복서' 대장정 마무리 [텔리뷰]
N
커뮤니티
더보기
[자유게시판]
드디어 금요일이군요
[자유게시판]
오늘 다저스 어떻게 생각하시나요
[자유게시판]
하아 댓노
[자유게시판]
식곤증지립니다요
[자유게시판]
벌써 불금이네요
목록
글쓰기
[IT뉴스]"이건 사람한테 물어봐야겠다"… AI 스스로 한계 인정하는 법 배웠다
온카뱅크관리자
조회:
14
2026-01-21 21:27:53
<div id="layerTranslateNotice" style="display:none;"></div> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="y21hcYSrgW"> <p contents-hash="49a2081205964334e359328cfb759a058a9d3cc7e36790b1325ff1cdf77fc1cd" dmcf-pid="WVtlkGvmAy" dmcf-ptype="general">(지디넷코리아=AI 에디터 )</p> <figure class="figure_frm origin_fig" contents-hash="c7ac282f5782b1f9c2e0876ff7c9d99275f1c3a13289ddd9457fc84fb6ccecf5" dmcf-pid="YfFSEHTscT" dmcf-ptype="figure"> <p class="link_figure"><img class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202601/21/ZDNetKorea/20260121212325744gvnu.jpg" data-org-width="640" dmcf-mid="xtL4uR6bkY" dmcf-mtype="image" height="auto" src="https://img2.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202601/21/ZDNetKorea/20260121212325744gvnu.jpg" width="658"></p> </figure> <p contents-hash="8d92734347e8f56a5c3f459ccc086fedd187edb1f20e0c95c6f2576c908a1670" dmcf-pid="G43vDXyOov" dmcf-ptype="general">미국 광고 기술 회사 제프르와 이스라엘 테크니온 공과대학 연구팀이 AI가 자신의 판단이 틀릴 가능성을 스스로 예측해 사람에게 도움을 청하는 시스템을 개발했다. 해당 논문에 따르면, 이 기술은 AI가 확신 있는 것만 처리하고, 헷갈리는 건 인간 전문가에게 넘김으로써 정확도를 높이면서도 비용을 대폭 줄인다.</p> <p contents-hash="7bb497819b7765c6abbf6b563325067f417241c58342e59f4a6019e48cf25d9d" dmcf-pid="H80TwZWIaS" dmcf-ptype="general"><strong>GPT-4o 미니, 사람 도움 요청 절반으로 줄였는데 정확도는 오히려 상승</strong></p> <p contents-hash="43cf56df271d7b67f8dcbe858163ae304428dcd685c4c28d20ca9df136eeee3b" dmcf-pid="X6pyr5YCNl" dmcf-ptype="general">연구팀이 만든 시스템의 핵심은 간단하다. AI가 콘텐츠를 검열할 때마다 "내 판단이 맞을 확률"을 동시에 계산한다. 이 확률이 낮으면 자동으로 사람 검토자에게 넘기고, 높으면 AI가 직접 처리한다.</p> <p contents-hash="59f31dd31d35e1ea6b15adfc10bb1e57e7b1a7ca5c707196a6f69e14474bdd18" dmcf-pid="ZFhjRrcngh" dmcf-ptype="general">오픈AI의 검열 데이터로 실험한 결과, GPT-4o 미니 모델은 사람에게 넘기는 비율을 37%에서 16%로 절반 이상 줄였다. 놀라운 건 정확도가 떨어진 게 아니라 오히려 81%에서 94%로 올랐다는 점이다. 즉, AI가 자신 있는 것만 골라서 처리하니 실수가 줄어든 것이다.</p> <p contents-hash="10ebd3ffb171bae9112192e6e7a79fcbb2921aed044b909d72842b90741ce2a5" dmcf-pid="53lAemkLoC" dmcf-ptype="general">비용 절감 효과도 컸다. GPT-4o 미니는 운영 비용이 132달러에서 38달러로 71% 감소했다. 구글의 제미나 2.0 모델도 74달러에서 41달러로 41% 줄었다. 여기서 비용은 사람 검토자의 인건비와 AI 실수로 인한 예상 손실을 합친 금액이다.</p> <p contents-hash="ad654a571e5eeb968422fbbd2c8a58451b21afe01c38f3bff9c78ccad72e943f" dmcf-pid="10ScdsEocI" dmcf-ptype="general"><strong>AI가 보내는 네 가지 신호... "헷갈려요" 인정하는 순간 포착</strong></p> <p contents-hash="d1a580a393ccc87777542a2e84580b6ba1ac2587dd0db3f80a6ac4d9328a46fe" dmcf-pid="tpvkJODgoO" dmcf-ptype="general">이 시스템은 AI가 내보내는 네 가지 신호를 종합 분석한다.</p> <p contents-hash="f9ce6ce15c43de80eb8bf6f9f91108882ac5cf2e448aa49d28e5e5e47ea291b2" dmcf-pid="FUTEiIwaas" dmcf-ptype="general">첫 번째는 AI가 답을 선택할 때 각 선택지에 부여하는 확률이다. 예를 들어 "유해함" 70%, "무해함" 25%라면 꽤 확신하는 것이지만, "유해함" 52%, "무해함" 48%라면 헷갈리는 것이다.</p> <p contents-hash="6a963c0f6177586778356237c74a8fd4ce966da0eec1d6c84e1c45950778fb8d" dmcf-pid="3uyDnCrNkm" dmcf-ptype="general">두 번째는 AI가 스스로 매기는 신뢰도 점수다. AI에게 "당신 답이 맞을 확률이 몇 퍼센트인가요?"라고 물으면 0~100점으로 답하게 한다. 또 "매우 낮음, 낮음, 보통, 높음, 매우 높음" 중 하나를 선택하게도 한다.</p> <p contents-hash="386a62a0feac912faf78a1492174651e075f9bb18f88e721d3a54202a1ad2edb" dmcf-pid="07WwLhmjgr" dmcf-ptype="general">세 번째는 AI의 중간 사고 과정을 분석하는 것이다. AI가 답을 내기까지의 추론 과정을 단계별로 살펴보며 얼마나 일관되고 자신 있게 말하는지 측정한다. 다만 이 방식은 콘텐츠 검열에서는 오히려 AI를 과신하게 만들어 최종 버전에서는 제외됐다.</p> <p contents-hash="2976fdaf218b24c058c3a1915cabad9d34b12d1a408203a274625d969a4f6a2f" dmcf-pid="pzYrolsAcw" dmcf-ptype="general">네 번째가 이번 연구의 핵심 혁신이다. AI가 단순히 "확신 없음"이라고만 말하는 게 아니라, 그 이유를 두 가지로 구분한다. "정보가 부족해서 모르겠어요"와 "규정 자체가 애매해서 모르겠어요"로 나눈다.</p> <p contents-hash="1e915624ad25612e9a7812cd75f96d8552388097249a64e1740696273269f955" dmcf-pid="UqGmgSOcgD" dmcf-ptype="general"><strong>"정보 부족"과 "규칙 애매함" 구분... 담당자 배정까지 자동화</strong></p> <p contents-hash="1d7aa3a1728a4574ae535f8d6cb35e985165ce2d3967d8d9eb5b303a6bc6b864" dmcf-pid="uBHsavIkaE" dmcf-ptype="general">AI가 이유를 구분하는 건 실무에서 큰 의미가 있다. "정보가 부족해서 모르겠다"고 하면 경험 많은 상급 검토자에게 배정한다. 예를 들어 동영상 화면이 흐릿하거나, 맥락 정보가 빠져있어서 판단하기 어려운 경우다.</p> <p contents-hash="a42c88c076a088a6d4cc547f313adfe1bceaa476444a87f09bc4583db518bea2" dmcf-pid="7bXONTCEAk" dmcf-ptype="general">반면 "규칙 자체가 애매해서 모르겠다"고 하면 검열 가이드라인을 업데이트하거나 AI 재교육의 신호로 활용한다. 예를 들어 어떤 표현이 지역에 따라 욕인지 아닌지 기준이 다른 경우, 회사 규정에 명확한 기준이 없는 경우다.</p> <p contents-hash="c794094ff9ff1702797a5e16fe758d93b745bf34aac45cf4002abbd9becb82a9" dmcf-pid="zKZIjyhDNc" dmcf-ptype="general">실제로 구글의 제미나이 모델에서 이 "이유 구분" 기능을 제거하자 비용이 눈에 띄게 올랐다. 이는 AI가 단순히 "잘 모르겠다"고만 하는 것보다, "왜 모르는지"까지 알려주는 게 훨씬 효율적임을 보여준다.</p> <p contents-hash="9cd02b4b8eac3c5c96f9382da93c3d28660f19955714652b971cdc09f933996d" dmcf-pid="q95CAWlwcA" dmcf-ptype="general"><strong>12개 언어 동영상 검열까지 성공... 텍스트 넘어 영상·음성도 분석</strong></p> <p contents-hash="b449ba12089202a32a40d2c07aa6dd487dd6aacb294676d42b5ed2b923e21f74" dmcf-pid="B1IaxDjJcj" dmcf-ptype="general">연구팀은 두 가지 데이터로 시스템을 검증했다.</p> <p contents-hash="5f01d372c5a28363265097f9fffc970635e5fb20a2aa524804bd62fcf8e4b37f" dmcf-pid="btCNMwAijN" dmcf-ptype="general">첫째는 영어 텍스트 1,680개를 혐오 발언, 자해, 성적 콘텐츠, 폭력 등으로 분류하는 작업이다.</p> <p contents-hash="e78c08f3ef97a0942b8b508245b34173f6974a54b287cf6a431852b7f5683c61" dmcf-pid="KFhjRrcnNa" dmcf-ptype="general">둘째는 12개 언어로 된 짧은 동영상 1,500개를 분석하는 작업이다. 동영상은 텍스트, 썸네일 이미지, 음성을 문자로 바꾼 대본, 영상 장면 등 네 가지 정보를 모두 활용했다.</p> <p contents-hash="86f9a6b1a5de9b41d31248b9240882d0de225f3e3f876dde058c2a002cb32363" dmcf-pid="93lAemkLgg" dmcf-ptype="general">영어 텍스트 검열에서는 모든 AI 모델이 기존 방식보다 좋은 성적을 냈다. GPT-4.1 미니와 GPT-4o의 정확도가 각각 88.79%에서 91.93%, 84.41%에서 91.35%로 올랐다.</p> <p contents-hash="9c4e18df47bd5f8c0f7c9babd0e75404e0d851de14d741652884dc5f047e8f5d" dmcf-pid="20ScdsEojo" dmcf-ptype="general">더 복잡한 동영상 검열에서는 모델마다 차이가 있었다. GPT-4o 미니는 정확도가 85.71%에서 87.34%로, GPT-4o는 88.05%에서 91.42%로 향상됐다. 특히 제미나이 2.0은 69.85%에서 85.47%로 급등했다. 다만 중국의 큐웬이나 메타의 라마 같은 일부 오픈소스 모델은 전체 평균 정확도는 오르고 개별 케이스 정확도는 떨어지는 등 혼재된 결과를 보였다.</p> <p contents-hash="b759d190be757fb91b1c0df3bba847311789bd5be961676ec359e426491b63ed" dmcf-pid="VpvkJODgjL" dmcf-ptype="general"><strong>특별한 수학 기법으로 학습... 드물게 나오는 실수 케이스 집중 분석</strong></p> <p contents-hash="7b7da384e36bddba1c515912fdab3fa2fc2babaf1c7c0cc6fc84d33c5d892707" dmcf-pid="fUTEiIwacn" dmcf-ptype="general">이 시스템은 "리지 회귀"라는 통계 기법으로 학습한다. 복잡해 보이지만 원리는 단순하다. AI의 여러 신호들이 서로 비슷한 정보를 담고 있을 수 있는데, 이를 적절히 조절해서 중복을 피하고 안정적인 예측을 만든다.</p> <p contents-hash="24109108372f9613fea9c7b4e958563c907a02be7f49afd69511adfde8ce159c" dmcf-pid="4uyDnCrNNi" dmcf-ptype="general">가장 큰 어려움은 데이터 불균형이었다. AI의 판단은 보통 80퍼가 맞기 때문에 실수 상황은 20퍼에 불가하다. 따라서 AI가 "대부분 맞으니까 항상 맞다고 예측하자"는 식으로 학습할 위험이 있다.</p> <p contents-hash="2376ba6434e851974f7d4a75a2b1db08c247b29e095dbdee041279b8264e0b59" dmcf-pid="87WwLhmjNJ" dmcf-ptype="general">연구팀은 이를 해결하기 위해 맞는 케이스를 적절히 줄이고, 드문 "확신 없음" 케이스는 모두 유지했다. 또한 실수의 비용을 더 높게 설정해서 시스템이 실수를 잡는 데 집중하도록 만들었다. 최종적으로 동영상 데이터는 훈련용 800개와 테스트용 300개로, 텍스트 데이터는 훈련용 3,500개와 테스트용 900개로 나눠 평가했다.</p> <p contents-hash="2fbdc1e838aad320560aa27d8a013a88dcba046767e72fb5ade54509bcde427a" dmcf-pid="6zYrolsAAd" dmcf-ptype="general"><strong>각 신호의 기여도 실험... 모든 신호가 서로 보완하며 작동</strong></p> <p contents-hash="a5132b62b10facee585e885b29ef5fd423d2df9a1f855f36f28945a867d5540d" dmcf-pid="PqGmgSOcoe" dmcf-ptype="general">연구팀은 네 가지 신호 중 하나씩 제거하면서 각각의 중요도를 측정했다. 결과는 명확했다. 어떤 신호를 제거하더라도 성능이 떨어졌다. 이는 네 가지 신호가 각자 다른 측면을 보여주며 서로 보완한다는 뜻이다.</p> <p contents-hash="e88e3df66276ddb7880174f061b8913a89790ece6e09fce7dc0b10c80a3555d1" dmcf-pid="QBHsavIkoR" dmcf-ptype="general">영어 텍스트 검열에서는 AI가 각 답변 선택지에 부여하는 확률 신호를 제거했을 때 비용이 가장 많이 올랐다. 이는 AI의 내부 확률 계산이 가장 강력한 단일 신호임을 보여준다.</p> <p contents-hash="8dd68dc90dc8ccdbe561e7ee3fa3b9aa516782a126d1dbf20c8589c94abcc566" dmcf-pid="xn2FTz0HaM" dmcf-ptype="general">AI가 스스로 매기는 신뢰도 점수를 제거하면 비용이 약 5~15% 올랐다. 이는 AI의 자기 평가가 확률 계산으로는 잡히지 않는 추가 정보를 제공함을 의미한다.</p> <p contents-hash="a45ab2f63e650e2cbf5718c5afcf26225077ad778a83b6b970f37b1cc4de4c07" dmcf-pid="y5OgQENdkx" dmcf-ptype="general">"정보 부족"과 "규칙 애매함"을 구분하는 신호는 단순한 예/아니오 정보인데도 비용 절감에 확실히 기여했다. 특히 제미나이 모델들에서 이 신호를 제거하자 비용이 뚜렷하게 증가했다.</p> <p contents-hash="4ecf45b8ec30e147110dc972b88179d7345855b49f0216f8b8246a3ca87fc4d0" dmcf-pid="W1IaxDjJkQ" dmcf-ptype="general"><strong>FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)</strong></p> <p contents-hash="5ae8fdb0ce78323306691a83306065f966ff120c710a59e51bc388bc7eab26bf" dmcf-pid="YtCNMwAigP" dmcf-ptype="general"><strong>Q1. 이 기술은 어떤 AI에 적용할 수 있나요?</strong></p> <p contents-hash="28749e49027a8480f95fc6178d00d8f13817eb6e60e068e556135fa2566444c0" dmcf-pid="GFhjRrcno6" dmcf-ptype="general">A. GPT-4o, 구글 제미나이, 메타 라마, 중국 큐웬 등 대부분의 대형 AI 모델에 적용 가능합니다. AI가 각 답변에 부여하는 확률 정보를 제공하기만 하면 되고, AI 내부 구조를 들여다볼 필요가 없어서 범용적입니다. 오픈소스와 상용 서비스 모두 사용할 수 있습니다.</p> <p contents-hash="a86dbfc834e0e9750dcc9b54c0d63433d893dcb21bcd65ce8c9784e50bdf6a83" dmcf-pid="H3lAemkLk8" dmcf-ptype="general"><strong>Q2. AI가 이유를 구분하는 게 왜 중요한가요?</strong></p> <p contents-hash="55e5d59f946c5bbdc3cea08f7bd540e4dfd6d1d9c51d2397c60b5d6c36bf9f4c" dmcf-pid="X0ScdsEoo4" dmcf-ptype="general">A. "정보가 부족해서 모른다"는 건 경험 많은 사람이 봐야 하고, "규칙이 애매해서 모른다"는 건 규칙을 고치거나 AI를 재교육해야 합니다. 이렇게 이유를 알면 적재적소에 자원을 배치하고 시스템을 빠르게 개선할 수 있습니다. 실제로 이 기능을 빼면 비용이 확실히 올라갑니다.</p> <p contents-hash="e8881be95cc48dbd93448b9866b14cb8c5e9c95c2727057b36503a16afd2648c" dmcf-pid="ZpvkJODgcf" dmcf-ptype="general"><strong>Q3. 콘텐츠 검열 외에 다른 곳에도 쓸 수 있나요?</strong></p> <p contents-hash="4e204aa53d6e288330a4443c2cb262fe272a71cdf3db676b1f497b5621d29d88" dmcf-pid="5UTEiIwacV" dmcf-ptype="general">A. 연구팀은 금융 사기 탐지, 법규 준수 검토, 의료 진단 보조 등 실수 비용이 큰 모든 분야에 적용 가능하다고 밝혔습니다. AI가 확신 없을 때 사람에게 도움을 청하는 구조는 사람과 AI가 협업하는 모든 상황에서 유용합니다.</p> <p contents-hash="2aeabe9c5d66af5bf61a9cca2d0d6124713aefb47e40e38e3eb695277c353383" dmcf-pid="1uyDnCrNk2" dmcf-ptype="general">■ 이 기사는 AI 전문 매체 ‘<span>AI 매터스</span>’와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. </p> <p contents-hash="c17e408c636dccad6a5df0b86904d750d290a2ec00dd5627ee476c6e41ff350b" dmcf-pid="t7WwLhmja9" dmcf-ptype="general">AI 에디터 (media@zdnet.co.kr)</p> </section> </div> <p class="" data-translation="true">Copyright © 지디넷코리아. 무단전재 및 재배포 금지.</p>
댓글등록
댓글 총
0
개
맨위로
이번주
포인트
랭킹
매주 일요일 밤 0시에 랭킹을 초기화합니다.
1
4,000
상품권
2
3,000
상품권
3
2,000
상품권
업체홍보/구인
더보기
[구인]
유투브 BJ 구인중이자나!완전 럭키비키자나!
[구인]
에카벳에서 최대 조건으로 부본사 및 회원님들 모집합니다
[구인]
카지노 1번 총판 코드 내립니다.
[구인]
어느날 부본사 총판 파트너 모집합니다.
[구인]
고액전용 카지노 / 헬렌카지노 파트너 개인 팀 단위 모집중 최고우대
지식/노하우
더보기
[카지노 노하우]
혜택 트렌드 변화 위험성 다시 가늠해 보기
[카지노 노하우]
호기심이 부른 화 종목 선택의 중요성
[카지노 노하우]
카지노 블랙잭 카드 조합으로 히트와 스탠드를 결정하는 방법
[카지노 노하우]
흥부가 놀부될때까지 7
[카지노 노하우]
5월 마틴하면서 느낀점
판매의뢰
더보기
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
포토
더보기
채팅하기