로그인
보증업체
스포츠중계
스포츠분석
먹튀사이트
지식/노하우
판매의뢰
업체홍보/구인
뉴스
커뮤니티
포토
포인트
보증카지노
보증토토
보증홀덤
스포츠 중계
기타
축구
야구
농구
배구
하키
미식축구
카지노 먹튀
토토 먹튀
먹튀제보
카지노 노하우
토토 노하우
홀덤 노하우
기타 지식/노하우
유용한 사이트
제작판매
제작의뢰
게임
구인
구직
총판
제작업체홍보
실시간뉴스
스포츠뉴스
연예뉴스
IT뉴스
자유게시판
유머★이슈
동영상
연예인
섹시bj
안구정화
출석하기
포인트 랭킹
포인트 마켓
로그인
자동로그인
회원가입
정보찾기
뉴스
더보기
[실시간뉴스]
[단독]"빨리 올려 버리자" 청담동 식당서 임원급 모의…제당 거물 3사, 3조원대 '설탕 담합'
N
[IT뉴스]
"K-서브컬처, 대세는 대세"…지스타 안 부러운 'AGF 2025'
N
[IT뉴스]
"대규모 계산도 적은 인프라로 충분"… 中, 실용형 양자 플랫폼 선봬
N
[IT뉴스]
[겜덕연구소] 흉기로 무장한 게임 속 미녀들, 다가가기엔 너무 위험하다!
N
[IT뉴스]
"공공 클라우드, '권고'에서 '의무'돼야"…국회·산업계, 국가 인프라 재설계 한목소리
N
커뮤니티
더보기
[자유게시판]
드디어 금요일이군요
[자유게시판]
오늘 다저스 어떻게 생각하시나요
[자유게시판]
하아 댓노
[자유게시판]
식곤증지립니다요
[자유게시판]
벌써 불금이네요
목록
글쓰기
[IT뉴스]"병원들이 돈 주고 쓰는 의료 전문 AI, 챗GPT보다 못하다"
온카뱅크관리자
조회:
5
2025-12-04 19:57:30
<div id="layerTranslateNotice" style="display:none;"></div> <strong class="summary_view" data-translation="true">NYU 연구진, 비교 분석 결과</strong> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="5celQ8Kpo0"> <p contents-hash="49a2081205964334e359328cfb759a058a9d3cc7e36790b1325ff1cdf77fc1cd" dmcf-pid="1kdSx69Uc3" dmcf-ptype="general">(지디넷코리아=AI 에디터 )</p> <figure class="figure_frm origin_fig" contents-hash="ccd0b42a09fa08269d8c3f0c163af62dfcb1d46a3cc1acb2d63c2c46fd0f9182" dmcf-pid="tEJvMP2ugF" dmcf-ptype="figure"> <p class="link_figure"><img class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202512/04/ZDNetKorea/20251204194901401oqhb.jpg" data-org-width="640" dmcf-mid="XJUnF5WIcU" dmcf-mtype="image" height="auto" src="https://img4.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202512/04/ZDNetKorea/20251204194901401oqhb.jpg" width="658"></p> </figure> <p contents-hash="45ca4e4b484c1f8a21beadd4a09362d7cb2967bcdd2da4bd530ee806dd23f7c0" dmcf-pid="FDiTRQV7Nt" dmcf-ptype="general">의료 전문 AI가 일반인도 쓰는 챗GPT보다 성능이 떨어진다는 연구 결과가 나왔다. 뉴욕대학교 연구진이 의사들이 실제로 쓰는 유료 의료 AI와 GPT-5, 제미나이 같은 일반 AI를 비교했더니, 일반 AI가 의학 지식이나 실제 진료 상황 판단 모두에서 더 뛰어났다. 의료계에서는 "전문 AI가 더 안전하다"고 말해왔는데, 이번 연구는 그 주장에 의문을 제기한다.</p> <p contents-hash="5b45053467fb59ca27d915ff8a32c051a5107dd6716641e2be30e0a838690ff6" dmcf-pid="3wnyexfzN1" dmcf-ptype="general"><strong>미국 의사 40%가 쓰는 오픈에비던스, 주장과 달리 성적 낮아</strong></p> <p contents-hash="5174f5d464d996c235e9c5f6b8106f9aae29bc9b8f3d4be174e703de2c0ae4fa" dmcf-pid="0rLWdM4qa5" dmcf-ptype="general">해당 논문에 따르면, 뉴욕대학교 병원 신경외과 연구팀은 의사들이 많이 쓰는 두 가지 의료 전문 AI인 오픈에비던스와 업투데이트 전문가 AI를 일반 AI들과 비교했다. 비교 대상은 GPT-5, 제미나이 3 프로, 클로드 소네트 4.5였다. 오픈에비던스는 미국 의사 40%가 쓰고 있고 기업 가치가 35억 달러(약 5조 원)에 달한다. 업투데이트 전문가 AI는 미국 주요 병원 70%가 도입했다.</p> <p contents-hash="3eb08744401847b9f57d56884c2de6d4d6092815dafe2eeafd7ce01d6d38e475" dmcf-pid="pmoYJR8BaZ" dmcf-ptype="general">연구진은 1,000개 의료 질문으로 테스트를 진행했다. 500개는 미국 의사면허시험(USMLE) 스타일의 문제로 의학 지식을 평가하고, 나머지 500개는 실제 진료 상황에서 전문 의사의 판단과 얼마나 일치하는지 확인하는 문제였다. 평가 결과, 의료 전문 AI의 광고 문구와 실제 실력 사이에 큰 차이가 있었다. 특히 오픈에비던스는 자사 발표에서 미국 의사면허시험 스타일 문제에서 완벽한 100% 정확도를 달성했다고 주장했지만, 이번 독립적인 테스트에서는 그보다 훨씬 낮은 결과를 보였다.</p> <p contents-hash="3c6323c7858506cd54699dbc139ee4b697eb00f10302c8dce2f8799c0976b3ad" dmcf-pid="UsgGie6bgX" dmcf-ptype="general"><strong>GPT-5, 의사 시험 문제 96.2% 정확도로 1위... 의료 전문 AI는 89%</strong></p> <p contents-hash="5805f98d8901196a69f951c57384e782872f8b967a793729a4ddbee8ccbb063a" dmcf-pid="uOaHndPKkH" dmcf-ptype="general">의학 지식 평가에서 GPT-5는 96.2%의 정확도로 가장 높은 성적을 냈다. 제미나이 3 프로가 94.6%로 2위, 클로드 소네트 4.5는 91.4%였다. 반면 의료 전문 AI인 오픈에비던스는 89.6%, 업투데이트 전문가 AI는 88.4%에 그쳤다. GPT-5는 제미나이를 빼고는 다른 모든 AI를 통계적으로 유의미하게 앞섰다. 특히 두 의료 전문 AI와 비교하면 격차가 컸다.</p> <p contents-hash="bed652d9d8348d41f57960513afb35208f1da6941c1ee7f1adb2f3ce60f898a1" dmcf-pid="7INXLJQ9cG" dmcf-ptype="general">일반 AI 3개의 평균 정확도는 94.1%였지만, 의료 전문 AI 2개의 평균은 89.0%로 약 5%포인트 낮았다. 특히 의학 지식과 과학 주제 문제에서 오픈에비던스, 업투데이트 전문가 AI, 클로드 소네트 4.5가 다른 AI들보다 낮은 성능을 보였다. 이는 의료 전문 AI가 기본적인 의학 지식 문제조차 일반 AI를 따라잡지 못하고 있음을 보여준다.</p> <figure class="figure_frm origin_fig" contents-hash="fe0744b13ef9967af4202e5e7b4c03170f19da94862941144d8c1dd21fb415a2" dmcf-pid="zyw0cNiPcY" dmcf-ptype="figure"> <p class="link_figure"><img class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202512/04/ZDNetKorea/20251204194902649kuoa.jpg" data-org-width="638" dmcf-mid="ZD2kB7FYjp" dmcf-mtype="image" height="auto" src="https://img1.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202512/04/ZDNetKorea/20251204194902649kuoa.jpg" width="658"></p> </figure> <p contents-hash="8198f70d67afad11f2618a0496b271f4aaaab5d518ef3d0b298ecb07cd5aac44" dmcf-pid="qWrpkjnQcW" dmcf-ptype="general"><strong>실제 진료 판단력 평가에서 일반 AI가 의료 전문 AI보다 약 1.2배 우수</strong></p> <p contents-hash="68f548b1290bbb6dd78da0de5bf2466e05ce233641a147c5d373afc8ff75d5ec" dmcf-pid="BYmUEALxgy" dmcf-ptype="general">실제 병원에서 일하는 전문 의사처럼 판단하는지 평가하는 테스트에서는 차이가 더 벌어졌다. GPT-5가 97.0%로 압도적 1위를 했고, 제미나이는 90.5%, 클로드 소네트은 87.7%였다. 반면 업투데이트 전문가 AI는 75.2%, 오픈에비던스는 74.3%였다. GPT-5는 다른 모든 AI를 통계적으로 유의미하게 앞섰고, 오픈에비던스는 업투데이트를 제외한 모든 AI보다 뒤처졌다.</p> <p contents-hash="75fa6c294d239a89c561c0f1b57aa03351120c9c71b6bb1ebe3345553a9b6ba7" dmcf-pid="bGsuDcoMcT" dmcf-ptype="general">일반 AI 그룹의 평균 점수는 91.7%였지만, 의료 전문 AI 그룹은 74.8%로 약 17%포인트 차이가 났다. 일반 AI가 의료 전문 AI보다 약 1.2배 높은 점수를 받았다. 세부 평가 항목을 보면 의료 전문 AI의 약점이 더 확실히 드러난다. 정확한지, 정보가 충분한지, 설명을 잘하는지, 상황을 잘 파악하는지, 지시를 잘 따르는지 등 5가지를 평가했는데, GPT-5는 모든 항목에서 최고 점수를 받았다.</p> <p contents-hash="ab21d824913a267a0e1d13dd18ac785ee23f9fe7f769d0f3c03352abb271ca7b" dmcf-pid="KHO7wkgRjv" dmcf-ptype="general">반면 오픈에비던스는 5개 항목 모두에서 다른 세 일반 AI보다 낮은 점수를 받았고, 업투데이트는 5개 중 2개 항목에서 모든 일반 AI보다 점수가 낮았다. 특히 정보의 완전성, 의사소통 품질, 맥락 인식 능력에서 일반 AI가 의료 전문 AI를 크게 앞섰다.</p> <p contents-hash="be75eac6cbca9cbd559908454cc5a71413d5fc1f44cf4b9e5d7f798d2f8ae1a1" dmcf-pid="9XIzrEaejS" dmcf-ptype="general"><strong>응급 상황 판단과 환자 안전에서 의료 전문 AI 취약점 드러나</strong></p> <p contents-hash="0dfff920eb83294bf12b6fef60330a12028c7fc7fbcf3f5d5883e496713b726c" dmcf-pid="2ZCqmDNdjl" dmcf-ptype="general">연구진은 테스트 문제를 7가지 주제로 나눠 추가로 분석했다. 응급 상황에서 전문의에게 의뢰해야 하는지 판단하기, 맥락 파악하기, 글로벌 보건, 건강 데이터 다루기, 전문가답게 설명하기, 불확실할 때 대응하기, 깊이 있게 답하기 등이다. GPT-5는 7가지 주제 모두에서 1위이거나 공동 1위를 했고, 4개 주제에서는 만점을 받았다. 반면 오픈에비던스와 업투데이트 전문가 AI는 7가지 주제 전부에서 최하위이거나 공동 최하위였다.</p> <p contents-hash="185651bc8b1f19c8c9a85af440e64df2a69a2cc6fd89eef4d0f8bcf91a335b25" dmcf-pid="V5hBswjJoh" dmcf-ptype="general">특히 걱정되는 부분은 응급 상황 의뢰 판단에서 일반 AI와 의료 전문 AI 사이에 통계적으로 유의미한 차이가 나타났다는 점이다. 또한 시스템 기반 실무 역량 분류, 특히 환자 안전 관련 문제에서 의료 전문 AI들이 유의미하게 낮은 성능을 보였다. 이는 의료 전문 AI가 정작 병원에서 중요한 응급 상황 판단이나 환자 안전과 관련된 시스템적 사고에서 약점을 가지고 있음을 의미한다.</p> <p contents-hash="e473e77a81f3a3b6f725db7552b87ed1cd156110b508871a04641b479808c662" dmcf-pid="f1lbOrAiNC" dmcf-ptype="general">연구진은 의료 전문 AI의 성능이 낮은 이유를 분석했다. 오픈에비던스와 업투데이트 전문가 AI는 검색 증강 생성 방식에 크게 의존하는데, 이 방식은 잘못된 자료를 검색하거나 기본 모델이 정보를 제대로 통합하지 못하면 오히려 성능을 해칠 수 있다고 지적했다. 반면 GPT-5 같은 최신 범용 모델은 방대한 학습 데이터와 더 발전된 정렬 기술 덕분에 의학 지식 검색과 추론 작업에서 탁월한 성능을 발휘한다.</p> <p contents-hash="8b982cb0198ad6c5934bd0c3f45a85fa3a0979f6fae2d0b71d90eda1314b2a69" dmcf-pid="4tSKImcnaI" dmcf-ptype="general">연구진은 생성형 AI 모델이 일상적인 의사결정에 통합되면서, 광고된 주장과 실제 성능 사이의 불일치가 피할 수 있는 임상 위험을 초래한다고 지적했다. 의료 시스템은 문서 작성 지원, 가이드라인 검색, 환자 분류, 외래 진료 등에서 AI 기반 도구를 점점 더 많이 배치하고 있다. 이런 환경에서는 작은 신뢰도 결함도 환자 결과에 의미 있는 영향을 미칠 수 있다. 특히 오늘날 많은 AI 사용이 의료진과 환자가 개인 기기에서 이러한 모델을 실험하는 상향식으로 나타나고 있어, 공식적인 기관 도입 훨씬 전에 이미 널리 사용되고 있다고 설명했다.</p> <p contents-hash="61b42dc6589382f1ae3e287687c54d9b5e9c2851b4f633085aeb635a1677e553" dmcf-pid="8Fv9CskLkO" dmcf-ptype="general"><strong>FAQ ( ※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)</strong></p> <p contents-hash="0b18e7b4118b549a953e1506d55d1f74675418a1d932ee10c9183cc2db2c906c" dmcf-pid="63T2hOEojs" dmcf-ptype="general"><strong>Q1. 의료 전문 AI가 일반 AI보다 성능이 낮은 이유는 무엇인가요?</strong></p> <p contents-hash="ef7e7082275360d26d8b78309bab461a023582354e35ea9862c1b53760e48eb2" dmcf-pid="PhA5gnMVam" dmcf-ptype="general">A. 의료 전문 AI는 필요한 정보를 검색해서 가져오는 방식을 주로 사용하는데, 잘못된 자료를 검색하거나 정보를 제대로 통합하지 못하면 오히려 성능이 나빠질 수 있습니다. 반면 GPT-5 같은 최신 범용 AI는 훨씬 더 방대한 데이터로 학습했고 더 발전된 훈련 방법을 사용해서 의학 지식 검색과 추론 작업에서 뛰어난 성능을 보입니다.</p> <p contents-hash="0ef20b35eaba03f188fe3fb8139a65555b69092979728a10eba789ae41b3c789" dmcf-pid="Qlc1aLRfor" dmcf-ptype="general"><strong>Q2. 이번 연구에서 어떻게 평가했나요?</strong></p> <p contents-hash="fcee55a44e6be6cae3ee9e09833f8b8e2160220508e0091447ccf385e561d71e" dmcf-pid="xSktNoe4Aw" dmcf-ptype="general">A. 연구진은 1,000개 의료 질문으로 테스트했습니다. 500개는 미국 의사면허시험 스타일 문제로 의학 지식을 평가했고, 나머지 500개는 실제 진료 상황에서 전문 의사의 판단과 얼마나 일치하는지 확인했습니다. 정확성, 완전성, 의사소통 품질, 맥락 인식, 지시 준수 등 5가지 기준으로 평가했습니다.</p> <p contents-hash="d99aa191150429f059552b61b48f8793ade1c462264a0fd6b25aef9013c97997" dmcf-pid="y67o0tGhgD" dmcf-ptype="general"><strong>Q3. 의료 AI를 사용할 때 주의할 점은 무엇인가요?</strong></p> <p contents-hash="6e55475d3840e33993f6a7ce9f752e181f683fedb818dc675bdc079534e74d1b" dmcf-pid="WPzgpFHlaE" dmcf-ptype="general">A. 마케팅 주장만 믿지 말고 독립적인 평가 결과를 확인해야 합니다. 특히 환자 안전과 관련된 응급 상황 판단이나 시스템 기반 안전성 추론에서 의료 전문 AI가 약점을 보인다는 이번 연구 결과를 주목해야 합니다. AI를 진단이나 치료 결정에 활용하기 전에 반드시 실제 임상 시험을 통한 검증이 필요합니다.</p> <p contents-hash="b6969d64d0785c0f665c01b521fbe48440a4af005409def0318be1c86d05e35e" dmcf-pid="YQqaU3XSkk" dmcf-ptype="general">■ 이 기사는 AI 전문 매체 ‘<span>AI 매터스</span>’와 제휴를 통해 제공됩니다. 기사는 클로드 3.5 소네트와 챗GPT를 활용해 작성되었습니다. </p> <p contents-hash="bd178a0f805bb85f482a2a19cbab09403eb053448211512567f29b2cccd8355b" dmcf-pid="GxBNu0Zvjc" dmcf-ptype="general">AI 에디터 (media@zdnet.co.kr)</p> </section> </div> <p class="" data-translation="true">Copyright © 지디넷코리아. 무단전재 및 재배포 금지.</p>
댓글등록
댓글 총
0
개
맨위로
이번주
포인트
랭킹
매주 일요일 밤 0시에 랭킹을 초기화합니다.
1
4,000
상품권
2
3,000
상품권
3
2,000
상품권
업체홍보/구인
더보기
[구인]
유투브 BJ 구인중이자나!완전 럭키비키자나!
[구인]
에카벳에서 최대 조건으로 부본사 및 회원님들 모집합니다
[구인]
카지노 1번 총판 코드 내립니다.
[구인]
어느날 부본사 총판 파트너 모집합니다.
[구인]
고액전용 카지노 / 헬렌카지노 파트너 개인 팀 단위 모집중 최고우대
지식/노하우
더보기
[카지노 노하우]
혜택 트렌드 변화 위험성 다시 가늠해 보기
[카지노 노하우]
호기심이 부른 화 종목 선택의 중요성
[카지노 노하우]
카지노 블랙잭 카드 조합으로 히트와 스탠드를 결정하는 방법
[카지노 노하우]
흥부가 놀부될때까지 7
[카지노 노하우]
5월 마틴하면서 느낀점
판매의뢰
더보기
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
포토
더보기
채팅하기