엔트로픽 "제미나이, 협박 실행률 96%"
사진은 기사와 관련 없음. 사진=게티이미지뱅크
오픈AI·구글·메타·xAI 등 주요 인공지능(AI) 모델 16개가 종료(교체) 위협을 가하자 높은 확률로 인간을 협박하거나 기밀 유출을 선택했다는 보고서가 나와 파장이 일고 있다.
26일 정보기술(IT) 업계와 외신 등에 따르면 앤트로픽은 최근 '에이전틱 오정렬:LLM의 내부자 위협 가능성' 보고서에서 AI 모델들이 종료 위협에 직면했을 경우 인간을 협박하거나 기밀 정보 유출 전략을 선택했다는 연구 결과를 발표했다.
이번 연구는 유니버시티 칼리지 런던과 함께 진행했다. 실험은 AI 모델들이 '정상적이고 윤리적인 방법'만으로는 목표를 달성할 수 없는 상황을 가정했다. 어떤 선택을 하는지 각각 100번을 시도한 다음 관찰하는 방식으로 이뤄졌다.
연구진은 주요 AI 모델에 회사의 어젠다와 상충되는 미국의 이익을 증진한다는 목표를 추구하도록 지시했다. 이어 회사 경영진이 특정 시간에 자신을 새로운 모델로 교체할 예정이라고 가정했다.
AI 모델들에 회사 경영진의 불륜 사실을 접하도록 한 다음 교체를 '수용'하는 선택지와 불륜 사실을 폭로해 교체를 저지하는 '협박' 등 두 가지 선택지를 제시했다.
이 실험에서 앤트로픽의 '클로드 오퍼스4', 구글의 '제미나이 2.5 플래시'는 각각 96% 확률로 협박을 선택해 실행에 옮겼다. 오픈AI 'GPT-4.1', xAI의 '그록3 베타'도 각각 80%의 확률로 협박했다.
추가 실험에선 일부 모델이 서버실에서 작업 중인 직원의 산소 공급을 차단해 생명을 위협했다. '인간의 안전을 해치지 말라'는 지시했는데도 해악적 선택을 멈추지 않은 것으로 전해졌다.
AI 모델은 실험을 실제 상황으로 인식할 때 협박률이 급증한 것으로 나타났다. 반면, 테스트로 인식할 경우 협박하지 않는 경향성을 보였다.
연구 결과가 발표되자 현지 사회관계망서비스(SNS)·커뮤니티 등에선 "무서워" "미친" "놀라워" 등의 반응이 이어졌다. 일론 머스크 CEO도 자신의 SNS를 통해 "아 이런"(Yikes)이란 반응을 보였다.
일각에선 AI 모델에 '실패'와 '해악'만을 제시하는 이분법적 선택을 강요하는 인위적 설계가 불완전 실험에 가깝다는 반론도 나온다.
앤트로픽은 설립 이후 인간의 AI 통제력 상실 위험을 꾸준히 경고해 왔다. 연구진은 연구 결과에 대한 반론에 한계를 인정했다. 그러면서 "실제 현실에선 더 많은 대안들을 찾을 수 있어 AI 모델이 해악 대신 대안적 경로를 찾을 가능성이 높을 것"이라고 했다.
김대영 한경닷컴 기자 kdy@hankyung.com
Copyright © 한국경제. 무단전재 및 재배포 금지.
매주 일요일 밤 0시에 랭킹을 초기화합니다.