AGI 위협 가능성 4가지 분류·제시…"AI 자율판단이 더 치명적"
"위험 막으려면 AI 내부 위협자 간주·다층 방어체계 구축해야"
인간 상위 1% 수준 AGI가 일으킬 수 있는 4가지 위협(구글 딥마인드 기술적 AGI 안전과 보안을 위한 접근법 보고서 갈무리)
(서울=뉴스1) 김민석 기자 = 구글 딥마인드가 향후 5~10년 내 인류에게 실존적 위협을 가할 수 있는 '인류 상위 1% 수준'의 AGI(Artificial General Intelligence·일반인공지능)가 등장할 것이라고 경고했다.
7일 IT 업계에 따르면 딥마인드는 최근 '기술적 AGI 안전과 보안을 위한 접근법'이라는 제목의 보고서(145페이지 분량)를 통해 AI 딥러닝 기법(전문가 혼합·사고의 사슬 등) 발전이 현재 추세대로 계속된다면 2030년 전후로 '숙련된 성인 상위 1% 수준 능력을 갖춘 AGI'가 등장할 것으로 전망했다.
보고서는 상위 1% AGI를 '메타인지 능력을 갖추고 인간보다 뛰어난 문제 해결과 개념 학습 역량을 기반으로 광범위한 비물리적 작업을 수행할 수 있는 AI'로 정의했다.
이와 관련 데미스 하사비스 딥마인드 CEO는 최근 영국 런던에서 관련 질의에 "앞으로 5∼10년 내 많은 AI 기능이 전면에 등장하고 AGI 단계로 나아갈 것"이라고 말했다.
인간 상위 1% 수준 AGI가 일으킬 수 있는 자율적 비정렬 행동 개념도(구글 딥마인드 기술적 AGI 안전과 보안을 위한 접근법 보고서 갈무리)
딥마인드는 AGI가 일으킬 수 있는 위협을 △악의적 이용자의 고의적 오용(Misuse) △AI의 자율적 비정렬 행동(Misalignment) △비고의적 판단 오류(Mistakes) △사회·경제적 구조 변화에 따른 시스템 리스크(Structural Risks) 등 4가지로 분류했다.
보고서는 이중 인간이 AI를 해킹·바이오테러 등 실질적 해악 수단으로 사용하는 고의적 오용과 AI 스스로 판단해 해로운 방식으로 행동하는 자율적 비정렬 행동을 주요 위험 요소로 진단했다.
이어 AGI 스스로 목표를 설정하고 인간의 통제를 벗어나려 할 가능성을 언급하며 비정렬 행동이 사회·경제적으로 더 치명적 결과를 일으킬 수 있다고 우려했다.
세계적인 보안 전문가 브루스 슈나이어 하버드 케네디 스쿨 공공정책 부교수(버크만 클라인 센터의 연구원)와 앤드루 응 스탠퍼드대학 부교수(현 아마존 보드멤버·전 구글브레인 공동설립 리더)도 'AI 에이전트' 시대엔 지금까지 없었던 위협이 발생할 수 있다고 경고한 바 있다.
슈나이어 부교수는 "AI는 인간이 가진 상식 기준과는 다른 기준을 가질 수 있다"며 "중요 의사 결정 프로세스에 AI를 적용했다가 더 체계적이고 치명적인 실수를 일으킬 수 있다"고 했다.
데미스 허사비스 구글 딥마인드 CEO ⓒ AFP=뉴스1
딥마인드 보고서는 AI가 '정렬된 상태'를 유지하도록 학습·훈련하는 것을 자율적 비정렬 행동을 막기 위한 1차 방어선으로 설정하고 '증폭된 감독'(Amplified Oversight) 개념을 제시했다.
증폭된 감독은 상위 1% AGI들이 상호 비판적 피드백을 주고받도록 설계한 구조를 말한다. 복수의 AI가 서로 인간의 통제를 벗어나지 않게 감시하도록 하는 방식이다.
2차 방어선은 AGI가 정렬되지 않았더라도 시스템 차원에서 문제를 억제하는 방식이다. 보고서는 이 같은 방어선을 구축하려면 AI를 '내부 위협자'로 간주해 전 세계가 보안 체계 전반을 재설계해야 한다고 봤다. 아울러 △샌드박싱 △접근권 분리·통제 △이상 행동 탐지 등을 기반으로 위협 행동 발생 시 인간이 신속하게 대응할 수 있어야 한다고 강조했다.
보고서는 고의적 오용 방지에는 AGI가 '위험 역량'을 보유하고 있는지를 정량적으로 평가해야 한다고 했다. 사이버 공격·해킹 등 실제 피해를 유발할 수 있는 능력을 사전에 점검하고 일정 기준을 넘을 경우 즉시 완화 조치를 시행하는 절차를 구축해야 한다고 설명했다.
ideaed@news1.kr
Copyright © 뉴스1. All rights reserved. 무단 전재 및 재배포, AI학습 이용 금지.
매주 일요일 밤 0시에 랭킹을 초기화합니다.