【드래곤 스포츠】 보증업체놀이터추천홍보 : 프로그램제작판매제작의뢰 : 스포츠분석 : 무료스포츠중계tv : 섹시bj움짤 : 뉴스 : 안구정화

로그인

글쓰기

[IT뉴스][소버린AI 허와실③] 국산 데이터, 많다고 능사 아냐…주권 최소 요건 ‘수집·정제 시스템’

온카뱅크관리자

2026-06-18 12:07:29

<div id="layerTranslateNotice" style="display:none;"></div> 공공데이터 생산 방식부터 표준화·검증·연계 구조 재설계해야 
 <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> 
 <section dmcf-sid="3rAyvzztyO">
 <div contents-hash="d76e5d349e1adffcac9087429121421d4d4c159d3b7aae58f2a80b0d179a2ea7" dmcf-pid="0mcWTqqFhs" dmcf-ptype="general">
 미국 정부가 자국 AI 기업 앤트로픽의 ‘미토스5’와 ‘페이블5’ 모델의 외국인 접근을 막는 조치를 내리면서 ‘소버린AI’가 다시금 화두로 떠오르고 있다. ‘외부 변수로부터 자유로운 국가 차원 AI 운영 권한이 필요하다’는 주장이 설득력을 얻고 있다. 다만 아직까지도 ‘소버린’에 대한 정의조차 불분명하다. 이는 AI가 하드웨어부터 소프트웨어에 이르기까지 다양한 산업이 총집합한 거대한 생태계 산업이기 때문이다. &lt;디지털데일리&gt;는 소버린AI에 대한 실체와 동향을 전하고 전문가들과 업계 관계자들의 입을 통해 현실적인 AI 주권 확립 방향을 조명해본다.&lt;편집자&gt;
 </div>
 <figure class="figure_frm origin_fig" contents-hash="4ec59f7daf8db9b893da6ea99f9505e4506b658866f05ce4ca9067e3cbddebb6" dmcf-pid="pcohI00Hlm" dmcf-ptype="figure">
 <img class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202606/18/552796-pzfp7fF/20260618120017763nopz.jpg" data-org-width="640" dmcf-mid="FZkYyBB3TI" dmcf-mtype="image" height="auto" src="https://img3.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202606/18/552796-pzfp7fF/20260618120017763nopz.jpg" width="658">
 </figure>
 [디지털데일리 오병훈기자] “00대학교 산하 연구원과 한국의 문화역사 데이터 수집·정제 업무 협약을 맺었습니다.”
 데이터 주권 중요성이 대두된 이후 다수 정보통신기술(ICT) 기업들은 앞다퉈 한국어, 한국문화 데이터 수집 업무 협약 소식을 전했다. AI 모델 개발 과정에서 사전학습 데이터 품질이 AI 출력물에 지대한 영향을 끼치기 때문에 ‘한국 친화적인’, ‘한국에 대한 이해도가 높은’ 데이터가 주목받기 시작했다.
 다만 전문가들은 한국 친화적인 국산 데이터를 다량 확보도 중요하지만, 그에 앞서 데이터를 수집·정제·검증하는 체계를 보다 세밀하게 개선하는 것이 더 중요하다고 봤다.
 적절한 데이터 표준화 작업 없이, AI 학습에 적절한 형태의 데이터셋 수집 체계 없이 무작정 수집한다면 국산 데이터는 AI 경쟁력을 높이는 자산이 아니라 저작권 문제는 물론 중구난방으로 정리되지 않은 ‘쓰레기 데이터’만 쌓일 수 있다는 지적이다.
 ◆다케시마 표기 오류에 가려진 진짜 문제 ‘데이터 파이프라인’
 국산 AI 데이터에 대한 사람들의 관심은 역사적인 사실이나 국가 영토 표기 오류 사태로 본격 주목받기 시작했다. 예컨대 네이버 AI 브리핑에서 한때 ‘일본 영토’ 검색 결과에 독도를 ‘독도(다케시마)’로 표기해 일본 영토 항목에 포함한 사례가 대표적이다. 구글의 지도·날씨·번역 서비스에서도 다케시마 또는 동해 오표기가 발견되면서 국민 공분을 샀다.
 이 때문에 그간 국산 AI 데이터 논의는 주로 “한국어 데이터를 더 많이 확보해야 한다”, “한국 문화와 역사 데이터를 더 많이 학습시켜야 한다”는 방향으로 전개돼 왔다. 물론 이 같은 주장에 반대하는 사람은 없다. 전문가들도 한국의 역사 정체성과 영토 확립 측면에서 분명 필요한 일이라는데 동의한다.
 다만 단순히 데이터 확보량을 늘리는 것만으로는 ‘데이터 주권’을 확보할 수 없다는 것이 전문가들의 경고다. 원천 데이터가 많아도 그 안에 중복 자료, 낡은 정보, 출처 불명 자료, 권리관계가 불명확한 콘텐츠, 오류가 포함된 문장이 섞여 있다면 모델은 이를 그대로 학습할 수 있다.
 즉 독도 오표기 논란의 본질은 단순히 “AI가 한국 관련 데이터를 충분히 배우지 못했다”는 정확도 문제에만 있지 않다는 것이다. AI가 어떤 데이터를 수집했고 어떤 데이터를 신뢰 가능한 학습 자료로 판단했으며 서로 충돌하는 표기나 역사·영토 관련 민감 데이터를 어떤 기준으로 걸러냈는지 확인하기 어렵다는 데 더 큰 문제가 있다.
 결국 데이터 소버린은 데이터를 국내에 많이 보유하는 것만이 전부가 아니라는 것이 업계 전문가 분석이다. 데이터를 어떤 기준으로 수집하고 어떻게 정제하며 누가 검증할 것인지에 대한 체계가 함께 마련돼야 비로소 데이터 소버린의 요건을 갖췄다고 볼 수 있다는 설명이다.
 ◆공공데이터 질 높지만…AI 학습용 전환 체계는 미흡
 이를 방지하기 위해서는 먼저 공공데이터 확립 체계가 대폭 개선돼야 한다는 것이 업계 다수 전문가 의견이다. 공공데이터는 정부에 의해 오랜 기간 검증·축적됐다. 저작권 문제에서도 자유롭다. 정확한 단어 사용과 절제된 표현, 핵심 위주의 설명으로 데이터 자체의 질적 수준이 매우 높다는 평가다.
 공공데이터 수집 체계 기준이 정부 주도로 마련되면 민간 기업의 데이터 축적 표준 확립 효과를 노릴 수도 있다. 즉, AI 학습 데이터 표준화 기준을 마련하고 데이터 확산 플랫폼을 적절히 적립하면 국산 AI 데이터 확산에도 한층 더 속도가 붙을 수 있다는 분석이다.
 문제는 수집 과정에서 데이터 포맷, 메타데이터, 최신성, 라이선스, 출처 추적, AI 학습 적합성 등이 함께 관리되지 않으면 공공데이터의 질적 장점도 실제 AI 학습 단계에서는 제대로 활용되기 어렵다는 점이다. 사람이 읽기 좋은 문서와 AI가 학습하기 좋은 데이터셋은 다르다.
 실제로 정부 공공데이터 상당수는 여전히 한글문서(.hwp), 복잡한 표 형식 등으로 제공되고 있다. 표의 셀이 병합돼 있거나 기관별 작성 양식이 제각각인 경우도 적지 않다. 데이터 수요자인 기업 입장에서는 이를 곧바로 AI 학습에 투입하기 어렵고 별도 파서 프로그램을 개발해 데이터를 추출한 뒤 사람이 다시 검수해야하는 과정을 거쳐야 한다.
 업계에서는 이 같은 변환·검수 비용이 국산 AI 생태계의 숨은 병목이라고 지적한다. 공공데이터는 많이 열려 있지만 정작 AI 기업이 바로 활용 가능한 형태의 데이터가 아직 부족하다는 것이다.
 물론 정부도 이 같은 문제를 인식하고 공공데이터를 AI 친화적인 형태로 전환하는 작업에 속도를 내고 있다. AI가 읽기 쉬운 마크다운(.md) 형식으로 공공데이터를 추가 공개하는 시도가 대표적이다. 마크다운 문서는 구조가 비교적 명확해 AI가 문서의 제목, 본문, 표, 목록 등을 파악하기 쉽고, 별도 정제 작업 부담도 줄일 수 있다는 장점이 있다.
 마크다운 전환만으로 문제가 끝나는 것은 아니다. 데이터가 부족하다는 말 안에는 ▲데이터 부재 ▲미개방 ▲미연계 ▲저품질 ▲법적 불확실성 ▲활용 권한 제한 ▲AI 학습 부적합성 등 다양한 문제가 상존하고 있다는 분석이다. 결국 다양한 문제를 사안별로 면밀하게 들여다 본 뒤 개선점을 찾는 ‘핀셋’ 처방이 절실하다는 진단이다.
 김숙경 한국과학기술원(KAIST) 기술경영학부 교수는 “정부가 과기정통부와 행정안전부를 중심으로 공공데이터 시스템을 고도화하는 방향도 필요하고 의미가 있다”라며 “그럼에도 해결되지 않은 가장 시급한 허점은 공공데이터 정책이 여전히 기관이 가진 데이터를 얼마나 많이 개방했는가에 머무는 경향이 있다는 점”이라고 말했다.
 이어 “AI 시대에는 데이터 ‘개방 건수’보다 개발자와 기업이 필요한 데이터를 얼마나 쉽게 찾고, 결합하고, 시계열로 추적하고, 학습 가능한 형태로 전환할 수 있는지가 중요하다”라며 “공공데이터를 기관별 목록으로 나열하는 데서 벗어나 지역상권, 재난안전, 의료 접근성, 중소기업 지원정책 효과 분석처럼 실제 문제 단위로 필요한 데이터를 묶고 메타데이터, 연계키, 갱신주기, 품질지표, 버전관리 정보를 함께 제공해야 한다”고 강조했다.
 문서 작성 단계부터 AI가 읽을 수 있는 표준 형식을 적용하고 정제 전 과정을 체계화해야 한다는 의미다. 핵심은 단순히 파일 확장자를 바꾸는 것이 아니라 공공데이터 생산 방식 자체를 AI 시대에 맞춰 재설계하는 것이다.
 ◆수집보다 중요한 정제·검증…소버린AI의 숨은 조건
 정부는 최근 총리 주재 데이터관계장관회의를 출범하고 부처별로 흩어진 데이터 정책을 조율하겠다고 밝혔다. 과학기술정보통신부, 행정안전부, 국가데이터처, 문화체육관광부, 개인정보위원회 등으로 나뉘어 있는 데이터 정책 기능을 범정부 차원에서 결집하겠다는 구상이다.
 이는 전문가 사이에서도 긍정적인 변화로 평가된다. 그간 데이터 정책은 행안부의 공공데이터 정책, 과기정통부의 데이터산업 정책, 문체부의 콘텐츠 데이터 정책, 개인정보위의 개인정보 활용 규제 등이 각자 움직이면서 현장에서는 필요한 데이터를 찾고 결합·활용하는 데 혼선이 반복됐다. 장관회의가 이 같은 부처 간 칸막이를 조율하는 역할을 한다면 공공데이터 활용성은 높아질 수 있다.
 전문가들은 논의 흐름이 데이터 정책이 다시 ‘더 많이 구축하고 더 많이 개방하는’ 방식으로만 진행되는 것을 경계한다고 입을 모았다. 현장에서 필요한 것은 단순 공급 확대가 아니라 어떤 데이터가 왜 부족한지에 대한 정밀한 진단이 필요하다는 것이다.
 AI 에이전트 시대에는 이 문제가 더 중요해질 전망이다. 사람이 공공데이터포털에 접속해 파일을 내려받고 AI에 입력하는 방식만으로는 한계가 있다. AI가 직접 최신 데이터를 찾아 읽고, 필요한 시스템과 연결해 분석할 수 있는 환경이 필요하다. 이를 위해서는 데이터 포맷 표준화뿐 아니라 API, 실시간 연동, 모델 컨텍스트 프로토콜(MCP) 같은 연결 체계, 보안 인증, 라이선스 명확화가 함께 마련돼야 한다는 것이 전문가 분석이다.
 박찬준 숭실대학교 소프트웨어학부 교수는 “공공데이터의 보고서 형식의 데이터 등을 정제하는 작업이 단축되면 그만큼 AI 학습도 빨라질 수 있다”며 “국가 주도로 AI 학습 데이터 표준화가 정립되면 데이터 제공자에게 부여되는 보상 문제나 데이터 규격 등 다양한 문제가 해결될 수 있다”고 분석했다.
 종합해보면 ‘데이터 수집·정제 기술’ 자체는 데이터 소버린의 전부가 아니다. 소버린으로 나가기 위한 전제 조건에 가깝다. 제대로 된 데이터 수집·정제 체계를 갖추지 못하면 데이터 소버린은 실체를 갖기 어렵다는 의미다.
 아무리 칩과 모델을 국산화하더라도 학습 데이터의 출처와 품질, 권리관계, 최신성, 검증 이력을 통제하지 못한다면 AI 주권은 구호에 머물 가능성이 크다. 소버린AI 논의가 ‘한국형 데이터 확보’에서 ‘한국형 데이터 파이프라인 구축’으로 이동해야 하는 이유다.
 김 교수는 “데이터 정제 기술이 부족하면 결측, 중복, 오류, 오래된 데이터, 기준이 다른 데이터를 그대로 학습하게 되고 모델은 그럴듯하지만 틀린 답을 내놓을 수 있다”며 “공공기관과 산업 현장에 축적된 문서, 규정, 매뉴얼, 현장점검 보고서, 계약서, 설계도면과 같은 비정형 데이터를 구조화하고 지식화하지 못하면 AI 경쟁력으로 연결되지 못하고 결국 글로벌 플랫폼이 제공하는 정제·검색·학습·에이전트 운영환경에 의존하게 될 가능성이 크다”고 지적했다.
 </section> 
 </div> 
 Copyright © 디지털데일리. All rights reserved. 무단 전재 및 재배포 금지.

댓글 총 0개

이번주 포인트랭킹

매주 일요일 밤 0시에 랭킹을 초기화합니다.

14,000상품권
23,000상품권
32,000상품권

업체홍보/구인 더보기

지식/노하우 더보기

판매의뢰 더보기

포토 더보기