【드래곤 스포츠】 보증업체놀이터추천홍보 : 프로그램제작판매제작의뢰 : 스포츠분석 : 무료스포츠중계tv : 섹시bj움짤 : 뉴스 : 안구정화

로그인

글쓰기

[IT뉴스]AI 저작권 문제, ‘AI-BOM’으로 대응…“AI 학습한 데이터 명시해야”

온카뱅크관리자

2026-06-11 12:47:30

<div id="layerTranslateNotice" style="display:none;"></div> 조정원 LG AI 연구원 변호사 “엑사원 넥서스로 AI 컴플라이언스 지속 모니터링” 
 <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> 
 <section dmcf-sid="FIJYXPPKCN">
 <figure class="figure_frm origin_fig" contents-hash="16508c91631b760e477beb2654b34274f0da9acdf7780396be1ef7463a8b0c63" dmcf-pid="3LbErppXWa" dmcf-ptype="figure">
 <img class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202606/11/552796-pzfp7fF/20260611123738376mrhe.jpg" data-org-width="640" dmcf-mid="tQnH5xx2hj" dmcf-mtype="image" height="auto" src="https://img1.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202606/11/552796-pzfp7fF/20260611123738376mrhe.jpg" width="658">
 </figure>
 [디지털데일리 오병훈기자] “구매자가 제품을 살 때, 그것이 무엇으로 만들어졌는지 명확히 알고자 하는 욕구는 인간의 본성 중 하나입니다. AI도 이제 어떤 데이터로 만들어졌는지 설명할 수 있어야 합니다.”
 11일 조정원 LG AI 연구원 변호사는 서울 강남 더라움아트센터에서 개최된 ‘오픈소스&amp;AI 컨퍼런스2026’에서 ‘생성형AI 학습데이터 분쟁과 AI-BOM 기반 투명성 컴플라이언스’를 주제로 발표하며 이같이 강조했다.
 ‘AI-BOM(AI자재명세서)’은 쉽게 말해 ‘AI 성분표’다. AI-BOM을 이해하려면 먼저 소프트웨어자재명세서(SBOM)를 알아야 한다. 쉽게 말해 하나의 소프트웨어가 어떤 부품으로 만들어졌는지 적어둔 목록이다. 같은 맥락에서 AI 모델도 어떤 데이터와 모델, 소프트웨어, 라이선스, 보안 요소로 만들어졌는지 적어두자는 개념이 바로 AI-BOM이다.
 조 변호사는 AI가 기존 소프트웨어의 개념을 넘어서는 새로운 형태 창작물을 제공한다는 점에서 AI-BOM이라는 새로운 개념이 필요하다고 봤다. 과거 오픈소스 관리는 주로 ‘소스코드’가 대상이었다. 소스코드는 코드라는 형태가 비교적 분명하고 어떤 라이선스 조건을 지켜야 하는지도 어느 정도 표준화돼 있다. 반면 AI 학습데이터는 다르다는 것이다.
 조 변호사는 “소스코드는 코드라는 저작물인데 반해 AI 트레이닝 데이터는 인간이 만든 모든 저작물의 형태로 확장됐다”며 “텍스트, 이미지, 영상, 오디오 등 다양한 형태가 AI 학습에 쓰인다”고 설명했다.
 문제는 이 데이터가 원래 AI 학습을 위해 만들어진 것이 아니라는 점이다. 신문기사, 논문, 사진, 음악, 영상, 게시글 등은 각자 원래의 목적이 있다. 그런데 AI 개발 과정에서는 이런 자료가 학습데이터로 쓰일 수 있다.
 조 변호사는 “소스코드는 소프트웨어 개발을 위해 만들어진 것인 반면, AI 트레이닝 데이터는 저작물임에도 처음 만들어진 목적이 달랐다”며 “아직 오픈데이터나 AI 트레이닝 데이터에 대해 컴플라이언스를 어떻게 할지 기준이 확립돼 있지 않다”고 지적했다.
 생성형AI를 둘러싼 저작권 분쟁도 이런 문제에서 출발한다는 것이 조 변호사 분석이다. 분쟁 성격은 크게 두 갈래로 나뉜다. 먼저 AI가 학습하는 과정에서 원저작물을 복제하거나 2차적 저작물을 만든 것으로 볼 수 있는지다. 다른 하나는 AI가 만든 결과물이 기존 저작물을 침해하는지다.
 조 변호사는 “AI 학습 과정에서 복제나 2차적 저작물 작성 침해가 일어나는가, 생성형 AI 산출물이 저작물을 침해하는가에 대해 많은 논쟁이 발생하고 있다”며 “미국과 한국에는 ‘공정이용’ 개념이 있지만, 영국은 ‘공정거래’라는 다른 법리를 쓴다”고 설명했다.
 이어 “각 국가별로 AI 개발자가 주장할 수 있는 저작권법상 면책규정은 서로 다르다”며 “AI 학습 자체를 면책시키는 규정을 두고 저작권자와 AI 개발자 간 치열한 논의가 이어지고 있다”고 말했다.
 상황이 이렇다보니 기업 입장에서도 마냥 ‘공정이용’을 믿고 안심할 수 없는 상황이다. AI 모델이 한 국가 안에서만 쓰이는 것이 아니라, 글로벌 서비스나 가전제품, 로봇, 업무 시스템 등에 들어갈 수 있기 때문이다.
 결국 AI 데이터 공급망에 대한 면밀한 검토가 필요하다는 설명이다. 문제가 생기면 책임 소재를 찾기 어려워진다. 법적 문제가 있는 데이터로 학습한 AI 모델이 기업 내부 시스템에 들어가거나 소비자 제품에 탑재될 경우, 저작권 침해뿐 아니라 부정경쟁, 개인정보, 영업비밀, 소비자 피해 문제로 번질 수 있다.
 그는 “법적 문제가 있는 오염된 데이터를 학습한 AI 모델이 엔터프라이즈에 공급되면 다양한 공급망 문제가 발생한다”며 “한 번, 두 번, 세 번 공급망에서 배포되고 전이된 AI 모델이 문제를 일으켰을 때 누구 책임인지 판단하기 어렵다”며 “올해 1월 1일부터 캘리포니아에서 개발된 AI 시스템이나 서비스는 생성형 AI 학습데이터 목록을 웹사이트에 고지해야 한다. 데이터셋 출처나 합성데이터 이용 여부 같은 내용도 공개하라는 지적이 나오고 있다”고 말했다.
 LG AI 연구원은 이런 흐름에 맞춰 자체 대응 체계를 마련하고 있다는 것이 조 변호사 설명이다.
 그는 “3년 전부터 LG 그룹 차원에서 데이터 규제준수(컴플라이언스) 가이드라인을 만들었다”며 “이 가이드라인은 AI 학습데이터를 저작권법, 개인정보보호법, 분쟁 가능성 등을 기준으로 평가해 위험도를 측정하는 틀”이라고 말했다.
 LG AI연구원은 AI 모델을 외부에 공개하기 전 개별 데이터셋을 평가하는 절차도 운영하고 있다. 데이터 라이선스, 사용 기간과 지역, 개인정보 및 보안, 추가 법적 리스크 등을 나눠 살펴보는 방식이다.
 조 변호사는 “AI 모델을 개발하고 외부에 공개하기 전에 데이터 컴플라이언스 평가 과정으로 개별 데이터셋을 평가하는 프로세스를 가지고 있다”며 “AI 학습데이터가 비슷하게 산출됐을 때 어떻게 될지까지 복합적으로 고려해야 한다”고 말했다.
 LG AI연구원은 대규모 데이터셋 리스크 분석을 위해 ‘엑사원 넥서스(EXAONE Nexus)’ 기반 데이터 컴플라이언스 에이전트를 개발했다. 이 시스템은 데이터 출처와 계보를 추적하고, 라이선스와 위험 요소를 분석한다.
 이날 조 변호사는 LG AI연구원이 해당 에이전트 AI 시스템을 이용해 추적한 2852개 데이터셋 분석 결과도 공개했다. 발표자료에 따르면 상업적으로 이용 가능하다고 판단된 AI 학습데이터셋 가운데 종속 데이터 리스크까지 고려했을 때 실제 상업적 이용이 가능한 데이터셋은 605개, 약 21.21%에 그쳤다.
 그는 “CC, MIT, 아파치 같은 오픈소스 라이선스가 붙어 있는 데이터셋을 추적해보니 실제로는 21% 정도만 상업적으로 이용 가능했다. 오픈소스 코드에서 하던 판단을 그대로 AI 학습데이터에 적용하면 80% 정도 의사결정이 잘못될 수 있다는 의미”라며 “LG AI 연구원은 이같은 과정을 통해 AI-BOM 기반 데이터 추적이 반드시 필요하다는 것을 다시 한번 체감하게 됐다. 개발자들이 ‘이 데이터는 이용하면 안 되겠구나’ ‘이 데이터는 리스크가 있구나’ 판단할 수 있도록 LG AI 연구원이 커뮤니티에 기여하겠다”고 말했다.
 </section> 
 </div> 
 Copyright © 디지털데일리. All rights reserved. 무단 전재 및 재배포 금지.

댓글 총 0개

이번주 포인트랭킹

매주 일요일 밤 0시에 랭킹을 초기화합니다.

14,000상품권
23,000상품권
32,000상품권

업체홍보/구인 더보기

지식/노하우 더보기

판매의뢰 더보기

포토 더보기