KAIST 최재식 교수팀, 모방 위주의 스테이블디퓨전 결과물 변화 기술 개발
디자인 혁신 기대
인간이 지시한 텍스트를 통해 그림을 그리는 인공지능(AI)이 학습을 통한 모방이 아닌 창의적인 형식의 그림을 그릴 수 있도록 하는 기술이 개발됐다.
최재식 KAIST 교수 팀에서 연구한 방법론의 적용 사례. 다양한 Stable Diffusion 모델에서 기존 생성 대비 생성 대상의 의미를 유지하면서도 참신한 이미지를 생성했다.
한국과학기술원(KAIST) 김재철AI대학원 최재식 교수 연구팀이 네이버 AI랩과의 공동 연구를 통해 스테이블 디퓨전(Stable Diffusion) 등 텍스트 기반 이미지 생성 모델의 창의적 생성을 획기적으로 강화하는 기술을 개발했다고 19일 밝혔다.
이 기술의 가장 큰 특징은 추가적인 학습이나 데이터 없이, 기존에 학습된 AI 모델의 내부를 조작하는 방식으로 창의성을 높인다는 점이다. AI가 '뻔하지 않은 창의적인 의자 디자인'과 같은 결과물을 스스로 그려낼 수 있게 된 것이다. 해당 기술은 깃허브를 통해 공개돼 자신의 PC에서 로컬 환경으로 스테이블 디퓨전을 사용하는 이들도 활용할 수 있다.
인공지능이 단순한 모방을 넘어 진정한 의미의 창의성을 발현할 가능성을 제시하며, 향후 다양한 창의적 산업 분야에 큰 영향을 미칠 것으로 기대된다.
최근 텍스트 기반 이미지 생성 모델은 자연어 설명만으로도 고해상도, 고품질 이미지를 자동 생성하는 놀라운 발전을 보여왔다. 스테이블 디퓨전은 텍스트 지문에 충실하며 시각적으로 만족스러운 결과를 생성하고 모델과 소스 코드가 공개되어 있어 상업적 및 연구 목적으로 활발히 활용되었다.
다만 스테이블디퓨전도 한계가 있다. 복잡한 내용의 지시를 내려도 창의적인 그림이 나오지는 않는다. 어디에선가 본 듯한 그림이 나오는 경우가 대다수다.
연구팀은 '창의적인'이라는 텍스트 지문을 입력하더라도 스테이블 디퓨전 모델이 생성하는 이미지의 창의성은 여전히 제한적인 수준이라는 한계를 확인했다.
기존의 창의적 이미지 생성 연구들은 대체로 수작업 데이터나 추가적인 학습을 필요로 했기에, 효율성 측면에서 제약이 있었다. KAIST 연구팀은 이러한 한계를 극복하기 위해 "비학습 방식"의 창의성 강화 기술을 개발했다.
연구의 핵심은 텍스트 기반 이미지 생성 모델의 내부 특징 맵(feature map)을 증폭하여 창의적 생성을 강화하는 것이다. 연구팀은 모델 내부의 얕은 블록(shallow blocks)들이 창의적 생성에 중요한 역할을 한다는 것을 발견했다.
또한, 학습된 생성 모델의 내부 특징 맵을 일관되게 증폭할 경우 얼룩덜룩한 노이즈나 자잘한 색상 패치와 같은 결함이 포함된 이미지가 생성되는 것을 확인했다. 이러한 현상은 특징 맵의 높은 주파수 성분을 증폭했을 때 발생한다는 것을 실험을 통해 알아냈다. 이에 따라 연구팀은 기존 학습된 스테이블 디퓨전 모델의 얕은 블록 특징 맵을 주파수 영역으로 변환하여 낮은 주파수 영역의 특징 맵을 증폭함으로써 효과적으로 창의적 생성을 강화하는 방법을 제안했다.
더 나아가, 연구팀은 창의성을 정의하는 두 가지 핵심 요소인 독창성(originality)과 유용성(usefulness)을 모두 고려하여, 생성 모델 내부의 각 블록별로 최적의 증폭 값을 자동으로 선택하는 알고리즘을 제시했다.
이 개발된 알고리즘을 통해 사전 학습된 스테이블 디퓨전 모델의 내부 특징 맵을 적절히 조작하여, 추가적인 분류 데이터나 학습 없이도 창의적 생성을 강화할 수 있었다. 개발된 알고리즘을 사용한 결과는 매우 고무적이다.
연구팀은 다양한 측정치를 활용하여 이 기술이 기존 생성 방식과 비교했을 때 유용성을 크게 저해하지 않으면서도 독창성을 크게 향상시키는 것을 정량적으로 입증했다. 특히, 스테이블 디퓨전 XL(SDXL)-Turbo 모델에서 발생하는 모드 붕괴(mode collapse) 문제를 완화하여 이미지 다양성을 증가시키는 효과도 확인됐다.
사용자 연구를 통해 사람이 직접 평가했을 때도 기존 방법에 비해 유용성 대비 참신성(novelty relative to usefulness)이 크게 향상됨을 입증했다. 이 논문의 공동 제1 저자인 KAIST 한지연, 권다희 박사과정은 "생성 모델을 새로 학습하거나 미세조정 학습하지 않고 생성 모델의 창의적인 생성을 강화하는 최초의 방법론"이라며, "학습된 인공지능 생성 모델 내부에 잠재된 창의성을 특징 맵 조작을 통해 강화할 수 있음을 보였다"고 강조했다.
그들은 "이번 연구는 기존 학습된 모델에서도 텍스트만으로 창의적 이미지를 손쉽게 생성할 수 있게 됐으며, 이를 통해 창의적인 상품 디자인 등 다양한 분야에서 새로운 영감을 제공하고, 인공지능 모델이 창의적 생태계에서 실질적으로 유용하게 활용될 수 있도록 기여할 것으로 기대된다"고 밝혔다.
이번 연구는 KAIST 김재철AI대학원 최재식 교수 연구팀 주도로, 한지연·권다희 박사과정이 공동 제1 저자로 참여했다. 연구 결과는 국제 학술지 '국제 컴퓨터 비전 및 패턴인식 학술대회 (IEEE Conference on Computer Vision and Pattern Recognition, CVPR)'에서 지난 6월 15일 발표됐다. 이번 연구는 KAIST-네이버 초창의적 AI 연구센터, 과학기술정보통신부, 정보통신기획평가원, 방위사업청, 국방과학연구소 등 다양한 기관의 지원을 받아 수행되었다.
백종민 테크 스페셜리스트 cinqange@asiae.co.kr
Copyright © 아시아경제. 무단전재 및 재배포 금지.
매주 일요일 밤 0시에 랭킹을 초기화합니다.