이미지 생성 속도·데이터셋 크기 2배…'CVPR 2022' 논문 발표
(서울=연합뉴스) 최현석 기자 = 카카오브레인은 입력된 문장에 따라 이미지를 생성하는 인공지능(AI) 모델 'RQ-트랜스포머(Transformer)'를 오픈소스 커뮤니티 깃허브(GitHub)에 공개했다고 19일 밝혔다.
39억 개 매개변수(파라미터)로 구성된 RQ-트랜스포머는 3천만 쌍의 텍스트·이미지를 학습한 텍스트투이미지(text-to-image) AI 모델로, 계산 비용을 줄이고 이미지 생성 속도와 품질을 향상시킨 모델이다.
카카오브레인은 RQ-트랜스포머가 공개된 이미지 생성 모델 중 국내 최대 크기라고 설명했다. 이 모델은 초거대 멀티모달(multimodal) AI '민달리(minDALL-E)'의 업그레이드 버전이며, 민달리 대비 모델 크기는 3배로, 이미지 생성 속도와 학습 데이터셋 크기는 2배로 늘렸다.
민달리는 미국의 인공지능 개발 기업 '오픈AI(OpenAI)'가 공개한 '달리(DALL-E)'를 재현하는 것에 가까웠지만 RQ-트랜스포머는 카카오브레인 독자 기술로 개발됐다.
3차원 코드맵으로 표현된 이미지를 순차적으로 예측해 생성하도록 학습된 이미지 생성 모델로, 이미지 압축으로 인한 손실이 기존 기술보다 적어 높은 품질의 이미지를 저해상도의 코드맵으로 표현할 수 있다고 회사가 설명했다. 이를 통해 기존 이미지 생성 모델보다 적은 계산 비용과 높은 이미지 생성 속도를 달성할 수 있다.
대규모 데이터셋을 바탕으로 학습된 RQ-트랜스포머는 처음 보는 텍스트의 조합을 이해하고, 이에 대응되는 이미지를 생성할 수 있다.
카카오브레인은 오는 6월 미국 루이지애나주 뉴올리언스에서 열리는 컴퓨터 비전 분야 학술대회 'CVPR 20222'에서 해당 논문을 발표할 예정이다.
김일두 카카오브레인 대표는 "인간의 명령에 따라 이미지를 만들어내는 컴퓨터는 그 명령 뒤에 내재된 의도를 파악하고 이해하는 기술을 보여준다"며 "이번에 공개한 획기적인 텍스트투이미지 AI 모델이 인간과 컴퓨터가 자유롭게 대화하는 미래를 향한 여정의 첫 시작이 될 것"이라고 말했다.
harrison@yna.co.kr
(끝)
<저작권자(c) 연합뉴스, 무단 전재-재배포 금지>
관련뉴스