이미지 정보 생성 AI 상용화
LG AI연구원이 현지시간 18일 캐나다 밴쿠버에서 열린 세계 최대 컴퓨터 비전 학회 'CVPR(Computer Vision and Pattern Recognition·컴퓨터 비전 및 패턴 인식) 2023'에서 '캡셔닝 AI'를 처음 공개했다.
캡셔닝 AI는 LG AI연구원이 공개한 생성형 AI의 상용화 서비스다. 처음 보는 이미지까지 자연어로 설명할 수 있는 AI로 이미지 검색에 활용할 수 있는 정보인 문장이나 키워드 등 메타 데이터를 생성한다.
LG AI연구원은 AI가 인간처럼 처음 보는 물체나 장면에 대해서도 이전의 경험과 지식을 활용해 이해하고 설명할 수 있도록 제로샷 이미지 캡셔닝 기술을 적용했다. 제로샷 이미지 캡셔닝은 AI가 기존에 학습한 대량의 이미지와 텍스트 데이터를 기반으로 배경, 인물, 행동 등 이미지 상의 다양한 요소와 특징을 인식하고, 그 관계를 이해하고 설명할 수 있게 하는 기술이다.
LG AI 연구원측은 캡셔닝 AI가 대량의 이미지를 관리해야 하는 기업들의 업무 효율성과 생산성을 높일 수 있다고 설명했다. 평균적으로 5개 문장과 10개의 키워드를 10초 내에 생성한다. 이미지 범위를 1만 장으로 확장하면 2일 이내에 작업을 끝낼 수 있어 빠른 시간 내에 맞춤형 이미지 검색·관리 시스템 구축이 가능하다.
캡셔닝 AI는 LG AI연구원과 셔터스톡의 협력으로 만들어졌다. 셔터스톡은 시각 콘텐츠가 새롭게 추가되는 세계 최대 플랫폼 기업이다. LG AI연구원은 이미지 분류와 검색에 활용하기 적합한 문장의 길이나 표현 방법 등 이미지 캡셔닝 관련 노하우를 가지고 있는 셔터스톡과 데이터 학습부터 서비스 개발까지 함께했다.
세잘 아민 셔터스톡 CTO는 "현재 글로벌 고객사 10곳을 대상으로 얼리 액세스 프로그램을 진행하며 캡셔닝 AI 기술을 발전시켜 나가고 있다"며 "캡셔닝 AI는 고객들이 반복적인 작업보다 좀 더 본질적이고 창의적인 일에 집중할 수 있도록 돕는 AI가 될 것"이라고 강조했다.
LG AI연구원은 학회 기간 중 LG 부스를 방문한 연구자들을 대상으로 캡셔닝 AI 서비스를 시연할 계획이다.
한편 LG AI연구원은 이날 서울대 AI대학원, 셔터스톡과 함께 워크숍도 진행했다. 워크숍에는 이홍락 미시간대 교수를 비롯해 코르델리아 슈미드 프랑스 국립 컴퓨터 과학 연구소 연구 책임자 겸 구글 리서치 연구원, 잭 헤셀 앨런 인공지능 연구소 연구원), 하미드 팔랑기 마이크로소프트 리서치 수석연구원 겸 워싱턴대 교수 등 이미지 캡셔닝 분야의 세계적인 전문가들이 참여해 최신 연구 동향과 미래 전망, 그리고 AI 윤리 등 기술이 사회에 미치는 영향에 대해 논의하는 자리를 가졌다.
관련뉴스