멀티모달은 텍스트, 이미지, 음성, 영상 등의 데이터로 훈련해 다양한 결과물을 내놓을 수 있는 모델이다. 최근 등장한 LMM은 더욱 복잡한 이미지 분석과 추론 능력을 갖췄다. AI업계에선 LMM이 LLM을 대신하는 용어로 자리 잡을 것이라는 전망이 나온다. 오픈AI와 구글 등이 LMM 개발에 속도를 내고 있어서다.
예를 들어 김밥 만드는 사진을 무질서하게 제시한 뒤 순서대로 정렬하라고 명령하면 정확하게 숙제를 해결했다. 맥주와 물병 등이 놓인 테이블 사진과 메뉴판을 함께 제시하면 식당에 얼마를 내야 하는지도 계산했다. 엑스레이와 컴퓨터단층촬영(CT) 사진을 보고 골절 부위 등 질병을 진단할 수 있었고, 다양한 표정의 얼굴 사진을 보여주면 화남, 놀람, 실망 등의 감정을 묘사했다. 사진뿐만 아니라 그래프, 도형, 표, 사진 속에 등장한 언어까지도 인식해 분석했다. GPT-4V는 20개 언어를 감지할 수 있다고 보고서는 소개했다.
멀티모달 개념은 기존에도 있었다. 다만 텍스트보다 인식 과정이 복잡하고, 방대한 데이터로 훈련해야 해 완성도 높은 멀티모달모델이 나오기까진 상당한 시간이 필요할 것으로 예상됐다. 개발자들은 LLM을 기본으로 여기에 소프트웨어를 붙여 이미지 등의 정보를 이해하는 기존 구조를 버렸다. 대신 이미지 등 다양한 형태의 정보를 이해할 수 있는 LMM 코어를 새로 개발했다. 소프트웨어와 LLM을 병용할 때보다 인식률, 속도 등에서 상당한 개선이 이뤄질 수 있었던 배경이다. ‘멀티모달 LLM’이란 용어도 기존 모델과 구분하기 위해 ‘LMM’으로 대체했다.
마이크로소프트 연구진이 미국 위스콘신-매디슨대·컬럼비아대 연구진과 함께 개발한 ‘라바 1.5’도 상당히 우수한 LMM이라는 평가를 받는다. 라바 1.5는 깃허브에 오픈소스로 최근 공개됐다. 구글도 이르면 다음달 ‘제미니’를 공개할 예정이다. 구글의 방대한 유튜브 콘텐츠로 학습한 멀티모달 기능을 구현할 것으로 보인다. 업계 관계자는 “현재 멀티모달 AI는 이미지와 영상 생성 기능이 인식 능력에 비해 떨어진다”며 “이 문제를 빠르게 해결하는 기업이 LMM 시대에 리더십을 가져갈 수 있을 것”이라고 말했다.
생성형 AI의 멀티모달 기능이 고도화할수록 결과물에 대한 사실 여부를 가려내기 힘들 것이라는 지적도 나온다. 이미 AI 기술을 활용한 딥페이크, 영상 및 음성 조작이 현실화했다. 이스라엘과 하마스의 무력 충돌 이후 가짜뉴스가 각종 소셜미디어에 범람한 것도 이런 기술에 대한 활용도가 높아진 영향이란 분석이다.
실리콘밸리=최진석 특파원 iskra@hankyung.com
관련뉴스