사람이 총알 피하는 모습 보여주자 "매트릭스의 유명한 장면"
(샌프란시스코=연합뉴스) 김태종 특파원 = 구글이 6일(현지시간) 공개한, 인공지능(AI)의 기반이 되는 대규모 언어모델(LLM)인 '제미나이'(Gemini)는 멀티모달 기능을 갖췄다. 이에 따라 텍스트는 물론, 사진과 영상, 음성도 인식한다.
지금까지 멀티모달 AI 모델을 만드는 방식은 서로 다른 모달리티를 각각 학습시킨 다음, 이를 서로 연결해 일부 기능을 비슷하게 모방하는 수준이었다.
이는 이미지 설명과 같은 일부 작업은 잘 수행할 수 있지만 더 개념적이거나 복잡한 추론을 하는 데는 어려움을 겪을 수 있었다.
그러나 제미나이는 개발단계 처음부터 다양한 모달리티에 대한 사전 학습을 통해 설계돼 기존 멀티모달 모델보다 훨씬 뛰어나다고 구글은 설명했다.
울트라, 프로, 나노의 3개 모델 중 가장 많은 양을 학습한 제미나이 울트라의 경우 성능 평가항목에서 오픈AI의 GPT-4를 뛰어넘는 것으로 나타났다.
특히, 50여개 주제를 복합적으로 활용해 지식과 문제 해결 능력을 평가하는 대규모 다중작업 언어 이해(MMLU)에서는 사람의 점수를 넘는다고 구글은 강조했다.
제미나이는 AI가 카메라로 실제 사람의 행동을 보며 상호 소통을 한다.
실제 구글이 공개한 영상에서 제미나이는 실시간 시야 인식 능력을 갖추며 사람과 같은 사물 인식과 판단력을 갖춘 모습이 구현됐다.
사람이 종이에 펜으로 오리를 그리자 제미나이가 '새'임을 인식하고, 오리 옆에 물결 표시를 그리자 '오리'라고 답했다.
오리의 몸을 파란색으로 칠하자 "흔치 않지만, 파란 오리도 있다"고 소개하는가 하면 파란색 장난감 오리를 보여주자 "고무(장난감) 오리다"라고도 했다.
이 장난감이 물에 뜰지 물어보자, 잠시 멈칫하더니 '고무 오리'를 손으로 누르는 모습을 보여주자, "속이 비어 있어 물에 뜨겠다"고 말했다.
수학과 물리학에 대한 인식도 정교해졌다.
앞면이 네모난 모양의 차량과 삼각형인 차량 중 어느 차량이 더 빠를지를 묻자 "공기역학이 적용된 세모난 차가 더 빠르다"는 답이 돌아왔다.
수학 문제와 함께 오답을 낸 풀이 과정을 보여주자, 틀린 부분을 정확히 지적하고 올바른 수식도 내놓았다.
영상과 음악에서도 높은 인지 능력을 보였다.
영화 '매트릭스'처럼 사람이 총알을 피하는 모습을 보여주자, "영화 '매트릭스'의 유명한 장면"이라고 답했다.
기타를 그리면 기타로만 연주한 곡을, 드럼과 베이스를 그리면 밴드 곡을 연주하기도 했다.
이날 시연한 제미나이 울트라는 내년 초 출시된다.
엘리 콜린스 구글 딥마인드 프로덕트 부사장은 "울트라 출시 연기는 안전성을 보다 확실히 하기 위한 것"이라고 말했다.
taejong75@yna.co.kr
(끝)
<저작권자(c) 연합뉴스, 무단 전재-재배포 금지>
관련뉴스