바드와 빙 사양 우열은…공개된 정보 부족에 '비교 불가'

입력 2023-05-23 09:50

바드와 빙 사양 우열은…공개된 정보 부족에 '비교 불가'

바드와 빙 사양 우열은…공개된 정보 부족에 '비교 불가'
언어모델 '팜2' VS 'GPT4'…"둘다 검색에 최적화한 형태"
장점 각기 달라…상황·목적 맞게 상호 보완적 활용 필요

(서울=연합뉴스) 홍국기 기자 = 초거대 인공지능(AI) 언어모델 개발 경쟁이 구글과 마이크로소프트(MS)의 검색 포털 영토 대결과도 맞물리면서 더욱 치열해지고 있다.
이에 따라 구글의 '바드'와 MS의 '빙챗', 두 AI 가운데 어느 쪽이 사양 면에서 우위를 차지하는지에도 자연스럽게 관심이 쏠린다.
23일 정보기술(IT) 학계와 업계의 말을 종합하면 빙챗과 바드의 사양이라고 할 수 있는 매개변수(파라미터)와 학습 데이터 세트의 양·질 등의 구체적 사양은 현재까지 명확히 공개된 바 없어 비교가 불가능하다.
먼저 빙챗의 경우 대규모언어모델(LLM) 'GPT-4'에 기반한다는 것 외에 지금까지 공개된 내용이 거의 없다.
GPT-3.5를 바탕으로 한 무료 버전 챗GPT의 매개변수(파라미터)와 데이터 세트는 각각 1천750억개, 1조3천700억개인 것으로 공개된 적이 있다.
그러나 GPT-4에 기반한 빙챗은 이와 견줘 매개변수와 데이터 세트의 개수가 수배나 수십 배 많은 것으로 추정될 뿐이다.
업계는 빙챗의 매개변수가 1조개 이상인 것으로 추측한다. 100조개를 넘을 것이라고 추측하는 해외 블로그나 테크 전문지도 있다.
인간의 두뇌에서 시냅스(신경 세포들이 정보를 주고받는 연결 부위)에 해당하는 매개변수는 AI의 신경망을 연결하는 기능을 한다. 매개변수가 많을수록 더 많은 정보를 학습하고, 높은 성능을 낼 수 있다는 의미다.

구글은 작년 4월에 선보인 LLM '팜'(PaLM)을 업그레이드 한 버전 '팜2'를 바드에 탑재해 최근 공개했다.
5천300억개의 파라미터를 바탕으로 100개 이상의 언어를 학습했으며 과학과 수학에서 추론도 가능하고, 코딩 작업도 하는 것이 특징이다.
매개변수 측면에서 바드가 챗GPT의 3배가 넘지만, 빙챗보다는 적을 것으로 업계는 보고 있다.
AI는 인간의 뇌와 비교해 새로운 상황에 빠르게 적응하는 능력이 제한되는데, 이는 고정된 데이터 세트에서 학습하기 때문이다.
학습 데이터 세트도 바드(1조5천600억개)가 무료 버전의 챗GPT(1조3천700억개)보다는 많지만, 빙챗보다는 적을 것으로 업계에서는 추정한다.
다만 매개변수와 학습 데이터 세트의 수만으로 AI의 성능을 정성적으로 비교하기는 어렵다.
빙챗의 언어모델인 GPT-4는 26개의 언어를 학습해 바드의 팜2(100개 이상)가 우위에 있다.
학습 데이터의 질에서도 바드가 빙챗보다 우위에 있을 가능성이 크다는 분석이 나온다.
김명주 서울여대 정보보호학과 교수(바른AI연구센터장)는 "빙챗은 부적절한 데이터에 대한 필터링이나 조절을 위한 큐레이션을 적용하지 않고 그대로 학습한 반면, 바드는 유해한 정보나 낮은 품질의 데이터를 선별해내는 과정을 거쳤다"며 "현실 데이터 속에 녹아져 있는 편견과 차별을 그대로 노출하는 불공정성은 빙보다는 바드 쪽이 더 작다고 볼 수 있다"고 분석했다.
김 교수는 그러면서도 "빙의 경우 인간에 의한 강화학습(RLHF)을 비롯해 지난 6개월간 추가적인 학습 과정을 통해 튜닝(조정)된 사실까지 고려하면 사실상 (빙챗과 바드의) 우위와 열위를 단정하기 힘들다"고 덧붙였다.

빙챗과 바드 모두 각각 MS와 구글의 인터넷 검색 기능이 연결돼있어 실시간으로 웹 데이터 결과를 가져올 수 있다.
2021년 9월까지의 데이터 세트에 의존하는 챗GPT와 견줘 프롬프트(지시어)에 따른 답변의 정확성과 최신성은 훨씬 높은 셈이다.
영상 AI 파운데이션 모델 개발사 트웰브랩스의 정진우 COO(최고운영책임자)는 "챗GPT가 논리적이고 창의적인 형태의 글을 생성하는 데 강점이 있다면, 빙챗과 바드는 검색 기능에 초점을 둔 형태로 구성됐다"고 설명했다.
김 교수는 "빙챗과 바드의 검색 엔진 성능을 놓고 볼 때 전체 검색 시장의 93%를 차지하는 구글이 3%를 차지하는 빙보다 월등히 높다"면서 "뛰어난 검색 엔진의 도움을 받는 바드가 빙챗보다 결과물의 답변이 정확하고 할루시네이션(환각)이 상대적으로 덜할 수 있다"는 견해를 밝혔다.
아직 초거대 AI는 질문을 할 때마다 답변이 달라지고, 결과에 허위 정보가 포함돼있을 정도로 불안정하다.
따라서 내용을 잘 알지 못하는 경우 제시된 결과 정보를 공신력 있는 전문 사이트나 연구 자료를 통해 검증한 뒤 사용하는 것이 필수적이다.
이런 측면에서 바드의 경우에는 출처를 인용하지 않고 답변을 제공하지만, 빙챗은 제시된 각 답변의 출처를 인용한다.

사용자환경(UI)·사용자경혐(UX) 측면에서는 바드가 빙챗의 우위에 있는 것으로 평가된다.
바드는 구글의 검색엔진, 이메일·문서 등 25개 제품에 적용된다. 문서 작성 서비스인 구글 닥스(Docs)와 결합해 이메일 초안을 작성하고, 구글 렌즈(Lens)의 시각 분석을 사용해 관련 정보를 가져올 수도 있다.
바드와 빙챗 모두 텍스트뿐 아니라 이미지까지 여러 데이터 형태를 인식하는 멀티모달(복합 정보 처리) 모델이지만, 바드는 빙챗과 달리 음성으로도 프롬프트를 입력할 수 있어 타이핑하는 시간을 줄여준다.
바드는 또 생성한 텍스트 응답을 밖으로 내보낼 수 있는 전송 기능을 갖춰 빙챗과 차별화된다.
바드와 빙챗 모두 무료로 이용할 수는 있지만, 빙챗의 경우 매일 제한된 수의 질문(세션당 최대 15개로 하루 150개 한도)만 할 수 있다.
문병로 서울대 컴퓨터공학부 교수는 "각 모델에는 고유한 장단점이 있다"며 "자신의 상황과 목적에 맞게 상호보완적으로 활용하는 것이 좋다"고 조언했다.