"프랑스 시 짓는데 고전"…온라인 퍼즐 정답률 0% 지적도
(샌프란시스코=연합뉴스) 김태종 특파원 = 구글과 마이크로소프트(MS) 간 인공지능(AI) 챗봇 경쟁이 치열하게 전개되는 가운데 구글의 '바드'(Bard)가 MS의 '빙'(Bing)보다 기능이 떨어진다는 평가가 나오고 있다.
23일(현지시간) 미 경제매체 비즈니스 인사이더에 따르면 구글은 지난 21일부터 미국과 영국에서 일부 이용자들을 대상으로 바드에 대한 테스트에 들어갔다.
바드 출시를 예고한 지 약 한 달 반만이다. 앞서 MS가 빙 테스트를 시작한 것보다도 한 달 이상 늦었다.
테스트 기간이긴 하지만, 이용자들은 바드에 대해 실망감을 나타내고 있다고 비즈니스 인사이더는 전했다.
시장에서는 비록 바드의 출시는 늦었어도 구글이 전 세계 검색 시장을 장악하고 AI 분야 선두주자인 만큼 챗GPT를 등에 업은 MS를 넘어설 것이란 기대가 있었다.
테크 유튜버 마르키스 브라운리는 자신의 트위터에 "오늘 구글 바드를 좀 이용해 봤는데 이런 말을 하게 될 줄은 상상도 못 했다"며 "(특정 채팅 기능에서) 빙이 구글의 바드를 훨씬 앞선다"고 썼다.
펜실베이니아대 와튼스쿨의 에단 몰릭 부교수는 "바드는 빙이나 GPT-4만큼 학습 도구로서 능력이 있어 보이지 않는다"고 평가했다.
그는 "시를 짓는 데에 바드는 경쟁자인 빙보다 많이 뒤처져 있다"며 "프랑스의 39행으로 된 시 시스티나를 짓는데 바드는 고전하는 것 같다"고 설명했다.
기이한 스토리텔링으로 유명한 영화감독 데이비드 린치 스타일의 '스타워즈' 영화 시놉시스(간단한 줄거리)를 만들어 달라는 요청에 그럴듯하게 이야기를 만들어 낸 빙과 달리 바드의 이야기는 평범했다.
더군더나 단어 퍼즐 게임에서 바드의 능력은 크게 떨어졌다는 평가도 나왔다.
게임 제작자들에 따르면 한 쌍의 단어가 무엇을 의미하는지를 맞추는 온라인 퍼즐 '투퍼 구퍼'(Twofer Goofer)에서 바드는 하나도 정답을 맞추지 못했다.
오픈AI가 최근 출시한 GPT-4가 96%, 인간이 82%의 정답률을 나타낸 것과는 큰 격차를 보였다.
이 퍼즐을 만든 콜린 월독은 "충격적으로 실망스럽다"며 "바드는 프롬프트가 주어졌을 때 단 하나도 풀지 못했다"고 실망감을 나타냈다.
이어 "바드는 일부 퍼즐에서는 정답에 가까이 가긴 했지만, 궁극적으로는 정답을 맞추지 못했다"고 설명했다.
바드는 지난달 8일 시연에서 제임스 웨브 우주망원경에 대해 태양계 밖 행성을 처음 촬영한 망원경이라고 답해 오답 논란을 일으켰다.
미국 항공우주국(NASA)에 따르면 태양계 밖 행성을 처음 촬영한 것은 유럽남방천문대의 초거대 망원경(VLT)이었기 때문이다.
taejong75@yna.co.kr
(끝)
<저작권자(c) 연합뉴스, 무단 전재-재배포 금지>
관련뉴스