예컨대 ‘나는 열대 과일 중 X를 좋아한다’를 작문하는 경우 AI는 바나나(35%), 망고(25%), 파파야(15%), 용과(7%) 중 하나를 일정 확률에 따라 X값으로 고른다. 이 단어들의 확률 산출 과정을 역으로 추적하면 AI가 만들었는지 여부를 파악할 수 있다. 딥마인드는 AI 챗봇인 제미나이에 질문해 얻은 응답 2000만여 건에 이와 같은 방식으로 워터마크를 심었다. 챗봇 이용자들이 어색한 점을 거의 찾지 못한 응답이다.
구글은 “AI가 만든 콘텐츠의 악용을 막겠다”며 텍스트 워터마크 기술을 오픈소스로 공개했다. AI 개발 업체인 센서티AI는 온라인에 풀린 딥페이크 영상 수가 지난해 10만 개가 넘어선 것으로 추정하고 있다. 구글이 AI 생성 콘텐츠를 걸러내는 기술을 무료로 풀게 된 배경이다. 구글은 신스ID를 통해 이미지, 영상 등의 워터마크 기술도 공급하고 있다. 오픈AI도 지난 2월 AI 생성 이미지에 워터마크를 적용했다. 육안으로 구별하기 어려운 픽셀 단위로 특정 패턴의 워터마크를 이미지에 심는다.
오디오에 워터마크를 붙이는 기술도 보급됐다. 메타는 지난 6월 음성 워터마크 솔루션인 ‘오디오실’을 공개했다. 음성 워터마크는 소리 파동을 시각화한 이미지에 식별용 픽셀을 심는 방식이다. 이 픽셀을 소리 파동으로 변환했을 때 사람 귀로는 식별이 안 된다. 메타는 지난 10월 AI 영상 생성기인 ‘무비 젠’에 이 기술을 적용했다. 시스코는 화상회의 앱인 ‘웹엑스’에 워터마크 기술을 적용했다. 회의 녹음 오디오가 외부에 유출될 경우 추적할 수 있게 하기 위해서다.
다만 생성 AI 업체로선 워터마크 기술 적용에 대한 고민도 있다. 월스트리트저널에 따르면 오픈AI는 챗GPT가 만든 텍스트를 걸러낼 수 있는 기술을 개발했지만 적용하진 않았다. 업계에선 챗GPT 이용자의 약 30%가 워터마크 도입 시엔 서비스 이용을 줄이겠다고 답한 설문조사 결과가 이 결정에 영향을 미친 것으로 추정하고 있다.
AI 업체들은 공조해 워터마크 생태계를 키우겠다는 구상이다. 구글은 지난 10월 유튜브에 생성 AI로 만든 콘텐츠임을 표시하는 기능을 추가했다. AI 워터마크 기술 표준을 마련하기 위한 연합체인 ‘C2PA’의 표준을 적용했다. C2PA는 워터마크 기술 표준을 만들고자 어도비, 아마존, 구글 등이 2021년 모여 구성한 연합체다. 이달 2일 기준 회원사가 219곳에 달하는 대형 조직이 됐다. 국내에선 네이버, 이스트소프트 등이 회원이다.
워터마크가 없는 AI 콘텐츠를 걸러내는 시도도 계속되고 있다. 딥페이크 기술이 적용된 이미지에서 어색한 부분을 찾아내거나 콘텐츠 파일의 메타 데이터에 남은 수정 흔적을 분석하는 기술이다. 인텔이 2022년 출시한 솔루션인 ‘페이크캐처’는 영상 속 인물의 얼굴에 드러나는 정맥의 색 변화를 1000분의 1초 단위로 감지해 딥페이크 여부를 탐지한다. 업계 관계자는 “AI 콘텐츠 선별 기술의 정확도는 80% 수준”이라며 “워터마크도 벗기는 게 가능한 만큼 AI가 만든 콘텐츠를 완벽하게 구분하는 것은 점점 어려워질 것”이라고 말했다.
이주현 기자 deep@hankyung.com
관련뉴스