[사이테크+] 챗GPT로 과제 할 땐 조심?…"언어모델도 표절한다"

입력 2023-02-17 16:36  

[사이테크+] 챗GPT로 과제 할 땐 조심?…"언어모델도 표절한다"
美 연구팀 "언어모델 사용할 때 윤리·저작권 문제에 주의해야"

(서울=연합뉴스) 이주영 기자 = 세계적으로 큰 인기를 끌며 교육 현장에서 부정행위 악용 우려를 낳고 있는 오픈AI의 '챗GPT'(ChatGPT) 같은 언어모델도 '복붙'(복사해 붙여넣기) 등 다양한 방법으로 표절을 한다는 연구 결과가 나왔다.

미국 펜실베이니아주립대(PSU) 이동원 교수팀은 16일(현지시간) 오픈AI의 'GPT-2'가 생성한 텍스트를 훈련에 사용된 자료와 비교 분석한 결과 복사해 붙여넣기(vervatim)와 출처 인용 없이 문장 바꾸기(paraphrase), 아이디어 도용(idea plagiarism) 같은 다양한 표절을 하는 것으로 나타났다고 밝혔다.
연구팀은 이 같은 내용의 연구 논문을 이날 공개했으며, 이를 오는 4월 30일~5월 4일 오스틴 텍사스대에서 열리는 '2023 미국컴퓨터학회(ACM) 웹 콘퍼런스'에서 발표할 예정이다.
이 교수는 "표절은 다양한 형태로 나타난다"며 "언어모델이 복사해 붙여넣기뿐 아니라 스스로 인식하지 못한 채 더 정교한 형태의 표절도 하는지 밝혀내고자 했다"고 말했다.
연구팀은 이 연구에서 복사해 붙이기와 출처 인용 없이 문장 바꾸기, 출처 명시 없는 아이디어 도용하기 같은 표절을 자동 감지하는 프로그램을 개발, GPT-2가 생성한 21만 건의 텍스트를 언어모델 훈련에 사용된 800만 건의 문서와 비교했다.
또 사전 훈련된 일반 언어모델과 특정 분야에 초점을 맞춰 미세조정한 언어모델이 생성한 텍스트의 표절에 어떤 차이가 있는지도 분석했다.

그 결과 언어모델이 생성한 텍스트에는 복사해 붙이기는 물론 출처 인용 없이 문장 바꾸기, 출처를 명시하지 않고 아이디어 도용하기 등 3가지 표절이 모두 포함된 것으로 나타났다. 또 훈련에 사용된 데이터세트와 매개변수가 클수록 표절도 더 많은 것으로 밝혀졌다.
특정 분야에 맞춰 미세조정된 언어모델은 복사해 붙이기 표절은 줄어들었으나 출처 명시 없는 문장 바꾸기와 아이디어 표절은 늘어난 것으로 나타났다. 또 언어모델은 세 가지 표절을 하면서 개인정보를 그대로 드러내는 문제점도 노출했다.
연구팀은 이 연구 결과는 생성형 언어모델과 언어모델이 제기하는 윤리적, 철학적 문제에 대한 더 많은 연구가 필요하다는 것을 보여준다고 지적했다.
공동연구자인 미시시피대 타이 러 교수는 "생성물이 매력적일 수 있고 언어모델이 사용하기에 재미있을 수 있고 특정 작업에 생산적으로 보일 수도 있지만 이게 실용적이라는 뜻은 아니다"라며 "생성형 언어모델의 윤리적 문제와 저작권 문제에 주의를 기울여야 한다"고 말했다.
연구팀은 또 이 연구 결과는 GPT-2에만 적용되지만 이번에 개발한 표절 자동 감지 프로그램은 챗GPT 등 최신 언어모델의 표절 여부를 검사하는 데에도 활용될 수 있을 것이라고 밝혔다.
이 교수는 "언어모델을 교육할 때 표절하지 않는 방법은 가르치지 않고 인간 글쓰기를 흉내 내도록 훈련했기 때문에 표절이 예상 못 한 결과는 아니다"라며 "이제 언어모델에 더 적절한 글쓰기를 가르칠 때이고 갈 길이 멀다"고 말했다.
scitech@yna.co.kr
(끝)


<저작권자(c) 연합뉴스, 무단 전재-재배포 금지>

관련뉴스

    top
    • 마이핀
    • 와우캐시
    • 고객센터
    • 페이스 북
    • 유튜브
    • 카카오페이지

    마이핀

    와우캐시

    와우넷에서 실제 현금과
    동일하게 사용되는 사이버머니
    캐시충전
    서비스 상품
    월정액 서비스
    GOLD 한국경제 TV 실시간 방송
    GOLD PLUS 골드서비스 + VOD 주식강좌
    파트너 방송 파트너방송 + 녹화방송 + 회원전용게시판
    +SMS증권정보 + 골드플러스 서비스

    고객센터

    강연회·행사 더보기

    7일간 등록된 일정이 없습니다.

    이벤트

    7일간 등록된 일정이 없습니다.

    공지사항 더보기

    open
    핀(구독)!