GPT-4, 저작권 콘텐츠를 ‘기억’하다? – AI와 저작권의 경계가 흐려진다

AIIT

GPT-4, 저작권 콘텐츠를 ‘기억’하다? – AI와 저작권의 경계가 흐려진다

매짱 2025. 4. 6. 20:50

최근 인공지능(AI) 기술이 눈부시게 발전하면서, 이제는 ‘모델이 저작권 콘텐츠를 기억할 수 있다’는 논란이 현실이 되고 있습니다. 특히 오픈AI의 GPT-4와 같은 대형언어모델(LLM)이 저작권이 있는 콘텐츠를 학습하고 일부 문장을 재생산한다는 연구 결과가 공개되면서, AI와 저작권 문제는 다시 뜨거운 감자가 되었습니다.

저작권 콘텐츠를 학습하는 GPT-4, 진짜 암기했나?

워싱턴대, 코펜하겐대, 스탠퍼드대의 공동 연구진은 GPT 모델이 특정 문장을 '기억'하고 있는지를 테스트했습니다. 그들은 ‘하이-서프라이즈(high-surprisal)’ 단어에 주목했습니다. 이는 문맥상 통계적으로 희귀하게 등장하는 단어로, 예측하기 어렵기 때문에 모델이 정확히 맞췄다면 해당 문장을 학습 과정에서 암기했을 가능성이 있다는 뜻입니다.

하이-서프라이즈 단어 맞추기 테스트 개요도 (사진=arXiv) 출처 : AI타임스(https://www.aitimes.com)

실제로 GPT-4는 저작권이 있는 전자책 샘플(BookMIA)이나 뉴욕타임스 기사 일부를 정확히 재현하는 모습을 보였습니다. 이는 LLM이 단순히 학습 패턴을 이해하는 수준을 넘어, 콘텐츠를 기억하고 재현할 수 있음을 보여주는 중요한 사례입니다.

왜 이게 문제가 될까? – AI의 ‘공정 사용’ 주장과 저작권자들의 반발

오픈AI는 이러한 데이터 사용이 미국 저작권법상 **공정 사용(fair use)**에 해당한다고 주장하고 있습니다. 그러나 콘텐츠 제작자와 언론사들은 자신들의 허락 없이 AI 모델에 활용된 것에 대해 강하게 반발하고 있습니다.

이미 뉴욕타임스를 포함한 여러 언론사는 오픈AI와 마이크로소프트를 상대로 저작권 침해 소송을 제기한 상태입니다. AI가 자신들의 기사나 책 내용을 토씨 하나 안 틀리고 출력하는 장면이 소송의 증거로 제시되기도 했습니다.

미국 법원 첫 판결: “AI 학습용 데이터, 무단 수집은 공정 사용 아냐”

최근 미국 캘리포니아 북부지방법원은 AI 기업들이 콘텐츠를 무단으로 수집해 학습에 사용하는 것이 공정 사용이 아니라고 판단했습니다. 이는 AI 기업들이 주장해온 논리를 뒤집는 판결로, 앞으로 이어질 수많은 저작권 소송에 큰 영향을 줄 것으로 보입니다.

특히 오픈AI뿐 아니라 구글, 메타 등 주요 기업들도 소송에 직면해 있으며, 이들은 법적 공방을 통해 데이터 수집의 정당성을 확보하려는 입장입니다.

국내 사례: AI로 만든 영화도 저작권 인정받아

AI 모델이 방대한 데이터를 학습하며 혁신을 이루는 것은 분명하지만, 그 과정에서 기존 창작자의 권리가 침해된다면 사회적 비용은 더욱 커질 수밖에 없습니다.

앞으로는 다음과 같은 방향이 중요해질 것입니다.

법적 기준 마련: AI 학습용 데이터와 생성물에 대한 법적 정의와 보호 범위 확립

AI 기술이 계속 진화하는 만큼, 우리 사회도 그에 맞는 제도와 인식 전환이 필요합니다. 기술의 혁신과 권리 보호, 이 둘의 균형점이 곧 AI 시대의 진정한 경쟁력이 될 것입니다.

📌 참고 링크
AI타임스 원문 기사 보기