인공지능 학습데이터 관련 2개의 판례(톰슨로이터 vs 로스 판결, 바츠 vs 앤트로픽 판결)는 모순되지 않는다
1. 서론: AI와 저작권에 대한 법적 무대 설정
인공지능(AI) 기술의 발전은 현대 사회의 거의 모든 측면에 혁신을 가져오고 있지만, 동시에 기존 법률 체계에 심오한 질문을 던지고 있습니다. 그중에서도 가장 첨예한 갈등은 AI의 방대한 데이터 학습 필요성과 독창적인 표현물을 보호하려는 저작권법의 사명 사이에서 발생합니다. AI, 특히 생성형 AI 모델은 인간이 창작한 수많은 텍스트, 이미지, 코드 등을 학습해야만 그 능력을 발휘할 수 있습니다. 이 과정에서 필연적으로 발생하는 저작권이 있는 자료의 대규모 복제 및 사용은 저작권 침해의 경계에 대한 근본적인 재검토를 요구하고 있습니다. 최근 미국 법원에서 내려진 톰슨 로이터 대 로스 인텔리전스(이하 로스 사건)와 작가 대 앤트로픽(이하 앤트로픽 사건) 판결은 이러한 충돌을 '공정 이용(fair use)' 원칙의 렌즈를 통해 해결하려는 최초의 중요한 사법적 시도들로, AI 기술의 미래와 저작권의 범위를 결정할 중요한 이정표로 평가받고 있습니다.
로스와 앤트로픽 사건을 이해하기 위해서는 먼저 이들 판결의 법적 기반이 되는 중요한 선례를 짚고 넘어가야 합니다. 바로 탈러 대 펄머터(Thaler v. Perlmutter) 사건에서 확립된 '인간 저작자(human authorship)' 요건입니다. 컴퓨터 과학자 스티븐 탈러는 자신이 개발한 AI 시스템 '창의성 기계(Creativity Machine)'가 독자적으로 생성한 시각 예술 작품 '파라다이스로의 최근 입구(A Recent Entrance to Paradise)'에 대해 저작권 등록을 신청했습니다. 그는 이 신청서에서 작품의 저작자를 AI인 '창의성 기계'로 명시했습니다.
미국 저작권청은 인간이 아닌 AI가 저작자가 될 수 없다는 이유로 등록을 거부했고, 이 결정은 연방 지방법원과 항소법원에서 모두 지지를 받았습니다. D.C. 순회 항소법원은 미국 저작권법이 저작자가 인간이어야 함을 명백히 전제하고 있다고 판시했습니다. 법원은 저작권법의 여러 조항, 예를 들어 저작자의 '생존 기간'을 기준으로 저작권 보호 기간을 산정하는 규정, 저작자의 '상속인'에게 권리가 이전되는 규정, 저작자의 '국적'이나 '주소'를 언급하는 조항 등은 모두 저작자가 인간임을 상정할 때만 의미가 있다고 설명했습니다. 기계는 생존 기간, 가족, 국적, 재산 소유 능력 등을 가질 수 없기 때문입니다.
이 탈러 판결은 AI와 저작권 논쟁의 방향을 근본적으로 전환시키는 법적 분기점이 되었습니다. AI 자체는 저작자가 될 수 없다는 점을 명확히 함으로써, AI가 생성한 결과물의 저작권 귀속 문제를 넘어 AI가 기존의 인간 저작물을 '어떻게 사용했는가'의 문제로 초점을 이동시켰습니다. 즉, 법적 질문은 "AI가 저작자인가?"에서 "AI가 인간의 저작물을 사용한 행위가 공정한가?"로 바뀌게 된 것입니다. 이는 AI를 창작자가 아닌, 정교한 '도구'로 법적으로 규정한 것과 같습니다. 따라서 이후의 모든 AI 저작권 소송은 이 도구를 저작권이 있는 자료에 사용하는 것이 허용되는 범위, 즉 공정 이용의 네 가지 요소를 중심으로 치열하게 다투어질 수밖에 없게 되었습니다. 로스와 앤트로픽 사건이 바로 그 첫 번째 시험대였습니다.
여기기서는 로스 사건과 앤트로픽 사건의 판결이 표면적으로는 상반된 결론에 도달한 것처럼 보이지만, 오히려 두 판결은 AI의 사용 목적과 기술적 특성에 따라 공정 이용 여부를 판단하는 일관되고 초기적인 법적 프레임워크를 구축하고 있습니다. 구체적으로, 경쟁 제품을 만들기 위해 저작권 데이터를 '대체적(substitutive)'으로 사용하는 행위(공정 이용 아님)와, 새로운 창작을 위해 데이터를 '변형적(transformative)'으로 사용하여 생성형 도구를 훈련시키는 행위(공정 이용 가능성 높음)를 명확히 구분하고 있음을 논증할 것입니다.
2. 톰슨 로이터 대 로스: 직접적인 시장 대체를 막기 위한 저작권의 방패
로스 사건은 법률 정보 시장의 거인과 신흥 AI 스타트업 간의 정면충돌이었습니다. 저명한 법률 연구 플랫폼 웨스트로(Westlaw)의 소유주인 톰슨 로이터는 AI 기반 법률 검색 엔진을 개발하던 로스 인텔리전스를 상대로 저작권 침해 소송을 제기했습니다.
소송의 핵심 대상은 웨스트로의 독점적 자산인 '헤드노트(headnotes)'와 '키 넘버 시스템(Key Number System)'이었습니다. 헤드노트는 웨스트로의 변호사들이 판례의 핵심 법적 쟁점을 요약한 짧은 문장들이고, 키 넘버 시스템은 방대한 법률 자료를 체계적으로 분류하는 고유의 색인 체계입니다. 로스는 처음에 자사의 AI 모델 훈련을 위해 웨스트로 콘텐츠에 대한 라이선스를 요청했으나, 직접적인 경쟁 관계에 있던 톰슨 로이터는 이를 거절했습니다. 그러자 로스는 제3의 법률 분석 회사인 리걸이즈(LegalEase)를 고용하여 AI 훈련용 데이터셋을 구축했습니다. 리걸이즈는 웨스트로의 헤드노트를 참조하여 소위 '벌크 메모(Bulk Memos)'라는 질문-답변 쌍을 만들었고, 로스는 이를 이용해 자사 AI를 훈련시켰습니다.
여기서 중요한 기술적 특징은 로스의 AI가 비생성형(non-generative) 모델이었다는 점입니다. 이 AI는 새로운 텍스트를 창작하는 것이 아니라, 사용자의 질문에 가장 관련성 높은 기존 판례를 찾아주는 검색 엔진의 역할을 했습니다. 이는 웨스트로의 핵심 기능과 직접적으로 경쟁하는 것이었습니다.
로스 측은 판례 자체가 공공의 영역에 속하므로, 이를 요약한 헤드노트 역시 저작권 보호 대상이 아니라고 주장했습니다. 그러나 법원은 이 주장을 받아들이지 않았습니다. 법원은 웨스트로의 헤드노트가 저작권 보호에 필요한 '최소한의 창작성(minimal degree of creativity)'을 충족한다고 판단했습니다.
법원은 이 창작성의 근거를 "판결문의 일부를 증류, 종합 또는 설명하는 행위"에서 찾았습니다. 이는 마치 조각가가 거대한 대리석 덩어리(판결문 원문)에서 불필요한 부분을 깎아내어 조각상(헤드노트)을 만드는 것에 비유되었습니다. 즉, 원재료인 판례는 저작권이 없지만, 어떤 부분을 선택하고 어떻게 요약하며 어떤 단어로 표현할지를 결정하는 편집자의 지적 판단과 노력이 독자적인 창작물로 인정받은 것입니다. 마찬가지로, 방대한 법률 주제를 어떤 체계로 분류하고 조직할지를 결정한 키 넘버 시스템의 선택과 배열 역시 독창적인 저작물로 보호받을 가치가 있다고 보았습니다.
이 판결은 사실에 기반한 공공 정보를 다루더라도, 인간의 지적 노동을 통해 데이터를 선별, 요약, 정리, 구조화하는 '큐레이션(curation)' 행위 자체에 상당한 법적 가치를 부여했다는 점에서 중요합니다. 이는 금융 데이터 분석, 뉴스 애그리게이션, 과학 데이터베이스 등 공공 정보를 가공하여 부가가치를 창출하는 모든 산업에 시사하는 바가 큽니다. 이들의 핵심 자산인 '큐레이션된 데이터셋' 자체가 저작권의 보호를 받을 수 있는 강력한 근거가 마련된 셈입니다.
법원은 로스의 공정 이용 주장을 기각하기 위해 네 가지 요소를 면밀히 검토했으며, 최종적으로 톰슨 로이터의 손을 들어주었습니다.
여기서 가장 중요한 법원의 판단은, 톰슨 로이터가 자사의 헤드노트를 AI 훈련 데이터로 라이선스하는 '실제 시장'이 당시 존재하지 않았음에도 불구하고, 로스의 행위가 그러한 '잠재적 파생 시장(potential derivative market)'을 훼손했다고 인정한 점입니다.
법원의 논리는 이렇습니다: 만약 로스와 같은 사용이 널리 허용된다면, 앞으로 어떤 AI 개발자도 톰슨 로이터로부터 훈련 데이터를 라이선스 받을 유인이 사라지게 될 것입니다. 이는 저작권자가 미래에 창출할 수 있는 새로운 사업 모델의 기회를 원천적으로 박탈하는 행위이며, 저작권법이 보호해야 할 명백한 시장 훼손이라는 것입니다. 이 판단은 AI 스타트업에게 상당한 장벽을 만듭니다. 단순히 "현재 해당 데이터에 대한 라이선스 시장이 없으므로 우리는 아무런 해를 끼치지 않았다"고 주장할 수 없게 되었습니다. 법원은 그러한 시장을 창출할 '기회'를 빼앗는 것 자체가 저작권법상 인정되는 피해임을 명확히 했습니다.
로스 판결은 경쟁사의 저작권 있는 데이터(비록 최소한의 창작성을 가진 사실 기반 데이터일지라도)를 이용하여 비생성형, 대체형 AI 제품을 훈련시키는 것은 저작권 침해이며 공정 이용으로 보호받을 수 없다는 원칙을 확립했습니다. 이 판결의 핵심 결정 요인은 직접적인 상업적 경쟁 관계와 잠재적 라이선스 시장에 대한 명백한 훼손이었습니다.
3. 작가(Bartz etc) 대 앤트로픽: 변형적 AI 창작을 위한 공정 이용의 길
앤트로픽 사건은 다수의 작가들이 자금력이 풍부한 AI 기업 앤트로픽을 상대로 제기한 집단 소송이었습니다. 앤트로픽의 생성형 AI 챗봇 '클로드(Claude)'가 자신들의 저작권 있는 책들을 무단으로 학습 데이터로 사용했다는 것이 소송의 골자였습니다.
법원은 앤트로픽의 행위를 두 가지로 구분하여 판단했습니다.
이 사건의 기술적 핵심은 앤트로픽의 '클로드'가 생성형(generative) 거대 언어 모델(LLM)이라는 점입니다. 클로드는 책의 구절을 검색하여 보여주는 것이 아니라, 방대한 텍스트 데이터에서 통계적 패턴을 학습하여 완전히 새롭고 독창적인 텍스트를 생성하는 능력을 갖추고 있습니다.
법원은 책을 사용하여 LLM을 훈련시키는 것이 변형적 이용에 해당한다고 판단했습니다. AI는 책을 재출판하는 것이 아니라, 언어가 작동하는 방식을 학습하여 "본질적으로 변형적인 새로운 텍스트를 생성"하기 위해 책을 사용하기 때문입니다.
법원은 이를 인간의 학습 과정에 비유했습니다. 사람이 좋은 글을 쓰기 위해 수많은 책을 읽는 것처럼, AI도 동일한 과정을 거친다는 것입니다. 따라서 작가들은 "타인이 자신의 저작물을 훈련과 학습 목적으로 사용하는 것 자체를 막을 권리가 없다"고 판시했습니다. 이는 AI의 학습을 인간의 '읽기'와 '사고' 과정과 유사하게 본 혁신적인 접근입니다.
법원은 앤트로픽의 사용이 "작가들의 저작물 사본에 대한 수요를 대체하지 않았고, 앞으로도 대체하지 않을 것"이라고 결론 내렸습니다. 클로드의 결과물은 원본 책을 구매하여 읽는 경험을 대체하지 않는다는 것입니다.
설령 AI가 "경쟁 저작물의 폭발적 증가"를 유발하더라도, 법원은 이를 "학생들에게 글쓰기를 잘 가르쳤더니 경쟁 작가가 늘어난 것"과 다르지 않다고 보았습니다. 이는 저작권법이 방지하고자 하는 종류의 시장 훼손이 아니라는 것입니다. 더 나아가 법원은 AI 훈련을 위한 잠재적 라이선스 시장에 대해, "저작권법이 작가들에게 이용을 허락할 권리를 부여하는 시장이 아니다"라고 언급하며 로스 사건과 대조적인 입장을 보였습니다.
이 판결은 흥미로운 법적 역설을 만들어냈습니다. 불법 복제된 책을 '취득'한 행위는 명백히 불법이며 손해배상 책임이 따릅니다. 그러나 그 불법적으로 취득한 책을 AI 모델 '훈련 과정'에 '사용한' 행위는 공정 이용으로 인정되었습니다. 이는 저작권 침해 행위(무단 복제)와 그 복제물의 후속 사용 행위를 분리하여 판단한 것입니다. 법원은 사실상 "당신은 절도 행위에 대해 대가를 치러야 하지만, 그 훔친 물건을 사용한 과정 자체는 법적으로 허용되는(변형적인) 것이었다"고 말하는 셈입니다.
이는 AI 기업들이 불법 복제 데이터셋을 사용할 경우 막대한 법적 책임을 지게 되지만, 훈련 과정 자체에 대한 공정 이용 주장은 여전히 유효할 수 있음을 시사합니다. 이 판결은 기업들이 불법 복제로 인한 손해배상을 피하기 위해 합법적으로 데이터를 확보하도록 유도하는 동시에, 생성형 모델을 훈련시키는 '과정' 자체는 근본적으로 변형적이라는 점을 확인시켜 줍니다. 즉, 입력물의 원죄와 처리 과정의 성격을 분리한 것입니다.
앤트로픽 판결은 생성형 AI를 훈련시키기 위해 저작권 있는 저작물을 중간 복제하는 행위는, 초기 침해에 대한 책임을 피하기 위해 저작물이 합법적으로 취득되었다는 전제하에, 공정 이용으로 간주될 가능성이 높다는 점을 시사합니다. 이 판결의 핵심 결정 요인은 새로운 표현물을 창조하는 훈련 과정의 변형적 성격과 원본 저작물에 대한 직접적인 시장 대체성이 없다는 점이었습니다.
4. 판결의 조화: 모순이 아닌 일관된 프레임워크
두 사건의 판결을 심층적으로 분석하면, 이들이 상호 모순되는 것이 아니라 AI 기술의 특성과 사용 목적이라는 결정적인 변수에 따라 일관된 법리를 적용한 결과임을 알 수 있습니다. 두 판결은 AI와 저작권의 복잡한 관계를 규율할 수 있는 초기적이면서도 논리적인 프레임워크를 제시합니다.
두 사건의 핵심적인 차이점을 한눈에 파악할 수 있도록 아래와 같이 비교 분석표를 제시합니다. 이 표는 두 판결이 왜 상반된 결론에 도달했는지를 명확하게 보여주며, 그 기저에 있는 일관된 논리를 시각적으로 드러냅니다.
특징 | 톰슨 로이터 대 로스 | 작가 대 앤트로픽 |
AI 유형 | 비생성형 (검색/정보제공) | 생성형 (LLM/창작) |
사용 목적 | 직접적인 시장 대체재 개발 | 범용 창작 도구 개발 |
AI 결과물의 성격 | 기존의 사실적 콘텐츠를 지시 | 새롭고 독창적인 표현물 창작 |
입력물과의 관계 | 대체적 (경쟁 검색 도구) | 변형적 (새로운 창작 과정) |
저작물 | 구조화된 사실적 편집물 (헤드노트) | 표현적 창작물 (책) |
공정 이용 1요소 (목적) | 비변형적 (직접 경쟁) | 본질적으로 변형적 (학습) |
공정 이용 4요소 (시장) | 실제 및 잠재적 시장에 직접적 피해 | 원본에 대한 직접적 시장 대체 없음 |
핵심 침해 쟁점 | 경쟁 제품 개발을 위한 데이터 사용 | 초기 대량 불법 복제 행위 (훈련은 공정 이용) |
최종 공정 이용 판결 | 공정 이용 아님 | 공정 이용 해당 (훈련 과정 자체에 대해) |
두 사건을 가르는 가장 중요한 단일 변수는 바로 AI의 기술적 본질입니다. 로스 사건의 법원은 정보를 재포장하여 제공하는 비생성형 AI를 다루었고, 앤트로픽 사건의 법원은 정보로부터 학습하여 새로운 것을 창조하는 생성형 AI를 다루었습니다. 이 근본적인 차이가 공정 이용 분석의 모든 측면에 영향을 미쳤습니다.
법원들은 암묵적으로 AI의 변형성을 판단하기 위한 기능적 테스트를 만들고 있습니다.
첫째, 그 AI는 무엇을 하는가? 기존 정보를 검색하고 제시하는가(비생성형), 아니면 종합하고 창조하는가(생성형)?
둘째, 그 기능은 저작권 있는 입력물과 어떤 관계를 맺는가? 만약 그 기능이 입력물의 목적을 더 나은 방식으로 제공하는 것(로스의 검색 도구처럼)이라면, 그것은 대체적입니다. 만약 그 기능이 완전히 다른 종류의 결과물(앤트로픽의 이야기 생성기처럼)을 만드는 것이라면, 그것은 변형적입니다. 이 논리적 흐름에 따라, AI 기업의 법적 리스크는 자사 제품의 핵심 기능과 직접적으로 연결됩니다. 저작권 있는 데이터를 기반으로 더 나은 검색 엔진이나 요약기를 만드는 회사는 로스 사건과 같은 높은 위험에 직면합니다. 반면, 데이터 출처가 깨끗하다는 전제하에 새로운 창작을 위한 도구를 만드는 회사는 앤트로픽 사건과 같이 낮은 위험을 감수하게 됩니다.
두 사건은 하나의 스펙트럼 양 끝에 위치한다고 볼 수 있습니다. 로스 사건은 경쟁사의 시장을 직접적으로 훼손하는 비변형적, 대체적 이용의 명백한 사례를 대표합니다. 반면 앤트로픽 사건은 그 이용이 너무나 변형적이어서 법원이 그 결과물을 완전히 다른 시장에 속하는 것으로 간주했고, 따라서 저작권법상 인정될 만한 시장 훼손이 없다고 판단한 사례를 대표합니다.
'잠재적 라이선스 시장'에 대한 두 법원의 상이한 견해 역시 모순이 아니라 맥락 의존적인 것으로 해석할 수 있습니다. 로스 사건에서 문제가 된 잠재적 시장은 '경쟁 제품을 만들기 위한' 데이터 라이선스 시장이었습니다. 이는 저작권자가 자신의 저작물에 대한 통제권을 직접적으로 침해받는 영역입니다. 반면 앤트로픽 사건에서 작가들이 주장한 시장은 '일반적인 AI 훈련을 위한' 책 라이선스 시장이었는데, 법원은 이를 저작권법이 보장해야 할 권리의 범위를 너무 넓게 확장하는 것으로 보았습니다. 즉, 법원은 사용 목적이 대체적인지 변형적인지에 따라 보호받아야 할 시장의 범위도 달라진다고 본 것입니다.