인공지능(AI) 학습 데이터와 저작권 침해: 공정이용, TDM 등 핵심 쟁점 총정리
필수불가결한 대규모 데이터 학습이다. 바로 이 학습 과정이 전 세계적으로 저작권 충돌의 핵심 원인으로 떠올랐다. 오픈AI의 ChatGPT를 비롯해클로드(Claude), 스테이블 디퓨전(Stable Diffusion), 미드저니(Midjourney)와 같은 유수의 AI 기업들은 현재 저작권 침해를 이유로 한 법적 공방에 직면했다.
AI의 학습 메커니즘은 인간의 인지 과정과 근본적으로 상이하다. AI는 사물을 보고 이해하는 대신, 디지털화된 파일을 기계적으로 복제하고 전송하는 기술적 절차에 의존한다. 데이터 수집은 주로 ‘크롤링’ 방식을 통해 방대하게 이루어지며, 이는 필연적으로 데이터베이스의 복제와 전송을 수반한다.
현행 저작권법에 따르면, 저작권자의 허가 없이 저작물을 무단으로 복제하거나 전송하는 행위는 5년 이하의 징역 또는 5천만 원 이하의 벌금형에 처할 수 있는 위법 행위이다(저작권법 제136조 제1항 제1호). 또한, 데이터베이스를 무단으로 복제·전송할 경우 3년 이하의 징역 또는 3천만 원 이하의 벌금에 처해질 수 있다(저작권법 제136조 제2항 제1호, 제93조, 대법원 2024. 4. 16. 선고 2023도17354 판결 참조).
AI 산업은 중대한 딜레마에 봉착했다. 현행 저작권법을 엄격히 준수할 경우 기술 혁신의 발목을 잡을 수 있다는 우려 때문이다. 이러한 상황은 AI 학습이라는 특수한 목적에 한해 법적 예외를 허용해야 한다는 목소리로 이어졌다.
대한민국 저작권법은 특정 요건을 만족할 경우 저작권자의 허락 없이도 저작물 이용을 허용하는 공정이용 규정을 포함한다. 저작권법 제35조의5는 공정이용의 일반 조항으로 ▲이용의 목적과 성격, ▲저작물의 종류 및 용도, ▲이용된 부분이 저작물 전체에서 차지하는 비중과 중요성, ▲저작물 이용이 현재 시장이나 잠재적 가치에 미치는 영향 등을 종합적으로 고려하여, 저작물의 통상적 이용 방법과 충돌하지 않고 저작자의 정당한 이익을 부당하게 해치지 않는 경우에 한해 저작물 이용을 허용한다.
하지만 AI 학습을 위한 데이터 복제가 공정이용에 해당될 수 있는지에 대해서는 격렬한 논쟁이 있으며, 현재로서는 적용이 어렵다는 부정적인 법적 시각이 지배적이다.
이러한 법적 교착 상태를 타개하기 위한 구체적인 대안으로 ‘텍스트 및 데이터 마이닝(TDM)’ 면책 조항 도입이 부상했다. 이는 정보분석을 위한 대규모 저작물 복제를 저작권 침해의 예외로 인정하는 제도이다. TDM 도입을 위한 저작권법 개정안이 여러 차례 국회에 제출되었으나 입법화는 지연되고 있다. 다만, 작년 12월 문화체육관광부가 주관한 ‘인공지능(AI)-저작권 제도개선 워킹그룹’ 전체회의에서 그 필요성이 공식적으로 언급되었다.
따라서 TDM과 같은 명시적 면책 조항이 없는 현행법의 공백 속에서, AI 학습을 위한 데이터 복제·전송은 권리 침해 행위로 간주될 소지가 크다. 권리자는 자신의 저작물이 무단으로 사용된 정황을 포착할 경우, 침해 행위 중단, 손해배상, 데이터 폐기 요구 등 다양한 법적 권리를 행사할 수 있다.
그러나 권리 행사가 성공하기 위한 입증 책임은 상당한 장벽이다. 권리자는 자신의 어떤 저작물이, 언제, 어떤 경로로 복제 및 전송되었는지를 구체적인 증거를 통해 입증해야만 한다.
게티이미지(Getty Images)와 스테이블 디퓨전(Stable Diffusion) 간의 소송은 이 문제의 중대한 시험대로 여겨진다. 2023년 1월, 게티이미지는 자사 이미지가 무단 학습에 동원되었다고 주장하며 소를 제기했다. 스테이블 디퓨전의 AI 도구인 스태빌리티 AI가 생성한 이미지에서 게티이미지의 워터마크가 발견된 것이 결정적 증거로 작용했다. 이처럼 명확한 증거가 확보된 사건의 판결에 법조계의 이목이 쏠려 있으나, 아직 최종 결론은 나오지 않았다.
직접적인 증거가 없다면, 원저작물과 AI 생성물 사이의 ‘실질적 유사성’을 입증해야 하는 차선책이 있지만, 이 또한 난이도가 높다.
이러한 어려움을 보여주는 대표적 사례가 바로 Anderson, McKernan, Ortiz v. Stability AI, DeviantArt, MidJourney 사건이다. 다수의 창작가가 스테이블 디퓨전(Stable Diffusion), 미드저니(Midjourney), 데비안 아트(Devian Art)를 상대로 소송을 제기했으나, 미국 연방법원은 생성된 결과물만으로는 원고의 저작물이 학습에 사용되었다는 인과관계를 입증하기에 불충분하다고 판단하며 원고의 주장을 일부 받아들이지 않았다.
학습 데이터의 무단 사용을 ‘실질적 유사성’만으로 증명하는 데 따르는 현실적 어려움은 결국 권리자들이 AI 기업에 직접 데이터 내역 공개를 요구하는 상황으로 이어졌다. 이에 대해 2024년 12월, 마이크로소프트(MS)와 아마존웹서비스(AWS)가 포함된 글로벌 소프트웨어 연합체 BSA는 한국저작권위원회에 데이터 공개 의무화에 대한 반대 의견을 피력했다.. 그럼에도 불구하고 문화체육관광부는 2025년 1월 10일, AI 학습에 사용된 데이터 목록을 공개하도록 하는 저작권법 개정안을 추진하겠다고 밝히며, 권리자들의 요구에 힘을 실어주는 결정을 내렸다.
AI 기술과 저작권법의 교차점은 여전히 역동적인 영역으로, 기술 진흥과 창작자 보호 사이에서 섬세한 균형점을 찾아야 하는 과제를 안고 있다. 향후 TDM 면책 조항과 데이터 공개 의무화 등이 사회적 합의를 위한 핵심적인 의제로 논의될 것이다.
저작권법 [시행 2024. 8. 28.] [법률 제20358호, 2024. 2. 27., 일부개정] 제35조의5(저작물의 공정한 이용) ① 제23조부터 제35조의4까지, 제101조의3부터 제101조의5까지의 경우 외에 저작물의 일반적인 이용 방법과 충돌하지 아니하고 저작자의 정당한 이익을 부당하게 해치지 아니하는 경우에는 저작물을 이용할 수 있다. <개정 2016. 3. 22., 2019. 11. 26., 2023. 8. 8.> ② 저작물 이용 행위가 제1항에 해당하는지를 판단할 때에는 다음 각 호의 사항등을 고려하여야 한다. <개정 2016. 3. 22.> 1. 이용의 목적 및 성격 2. 저작물의 종류 및 용도 3. 이용된 부분이 저작물 전체에서 차지하는 비중과 그 중요성 4. 저작물의 이용이 그 저작물의 현재 시장 또는 가치나 잠재적인 시장 또는 가치에 미치는 영향 [본조신설 2011. 12. 2.][제35조의3에서 이동 <2019. 11. 26.>] 제93조(데이터베이스제작자의 권리) ① 데이터베이스제작자는 그의 데이터베이스의 전부 또는 상당한 부분을 복제ㆍ배포ㆍ방송 또는 전송(이하 이 조에서 “복제등”이라 한다)할 권리를 가진다. ② 데이터베이스의 개별 소재는 제1항에 따른 해당 데이터베이스의 상당한 부분으로 간주되지 아니한다. 다만, 데이터베이스의 개별 소재 또는 그 상당한 부분에 이르지 못하는 부분의 복제등이라 하더라도 반복적이거나 특정한 목적을 위하여 체계적으로 함으로써 해당 데이터베이스의 일반적인 이용과 충돌하거나 데이터베이스제작자의 이익을 부당하게 해치는 경우에는 해당 데이터베이스의 상당한 부분의 복제등으로 본다. <개정 2021. 5. 18., 2023. 8. 8.> ③ 이 장에 따른 보호는 데이터베이스의 구성부분이 되는 소재의 저작권 그 밖에 이 법에 따라 보호되는 권리에 영향을 미치지 아니한다. ④ 이 장에 따른 보호는 데이터베이스의 구성부분이 되는 소재 그 자체에는 미치지 아니한다. 제136조(벌칙) ① 다음 각 호의 어느 하나에 해당하는 자는 5년 이하의 징역 또는 5천만원 이하의 벌금에 처하거나 이를 병과(倂科)할 수 있다. <개정 2011. 12. 2., 2021. 5. 18.> 1. 저작재산권, 그 밖에 이 법에 따라 보호되는 재산적 권리(제93조에 따른 권리는 제외한다)를 복제, 공연, 공중송신, 전시, 배포, 대여, 2차적저작물 작성의 방법으로 침해한 자 2. 제129조의3제1항에 따른 법원의 명령을 정당한 이유 없이 위반한 자 ② 다음 각 호의 어느 하나에 해당하는 자는 3년 이하의 징역 또는 3천만원 이하의 벌금에 처하거나 이를 병과할 수 있다. <개정 2009. 4. 22., 2011. 6. 30., 2011. 12. 2.> 1. 저작인격권 또는 실연자의 인격권을 침해하여 저작자 또는 실연자의 명예를 훼손한 자 2. 제53조 및 제54조(제90조 및 제98조에 따라 준용되는 경우를 포함한다)에 따른 등록을 거짓으로 한 자 3. 제93조에 따라 보호되는 데이터베이스제작자의 권리를 복제ㆍ배포ㆍ방송 또는 전송의 방법으로 침해한 자 3의2. 제103조의3제4항을 위반한 자 3의3. 업으로 또는 영리를 목적으로 제104조의2제1항 또는 제2항을 위반한 자 3의4. 업으로 또는 영리를 목적으로 제104조의3제1항을 위반한 자. 다만, 과실로 저작권 또는 이 법에 따라 보호되는 권리 침해를 유발 또는 은닉한다는 사실을 알지 못한 자는 제외한다. 3의5. 제104조의4제1호 또는 제2호에 해당하는 행위를 한 자 3의6. 제104조의5를 위반한 자 3의7. 제104조의7을 위반한 자 4. 제124조제1항에 따른 침해행위로 보는 행위를 한 자 5. 삭제 <2011. 6. 30.> 6. 삭제 <2011. 6. 30.> [제목개정 2011. 12. 2.] |
대법원 2024. 4. 16. 선고 2023도17354 판결 데이터베이스제작자는 그의 데이터베이스의 전부 또는 상당한 부분을 복제·배포·방송 또는 전송(이하 ‘복제 등’이라고 한다)할 권리를 가진다(저작권법 제93조 제1항). 데이터베이스의 개별 소재는 ‘데이터베이스의 상당한 부분’으로 간주되지 않지만, 반복적이거나 특정한 목적을 위하여 체계적으로 개별 소재의 복제 등을 함으로써 해당 데이터베이스의 통상적인 이용과 충돌하거나 데이터베이스제작자의 이익을 부당하게 해치는 경우에는 해당 데이터베이스의 상당한 부분의 복제 등으로 본다(저작권법 제93조 제2항). 여기서 저작권법 제93조 제2항 단서에서 말하는 ‘해당 데이터베이스의 상당한 부분의 복제 등’에 해당하는지를 판단할 때는 양적인 측면에서 복제 등이 된 부분을 전체 데이터베이스의 규모와 비교하여 판단하여야 하고, 질적인 측면에서 복제 등이 된 부분에 포함되어 있는 개별 소재 자체의 가치나 그 개별 소재의 생산에 들어간 투자가 아니라 데이터베이스제작자가 그 복제 등이 된 부분의 제작 또는 그 소재의 갱신·검증 또는 보충에 인적 또는 물적으로 상당한 투자를 하였는지를 기준으로 제반 사정에 비추어 판단하여야 한다. 저작권법 제93조 제2항 단서의 권리 침해는 데이터베이스의 개별 소재 또는 상당하지 않은 부분에 대한 반복적이고 체계적인 복제 등으로 결국 상당한 부분의 복제 등을 한 것과 같은 결과를 발생하게 한 경우에 한하여 인정함이 타당하다(대법원 2022. 5. 12. 선고 2021도1533 판결 등 참조). |