이루다 사건(2021. 4. 28.)
o 안건번호 : 제2021-007-072호 (2021조이0013)
o 피심인 : 주식회사 스캐터랩
o 심의의결일 : 2021. 4. 28.
[사실관계(AI 관련 부분에 한함)]
가) 카카오톡 대화의 수집
피심인은 ‘텍스트앳’과 ‘연애의 과학’에서 카카오톡 대화를 이용한 심리분석 서비스를 제공하면서, 이용자가 카카오톡 대화를 이용한 심리분석 서비스를 선택하는 경우 이용자가 업로드한 카카오톡 대화를 수집하여 각 서비스 DB에 저장하고 있으며, 2013. 2. 14.부터 2020. 3. 31.까지 이용자 명이 카카오톡 대화를 이용한 심리분석을 회 요청한 것으로 확인되었다.
이용자가 카카오톡 대화를 업로드하는 경우 이용자는 대화 상대방의 닉네임을 설정하고, 이용자와의 관계(친구, 연인, 배우자, 소개팅 상대, 아는 사람 중 하나) 를 입력하여야 하며, 카카오톡의 ‘텍스트로 내보내기’ 기능을 이용하여 카카오톡 대화를 피심인에게 전송하거나( ), 피심인이 부여한 고객별 전용 이메일로 전송하여야 한다( ). 피심인은 전송된 카카오톡 대화를 업로드한 이용자의 프로필명은 ‘SEND’로 ‘대화 상대방’의 프로필명은 ‘RECV’로 치환하여 ‘텍스트앳’, ‘연애의 과학’의 각 서비스 DB에 각 저장하며 전송된 카카오톡 대화 파일 원본은 삭제된다.
나) 학습 DB의 구축
피심인은 ‘텍스트앳’과 ‘연애의 과학’ 서비스 DB에 저장된 이용자 중 약 60만명의 회원정보 일부와 카카오톡 대화문장 약 94억건을 서비스 DB와 별도의 DB(이하 ‘학습 DB’라 한다)에 저장하였는데, 학습 DB에 저장된 정보에는 로그인아이디, 닉네임 등의 식별자가 포함되어 있지 않으나, SHA-256 해쉬함수로 일방향 암호화된 회원번호, 성별·나이·대화 상대방과의 관계(친구, 연인, 배우자, 소개팅 상대, 아는 사람 중 하나) 정보, 카카오톡 대화문장이 변경 없이 원문 그대로 포함되어 있다.
다) ’이루다‘ 모델의 개발을 위한 알고리즘 학습
피심인은 2020. 2.부터 2020. 12.까지 학습 DB에 저장된 카카오톡 대화문장 약 94억건을 알고리즘을 통해 학습시켜 ’이루다‘ 모델을 개발하였다. 피심인은 학습 DB에 저장된 카카오톡 대화문장을 ’이루다‘와 같은 기계학습 모델을 도출하는데 사용하면서 필요한 시점에 이름을 으로 치환하고 숫자가 학습에 필요하지 않은 모델의 경우 으로 치환하여 학습시켰으나, ’이루다‘ 모델을 개발하기 위한 학습 과정에서는 이름과 숫자 등을 치환하지 아니한 상태로 학습시켰다.
라) ’이루다‘의 응답 DB 구축
피심인은 ’이루다‘ 모델을 개발하기 위한 알고리즘 학습 과정을 거치는 동시에 ’이루다‘ 모델이 특정한 응답후보군 문장 중에 가장 적절한 문장을 선택하여 발화할 수 있도록 ‘이루다’의 응답 DB 약 1억 건( 건)을 구축하였다. 응답 DB는 학습 DB에 저장된 카카오톡 대화문장 약 94억건 중 20대 여성이 발화한 대화문장을 추출한 후, 2020. 2. 18.부터 2020. 12. 17.까지의 기간에 걸쳐 피심인이 자체 개발한 필터링 모델 등을 이용하여 실명, 장소명, 숫자/영문, 선정적 표현이라고 보여지는 단어 등이 포함된 대화문장을 반복하여 제거하는 방식으로 구축되었다.
마) ‘이루다’ 서비스 운영
피심인은 2020. 12. 22. ‘이루다’ 서비스를 시작하고 ‘이루다’ 모델이 응답 DB내의 대화문장 중 가장 적절한 대화문장을 선택하여 이용자에게 발화하도록 운영하였으며, ‘이루다’ 응답 DB에서 주소, 연락처 등의 개인정보 포함 여부를 검색한 결과, 상세주소 1건과 휴대전화번호 20건(발화된 대화문장 중에서는 상세주소 1건과 휴대전화번호 3건)이 확인되었으며, 숫자, 영문 유선전화번호, 계좌번호, 카드번호는 확인되지 않았다. 피심인이 응답 DB를 구축하는 과정에서 장소명, 숫자가 포함된 대화문장을 제거하는 절차를 거쳤으나, 확인된 상세주소와 휴대전화번호의 경우 띄어쓰기 없이 일부 오타가 포함되었거나 숫자를 한글로 기재한 경우였던 것으로 확인되었다.
[위법성 판단(AI 관련 부분에 한함)]
피심인은 학습 DB에 저장된 카카오톡 대화문장 건을 2020. 2.부터 2020. 12.까지 알고리즘을 통해 학습시켜 ’ 이루다‘ 모델을 개발하고, 학습 DB에서 20대 여성이 발화한 대화문장을 추출한 후 실명, 장소명, 숫자/영문, 선정적 표현이라고 보여지는 단어 등이 포함된 대화문장을 반복하여 제거하는 방식으로 ‘이루다’의 응답 DB건을 구축하였으며, 2020. 12. 22. ‘이루다’ 서비스를 시작하여 ‘이루다’ 모델이 응답 DB에서 가장 적절한 대화문장을 선택하여 발화하도록 운영하였다.
가) 개인정보 해당성
먼저, 피심인이 ‘이루다’ 모델 개발을 목적으로 알고리즘 학습 과정에 약 94억 건의 카카오톡 대화문장을 이용한 행위와, 이루다 서비스 운영 시 약 1억 건의 카카오톡 대화문장을 응답 DB로 이용한 행위가 ‘개인정보’를 이용한 것인지 여부를 판단하기 위하여 관련된 법원 판결을 살펴본다.
① 법원 판결 메신저 대화가 일반적으로 개인정보에 해당하는지 여부에 대하여 명시적으로 판단한 대법원 판례는 없으나, 상고심에서 기각되어 그대로 확정된 2심 판결에서(서울고등법원 2017. 8. 30. 2015노1998 판결), 법원은 트위터 정보에는 개인정보에 해당하는 정보와 해당하지 않는 정보가 혼재되어 있을 수 있으므로 전부가 개인정보에 해당한다고 할 수는 없으나, 각 트위터 정보가 개인정보에 해당하는지 사전에 개별적으로 판단하여 「개인정보 보호법」 적용 여부를 달리하는 것은 사실상 불가능한 점과 개인의 일반적인 인격권 및 사생활의 비밀과 자유에 의하여 보장되는 개인정보자기결정권을 두텁게 보호하고자 하는 「개인정보 보호법」의 입법취지까지 고려하여 보면, 결국 트위터 정보를 전체적으로 개인정보로 취급하여 「개인정보 보호법」에 따라 보호하는 것이 타당하다는 취지로 설시한 바 있다. 또한, 해당 판결에서 법원은 ‘다음 아고라’ 게시판의 게시글 정보에는 해당 게시글 작성 시각, 작성자 닉네임, URL 정보, 게시글 제목 및 본문에 관한 정보가 포함되어 있는 점, ‘다음 아고라’ 서비스를 제공하는 회사가 실명 확인이 필요한 포털사이트로서 그 회원들의 실명, 주민등록번호, 아이디, 닉네임 등의 정보를 수집·보관하고 있는 것으로 보이는 점, 닉네임 정보는 그 자체만으로 개인을 식별할 수 있는 정보라 보기 어렵더라도 회사가 보관하고 있는 인적사항에 관한 정보와 결합할 경우 쉽게 개인을 식별할 수 있는 점 등에 비추어 이를 「개인정보 보호법」상의 개인정보라고 판단하였다.
위 판결에서 법원은 트위터 회원가입 시 사용자 이름, 사용자 아이디, 이메일 주소 및 비밀번호 4가지만이 필요하고 실명을 기재할 필요도 없으므로 트위터 정보 전체가 개인정보에 해당한다고 단정할 수는 없다면서도, 실명으로 트위터 활동을 하는 경우나 트윗 또는 리트윗 글이나 팔로워 및 팔로잉 내역 등 다른 트위터 정보와 결합하여 보면 사용자의 사회적 지위, 신분 등을 알 수 있는 경우가 있고 트위터 아이디는 다른 정보와 결합하여 특정 개인을 알아볼 수 있는 정보에 해당할 가능성이 있다는 점을 고려하여 트위터 정보를 전체적으로 개인정보로 취급하여 「개인정보 보호법」에 따라 보호하는 것이 타당하다고 설시하였다.
② 본 건의 경우 위와 같은 법원 판결 및 피심인이 수집한 카카오톡 대화의 특징을 종합하면, 피심인이 이루다 개발 과정에서 알고리즘 학습 과정에 이용한 약 94억 건의 카카오톡 대화문장과, 이루다 서비스 운영 시 이용한 약 1억 건의 카카오톡 대화문장은 개인정보에 해당한다고 판단된다.
피심인의 경우 실명인증된 회원정보를 수집하고 있지는 않으나 이메일 주소 또는 카카오톡·페이스북·Apple 식별자 중 하나와 닉네임, 성별, 출생연도를 수집하고 있으며(‘연애의 과학’ 버전 1.0 기준), 피심인이 수집한 카카오톡 대화는 트위터나 아고라와 같은 게시글 정보와 달리 양 당사자 간의 공개되지 않은 내밀한 대화로 구성되어 있고, 그 내용 안에도 실명과 실제 휴대전화번호 등의 개인정보가 포함되어 있을 가능성이 매우 높으며(송금 완료 메시지를 통해 실명이 확인되고, 학교, 전공, 학년, 휴대전화번호 등이 모두 한 대화 안에 기재되어 있는 사례도 존재하였다), 식별정보 외에 인간관계, 소속 등을 추정할 수 있는 대량의 대화를 통해서도 개인을 알아볼 가능성이 높아 「개인정보 보호법」의 입법취지를 고려할 때 이를 전체적으로 「개인정보 보호법」상 보호되는 개인정보로 보는 것이 타당하다.
비록 피심인이 구축한 학습 DB에는 회원정보 일부(SHA-256 해쉬함수로 일방향 암호화된 회원번호, 성별·나이·대화 상대방과의 관계 정보)와 카카오톡 대화문장만이 저장되어 있으나, ‘텍스트앳’이나 ‘연애의 과학’ 서비스 DB에는 수집한 모든 회원정보와 대화문장이 그대로 저장되어 있으므로, 피심인이 회원번호를 다시 SHA-256 해쉬로 일방향 암호화하는 등의 방법으로 학습 DB와 서비스 DB의 정보를 결합하여 특정 개인의 회원정보를 확인할 수 있는 가능성이 합리적으로 존재한다. 뿐만 아니라, 피심인이 학습 DB 내 특정 대화문장을 서비스 DB 내 대화문장과 비교하는 경우 특정 대화문장을 발화한 이용자를 알아볼 수도 있다. 또한, 피심인이 구축한 응답 DB에 저장된 정보는 발화자에 대한 정보 없이 일반적인 대화문장 약 1억 건이 배열되어 있으나, 20대 여성의 대화로만 구성되어 있고 상세주소 1건, 휴대전화번호 20여 건 등이 포함된 문장이 발견되었으며, 이러한 정보가 포함된 대화문장을 피심인이 관리하고 있는 서비스 DB에서 검색하는 경우 발화자의 회원정보와 전체 카카오톡 대화를 확인할 수 있으므로 이 또한 다른 정보와 쉽게 결합하여 개인을 알아볼 수 있다.
따라서 피심인이 ‘이루다’ 모델 개발을 목적으로 알고리즘 학습 과정에 이용한 약 94억 건의 카카오톡 대화문장과 이루다 서비스 운영 시 이용한 약 1억 건의 카카오톡 대화문장은 「개인정보 보호법」상 보호되는 개인정보에 해당한다.
나) 수집 목적 내 이용에 해당하는지 여부
피심인은 2020. 2. 18. ~ 2021. 1. 12. ‘이루다’ 모델 개발을 위한 알고리즘 학습 과정에서 이용자 명의 카카오톡 대화문장 건을 이용하고, 이 중 건의 카카오톡 대화문장을 이루다 운영에 이용하였다. 앞서 살펴본 바와 같이 피심인이 이용한 대화문장은 「개인정보 보호법」상 개인정보에 해당하므로 제18조제1항에 따라 동의 받은 범위 등을 초과하여 이용하거나 제공하여서는 아니 된다.
이와 관련하여, 피심인은 이용자로부터 ‘분석의 대상이 되는 메시지’를 ‘신규 서비스 개발’ 목적으로 이용한다는 점에 대해 동의를 받았고, 대법원 2018. 7. 12. 선고 2016두551178 판결에서 수집 목적 내 이용인지 여부를 판단하는 기준으로 이용자 의사와 합치되는지 여부, 이용자의 예상가능성, 이용자가 불측의 손해를 입을 우려 등이 고려되어야 한다고 판시하였는데, 이 판결에서 제시한 기준에 의하면 피심인이 수집 목적 범위 내에서 개인정보를 이용한 것이라고 주장한다.
그러나 ‘텍스트앳’과 ‘연애의 과학’ 서비스 개인정보처리방침에 서비스 이용 과정에서 ‘분석의 대상이 되는 메시지’를 수집한다는 점과 개인정보의 수집 및 이용 목적으로는 ‘신규 서비스 개발’이 명시되어 있다는 이유만으로, 이용자가 ‘이루다’와 같은 기존 서비스와 전혀 다른 신규 서비스의 개발과 서비스 운영에 자신의 개인정보가 이용될 것을 예상하고 이에 동의하였다고 보기 어렵다. 뿐만 아니라, 피심인은 개인정보처리방침에 대하여 이용자가 로그인하는 경우 동의하는 것으로 간주하고 서비스를 이용하도록 하는 등의 방법으로 동의를 받고 있는데 이 같은 방식으로는 정보주체가 ‘신규 서비스 개발’ 목적의 처리에 동의한다는 사실을 명확히 인지할 수 없었을 것으로 보인다. 따라서 ‘이루다’ 개발·운영과 같은 신규 서비스 개발 목적으로 개인정보를 이용하는 것이 이용자의 의사에 합치된다고 보기는 어렵다.
더욱이, ‘신규 서비스 개발’이라는 기재만으로 ‘텍스트앳’이나 ‘연애의 과학’ 앱에서 수집된 카카오톡 대화가 ‘이루다’라는 서비스 성격, 기반 플랫폼, 이용 대상이 본질적으로 다른 페이스북 기반의 챗봇의 개발·운영에 이용될 것이라는 점을 이용자가 예상할 수 있다고 보기 어렵다. 또한, 피심인이 카카오톡 대화를 ‘이루다’ 개발·운영에 이용한 것이 이용자에게 이익이 되거나 공동의 이익이 되는 행위에 해당하지 않고 오히려 개인정보가 예상치 못한 방법으로 처리되어 이용자의 개인정보 자기결정권이 제한되는 등 이용자가 예측할 수 없는 손해를 입을 우려를 배제할 수 없다.
결국, 이용자 의사와의 합치성, 이용자의 예상가능성, 이용자가 불측의 손해를 입을 우려 등을 고려할 때, 피심인이 개인정보처리방침에 ‘신규 서비스 개발’을 기재한 것만으로 ‘이루다’ 개발·운영에 개인정보를 이용하는 것까지 허용된다고 할 수 없고, 피심인이 이용자로부터 동의 받은 목적 내에서 개인정보를 이용한 것이라고 할 수는 없다.
한편, 「개인정보 보호법」 제15조제3항에 따르면 당초 수집 목적과 합리적으로 관련된 범위에서 정보주체의 불이익, 안전성 확보조치 등을 고려하여 대통령령으로 정하는 바에 따라 정보주체의 동의 없이 개인정보의 추가적인 이용이 허용되고, 같은 법 시행령 제14조의2제1항에 따라 개인정보의 추가적인 이용을 하려는 경우 당초 수집 목적과 관련성, 예측 가능성, 정보주체의 이익을 부당하게 침해하는지 여부, 가명처리·암호화 등 안전성 확보에 필요한 조치를 하였는지 여부가 고려되어야 한다. 그러나 ‘텍스트앳’과 ‘연애의 과학’ 등의 당초 수집 목적과 ‘이루다’ 개발·운영은 서비스 성격, 기반 플랫폼, 이용 대상 등을 고려할 때 그 성질이나 경향 등 연관성이 부족하여 당초 수집 목적과 관련성을 인정하기 어렵고, 이루다 개발과 운영에 추가적으로 이용하는 것에 대한 이용자의 예측 가능성이 낮아 정보주체에게 불이익이 발생할 우려도 있다. 따라서 본 사안이 「개인정보 보호법」 제15조제3항에 따라 합리적으로 관련된 범위에서 추가적인 이용이 허용되는 경우라고 보기도 어렵다.
또한, 피심인은 개인정보처리방침에 ‘신규 서비스 개발’ 목적을 명시한 것 외에 카카오톡 대화문장을 이루다 학습과 운영을 위하여 이용하는 것에 대해 이용자로부터 별도의 동의를 받은 사실도 없으므로, 피심인은 개인정보를 수집한 목적 범위를 초과하여 이용한 것으로서 「개인정보 보호법」 제18조제1항을 위반한 것이다.
다) 가명정보 처리 특례 규정이 적용되는지 여부
피심인은 본 건 학습 DB에 저장된 정보는 이용자를 식별할 수 있는 ‘회원번호’ 가 일방향 암호화되었으므로 추가 정보 없이는 특정 개인을 알아볼 수 없는 가명정보에 해당하고, 응답 DB에 저장된 정보는 익명정보나 가명정보에 해당하므로 이용자의 동의 없이 AI 개발을 위한 학습 및 서비스 운영에 가명정보나 익명정보가 이용될 수 있다고 주장한다.
2020. 8. 5부터 시행된 현행 「개인정보 보호법」에 따르면 개인정보처리자는 통계작성, 과학적 연구, 공익적 기록보존 등을 위하여 정보주체의 동의 없이 가명정보를 처리할 수 있다. 여기서 ‘과학적 연구’는 ‘기술 개발과 실증, 기초연구, 응용연구 및 민간 투자 연구 등 과학적 방법을 적용하는 연구’를 말하고(「개인정보 보호법」 제2조제8호), 새로운 기술·제품·서비스 개발 등 산업적 목적을 위해서도 수행이 가능하다(‘개인정보 보호 법령 및 지침·고시 해설’ 222쪽 참조). 그러나 과학적 연구 등을 위하여 정보주체의 동의 없이 처리할 수 있는 것은 ‘가명정보’이고, ‘가명정보’는 ‘가명처리함으로써 원래의 상태로 복원하기 위한 추가 정보의 사용ㆍ결합 없이는 특정 개인을 알아볼 수 없는 정보’를 의미하므로(「개인정보 보호법」 제2조제1호다목), 개인정보처리자가 과학적 연구 등을 목적으로 가명정보를 처리하기 위해서는 개인정보의 일부를 삭제하거나 일부 또는 전부를 대체하는 등의 방법으로 추가 정보가 없이는 특정 개인을 알아볼 수 없도록 개인정보를 가명처리하여야 한다(「개인정보 보호법」 제2조제1호의2).
본 건에서, ‘이루다’ 개발에 이용된 학습 DB의 경우, 일부 회원정보가 제외되고 회원번호는 일방향 암호화된 채 성별·나이·대화 상대방과의 관계 정보와 카카오톡 대화문장만이 포함되어 있으나, 피심인은 카카오톡 대화문장에 대해서 개인정보의 일부를 삭제하거나 일부 또는 전부를 대체하는 등의 처리를 하지 아니하였다. 본 건에서 피심인이 이용한 약 94억 건의 카카오톡 대화문장은 개인정보에 해당하나, 피심인은 이에 대하여 추가 정보의 사용ㆍ결합 없이는 특정 개인을 알아볼 수 없도록 가명처리하는 노력이나 의도가 없었던 것으로 보인다. 따라서 이를 「개인정보 보호법」상 가명정보에 해당한다고 할 수 없으므로, 가명정보 처리 목적이 과학적 연구에 해당한다고 하더라도 제28조의2에 규정된 가명정보 처리 특례 규정을 적용할 수는 없다고 보아야 한다.
한편, ‘이루다’ 서비스 운영에 이용된 응답 DB의 경우, 여러 단계에 걸쳐 이름, 주소, 숫자, 영문자 등을 제외하는 절차를 거친 것이므로 가명처리한 것으로 인정될 여지가 있으나, 과학적 연구는 기술 개발과 실증, 기초연구, 응용연구 및 민간 투자 연구 등 과학적 방법을 적용하는 ‘연구’를 의미하고 응답 DB에 포함된 카카오톡 대화문장을 일반 이용자에게 그대로 발화되도록 서비스하는 행위는 과학적인 연구를 위한 것이라고 할 수 없어 「개인정보 보호법」 제28조의2에 규정된 가명정보 처리 특례 규정을 적용할 수 없다.
라) 소결
본 사안의 경우, 동의 받은 수집 목적 내의 개인정보 처리라고 할 수 없고, 가명정보 처리 특례 규정을 적용할 수 있는 사안에도 해당하지 않으므로, 피심인이 ‘이루다’ 개발·운영에 카카오톡 대화문장을 이용하기 위해서는 해당 대화문장을 개인정보가 아닌 익명정보로 처리하였어야 한다. 그러나 앞서 살펴본 바와 같이 학습 DB에 저장된 약 94억 건의 카카오톡 대화문장과 응답 DB에 저장된 약 1억 건의 카카오톡 대화문장은 익명정보가 아닌 개인정보에 해당한다. 따라서 피심인이 2020. 2. 18. ~ 2021. 1. 12. ‘이루다’ 모델 개발을 위한 알고리즘 학습 과정에 이용자 명의 카카오톡 대화문장 건을 이용하고, 이 중 건의 카카오톡 대화문장을 ‘이루다’ 서비스 운영에 이용한 것은 개인정보를 수집한 목적 범위를 초과하여 이용한 것으로서 「개인정보 보호법」 제18조제1항을 위반한 것이다.