7.10.
LLM10_모델도용(Model Theft)
새 탭 열기
작성 이력 보기

생성자

기여자

설명

이 항목은 악의적인 행위자 또는 APT에 의한 LLM 모델의 무단 액세스 및 유출을 나타냅니다. 이는 독점 LLM 모델(귀중한 지적 재산)이 손상되거나 물리적으로 도난당하거나 복사되거나 가중치 및 매개변수가 추출되어 기능적으로 동등한 모델을 생성할 때 발생합니다. LLM 모델 도용의 영향에는 경제적 및 브랜드 평판 손실, 경쟁 우위의 침식, 모델의 무단 사용 또는 모델에 포함된 민감한 정보에 대한 무단 액세스가 포함될 수 있습니다.

언어 모델이 점점 더 강력해지고 보편화됨에 따라 LLM 도난은 심각한 보안 문제를 나타냅니다. 조직과 연구자는 LLM 모델을 보호하기 위해 강력한 보안 조치의 우선순위를 정하고 지적 재산의 기밀성과 무결성을 보장해야 합니다. 액세스 제어, 암호화 및 지속적인 모니터링을 포함하는 포괄적인 보안 프레임워크를 사용하는 것은 LLM 모델 도난과 관련된 위험을 완화하고 LLM에 의존하는 개인과 조직 모두의 이익을 보호하는 데 중요합니다.

취약점의 일반적인 예

공격자는 회사 인프라의 취약성을 악용하여 네트워크 또는 애플리케이션 보안 설정의 잘못된 구성을 통해 LLM 모델 저장소에 대한 무단 액세스를 얻습니다.
불만을 품은 직원이 모델 또는 관련 아티팩트를 유출하는 내부자 위협 시나리오입니다.
공격자는 신중하게 제작된 입력과 프롬프트 주입 기술을 사용하여 모델 API를 쿼리하여 섀도우 모델을 생성하는 데 충분한 수의 출력을 수집합니다.
악의적인 공격자는 LLM의 입력 필터링 기술을 우회하여 부채널 공격을 수행하고 궁극적으로 원격 제어 리소스에 대한 모델 가중치 및 아키텍처 정보를 수집할 수 있습니다.
모델 추출을 위한 공격 벡터에는 특정 주제에 대한 많은 수의 프롬프트가 포함된 LLM 쿼리가 포함됩니다. 그런 다음 LLM의 출력을 사용하여 다른 모델을 미세 조정할 수 있습니다. 그러나 이 공격에 대해 주의해야 할 몇 가지 사항이 있습니다.
- 공격자는 다수의 표적 프롬프트를 생성해야 합니다. 프롬프트가 충분히 구체적이지 않으면 LLM의 출력은 쓸모가 없습니다.
- LLM의 출력에는 때때로 환각적인 답변이 포함될 수 있습니다. 즉, 출력 중 일부가 무의미할 수 있으므로 공격자가 전체 모델을 추출하지 못할 수도 있습니다.
  - 모델 추출을 통해 LLM을 100% 복제하는 것은 불가능합니다. 그러나 공격자는 부분 모델을 복제할 수 있습니다.
기능 모델 복제 에 대한 공격 벡터에는 프롬프트를 통해 대상 모델을 사용하여 합성 교육 데이터를 생성한 다음("자기 지시"라는 접근 방식) 이를 사용하고 또 다른 기본 모델을 미세 조정하여 기능적으로 동등한 것을 생성하는 작업이 포함됩니다. 이는 예제 5에서 사용된 기존 쿼리 기반 추출의 한계를 우회하고 LLM을 사용하여 다른 LLM을 교육하는 연구에 성공적으로 사용되었습니다. 이 연구의 맥락에서 모델 복제는 공격이 아닙니다. 이 접근 방식은 공격자가 공개 API를 통해 독점 모델을 복제하는 데 사용될 수 있습니다.

훔친 모델을 섀도우 모델로 사용하면 모델 내에 포함된 민감한 정보에 대한 무단 액세스를 포함하여 적대적 공격을 준비하거나 적대적 입력을 탐지하지 않고 실험하여 고급 프롬프트 주입을 추가 단계로 진행할 수 있습니다.

예방 및 완화 전략

강력한 액세스 제어(EG, RBAC 및 최소 권한 규칙)와 강력한 인증 메커니즘을 구현하여 LLM 모델 리포지토리 및 교육 환경에 대한 무단 액세스를 제한합니다.
1. 이는 악의적인 행위자가 내부 또는 내부에서 침투할 수 있는 LLM 모델, 가중치 및 아키텍처를 수용하는 인프라에 대한 내부 위협, 잘못된 구성 및/또는 약한 보안 제어로 인해 이 취약성을 유발할 수 있는 처음 세 가지 일반적인 예의 경우 특히 그렇습니다. 환경 외부.
2. 공급업체 관리 추적, 확인 및 종속성 취약성은 공급망 공격 악용을 방지하는 데 중요한 중점 주제입니다.
네트워크 리소스, 내부 서비스 및 API에 대한 LLM의 액세스를 제한합니다.
1. 이는 내부 위험과 위협을 다루면서 궁극적으로 LLM 응용 프로그램이 " 액세스할 수 있는 " 항목을 제어하므로 부채널 공격을 방지하기 위한 메커니즘 또는 예방 단계가 될 수 있으므로 모든 일반적인 예에 특히 해당됩니다.
프로덕션에 사용되는 ML 모델에 대해 중앙 집중식 ML 모델 인벤토리 또는 레지스트리를 사용합니다. 중앙 집중식 모델 레지스트리를 사용하면 거버넌스의 좋은 기반이 되는 액세스 제어, 인증, 모니터링/로깅 기능을 통해 ML 모델에 대한 무단 액세스를 방지할 수 있습니다. 중앙 집중식 저장소를 갖는 것은 규정 준수, 위험 평가 및 위험 완화를 위해 모델에서 사용되는 알고리즘에 대한 데이터를 수집하는 데에도 유용합니다.
LLM 모델 리포지토리와 관련된 액세스 로그 및 활동을 정기적으로 모니터링하고 감사하여 의심스럽거나 승인되지 않은 동작을 즉시 감지하고 대응합니다.
거버넌스, 추적 및 승인 워크플로를 통해 MLOps 배포를 자동화하여 인프라 내 액세스 및 배포 제어를 강화합니다.
부채널 공격을 유발하는 즉각적인 주입 기술의 위험을 완화 및|또는 줄이기 위한 제어 및 완화 전략을 구현합니다.
적용 가능한 경우 API 호출의 속도 제한 및|또는 LLM 애플리케이션에서 데이터 유출 위험을 줄이기 위해 필터링하거나 다른 모니터링 시스템에서 추출 활동을 감지(EG, DLP)하는 기술을 구현합니다.
추출 쿼리를 감지하고 물리적 보안 조치를 강화하는 데 도움이 되는 적대적 견고성 교육을 구현합니다.
LLM 수명주기의 삽입 및 감지 단계에 워터마킹 프레임워크를 구현합니다.

공격 시나리오 예

공격자는 회사 인프라의 취약성을 악용하여 LLM 모델 저장소에 대한 무단 액세스 권한을 얻습니다. 공격자는 귀중한 LLM 모델을 추출하고 이를 사용하여 경쟁 언어 처리 서비스를 시작하거나 민감한 정보를 추출하여 원래 회사에 심각한 재정적 피해를 입힙니다.
불만을 품은 직원이 모델이나 관련 아티팩트를 유출합니다. 이 시나리오가 공개적으로 노출되면 공격자가 그레이박스 적대 공격에 대한 지식을 늘리거나 사용 가능한 속성을 직접 훔칠 수 있습니다.
공격자는 신중하게 선택된 입력으로 API를 쿼리하고 섀도우 모델을 생성하기에 충분한 수의 출력을 수집합니다.
공급망 내에 보안 제어 실패가 존재하며 독점 모델 정보의 데이터 유출로 이어집니다.
악의적인 공격자는 입력 필터링 기술과 LLM의 프리앰블을 우회하여 부채널 공격을 수행하고 자신이 제어하는 원격 제어 리소스에 대한 모델 정보를 검색합니다.

참조 링크