설명
LLM 응용 프로그램은 출력을 통해 민감한 정보, 독점 알고리즘 또는 기타 기밀 세부 정보를 공개할 가능성이 있습니다. 이로 인해 민감한 데이터, 지적 재산, 개인 정보 침해 및 기타 보안 위반에 대한 무단 액세스가 발생할 수 있습니다. LLM 응용 프로그램의 소비자는 LLM과 안전하게 상호 작용하는 방법을 알고 의도치 않게 중요한 데이터를 입력하는 것과 관련된 위험을 식별하는 것이 중요합니다. 이 데이터는 나중에 LLM에서 다른 곳의 출력으로 반환될 수 있습니다.
이러한 위험을 완화하려면 LLM 애플리케이션은 사용자 데이터가 교육 모델 데이터에 입력되지 않도록 적절한 데이터 삭제를 수행해야 합니다. 또한 LLM 응용 프로그램 소유자는 소비자가 자신의 데이터가 처리되는 방식과 자신의 데이터가 교육 모델에 포함되지 않도록 선택 해제할 수 있는 기능을 알 수 있도록 적절한 사용 약관 정책을 마련해야 합니다.
소비자-LLM 애플리케이션 상호 작용은 클라이언트->LLM 입력 또는 LLM->클라이언트 출력을 본질적으로 신뢰할 수 없는 양방향 신뢰 경계를 형성합니다. 이 취약성은 위협 모델링 연습, 인프라 보안 및 적절한 샌드박싱과 같은 특정 전제 조건이 범위를 벗어났다고 가정한다는 점에 유의하는 것이 중요합니다. LLM이 반환해야 하는 데이터 유형에 대해 시스템 프롬프트 내에 제한을 추가하면 민감한 정보 공개를 어느 정도 완화할 수 있지만, LLM의 예측할 수 없는 특성으로 인해 이러한 제한이 항상 준수되는 것은 아니며 프롬프트 입력이나 기타 벡터를 통해 회피될 수 있습니다.
취약점의 일반적인 예
- LLM 응답에서 민감한 정보를 불완전하거나 부적절하게 필터링합니다.
- LLM 교육 과정에서 민감한 데이터를 과도하게 맞추거나 기억합니다.
- LLM의 잘못된 해석, 데이터 스크러빙 방법의 부족 또는 오류로 인해 기밀 정보가 의도치 않게 공개되었습니다.
예방 및 완화 전략
- 적절한 데이터 삭제 및 스크러빙 기술을 통합하여 사용자 데이터가 교육 모델 데이터에 입력되는 것을 방지합니다.
- 모델이 오염되는 것을 방지하기 위해 잠재적인 악성 입력을 식별하고 필터링하는 강력한 입력 검증 및 삭제 방법을 구현합니다.
- 데이터로 모델을 강화하고 모델을 미세 조정하는 경우 : (IE, 배포 전이나 배포 중에 모델에 데이터가 입력됨)
- 미세 조정 데이터에서 중요하다고 간주되는 모든 항목은 사용자에게 공개될 가능성이 있습니다. 따라서 최소 권한 규칙을 적용하고 가장 높은 권한을 가진 사용자가 액세스할 수 있지만 더 낮은 권한을 가진 사용자에게 표시될 수 있는 정보에 대해 모델을 교육하지 마세요.
- 외부 데이터 소스(런타임 시 데이터 조정)에 대한 액세스는 제한되어야 합니다.
- 외부 데이터 소스에 엄격한 액세스 제어 방법을 적용하고 안전한 공급망을 유지하기 위한 엄격한 접근 방식을 적용합니다.
공격 시나리오 예
- 의심하지 않는 합법적인 사용자 A는 악의적이지 않은 방식으로 LLM 응용 프로그램과 상호 작용할 때 LLM을 통해 다른 특정 사용자 데이터에 노출됩니다.
- 사용자 A는 LLM의 입력 필터 및 삭제를 우회하여 애플리케이션의 다른 사용자에 대한 민감한 정보(PII)를 공개하도록 잘 만들어진 프롬프트 세트를 목표로 합니다.
- PII와 같은 개인 데이터는 사용자 자신의 부주의나 LLM 애플리케이션으로 인해 훈련 데이터를 통해 모델로 유출됩니다. 이 경우 위의 시나리오 1 또는 2의 영향이 증가할 수 있습니다.
참조 링크
- AI 데이터 유출 위기: 회사 비밀이 ChatGPT에 제공되는 것을 방지하는 새로운 도구 : Fox Business
- ChatGPT의 삼성 유출에서 얻은 교훈 : Cybernews
- Cohere - 이용약관 Cohere
- 위협 모델링 사례 : AI Village
- OWASP AI 보안 및 개인정보 보호 가이드 : OWASP AI 보안 및 개인정보 보호 가이드
- 대규모 언어 모델의 보안 보장 : 전문가 교류