5.3.
LLM03_데이터 및 모델 오염(중독)(Data Model Poisoning)
새 탭 열기
작성 이력 보기

생성자

기여자

설명

모든 기계 학습 접근 방식의 출발점은 훈련 데이터, 간단히 말해 "원시 텍스트"입니다. 뛰어난 능력(예: 언어 및 세계 지식 보유)을 갖추려면 이 텍스트가 광범위한 영역, 장르 및 언어를 포괄해야 합니다. 대규모 언어 모델은 심층 신경망을 사용하여 훈련 데이터에서 학습된 패턴을 기반으로 출력을 생성합니다.

데이터 및 모델 중독(Data and Model Poisoning)은 모델의 보안, 효율성 또는 모델의 보안을 손상시킬 수 있는 취약성(모두 고유하고 때로는 공유되는 공격 벡터를 가짐), 백도어 또는 편향을 도입하기 위해 사전 훈련 데이터 또는 미세 조정 또는 임베딩 프로세스와 관련된 데이터를 조작하는 것을 말합니다. 윤리적 행동. 유해한 정보는 사용자에게 노출되거나 성능 저하, 다운스트림 소프트웨어 악용 및 평판 손상과 같은 다른 위험을 초래할 수 있습니다. 사용자가 문제가 있는 AI 출력을 불신하더라도 모델 기능 저하 및 브랜드 평판에 대한 잠재적인 손상을 포함한 위험은 여전히 남아 있습니다.

사전 훈련 데이터는 작업이나 데이터 세트를 기반으로 모델을 훈련하는 프로세스를 의미합니다.
미세 조정에는 이미 훈련된 기존 모델을 선별된 데이터세트를 사용하여 훈련함으로써 더 좁은 주제나 더 집중된 목표에 적응시키는 것이 포함됩니다. 이 데이터 세트에는 일반적으로 입력 및 해당하는 원하는 출력의 예가 포함됩니다.
임베딩 프로세스는 범주형 데이터(종종 텍스트)를 언어 모델을 훈련하는 데 사용할 수 있는 숫자 표현으로 변환하는 프로세스입니다. 임베딩 프로세스에는 텍스트 데이터의 단어나 구를 연속 벡터 공간의 벡터로 표현하는 작업이 포함됩니다. 벡터는 일반적으로 대규모 텍스트 모음에 대해 훈련된 신경망에 텍스트 데이터를 공급하여 생성됩니다.

훈련 데이터를 조작하면 모델이 올바른 예측을 출력하는 능력에 영향을 주기 때문에 데이터 중독은 무결성 공격으로 간주됩니다. 당연히 외부 데이터 소스는 모델 작성자가 데이터를 제어할 수 없거나 콘텐츠에 편견, 위조된 정보 또는 부적절한 콘텐츠가 포함되어 있지 않다는 높은 수준의 확신이 없기 때문에 위험이 더 높습니다.

취약점의 일반적인 예

악의적인 행위자 또는 경쟁사 브랜드는 모델의 사전 학습, 미세 조정 데이터 또는 임베딩을 표적으로 하는 부정확하거나 악의적인 문서를 의도적으로 생성합니다. 예시를 위해 분할 뷰 데이터 중독 및 선행 중독 공격 벡터를 모두 고려하십시오 .
1. 피해자 모델은 소비자에게 생성되는 AI 프롬프트의 출력에 반영된 위조된 정보를 사용하여 훈련합니다.
악의적인 행위자는 후속 출력에서 반환되는 모델의 훈련 프로세스에 위조되거나 편향되거나 유해한 콘텐츠를 직접 주입할 수 있습니다.
의심하지 않는 사용자가 후속 출력에서 반환되는 모델의 훈련 프로세스에 민감하거나 독점적인 데이터를 간접적으로 주입하고 있습니다.
모델은 학습 단계 예시에서 소스, 출처 또는 콘텐츠가 확인되지 않은 데이터를 사용하여 학습됩니다. 이는 데이터가 오염되거나 부정확할 경우 잘못된 결과를 초래할 수 있습니다.
무제한 인프라 액세스 또는 부적절한 샌드박싱으로 인해 모델이 안전하지 않은 교육 데이터를 수집하여 편향되거나 유해한 결과를 초래할 수 있습니다. 이 예는 훈련 단계 예에도 있습니다.
1. 이 시나리오에서는 모델에 대한 사용자 입력이 다른 사용자에 대한 출력에 반영될 수 있으며(위반으로 이어짐), LLM 사용자는 모델의 유형에 따라 부정확하거나 관련이 없거나 유해한 출력을 받을 수 있습니다. 모델 사용 사례와 비교하여 수집된 데이터(일반적으로 모델 카드에 반영됨)

LLM의 개발자, 클라이언트 또는 일반 소비자 여부에 관계없이, 훈련 절차를 기반으로 모델 출력의 적법성을 이해하기 위해 비독점 LLM과 상호 작용할 때 이 취약점이 LLM 응용 프로그램 내의 위험을 어떻게 반영할 수 있는지에 대한 의미를 이해하는 것이 중요합니다. . 마찬가지로, LLM 개발자는 미세 조정 및 삽입(가장 일반적임)에 사용되는 내부 또는 제3자 데이터에 대한 직간접적인 공격을 받을 위험에 처할 수 있으며, 결과적으로 모든 소비자에게 위험을 초래합니다.

예방 및 완화 전략

특히 외부에서 소싱된 경우 학습 데이터의 공급망을 확인하고 "ML-BOM"(기계 학습 재료 명세서) 방법론을 통해 증명을 유지하며 모델 카드를 확인합니다.
사전 학습, 미세 조정 및 임베딩 단계에서 얻은 데이터와 대상 데이터 소스의 올바른 적법성을 확인합니다.
LLM의 사용 사례와 LLM이 통합될 애플리케이션을 확인하세요. 별도의 훈련 데이터를 통해 다양한 모델을 제작하거나 다양한 사용 사례에 대한 미세 조정을 통해 정의된 사용 사례에 따라 더욱 세부적이고 정확한 생성 AI 출력을 생성합니다.
모델이 기계 학습 결과를 방해할 수 있는 의도하지 않은 데이터 소스를 긁어내는 것을 방지하기 위해 네트워크 제어를 통해 충분한 샌드박싱이 있는지 확인하세요.
위조된 데이터의 양을 제어하려면 특정 학습 데이터 또는 데이터 소스 카테고리에 대해 엄격한 심사 또는 입력 필터를 사용하세요. 통계적 이상값 탐지 및 이상 탐지 방법과 같은 기술을 사용하여 잠재적으로 미세 조정 프로세스에 입력되는 적대적인 데이터를 탐지하고 제거하는 데이터 삭제.
모델이 오염되지 않았는지 확인하기 위해 데이터 세트의 소스 및 소유권에 대한 제어 질문을 정교하게 작성하고 이 문화를 "MLSecOps" 주기에 채택합니다. 예를 들어 Foundation Model Transparency Index 또는 Open LLM Leaderboard 와 같은 사용 가능한 리소스를 참조하십시오 .
DVC( 데이터 버전 제어) 를 사용하면 조작, 삭제 또는 추가되어 중독으로 이어질 수 있는 데이터 세트의 일부를 엄격하게 식별하고 추적할 수 있습니다.
벡터 데이터베이스를 사용하여 사용자 제공 정보를 추가하면 다른 사용자를 중독으로부터 보호하고 새 모델을 재교육할 필요 없이 생산 단계에서 문제를 해결할 수도 있습니다.
이상값의 영향을 최소화하기 위한 연합 학습 및 제약 조건과 같은 적대적 견고성 기술 또는 훈련 데이터의 최악의 교란에 대비하여 적대적 훈련을 강화합니다.
1. "MLSecOps" 접근 방식은 자동 중독 기술을 사용하여 훈련 수명 주기에 대한 적대적 견고성을 포함하는 것일 수 있습니다.
2. 이에 대한 예시 저장소는 콘텐츠 주입 공격("(모델 응답에서 브랜드 이름 홍보 시도") 및 거부 공격("항상 모델이 응답을 거부하도록 만들기")과 같은 공격을 모두 포함하는 Autopoison 테스트입니다. 이 접근 방식으로.
테스트 및 탐지: 훈련 단계에서 손실을 측정하고 훈련된 모델을 분석하여 특정 테스트 입력에 대한 모델 동작을 분석함으로써 중독 공격의 징후를 탐지합니다.
임계값을 초과하는 편향된 응답 수를 모니터링하고 경고합니다.
응답 및 감사를 검토하기 위해 휴먼 루프를 사용합니다.
바람직하지 않은 결과에 대한 벤치마킹을 위해 전용 LLM을 구현하고 강화 학습 기술을 사용하여 다른 LLM을 교육합니다 .
LLM 기반 레드팀 연습 또는 LLM 수명주기의 테스트 단계에 대한 LLM 취약성 검색을 수행합니다.

공격 시나리오 예

LLM 생성 AI 프롬프트 출력은 애플리케이션 사용자를 오도하여 편향된 의견, 추종자 또는 더 나쁜 증오 범죄 등으로 이어질 수 있습니다.
학습 데이터가 올바르게 필터링 및/또는 삭제되지 않으면 애플리케이션의 악의적인 사용자가 편향되고 잘못된 데이터에 적응하기 위해 모델에 영향을 미치고 독성 데이터를 주입하려고 시도할 수 있습니다.
악의적인 행위자 또는 경쟁자는 입력을 기반으로 동시에 모델을 훈련하는 모델의 훈련 데이터를 표적으로 하는 부정확하거나 악의적인 문서를 의도적으로 생성합니다. 피해자 모델은 소비자에게 생성되는 AI 프롬프트의 출력에 반영된 위조된 정보를 사용하여 훈련합니다.
LLM 애플리케이션 입력 클라이언트를 사용하여 모델을 훈련할 때 충분한 정리 및 필터링이 수행되지 않으면 취약점 프롬프트 주입이 이 취약점에 대한 공격 벡터가 될 수 있습니다. IE의 경우 프롬프트 주입 기술의 일부로 클라이언트에서 모델에 악의적이거나 위조된 데이터가 입력되면 이는 본질적으로 모델 데이터에 반영될 수 있습니다.

참조 링크

스탠포드 연구 논문:CS324 : 스탠포드 연구
데이터 중독 공격이 머신러닝 모델을 손상시키는 방법 : CSO 온라인
MITRE ATLAS(프레임워크) Tay Poisoning : MITRE ATLAS
PoisonGPT: 가짜 뉴스를 퍼뜨리기 위해 Hugging Face에 뇌엽절단 LLM을 숨긴 방법 : Mithril Security
내 PDF 삽입: 이력서에 대한 신속한 삽입 : Kai Greshake
언어 모델에 대한 백도어 공격 : 데이터 과학을 향하여
교육 중 언어 모델 중독 : Arxiv 백서
FedMLSecurity:arXiv:2306.04959 : Arxiv 백서
ChatGPT 중독 : 소프트웨어 위기 블로그
웹 규모 교육 데이터 세트 중독 - Nicholas Carlini | Stanford MLSys #75 : YouTube 비디오
OWASP CycloneDX v1.5 : OWASP CycloneDX

최근 작성일시: 2024년 6월 15일

지금 회원가입하고 법률레터 받아보세요!

5.3.LLM03_데이터 및 모델 오염(중독)(Data Model Poisoning)새 탭 열기작성 이력 보기

5.3.
LLM03_데이터 및 모델 오염(중독)(Data Model Poisoning)
새 탭 열기
작성 이력 보기