AI

[AI] LLM OWASP 04 : 데이터 및 모델 오염

poiri3r 2026. 3. 6. 20:22

https://owasp.org/www-chapter-seoul/assets/files/LLMAll_ko-KR-2025-04-02.pdf

 

데이터 오염은 사전 학습, 미세 조정 또는 임베딩 데이터가 조작되어 취약점, 백도어 또는 편향성이 발생하는 경우를 말합니다.

데이터 오염은 LLM 수명 주기의 여러 단계를 대상으로 하는데, 사전 학습(일반 데이터로의 학습), 미세 조정(특정 작업에 모델 적용), 임베딩(텍스트를 수치 벡터로 변환)등이 포함됩니다. 데이터 오염은 무결성 공격으로 감증되며, 검증되지 않거나 악의적인 콘텐츠를 포함하는 외부 데이터 소스를 사용할 때 위험이 큽니다.

 

공유 저장소나 오픈소스 플랫폼을 통해 배포되는 모델은 악성 피클링과 같은 기술을 통해 인젝션 된 멀웨어 등 데이터 오염을 넘어선 위험을 가질 수 있으며, 모델이 로드될 때 유해한 코드를 실행할 수 있습니다

(*악성 피클링이란 파이썬의 객체 직렬화 모듈인 pickles 모듈을 이용하여 공격자의 코드를 대상 서버에서 실행하는 RCE 공격의 일종입니다)

또한 오염을 통해서 백도어가 구현될 수 있는데, 이러한 백도어는 특정 트리거가 발생하기 전까지는 모델의 동작을 유지하기에 변화를 테스트하고 감지하기 어렵습니다.

 

일반적 취약점 예시 

1. 악의적인 행위자들이 학습 과정에서 유해한 데이터를 인젝션하여 편향된 출력을 유도합니다.
   "Split-View Data Poisoning" 또는 "Frontrunning Poisoning"과 같은 기술들은 모델 학습 역학을 악용하여 이를 달성합니다.

2. 공격자들은 학습 과정에 유해한 콘텐츠를 직접 인젝션하여 모델의 출력 품질을 손상시킬 수 있습니다.

3. 이용자들이 상호작용 중에 민감하거나 독점적인 정보를 무의식적으로 인젝션할 수 있으며, 이는 후속 출력에서 유출될 수 있습니다.

4. 검증되지 않은 학습 데이터는 편향되거나 잘못된 출력의 위험을 증가시킵니다.

5. 리소스 접근 제한의 부재로 인해 안전하지 않은 데이터의 유입이 허용될 수 있으며, 이는 편향된 출력을 초래할 수 있습니다.

 

공격 시나리오 예시입니다.

공격 시나리오

시나리오 #1 : 공격자가 학습 데이터를 조작하거나 프롬프트 인젝션을 활용하여 모델의 출력을 편향시켜 잘못된 정보를 확산시킵니다.

시나리오 #2 : 적절한 필터링 없이 유해 데이터가 사용되면 유해하거나 편향된 출력이 발생하여 위험한 정보가 전파될 수 있습니다.

시나리오 #3 : 악의적인 행위자가 학습용 위조 문서를 생성하여, 이러한 부정확성이 모델 출력에 반영되는 결과를 초래합니다.

시나리오 #4 : 공격자가 오염 기술을 사용하여 모델에 백도어 트리거를 인젝션합니다. 이로 인해 인증 우회, 데이터 유출 또는 숨겨진 명령 실행에 취약해질 수 있습니다.

 

데이터 오염을 완화시키기 위한 방법은 다음과 같습니다.

1. OWSP CyloneDX와 같은 도구를 사용하여 데이터의 출처와 변환을 추적하여, Dyana와 같은 도구를 활용하여 타사 소프트웨어의 동적 분석을 수행합니다. 또한 모든 모델 개발 단계에서 데이터의 정당성을 검증해야 합니다.

2. 데이터 공급업체를 엄격하게 검증하고, 신뢰할 수 있는 소스와 모델 출력을 비교하여 오염의 징후를 감지합니다.

3. 엄격한 샌드박싱을 구현하여, 검증되지 않은 데이터 소스에 대한 모델 유출을 제한합니다. 이상 징후 탐지 기술을 사용하여 적대적 데이터를 필터링합니다.

4. 모델이 의도하지 않은 데이터 소스에 접근하는걸 방지하기 위해 인프라를 충분히 제어해야 합니다.

5. 이용자가 제공한 정보를 벡터 데이터베이스에 저장하여 전체 모델을 다시 학습시키지 않고도 조정할 수 있게 합니다.

6.추론 단계에 RAG와 그라운딩 기술을 통합하여 환각의 위험을 줄입니다.

7. 학습 손실을 모니터링하고 오염의 징후에 대한 모델 동작을 분석합니다. 임계값 활용을 통해 비정상적인 출력을 감지합니다.

8. 데이터 버전 제어 활용을 통해 데이터셋의 변경을 추적하고 조작을 감지해야합니다.