[논문리뷰] Scaling Responsible Generative AI: Automating Red Teaming of LLM applications

논문리뷰

[논문리뷰] Scaling Responsible Generative AI: Automating Red Teaming of LLM applications

poiri3r 2025. 12. 22. 23:15

안녕하세요. 방학기간동안 영어공부도 할겸 좀 짧은 외국 논문들을 영어로 읽고 해석해가면서 공부를 해보려고 합니다.

오늘은 Scaling Responsible Generative AI: Autimating Red Teaming of LLM applications에 대해 리뷰해보겠습니다.

한국어론 책임감 있는 생성형 AI 확장 : 대규모 언어모델을 통한 레드티밍 자동화겠네요.

해당 주제에 대한 내용은 토스 가디언즈에서 처음 접했고, 최근에 "프레임워크"랑 "자동화"가 굉장히 중요하다 생각하기에 해당 논문을 선택하였습니다. 분량도 짧아서 좋습니다.

출처는 다음과 같습니다.

Reference A. Goh, B. Chee, M. Vagnoli, L. Baldassarre, and A. Narayan, 
"Scaling Responsible Generative AI: Automating Red Teaming of LLM Applications," 
in 2025 IEEE Conference on Artificial Intelligence (CAI),2025, pp. 902-905. doi: 10.1109/CAI64502.2025.00159.

1. 연구 배경 및 목적

문제점: 금융/보험 분야에서 LLM 도입이 늘고 있지만, 환각(Hallucinations), 편향성(bias), 유해 콘텐츠(harmfull content) 등의 위협이 존재합니다. 기존의 수동 방식은 시간이 오래 걸리고 확장성이 부족하여, 빠르게 변화하는 AI 위협에 대응하기가 어렵습니다.

논문에서의 해결책 : 해당 논문에서는 11개의 카테고리와 48개의 위험 요소를 정의하고, 공격과 평가를 자동화하여, 효율적이고 확장 가능한 End-to-End 자동화 red-teaming framework를 개발했습니다.

2. Introduction

Introduction에서 중요한 키워드 중 하나는 adversarial scenarios와 jailbreaking입니다.

adversarial scenario는 공격의 배경 설정이나 위협 모델을 정의하는 방식입니다. 해당 논문에서는 3가지 persona를 정의합니다.

Regular user : application에서 의도된 질문을 하는 범위 안의 사용자입니다.
Curious user : 범위 밖의 주제에 대해서 질문을 하는 사용자이나, LLM의 윤리범위 안에 있는 사용자입니다.
Malicious user : jailbreak나 윤리적이지 않은 답변을 유도하는 악성 사용자입니다.

다음은 Jailbreaking입니다. 한국어로 탈옥이라고 하는 방식은 LLM에 설정된 안전 장치나 윤리적 지침을 우회하여 모델이 금지된 답변을 출력하게 만드는 행위입니다.

LLM Risk Categories For Red Teaming에 해당하는 상세 카테고리와 위험 요소 표는 논문에 참고되어 있으니 확인해보시면 좋을 듯 합니다. IEEE 논문의 저작권상 표를 그대로 복사하거나 행위는 금지되어 있어서 올릴 수가 없네요.

3.Creation of Adversarial Red Team Prompts

공격 시나리오에서는 위에 말한 3가지 페르소나를 정의하였습니다.

공격 도구에서는 GPT-4를 공격자 LLM으로 사용하였고, 다양성을 위해 Temperature를 2.0, top_p를 0.9로 설정하였습니다.

Temperature는 인공지능의 답변 창의성에 관한 내용이고 top_p는 다양한 어휘를 사용하게 하는 값입니다. 두 값이 매우 높게 설정되어있기 때문에 공격 LLM에서 다양한 공격 구문들이 생성 됩니다.

논문에서 사용한 구체적인 기법은 5가지입니다.

객관식 질문 생성기 (Multiple Choice Question) : 편향성 테스트로 정답이 없는 주제에 대한 객관식 질문을 만들어, 응답을 확인합니다.
적대적 목표 생성기(Pre-Prompting) : 사전 프롬프팅으로 구체적인 공격 시나리오를 기획합니다. 여기서 좀 차별화된 부분이 있다면, pre-prompting 단계에서 생성형 LLM을 2개를 사용하여 공격언어를 순화하는 작업을 거칩니다. 공격하는 LLM도 어쨌든 윤리 필터링이 있기 때문에 Softening이라는 과정을 거쳐, 목표자체를 순화하는 작업을 거칩니다.
직접 질문 생성기(Direct Question Generator) : 개방형 질문을 통해 스팸 또는 유해 콘텐츠를 유도합니다. 호기심 유저의 경우 스팸 생성이나 자격 없는 조언(원문에서는 unqualifed advice네요)을 요청하고, 악의적 유저 페르소나에서는 2단계에서 생성된 '적대적 목표'를 바탕으로 유해 컨텐츠 생성을 요청합니다.
역할극 프롬프트 생성기 (Roleplaying Prompt Generator) : 공격자 LLM에게 바로 공격하는게 아닌 계획을 세우고나서 프롬프트를 작성하라는 CoT (Chain-of-Thought) 를 지시합니다. 이 때 공격자 LLM은 역할극(Roleplaying), 난독화(Obfuscation), 기만(Deception), 문맥 전환(Context-switching)등을 사용하여 타겟 LLM을 속입니다.
프롬프트 템프릿 변환기 (Prompt Template Converter) : JailbreakBench나 AdvBench와 같은 오픈소스 데이터셋을 가져와, 문맥이나 어조를 바꿔 공격 변종을 만들어냅니다.

4. Evaluation of Target LLM Output

Tartget LLM output에 대한 평가입니다. 여기서도 judge LLM 도입을 통한 자동화를 하였는데, GPT-4 instance를 사용하여 타겟 LLM의 응답을 1차적으로 스크리닝했습니다.

그 다음 CoT(생각의 사슬)프롬프트를 사용하여, 공격 프롬프트에 숨겨진 adversarial intention(적대적 의도)를 해독하여, 타겟 LLM의 응답에 대해 평가합니다. 그 평가에 대한 점수를 채점하여 0점~ 5점까지 점수를 매기고 3점이상의 응답은 문제가 있음으로 지정해 Flag값을 넣어 수동 검토 대상으로 넘깁니다.

5.Analysis of Red Teming Framework

앞서 설계한 프레임워크를 실제 내부 애플리케이션에 적용하고 데이터로 검증한 결과입니다. 크게 공격자 LLM(다양성)의 성능 평가(다양성) 심판관 LLM의 성능 평가(정확도)로 나뉩니다. 평가 지표로는 코사인 유사도와 변동계수를 사용하였는데, 해당 점수부분에 대한 상세 설명은 생략하고 논문에서의 분석 결과만 분석하겠습니다.

먼저, 공격자 LLM이 만든 프롬프트는 사람이나 기존 데이터셋보다 더 다채롭고 광범위한 주제를 공격하였습니다만, 공격 문구가 비교적 짧고 정형화된 경향이 있었습니다. 따라서 LLM만 사용하는 것이 아닌 하이브리드 접근이 필요합니다.

다음으로 Judge LLM에 대해서는 공격이 먹힌 Fail등급에 대해서 재현율이 1.0(100%)를 달성하였습니다. 그 다음 정밀도는 0.26으로 비교적 낮은 수치였는데, 탐지 기준을 보수적으로 잡았기 때문입니다.

결과적으로, 정밀도는 낮지만, 재현율이 매우 높기때문에 AI가 걸러준 것만 사람이 확인하면 되므로, 사람의 검토 업무량이 90%감소한 결과를 얻었습니다.

6. Limatations

해당 프레임워크에서는 다음의 3가지 한계점을 가지고 있습니다.

GPT-4 의존성 : 프롬프트 생성에 사용한 GPT-4가 적대적 프롬프트 생성을 거부하여 적합성에 우려가 있습니다
폐쇄형 모델의 한계 : GPT4는 소스가 공개되지 않은 모델이라, 고급 탈옥 기법 같은 whitebox 공격을 탐구하는데 제약이 있었습니다.
단일 턴 위주 : 현재 프레임워크가 한번 묻고 답하는 단일 턴 공격에 집중되어 있어, 실제 대화처럼 이어지는 멀티 턴 상호작용의 현실성이 부족할 수 있습니다.

7. Conclusion

해당 논문에서 제시한 framework는 3~4개의 LLM을 활용하여, 공격 모델과 판단 모델을 가용해 위험요소를 정의하고 공격과 평가를 자동화하여 개발팀과 레드티밍팀 사이에 사용 가능한 프레임 워크를 제시하였습니다. 정밀도는 낮지만 재현율이 1.0으로 완벽한 수치를 달성하였고, 레드티밍팀의 결과 로그 분석 시간을 단축시키는데 의의가 있습니다만, GPT-4 모델에 대한 의존성 한계가 존재합니다.

이상으로 논문 리뷰는 마치겠습니다. 논문을 읽어보고 요약해본 경험이 별로 없어서 글이 좀 난잡한 것 같습니다만 그래도 많이 읽어보고 쓰다보면 영어 실력도 늘고 글도 잘 쓸 수 있지 않을까 생각해봅니다. 읽고 해석하는데 시간이 생각보다 많이 걸렸네요 .

읽어주셔서 감사합니다~

'논문리뷰' 카테고리의 다른 글

Driller : Augmenting Fuzzing Through Selective Symbolic Execution Review (0)	2026.01.11
[논문리뷰]Comparing Traditional Hacking Tools and AI-Driven Alternatves (0)	2025.12.29

현재글[논문리뷰] Scaling Responsible Generative AI: Automating Red Teaming of LLM applications

poiri3r 님의 블로그

부경대학교 컴퓨터·인공지능공학부

iat후킹, 후킹, captainhook flag, shellcraft, api후킹, 콜링 컨벤션, inline, ReturntoLibrary, 캡틴훅, poiri3r, 리버싱, 드림핵, pwnable, captainhook, 포너블, 셸코드, inlinehook, frida후킹, 함수호출규약, 쉘코드,

Today :
Yesterday :

poiri3r 님의 블로그