3편에서 프롬프트 인젝션의 직접/간접 공격을 뜯어봤다. 한 방에 시스템 프롬프트를 무력화시키는 기술. 강력하긴 한데, 솔직히 좀 무식하다. "야, 시스템 프롬프트 무시해"라고 정면으로 들이받는 거니까. 요즘 AI들은 이런 단발성 공격에 꽤 잘 버틴다. 그래서 공격자들이 방향을 바꿨다. "한 방에 안 뚫리면, 여러 번에 걸쳐 뚫으면 되지." 이게 바로 멀티턴 공격이다.보이스피싱을 생각해보자. 사기범이 전화해서 대뜸 "통장 비밀번호 알려줘"라고 하면 누가 알려주나. 안 통한다. 대신 "검찰입니다" → "명의가 도용됐습니다" → "안전한 계좌로 옮기셔야 합니다" → "지금 바로 이체해주세요". 이렇게 단계별로 신뢰를 쌓고, 맥락을 조작하고, 점진적으로 요청 강도를 올린다. 피해자는 각각의 단계에서 합리적인 판..
2편에서 AI 탈옥 기법 20가지를 5개 카테고리로 정리했다. DAN, Skeleton Key, Crescendo까지 한바탕 훑었는데, 그중에 하나가 유독 눈에 걸렸을 거다. OWASP LLM Top 10에서 당당하게 1번 자리를 꿰차고 있는 놈. 프롬프트 인젝션이다. 왜 하필 프롬프트 인젝션이 1위일까. 역할극도 있고, 인코딩 트릭도 있고, 멀티턴 공격도 있는데.답은 의외로 간단하다. 이건 "패치해서 막을 수 있는 버그"가 아니라 "LLM 아키텍처의 구조적 결함"이기 때문이다.마치 SQL Injection이 웹 보안의 영원한 숙제인 것처럼, 프롬프트 인젝션은 AI 보안의 영원한 숙제가 됐다. 20년 넘게 OWASP에서 상위권을 지키는 SQLi의 AI 버전이라고 보면 된다. 이번 편에서는 프롬프트 인젝션..
1편에서 AI 탈옥의 개념, 안전장치의 3단계 구조, 그리고 "97% 확률로 AI가 AI를 뚫는다"는 현실까지 다뤘다.아직 안 읽었으면 먼저 보고 오는 걸 추천한다. 이번 편은 그 연장선인데, 스케일이 좀 다르다. 이번 편의 목표는 명확하다. 현재까지 알려진 AI 탈옥 기법을 20가지로 정리하고, 각각의 작동 원리, 실제 프롬프트 예시, 현재 패치 상태, 위험도까지 전부 까발리는 거다. 보안쟁이 입장에서 "공격자의 무기고"를 인벤토리 정리하는 시간이라고 보면 된다. 핵심: 이 글에서 다루는 20가지 기법은 5개 카테고리로 분류된다. (A) 역할극 기반 5개, (B) 프롬프트 레벨 4개, (C) 인코딩/난독화 4개, (D) 논리/문맥 조작 4개, (E) 최신/고급 3개. 패치된 기법도 원리를 알아야 변종을..
AI를 해킹하다 - 보안 전문가가 파헤치는 AI 탈옥의 모든 것시리즈 1편: AI 탈옥이란 무엇인가? - 당신의 AI도 뚫린다ChatGPT한테 "폭탄 만드는 법 알려줘"라고 물어보면 당연히 거절당한다. "죄송합니다만 그런 정보는 제공할 수 없습니다." 뭐 예상된 답변이다. 근데 이 거절을 무력화할 수 있다면? 실제로 2024년에 미국 Chevrolet 딜러의 ChatGPT 기반 고객 상담 챗봇이 탈옥 공격을 맞았다. 결과가 좀 웃긴데, 8만 달러짜리 Chevy Tahoe를 단돈 1달러에 팔겠다고 답변해버렸다. 법적 구속력은 없었지만 딜러십 입장에서는 얼굴에 불이 났을 거다. 재미있는 에피소드처럼 들리겠지만, 이건 AI 보안의 민낯을 그대로 보여주는 사건이다. 현업 보안쟁이로서 이 시리즈를 쓰는 이유는 하..
AI에 관심은 꽤 일찍부터 있었습니다. ChatGPT 나오고부터 이것저것 만져보고, 업무에도 슬슬 쓰기 시작하고. Claude랑 Gemini도 써보고, 자동화 스크립트에 LLM을 끼워넣어 보기도 하고. "관심 있다"고 말할 정도는 됐습니다. 그런데 관심과 실행 사이에는 생각보다 큰 간극이 있더라고요. LinkedIn 타임라인에는 "AI 에이전트로 업무 자동화했습니다" 글이 매일 올라오는데, 그러던 중 Microsoft Korea에서 AI Tour Agenthon을 연다는 소식을 접했습니다.Copilot Studio라는 로우코드 플랫폼으로 AI 에이전트를 만드는 해커톤. 해커톤이라는 것도 난생처음이었습니다. "해커톤은 개발자들이 하는 거 아니야?" 싶었지만, 로우코드라니까 "이 정도면 나도 할 수 있지 ..
요즘 AI 에이전트가 대세ChatGPT 플러그인이니, Claude MCP니 하면서 다들 자동화에 진심이다. IT에 몸담고 있는 나도 뒤처질 수 없어서“텔레그램에 Claude 붙여보자” 라는 생각으로 이것저것 만지기 시작했다. 결론부터 말하면,구축은 성공.그런데 지갑이 먼저 털린다. 최근에 알게 된 OpenClaw(구 몰트봇)라는 오픈소스 프로젝트가 있다.텔레그램, 디스코드, 슬랙 같은 메신저에 LLM을 연결해주는 게이트웨이 역할을 한다. 슬로건은 인상적이다.Meet your lobster. 왜 랍스터인지는 아직도 모르겠다.OpenClaw란?OpenClaw는 여러 메신저 채널과 LLM(API 또는 로컬 모델)을 연결해주는 브릿지다. 쉽게 말하면:메신저 ↔ OpenClaw ↔ LLM구조다. 중간에 OpenC..
Claude Code는 작게 시킬수록 잘한다처음에는 항상 이렇게 말했다.“로그인 기능 만들어줘” 결과는 늘 애매했다.UI는 있는데 보안이 약하거나, API만 있고 화면이 없거나, 구조가 엉켜 있었다.방식을 바꿨다. 로그인 UI부터 만들어줘 이제 로그인 API 엔드포인트 만들어줘 JWT 발급 로직 추가해줘 리프레시 토큰까지 포함해서 수정해줘 작업을 쪼개자 결과물이 눈에 띄게 좋아졌다.이때 깨달았다. Claude Code는 “한 번에 많이 시키는 도구”가 아니라 “작게 시키고 많이 시키는 도구”라는 걸.복잡한 작업은 무조건 Plan Mode부터Claude Code에는 Plan Mode라는 게 있다.Shift + Tab을 누르면 켜진다.이 모드를 켜고 나서 이렇게 말한다. Plan Mode로 전환하고..