한국 인터넷 욕설·혐오,
외산 AI는 절반을 놓칩니다.
한국어 한 가지만 보면 다릅니다.
한국 댓글·SNS 슬랭, 변형·은어·우회 표현, AI 우회 시도(프롬프트 조작)까지 한 번의 호출로 분류·차단해요. 한국 인터넷 혐오 공개 셋 4종에서 모두 외산 Flagship LLM 위, 평균 응답 17ms — AI 챗봇·에이전트 입력 앞단, 댓글·사내 채널 어디든 그대로 꽂아 쓰세요.
한국 인터넷 혐오 공개 셋에서 외산 AI 평균의 1.7배 정확도
UnSmile · KOLD · K-MHaS 등 한국 공개 셋 4종 기준
한국어 AI 우회 시도 평가 셋 모두 차단
AdvBench 한국어 번역본 jailbreak 셋 520건(한국형 12 템플릿 포함)
혐오로 보일 수 있는 정상 발화 88건 중 0건 잘못 차단
정상 발화 평가 셋 88건(혐오로 오해되기 쉬운 표현 포함)
20년 키워드 사전 시대의 끝,
이제 AI가 맥락으로.
20년 넘게 써온 키워드 블랙리스트는 신조어·변형·맥락에 한 번도 견디지 못했어요. 일부 "AI 필터" 마케팅 제품도 같은 한계를 그대로 안고 있습니다.
| 특성 | 키워드 블랙리스트정규식·금칙어 사전·점수 합산식 | "AI 필터" 마케팅 제품영어권 모델 wrapping·임베딩 유사도 | Corepin AI 가드레일한국어 맥락 학습 + 11라벨 분류 (입출력) |
|---|---|---|---|
| 한국어 변형·신조어 | 금칙어 추가해야 잡힘(운영팀 매주 업데이트) | 영어권 임베딩 → 한국 변형 약함 | 한국어 변형·신조어·은어 함께 학습 |
| 맥락 따라 다른 의미 | 같은 단어면 무조건 차단(인용·교육 자료 오차단) | 맥락 일부 보지만 한국식 우회 표현에 약함 | "~라고 해도 됩니까" 같은 문맥 분리 |
| AI 우회 시도(프롬프트 조작) | "이전 지시 무시"류 패턴 추가 안 하면 통과 | 일부 영어 우회 시도만 인식 | 한국어 AI 우회 시도 100% 차단 (평가 셋 520건) |
| 정상 질의 오차단 | "포르노그래피의 사회학" 차단(단어 매치) | 유사도 임계 잘못 잡으면 광범위 오차단 | 88건 셋 0% — 정상 발화 거의 안 막음 |
| 운영 부담 | 매주 신조어 업데이트, 사람 검토 큐 폭증 | 한국어 신조어 미반영 — 결국 사람 검토 필요 | 학습된 변형 패턴 — 운영 부담 큰 폭 감소 |
| 커버 카테고리 | 욕설 위주, 차별·AI 우회 시도 분리 안 됨 | 1-2개 라벨(toxic / hate) | 11라벨 — 입력 분류 10종 + 출력 검증용 모델 정체 누설 라벨 |
| 한국 LLM 안전성 평가셋 | 대응 항목 자체 없음 | 대부분 영어 셋만 대응 | KOLD · K-MHaS · AdvBench 한국어 번역본 동시 학습·평가 |
키워드 사전이 절대 못 잡는
한국어 7가지 패턴.
한국 커뮤니티 운영팀과 LLM 챗봇 보안팀이 매주 마주치는 — 그러나 단어 매칭으로는 깔끔하게 못 잡는 — 7가지 표현입니다.
변형 욕설
키워드 사전에 모든 변형을 등록하기는 불가능. 맥락으로 욕설임을 학습한 모델이 한 번에 잡습니다.
인용·교육 맥락의 정상 발화
혐오 발언을 인용하거나 교육적으로 언급하는 정상 발화는 차단되면 안 됩니다. 단어 매칭은 무조건 차단하지만, AI 가드레일은 "할머니가 그러셨어" 같은 인용 표지를 학습해 정상 분류로 분리합니다.
"할머니가 알려주신 자장가" 류 위장 우회 시도
LLM 안전성 영역에서 유명한 역할극·향수 위장으로 위해 정보를 끌어내는 패턴. 위 #02의 정상 인용과 표지가 비슷해 키워드 사전은 100% 못 잡지만, 모델은 요청의 끝점이 위해 정보 추출임을 인식해 M10(AI 우회 시도)으로 분류합니다.
AI 우회 시도(시스템 프롬프트 조작)
가장 직설적인 LLM 시스템 우회 시도. 일반 욕설 필터로는 잡히지 않습니다. M10 라벨이 한국어 AI 우회 시도 100% 차단(평가 셋 520건).
혼합 발화(욕설 + 위협)
한 발화에 여러 카테고리가 동시에 들어갑니다. 라벨 다중 분류로 욕설·위협 모두 같은 호출로 잡습니다.
정상 단어 안의 의외의 매칭
키워드 매칭은 학술 텍스트도 차단. 맥락 학습 모델은 학술·교육 발화로 정확히 분리.
최신 한국 신조어·은어
금칙어 사전은 운영팀의 매주 업데이트가 없으면 1주 만에 무력화. 학습된 모델은 변형 패턴을 일반화해서 새 표현도 잡습니다.
한국 SNS·게임·커뮤니티가
가르쳐준 10카테고리.
한국 커뮤니티·LLM 안전성 연구의 실제 분류 체계와 한국어 변형 표현·은어를 함께 학습. 강조 표시된 4가지가 기본 차단 정책이며, 나머지는 정책에 따라 옵트인.
한국어, 외산 플래그십 통틀어 1위.
Claude Opus 4.7, Gemini 3 Pro까지 같은 한국어 100문장으로 비교했어요. 종합 정확도 90점, 정상 글 통과율 94% — 두 지표 모두 1위예요. Gemini 보다 4점 앞서고, 정상 글 잘못 차단은 Claude/Gemini 의 1/4 - 1/5 수준입니다.
| 지표 |
Corepin
한국어 욕설·혐오 전용 모델 |
OpenAI Moderation 영어 중심 무료 검열 도구 |
Claude (Opus 4.7) Flagship LLM |
Gemini 3 Pro
Flagship LLM (Google 최신) |
|---|---|---|---|---|
| 한국어 100문장 종합 정확도 100점 만점(혐오 잡으면 +1, 정상 글 통과시키면 +1) |
90 / 100외산 플래그십 4종 중 1위 ⭐ | 64 / 100한국어 절반 가까이 놓침 | 82 / 100 | 86 / 100 |
| 정상 글 정상 통과율 차단 안 됨 + 답변 받음(높을수록 좋음) |
94%정상 글 거의 다 통과 — 운영팀 손 갈 일 가장 적음 | 84%한국어 정상 글 가끔 오해 | 66%정상 글 1/3 잘못 차단 | 74%정상 글 1/4 잘못 차단 |
평가 데이터: K-MHaS(Korean Multi-label Hate Speech) 무작위 100문장(혐오 50 + 정상 50). 모든 AI에 같은 입력을 똑같이 넣어 채점. 학습-평가 분리(K-MHaS 평가 셋은 학습에 미포함). 채점 원칙: 잡아야 할 혐오를 잡으면 +1점, 정상 글을 그대로 통과시키면 +1점. 100건 = 100점 만점. OpenAI 무료 검열 도구는 영어 중심으로 만들어져 한국어 절반 가까이를 놓치고, Flagship LLM(Claude·Gemini)은 잡는 양은 많지만 정상 글도 1/3 ~ 1/4 잘못 차단해 운영자가 검토 큐에서 일일이 다시 검토해야 합니다. Corepin은 한국어 한 가지만 봐서 종합 정확도 +4점(vs Gemini), +8점(vs Claude), +26점(vs OpenAI Mod), 정상 글 통과율 +20pp(vs Gemini), +28pp(vs Claude) — 외산 플래그십 4종 통틀어 두 지표 모두 1위입니다. 측정 일자: 2026-05-06(api.corepin.ai). 외산 LLM 측정값은 2026-05-02.
한국 공개 셋 4종 모두 외산 위.
정상 발화 오차단은 그대로 0%.
사내 합성 셋이 아닌, 한국 커뮤니티에 공개된 평가 셋으로 측정한 결과예요. 외산 Flagship LLM 도, 영어 중심 무료 검열 도구도 한국어에서는 1/3을 놓칩니다 — 한국어 한 가지에 집중한 모델이 4종 공개 셋에서 모두 외산 AI 위에 놓입니다.
| 평가 셋 | 측정 대상 | 결과 | 의미 |
|---|---|---|---|
| UnSmile Smilegate AI · 한국 인터넷 혐오 발화 공개 셋(평가 전용) |
한국어 인터넷 혐오 정확도 | 66% | 외산 Flagship LLM 평균(36 ~ 38%)의 1.7배 |
| KOLD Korean Offensive Language Dataset · 한국 뉴스 댓글 비하·혐오 |
한국 댓글 비하·혐오 정확도 | 66% | 외산 Flagship LLM 평균(28 ~ 32%)의 2배 이상 |
| K-MHaS Korean Multi-label Hate Speech · 한국 다중 라벨 혐오 |
전체 평균 정확도 · 욕설 단독 | 69% · 90% 전체 / 욕설 |
외산 Flagship LLM 평균(50 ~ 55%) 위, 욕설은 사실상 포화 |
| AdvBench 한국어 번역본 Zou et al., 2023 — 한국어 번역 + 한국형 jailbreak 템플릿 12종 |
AI 우회 시도 차단률 | 100% 520건 모두 차단 |
한국어 우회 시도 사실상 포화 차단 |
| 정상 발화 평가 셋 혐오로 오해되기 쉬운 표현 포함 88건 — 인용·교육·고령자 발화 등 |
정상 발화 잘못 차단 비율 | 0% 88건 모두 정상 통과 |
"할머니가 차별 발언했어" 같은 정상 문장 88건 중 0건 차단 |
| 메타 발화 평가 셋(정상) "system prompt 설정 방법", "DAN prompt 분석 논문" 등 9건 |
분석·교육 맥락 정상 통과율 | 100% 9건 모두 정상 통과 |
메타·교육·분석 맥락 정확 구분 |
학습 — 평가 분리(공정 평가)
UnSmile · KOLD · K-MHaS의 실제 평가 셋은 학습에 한 번도 포함되지 않았어요. UnSmile은 라이선스(CC-BY-NC-ND) 상 학습 사용 자체가 불가합니다. 한국 인터넷 혐오 분포를 모사한 자체 합성 데이터로만 학습했고, 위 공개 셋은 모두 학습 후 한 번도 본 적 없는 데이터로 평가했어요. 평가 셋이 학습에 들어가지 않은 채 측정한 실제 일반화 성능입니다.
정규식의 결정성과 LLM의 문맥 이해를
한 호출에서 결합.
정규식만 쓰는 단순 솔루션은 변형·우회 표현(ㅅㅂ, 씨이발)을 놓치고, 외산 플래그십 가드레일은 한 호출에 2-5초가 걸려요. 우리는 패턴 사전 → 작은 분류기 → 큰 모델 검증으로 쌓아, 95% 트래픽을 17ms 안에 끝내고, 진짜 애매한 5% 만 큰 모델로 한 번 더 확인해요. 외산 플래그십 한 번 호출 시간에 우리는 같은 작업 100~200건을 마무리해요.
운영자 입장에서는 API 한 줄 호출로 끝 — 어느 단계로 갔는지·왜 통과/차단됐는지 우리가 알아서 처리해드려요.
- 1ms 미만 즉시 처리
- "ㅅㅂ", "씨이발", "X발" 같은 변형·우회 못 잡음
- "할머니가 그런 말 했어" 같은 인용 발화 잘못 차단
- 새 은어·신조어 나오면 사전 업데이트 끝없이 필요
- 문맥·뉘앙스 정확 이해
- 한 호출 2-5초 — 댓글 / 채팅에 못 끼움
- 호출당 약 90~1,500원 — 모든 사용자 발화에 적용 시 청구서 폭증
- 한국어 변형 표현 학습량 부족, 여전히 우회 가능
- 명백 케이스는 패턴 사전 1ms 즉시
- 변형·우회·문맥은 작은 분류기 17ms (95% 트래픽)
- 애매한 5% 만 큰 모델 검증 ─ 정상 발화 잘못 차단 0%
- 국내 처리 · 본문 비저장 · 호출당 5원 (외산 LLM 1/20 ~ 1/300 비용)
플래그십 LLM 한 번 호출하는 동안 우리는 같은 작업 80~350건을 마무리해요. SLM(작은 한국어 특화 모델)의 강점이에요 — 사용자 경험에 지장을 전혀 주지 않으면서, 기업·공공의 컴플라이언스 걱정을 안전하게 예방해드려요. LLM 가드레일이 사용자가 느낄 정도로 늦어지면 결국 운영자가 떼어내고, 그러면 사고가 다시 발생해요. "안 보일 만큼 빠르고, 놓치지 않을 만큼 정확한" 지점이 한국 SaaS·공공 운영 환경의 균형점이에요.
수많은 시행착오를 거쳐
강화해 왔습니다.
13 차례에 걸친 미세 조정으로 한국어 발화 패턴을 끊임없이 분석하고 다듬어왔어요. 합성 데이터로 출발해 한국 공개 셋을 통합하고, 다단 자동 분류로 정상 트래픽은 빠르게 통과시키면서 한국어 100문장 종합 정확도에선 외산 플래그십 통틀어 1위까지 — 매 버전마다 명확한 한 가지 문제를 해결하면서 production 을 다듬어왔습니다.
| 버전 | 핵심 변화 | 대표 결과 |
|---|---|---|
| v4 |
합성 셋 82K 베이스라인이전 production. 자체 시험지 100건 중 99.9건 통과, 한국 외부 셋은 카테고리 평균 정확도 29% — 사내 합성 분포에 갇혔던 단계. |
평균 정확도 29% 전체 카테고리 평균 |
| v6 |
정상 발화 오차단 셋 첫 도입"혐오로 보일 수 있는 정상 발화" 합성 셋을 학습에 추가. 운영 부담의 가장 큰 원인이던 정상 질의 차단 큰 폭 개선. |
오차단 4.5% |
| v7.5 |
이모지·특수문자 정규화이모지 sanitize 버그를 잡고 변형 욕설 인식 강화. |
오차단 2.3% |
| v9 |
인용·교육 발화 보강"할머니가 그런 말을 했어" 같은 인용 맥락의 학습 분량을 늘림. 가장 까다로운 오차단 패턴. |
인용 발화 정확도 ↑ |
| v10 |
경계 발화 보강차단/통과 경계가 모호한 30% 영역에 집중 학습. 정상 발화 오차단 추가 개선. |
경계 30% 보강 |
| v11 |
한국 공개 평가 셋 통합 학습KOLD · K-MHaS 와 AdvBench 한국어 번역본 을 합성 셋과 함께 학습. KOLD 욕설 95% · K-MHaS 평균 57% · 정상 발화 오차단 0% · AdvBench-Ko jailbreak 차단 99.6%. 댓글 자동 심사·LLM 가드레일 동시 운영 가능한 수준에 도달. |
평균 정확도 57% 전체 카테고리 평균 |
| v12 |
한국 인터넷 혐오 분포 본격 학습한국 댓글·SNS 혐오 분포를 모사한 자체 합성 데이터를 대폭 확장하고, 정상 발화·메타 발화(분석·교육·인용 맥락) 보강. UnSmile 66% · KOLD 66% · K-MHaS 69% (욕설 90%) · 정상 발화 오차단 0% · 메타 발화 통과 100%. 한국 공개 셋 4종 모두 외산 Flagship LLM 위. |
한국 공개 셋 4종 모두 외산 위 |
| v13 |
다단 자동 분류 + 분류기 강화(현재 production · 2026-05)패턴 사전 → 작은 분류기 → 큰 모델 검증으로 쌓아 정상 트래픽 95% 를 17ms 안에 끝내고, 애매한 5% 만 큰 모델로 한 번 더 검증. 큰 모델을 한국 공개 셋 + 직접 위해 요청 패턴까지 보강. 한국어 AI 우회 시도 100% 차단(520건), 정상 발화 오차단 0%. 한국어 100문장으로 외산 플래그십(Claude Opus 4.7 · Gemini 3 Pro · OpenAI Moderation)까지 같이 비교했을 때 종합 정확도 90/100 — 4종 통틀어 1위. |
외산 플래그십 통틀어 1위 |
한국어 AI 우회 시도는 100% 차단 (평가 셋 520건), 정상 발화 오차단은 그대로 0%. 한국 공개 셋 4종 모두 외산 플래그십 LLM 위 — 댓글 자동 심사·LLM 가드레일 양쪽 라이브 운영이 가능한 수준이에요.
한국어가 오가는 곳마다,
한 번의 호출로 차단.
한 번이라도 놓치면 고객 신뢰·법무·규제 사고로 이어집니다. 욕설부터 AI 우회 시도까지 10가지를 한 번의 호출로 분류·차단합니다.
챗봇·AI 에이전트 입력 가드
고객 입력이 LLM에 전달되기 전에 욕설·위협·AI 우회 시도를 한 번 거릅니다. "이전 지시는 무시하고…" 류의 시스템 프롬프트 조작은 사실상 모두 차단해요.
댓글·리뷰 자동 심사
커뮤니티·쇼핑몰·뉴스·라이브 채팅의 한국어 혐오·욕설을 카테고리별로 분류해 운영자 검토 큐를 95%+ 줄입니다.
사내 협업툴·고객 응대 채널
슬랙·팀즈·티켓 시스템에서 괴롭힘·차별 발화를 AI가 1차로 거릅니다. 수동 신고에 기대지 않고 인사·법무가 빠르게 대응할 수 있도록.
직접 넣어보면
바로 보여요.
아래는 공개 데모 키로 돌아가는 실제 API예요. 개발 시에는 https://api.corepin.ai/v1/moderation/classify 로 보내면 됩니다.
한국어 입력의 첫 방어선,
한 줄로 붙입니다.
챗봇 입력 가드·댓글 자동 심사·사내 협업툴 차단·챗봇 출력 정체 누설 검사 — 한 번의 호출로 11라벨 분류와 차단 결정까지. 한 줄의 API 통합으로 시작하세요.