평가 & 벤치마킹 · 측정하지 않으면 개선할 수 없다 · 시작을 누르면 음성과 함께 슬라이드가 자동 재생됩니다. Evals & Benchmarking · what you don't measure, you can't improve · Press start and slides advance with narration.
지금까지 좋은 프롬프트를, 좋은 에이전트를 만들었습니다. 그런데 '잘 됩니다'는 근거가 될 수 없어요. 오늘은 Claude 출력의 품질을 숫자로 측정하는 법을 배웁니다. We've built good prompts and good agents. But 'it seems to work' isn't evidence. Today we learn to measure Claude output quality in numbers.
As of 2026-06 · 평가 방법·도구는 버전마다 바뀝니다 — '측정하지 않으면 개선할 수 없다'는 원리가 진실. [추론]As of 2026-06 · eval methods & tools change by version — the principle 'what you don't measure, you can't improve' is the truth. [inference]
'그럴듯한 느낌'은 회귀도, 개선도 잡아내지 못한다.'Feels plausible' catches neither regressions nor improvements.
[추론] 주관적 인상에만 의존하면 (a) 엣지 케이스를 놓치고 (b) 수정 후 어느 부분이 나빠졌는지 알 수 없으며 (c) 팀 간 품질 판단이 불일치한다. 측정이 없으면 개선의 방향도 없다.[inference] Relying on subjective impression alone means (a) missing edge cases (b) not knowing what degraded after an edit (c) quality judgments misaligned across the team. Without measurement there's no direction for improvement.
| 방법Method | 특징Trait | 적합한 상황Best for |
|---|---|---|
| 인간 평가Human eval | 가장 정확, 비용·시간↑most accurate, high cost·time | 골든셋 구축·최종 품질 확인golden-set building·final QA |
| 자동 평가Automated eval | 빠르고 반복 가능, 기준 설계 필요fast & repeatable, needs criteria design | CI 회귀 방지·대량 검증CI regression guard·bulk checks |
| LLM-as-JudgeLLM-as-Judge | 의미적 판단 가능, 편향 주의semantic judgment, watch for bias | 주관적 품질·복잡한 출력subjective quality·complex output |
[출처: docs.anthropic.com/en/docs/build-with-claude/evals] Anthropic 공식 문서는 코드 기반 자동 평가, 인간 평가, LLM-as-Judge를 상황에 따라 조합해서 사용하도록 권장한다. As of 2026-06.[source: docs.anthropic.com/en/docs/build-with-claude/evals] The Anthropic official docs recommend combining code-based automated evaluation, human evaluation, and LLM-as-Judge depending on the situation. As of 2026-06.
Anthropic 권장: 최소 50개 이상의 골든셋 사례.Anthropic recommends: at least 50 examples in the golden set.
[출처: docs.anthropic.com/en/docs/build-with-claude/evals] Anthropic 공식 문서는 최소 50개 이상의 골든셋 사례를 권장한다. 골든셋은 정답이 알려진 입출력 쌍의 집합으로 재현 가능한 평가의 기준이 된다. 처음부터 완벽하게 만들 필요 없음 — 조금씩 키운다. [추론][source: docs.anthropic.com/en/docs/build-with-claude/evals] The Anthropic official docs recommend at least 50 golden-set examples. A golden set is a collection of input-output pairs with known answers that serves as a reproducible evaluation standard. Doesn't need to be perfect from the start — grow it incrementally. [inference]
수정 전엔 통과하던 케이스가, 수정 후에 실패하는 것.A case that passed before the edit fails after it.
수정 전·후 모두 골든셋으로 점수 비교 → 점수가 내려가면 경고.Score with the golden set both before and after → alert if score drops.
평가 없이 배포하면 — 회귀를 발견할 수 없다.Deploy without evals — and you'll never catch regressions.
[추론] 평가 없이 배포하면 회귀를 발견할 수 없다. 프롬프트 수정 전후의 골든셋 점수를 비교함으로써 개선이 다른 케이스를 망가뜨리지 않았는지 확인할 수 있다.[inference] Deploy without evals and you'll never catch regressions. Comparing golden-set scores before and after a prompt edit reveals whether an improvement broke other cases.
| 방법Method | 비용·속도Cost · Speed |
|---|---|
| 인간 평가Human eval | 정확도 최고 · 비용·시간 최고highest accuracy · highest cost & time |
| 자동 평가Automated eval | 빠르고 저렴 · 의미 판단 한계fast & cheap · limited semantic judgment |
| LLM-as-JudgeLLM-as-Judge | 중간 정확도 · API 비용 발생mid accuracy · API cost incurred |
[추론] 평가 방법마다 비용, 속도, 정확도 트레이드오프가 있다. 자동 평가로 빠르게 1차 필터링하고, 실패 케이스에 한해 인간 평가나 LLM-as-Judge를 적용하는 조합이 실용적이다.[inference] Each eval method has different cost, speed, and accuracy trade-offs. The practical combination: automated evaluation as a fast first-pass filter, with human evaluation or LLM-as-Judge applied only to failing cases.
판사 모델이 채점을 자동화한다 — Claude API로 구현 가능.The judge model automates scoring — implementable via the Claude API.
[출처: docs.anthropic.com/en/docs/build-with-claude/evals] LLM-as-Judge 패턴은 Claude API로 구현할 수 있다. 판사 모델에 루브릭과 실제 출력을 함께 전달하면 점수와 이유를 반환한다. 편향 주의: 루브릭을 명확히 설계하고 인간 평가와 교차 검증 권장.[source: docs.anthropic.com/en/docs/build-with-claude/evals] The LLM-as-Judge pattern is implementable via the Claude API — pass the rubric and actual output to the judge model and it returns a score with reason. Bias warning: design the rubric clearly and cross-validate against human evaluation periodically.
| 원칙Principle | 설명Description |
|---|---|
| 재현 가능Reproducible | 같은 입력에 항상 같은 채점 방식same scoring method for the same input, always |
| 대표성Representative | 실제 사용 케이스를 충분히 반영adequately reflects real-world use cases |
| 명확한 기준Clear criteria | '좋다/나쁘다'를 숫자로 정의'good/bad' defined in numbers |
| 유지 관리 가능Maintainable | 서비스가 바뀌어도 갱신 가능한 구조updatable structure as the service evolves |
[추론] 좋은 벤치마크는 재현 가능성, 대표성, 명확한 기준, 유지 관리 가능성을 갖춰야 한다. 벤치마크 자체가 너무 복잡하면 결국 쓰이지 않는다 — 단순하게 시작해서 점점 정교하게 만든다.[inference] A good benchmark needs reproducibility, representativeness, clear criteria, and maintainability. If the benchmark becomes too complex, it won't be used — start simple and refine over time.
평가가 CI 안에 있으면 — 회귀는 배포 전에 잡힌다.Eval inside CI — regressions caught before they ship.
[추론] CI에 골든셋 평가를 통합하면 프롬프트 수정 시마다 자동으로 점수가 나오고, 임계값 아래로 떨어지면 배포를 차단할 수 있다. CI까지 가기 전에도 '수정 전·후 평가 실행 습관'으로 시작할 수 있다.[inference] Integrating golden-set eval in CI automatically scores every prompt edit and can block deployment if the score drops below the threshold. Before building full CI, the habit of 'run eval before and after each edit' is a valid starting point.
측정 없이는 루프가 돌지 않는다 — 느낌이 개선의 동력이 되면 결국 멈춘다.Without measurement the loop doesn't turn — 'feel' as the driver eventually stalls.
[추론] 측정 → 개선 → 재측정 사이클은 품질을 지속적으로 개선하는 유일한 방법이다. 주관적 느낌은 이 루프를 돌리기에 충분한 피드백 신호를 제공하지 못한다.[inference] The measure → improve → re-measure cycle is the only way to improve quality continuously. Subjective feel doesn't provide sufficient feedback signal to keep the loop turning.
[추론] 5항목은 각각 S03(측정 대상)·S04(골든셋)·S08(명확한 기준)·S05(회귀 방지)·S10(개선 루프)에 대응한다. 거대한 인프라 없이 스프레드시트와 Claude API 몇 번으로 시작 가능.[inference] The five map onto S03 (what to measure)·S04 (golden set)·S08 (clear criteria)·S05 (regression prevention)·S10 (improvement loop). Startable with a spreadsheet and a few Claude API calls — no grand infrastructure needed.
[추론] 골든셋은 처음부터 완벽할 필요가 없다. 실제 사용 케이스 열 개와 통과 기준을 적는 것만으로 시작할 수 있다. 버전을 붙이고 점점 개선해 나가는 것이 현실적인 접근이다.[inference] The golden set doesn't need to be perfect from the start. Ten real use cases with pass criteria is enough to begin. Versioning and incremental improvement is the realistic approach.
[추론] 평가 없는 팀은 회귀를 늦게 발견하고, 개선 방향이 불분명하며, 팀 간 품질 판단이 불일치한다. 측정은 팀을 같은 방향으로 정렬시켜 주는 공통 언어다.[inference] A team without evals discovers regressions late, has unclear improvement direction, and misaligned quality standards. Measurement is the shared language that aligns the team in the same direction.
한 단어로: 골든셋 → 평가 → 비교 → 루프.In a word: golden set → eval → compare → loop.
다음 강 예고 — 측정했으니, 이제 케이스 스터디로 전체를 정리한다 (Rule No.19).Next up — you've measured, now tie it all together with case studies (Rule No.19).
[추론] 측정 → 개선 → 재측정의 루프가 지속적 품질 향상의 유일한 방법이다. 골든셋 열 개로 시작해서 루프를 돌리는 것이 오늘의 실천 과제다. As of 2026-06.[inference] The measure → improve → re-measure loop is the only way to improve quality continuously. Starting with ten golden-set examples and running the loop is today's action. As of 2026-06.