교육 영상 · 셀프 재생Learning video · self-running

RULE No.18

평가 & 벤치마킹 · 측정하지 않으면 개선할 수 없다 · 시작을 누르면 음성과 함께 슬라이드가 자동 재생됩니다. Evals & Benchmarking · what you don't measure, you can't improve · Press start and slides advance with narration.

1·2 언어 전환 · ← → 수동 이동 · Space 재생/정지1·2 language · ← → navigate · Space play/pause
평가 & 벤치마킹 · No.18
01 / 14 목차Index
  이동 · F 전체화면 · RULE №18 · MEASURE FIRST   navigate · F fullscreen · RULE №18 · MEASURE FIRST Privacy[email protected]
일시정지Paused
0 / 0
Home
교육 세션 · 측정이 먼저다Learning session · measure first

RULE No.18

측정하지 않으면
개선할 수 없다.
What you don't
measure, you can't
improve.

지금까지 좋은 프롬프트를, 좋은 에이전트를 만들었습니다. 그런데 '잘 됩니다'는 근거가 될 수 없어요. 오늘은 Claude 출력의 품질을 숫자로 측정하는 법을 배웁니다. We've built good prompts and good agents. But 'it seems to work' isn't evidence. Today we learn to measure Claude output quality in numbers.

As of 2026-06 · 평가 방법·도구는 버전마다 바뀝니다 — '측정하지 않으면 개선할 수 없다'는 원리가 진실. [추론]As of 2026-06 · eval methods & tools change by version — the principle 'what you don't measure, you can't improve' is the truth. [inference]

측정 · MEASUREMEASURE
1막 — '잘 되는 것 같아요'의 함정Act 1 — The trap of 'it seems fine'

'잘 되는 것 같아요'는 — 근거가 아니다.'It seems to work' — is not evidence.

> 이 프롬프트 괜찮나요?

… 응답이 그럴듯해 보인다
… 엣지 케이스는 아직 안 봤다
… 개선해도 나빠지는지 모른다

그럴듯한 느낌은 회귀도, 개선도 잡아내지 못한다
> is this prompt okay?

… the response looks plausible
… haven't checked edge cases yet
… don't know if changes make things worse

'Feels plausible' catches neither regressions nor improvements

'그럴듯한 느낌'은 회귀도, 개선도 잡아내지 못한다.'Feels plausible' catches neither regressions nor improvements.

[추론] 주관적 인상에만 의존하면 (a) 엣지 케이스를 놓치고 (b) 수정 후 어느 부분이 나빠졌는지 알 수 없으며 (c) 팀 간 품질 판단이 불일치한다. 측정이 없으면 개선의 방향도 없다.[inference] Relying on subjective impression alone means (a) missing edge cases (b) not knowing what degraded after an edit (c) quality judgments misaligned across the team. Without measurement there's no direction for improvement.

2막 — 평가에는 세 가지 방법이 있다Act 2 — Three ways to evaluate

평가 방법은 세 가지 — 인간·자동·LLM-as-Judge.Three eval methods — human, automated, LLM-as-Judge.

방법Method 특징Trait 적합한 상황Best for
인간 평가Human eval 가장 정확, 비용·시간↑most accurate, high cost·time 골든셋 구축·최종 품질 확인golden-set building·final QA
자동 평가Automated eval 빠르고 반복 가능, 기준 설계 필요fast & repeatable, needs criteria design CI 회귀 방지·대량 검증CI regression guard·bulk checks
LLM-as-JudgeLLM-as-Judge 의미적 판단 가능, 편향 주의semantic judgment, watch for bias 주관적 품질·복잡한 출력subjective quality·complex output

[출처: docs.anthropic.com/en/docs/build-with-claude/evals] Anthropic 공식 문서는 코드 기반 자동 평가, 인간 평가, LLM-as-Judge를 상황에 따라 조합해서 사용하도록 권장한다. As of 2026-06.[source: docs.anthropic.com/en/docs/build-with-claude/evals] The Anthropic official docs recommend combining code-based automated evaluation, human evaluation, and LLM-as-Judge depending on the situation. As of 2026-06.

2막 — 평가의 기준: 골든셋Act 2 — The evaluation standard: the golden set

골든셋 = '정답이 알려진' 입출력 쌍의 모음.Golden set = a collection of input-output pairs with known correct answers.

골든셋 없이 평가하면Without a golden set
'좋은 출력'의 정의가 없어
매번 주관이 다르다
no definition of 'good output'
judgment varies every time
골든셋이 있으면With a golden set
같은 기준으로 언제든
재현 가능한 점수가 나온다
reproducible scores on
the same standard, any time

Anthropic 권장: 최소 50개 이상의 골든셋 사례.Anthropic recommends: at least 50 examples in the golden set.

[출처: docs.anthropic.com/en/docs/build-with-claude/evals] Anthropic 공식 문서는 최소 50개 이상의 골든셋 사례를 권장한다. 골든셋은 정답이 알려진 입출력 쌍의 집합으로 재현 가능한 평가의 기준이 된다. 처음부터 완벽하게 만들 필요 없음 — 조금씩 키운다. [추론][source: docs.anthropic.com/en/docs/build-with-claude/evals] The Anthropic official docs recommend at least 50 golden-set examples. A golden set is a collection of input-output pairs with known answers that serves as a reproducible evaluation standard. Doesn't need to be perfect from the start — grow it incrementally. [inference]

2막 — 개선이 망가짐이 될 수 있다Act 2 — An improvement can become a regression

프롬프트를 수정할 때마다 — 이전보다 나빠진 게 없는지 확인해야 한다.Every time you edit a prompt — check that nothing got worse than before.

회귀란?What is regression?

수정 전엔 통과하던 케이스가, 수정 후에 실패하는 것.A case that passed before the edit fails after it.

방지법Prevention

수정 전·후 모두 골든셋으로 점수 비교 → 점수가 내려가면 경고.Score with the golden set both before and after → alert if score drops.

평가 없이 배포하면 — 회귀를 발견할 수 없다.Deploy without evals — and you'll never catch regressions.

[추론] 평가 없이 배포하면 회귀를 발견할 수 없다. 프롬프트 수정 전후의 골든셋 점수를 비교함으로써 개선이 다른 케이스를 망가뜨리지 않았는지 확인할 수 있다.[inference] Deploy without evals and you'll never catch regressions. Comparing golden-set scores before and after a prompt edit reveals whether an improvement broke other cases.

2막 — 평가도 비용이 있다Act 2 — Evaluation has a cost too

평가 방법마다 비용·속도·정확도가 다르다.Each eval method has different cost, speed, and accuracy.

방법Method 비용·속도Cost · Speed
인간 평가Human eval 정확도 최고 · 비용·시간 최고highest accuracy · highest cost & time
자동 평가Automated eval 빠르고 저렴 · 의미 판단 한계fast & cheap · limited semantic judgment
LLM-as-JudgeLLM-as-Judge 중간 정확도 · API 비용 발생mid accuracy · API cost incurred
실용 조합 — 자동으로 1차 필터 → 실패 케이스만 인간 검토Practical combo — automated first-pass → human review of failures only

[추론] 평가 방법마다 비용, 속도, 정확도 트레이드오프가 있다. 자동 평가로 빠르게 1차 필터링하고, 실패 케이스에 한해 인간 평가나 LLM-as-Judge를 적용하는 조합이 실용적이다.[inference] Each eval method has different cost, speed, and accuracy trade-offs. The practical combination: automated evaluation as a fast first-pass filter, with human evaluation or LLM-as-Judge applied only to failing cases.

3막 — 모델이 모델을 평가한다Act 3 — A model evaluating a model

LLM-as-Judge = '평가 기준 + 출력'을 판사 모델에 넘긴다.LLM-as-Judge = pass 'eval criteria + output' to a judge model.

평가 기준루브릭Eval criteriarubric
+
실제 출력Claude 응답Actual outputClaude response
판사 모델Claude APIJudge modelClaude API
점수 / 이유자동 채점Score / reasonauto grading

판사 모델이 채점을 자동화한다 — Claude API로 구현 가능.The judge model automates scoring — implementable via the Claude API.

[출처: docs.anthropic.com/en/docs/build-with-claude/evals] LLM-as-Judge 패턴은 Claude API로 구현할 수 있다. 판사 모델에 루브릭과 실제 출력을 함께 전달하면 점수와 이유를 반환한다. 편향 주의: 루브릭을 명확히 설계하고 인간 평가와 교차 검증 권장.[source: docs.anthropic.com/en/docs/build-with-claude/evals] The LLM-as-Judge pattern is implementable via the Claude API — pass the rubric and actual output to the judge model and it returns a score with reason. Bias warning: design the rubric clearly and cross-validate against human evaluation periodically.

3막 — 좋은 벤치마크의 조건Act 3 — What makes a benchmark good

좋은 벤치마크는 4가지를 갖춘다.A good benchmark has four qualities.

원칙Principle 설명Description
재현 가능Reproducible 같은 입력에 항상 같은 채점 방식same scoring method for the same input, always
대표성Representative 실제 사용 케이스를 충분히 반영adequately reflects real-world use cases
명확한 기준Clear criteria '좋다/나쁘다'를 숫자로 정의'good/bad' defined in numbers
유지 관리 가능Maintainable 서비스가 바뀌어도 갱신 가능한 구조updatable structure as the service evolves

[추론] 좋은 벤치마크는 재현 가능성, 대표성, 명확한 기준, 유지 관리 가능성을 갖춰야 한다. 벤치마크 자체가 너무 복잡하면 결국 쓰이지 않는다 — 단순하게 시작해서 점점 정교하게 만든다.[inference] A good benchmark needs reproducibility, representativeness, clear criteria, and maintainability. If the benchmark becomes too complex, it won't be used — start simple and refine over time.

3막 — 평가를 배포 흐름에 넣는다Act 3 — Putting eval inside the deploy flow

CI에 평가를 넣으면 — 망가진 걸 배포 전에 잡는다.Eval inside CI — catches breakage before it ships.

프롬프트 수정CI 트리거골든셋 평가 실행점수 통과?

→ 통과: 배포 진행
→ 실패: 배포 차단 + 알림
edit promptCI triggerrun golden-set evalscore pass?

→ pass: proceed to deploy
→ fail: block deploy + notify

평가가 CI 안에 있으면 — 회귀는 배포 전에 잡힌다.Eval inside CI — regressions caught before they ship.

[추론] CI에 골든셋 평가를 통합하면 프롬프트 수정 시마다 자동으로 점수가 나오고, 임계값 아래로 떨어지면 배포를 차단할 수 있다. CI까지 가기 전에도 '수정 전·후 평가 실행 습관'으로 시작할 수 있다.[inference] Integrating golden-set eval in CI automatically scores every prompt edit and can block deployment if the score drops below the threshold. Before building full CI, the habit of 'run eval before and after each edit' is a valid starting point.

3막 — 측정이 만드는 루프Act 3 — The loop measurement creates

측정 → 개선 → 재측정 — 이 루프가 품질을 만든다.Measure → improve → re-measure — this loop makes quality.

[평가 실행][약점 발견][프롬프트 수정][재평가] → 루프 반복
  → 숫자가 다음 개선의 근거가 된다
[run eval][spot weakness][fix prompt][re-eval] → loop repeats
  → numbers become the basis for the next improvement

측정 없이는 루프가 돌지 않는다 — 느낌이 개선의 동력이 되면 결국 멈춘다.Without measurement the loop doesn't turn — 'feel' as the driver eventually stalls.

[추론] 측정 → 개선 → 재측정 사이클은 품질을 지속적으로 개선하는 유일한 방법이다. 주관적 느낌은 이 루프를 돌리기에 충분한 피드백 신호를 제공하지 못한다.[inference] The measure → improve → re-measure cycle is the only way to improve quality continuously. Subjective feel doesn't provide sufficient feedback signal to keep the loop turning.

4막 — 지금 당장 할 수 있는 것Act 4 — What you can do right now

이 5가지로, '잘 되는 것 같아요'를 숫자로 바꾼다.Use these five to turn 'seems fine' into numbers.

  1. 1
    무엇을 측정할지 정했나?Did you define what to measure? → 출력의 어떤 속성이 '좋음'인지 정의→ define which property of output is 'good'
  2. 2
    골든셋이 있나?Do you have a golden set? → 최소 10개로 시작, 50개까지 키운다→ start with 10, grow to 50
  3. 3
    채점 기준이 숫자인가?Is the scoring criterion numeric? → '그럴듯하다' 대신 이진/점수 기준→ binary/score instead of 'feels plausible'
  4. 4
    수정 전·후 비교를 하는가?Do you compare before & after edits? → 회귀를 막는 습관→ the habit that prevents regressions
  5. 5
    약점을 발견하면 기록하는가?Do you log weaknesses when you find them? → 다음 개선의 입력이 된다→ becomes input for the next improvement

[추론] 5항목은 각각 S03(측정 대상)·S04(골든셋)·S08(명확한 기준)·S05(회귀 방지)·S10(개선 루프)에 대응한다. 거대한 인프라 없이 스프레드시트와 Claude API 몇 번으로 시작 가능.[inference] The five map onto S03 (what to measure)·S04 (golden set)·S08 (clear criteria)·S05 (regression prevention)·S10 (improvement loop). Startable with a spreadsheet and a few Claude API calls — no grand infrastructure needed.

4막 — 골든셋, 오늘 당장 만든다Act 4 — Build your golden set today

골든셋 10개 — 지금 바로 만들 수 있다.Ten golden-set examples — you can make them right now.

1단계: 실제 사용 케이스 10개 골라 적는다
2단계: 각 케이스의 '이상적인 출력' 또는 '통과 기준'을 적는다
3단계: Claude에 돌리고 기준과 비교한다
→ 이게 골든셋 v0.1이다. 틀려도 된다, 개선하면 된다.
Step 1: pick and write down 10 real use cases
Step 2: write the 'ideal output' or 'pass criteria' for each
Step 3: run Claude and compare against the criteria
→ This is your golden set v0.1. Imperfect is fine — improve it.

[추론] 골든셋은 처음부터 완벽할 필요가 없다. 실제 사용 케이스 열 개와 통과 기준을 적는 것만으로 시작할 수 있다. 버전을 붙이고 점점 개선해 나가는 것이 현실적인 접근이다.[inference] The golden set doesn't need to be perfect from the start. Ten real use cases with pass criteria is enough to begin. Versioning and incremental improvement is the realistic approach.

4막 — 같은 팀, 다른 결과Act 4 — Same team, different outcome

'느낌으로 개선'과 '측정으로 개선'은 다르다.'Improving by feel' and 'improving by numbers' are different.

평가 없는 팀Team without evals
회귀를 배포 후에 발견, 개선 방향 불분명, 팀 간 품질 기준 불일치.Regressions discovered post-deploy, improvement direction unclear, quality criteria misaligned across team.
평가 있는 팀Team with evals
회귀를 배포 전에 차단, 숫자로 개선 방향 확인, 팀 전체가 같은 기준.Regressions blocked before deploy, improvement direction confirmed in numbers, whole team on same standard.

[추론] 평가 없는 팀은 회귀를 늦게 발견하고, 개선 방향이 불분명하며, 팀 간 품질 판단이 불일치한다. 측정은 팀을 같은 방향으로 정렬시켜 주는 공통 언어다.[inference] A team without evals discovers regressions late, has unclear improvement direction, and misaligned quality standards. Measurement is the shared language that aligns the team in the same direction.

닫으며 · 측정이 개선을 만든다Closing · measurement makes improvement possible

측정하지 않으면 개선할 수 없다 —
오늘부터, 골든셋 10개.
What you don't measure,
you can't improve —
start today: ten golden examples.

한 단어로: 골든셋 → 평가 → 비교 → 루프.In a word: golden set → eval → compare → loop.

다음 강 예고 — 측정했으니, 이제 케이스 스터디로 전체를 정리한다 (Rule No.19).Next up — you've measured, now tie it all together with case studies (Rule No.19).

RULE No.18RULE No.18

[추론] 측정 → 개선 → 재측정의 루프가 지속적 품질 향상의 유일한 방법이다. 골든셋 열 개로 시작해서 루프를 돌리는 것이 오늘의 실천 과제다. As of 2026-06.[inference] The measure → improve → re-measure loop is the only way to improve quality continuously. Starting with ten golden-set examples and running the loop is today's action. As of 2026-06.