교육 영상 · 셀프 재생Learning video · self-running

RULE No.14

멀티에이전트 & 하네스 · 혼자 쓰지 말고 팀을 만들어라 · 시작을 누르면 음성과 함께 슬라이드가 자동 재생됩니다. Multi-agents & Harness · don't work solo, build a team · Press start and slides advance with narration.

1·2 언어 전환 · ← → 수동 이동 · Space 재생/정지1·2 language · ← → navigate · Space play/pause
멀티에이전트 & 하네스 · No.14
01 / 14 목차Index
  이동 · F 전체화면 · RULE №14 · BUILD A TEAM   navigate · F fullscreen · RULE №14 · BUILD A TEAM Privacy[email protected]
일시정지Paused
0 / 0
Home
교육 세션 · 텍스트 밖으로Learning session · beyond the text

RULE No.17

텍스트 밖으로
나가라.
Step outside
the text.

지금까지 우리는 텍스트로 Claude와 대화했습니다. 그런데 Claude는 이미지·PDF도 직접 봅니다. 오늘은 텍스트 너머의 입력을 제대로 활용합니다. Until now we've talked to Claude in text. But Claude can look directly at images and PDFs too. Today we properly use inputs beyond the text.

As of 2026-06 · 지원 포맷·API 파라미터는 버전마다 바뀝니다 — '텍스트 밖으로'라는 원리가 진실. [추론]As of 2026-06 · supported formats & API parameters change by version — the principle 'step outside the text' is the truth. [inference]

이미지 · IMAGEIMAGE
1막 — 이미지를 보여줬더니Act 1 — We showed it an image

"Claude한테 이미지를 보여줬더니 — 다 설명해 줬다.""We showed Claude an image — and it explained everything."

> [매출 차트 이미지 첨부] 이번 달 트렌드 분석해줘
→ 수치·패턴 읽어서 분석 즉시 제공

> [차트 이미지 첨부] 트렌드 요약해줘
→ 수치·패턴 읽어서 분석

> [screenshot attached] what's wrong here?
→ explains error cause and fix instantly

> [chart image attached] summarize the trend
→ reads numbers and patterns, then analyzes

텍스트로 길게 설명하는 것보다 — 이미지 하나가 더 정확하고 빠를 때가 있다.Sometimes one image is more accurate and faster — than a long text description.

[출처: docs.anthropic.com/en/docs/build-with-claude/vision] Claude는 이미지를 직접 입력으로 받아 분석할 수 있다 — 스크린샷·차트·다이어그램·문서 이미지 모두 포함.[source: docs.anthropic.com/en/docs/build-with-claude/vision] Claude can take images directly as input for analysis — includes screenshots, charts, diagrams, and document images.

2막 — Claude는 무엇을 볼 수 있나Act 2 — What can Claude see?

Claude는 이미지·PDF·코드를 직접 처리한다.Claude handles images, PDFs, and code directly.

모달Modal 지원 포맷Supported formats
이미지Images JPEG, PNG, GIF, WebP
PDF 최대 100페이지 문서documents up to 100 pages
코드/텍스트Code/text 모든 텍스트 기반 파일all text-based files
구조 텍스트Structured text Markdown, CSV, JSON etc.

[출처: docs.anthropic.com/en/docs/build-with-claude/vision] [출처: docs.anthropic.com/en/docs/build-with-claude/pdf-support] 지원 이미지 형식: JPEG, PNG, GIF, WebP. PDF: 최대 100페이지. As of 2026-06, 공식 문서로 현행 확인.[source: docs.anthropic.com/en/docs/build-with-claude/vision] [source: docs.anthropic.com/en/docs/build-with-claude/pdf-support] Supported image formats: JPEG, PNG, GIF, WebP. PDF: up to 100 pages. As of 2026-06; confirm live via official docs.

2막 — 이미지는 토큰을 얼마나 쓰나Act 2 — How many tokens does an image use?

1024×1024 이미지 ≈ 1,568 tokens — 텍스트와 같은 풀로 차감.A 1024×1024 image ≈ 1,568 tokens — deducted from the same pool as text.

이미지 크기가 클수록The larger the image
토큰이 더 많이
소모된다
the more tokens
it consumes
대책Solution
큰 이미지는
리사이즈·압축
resize or compress
large images

해상도를 낮춰도 — 분석에 충분한 경우가 많다.Lower resolution — is often sufficient for analysis.

[출처: docs.anthropic.com/en/docs/build-with-claude/vision] 1024×1024 이미지 ≈ 1,568 tokens. 이미지 토큰은 텍스트 토큰과 같은 컨텍스트 윈도우에서 차감. 불필요하게 큰 이미지는 리사이즈·압축해서 토큰 절약. As of 2026-06.[source: docs.anthropic.com/en/docs/build-with-claude/vision] 1024×1024 image ≈ 1,568 tokens. Image tokens are deducted from the same context window as text tokens. Resize/compress unnecessarily large images to save tokens. As of 2026-06.

2막 — PDF도 직접 읽는다Act 2 — It reads PDFs directly too

PDF: 최대 100페이지 · 페이지당 ≈ 1,500 tokens.PDF: up to 100 pages · ≈ 1,500 tokens per page.

가능한 것What's possible

표·그래프 읽기, 특정 섹션 요약, 여러 페이지 교차 분석.Read tables/graphs, summarize specific sections, cross-analyze multiple pages.

주의할 것Watch out

100페이지 넘으면 분할 필요 · 스캔 PDF는 OCR 한계 있음.Over 100 pages needs splitting · scanned PDFs have OCR limits.

[출처: docs.anthropic.com/en/docs/build-with-claude/pdf-support] PDF 최대 100페이지, 페이지당 약 1,500 tokens. 100페이지 초과 시 분할 필요. 스캔 PDF는 텍스트 레이어 없으면 정확도 저하 가능. As of 2026-06.[source: docs.anthropic.com/en/docs/build-with-claude/pdf-support] PDF up to 100 pages, ~1,500 tokens per page. Over 100 pages needs splitting. Scanned PDFs without a text layer may lose accuracy. As of 2026-06.

2막 — 실전에서 어떻게 쓰나Act 2 — How it's used in practice

텍스트로 설명하기 어려운 것 — 이미지로 직접 보여준다.Things hard to explain in text — show them directly as images.

매출 보고서 스크린샷 → 즉시 수치 분석Sales report screenshot → instant data analysis 차트·그래프 → 수치 읽기·트렌드 분석Chart/graph → read numbers, trend analysis 매장 레이아웃 사진 → 개선점 도출Store layout photo → improvement points 문서·계약서 → 조항 요약·비교Document/contract → clause summary and comparison 손으로 쓴 노트 → 텍스트 변환Handwritten notes → text conversion

텍스트로 옮기면 정보 손실·오류 가능성 — 원본 시각 정보를 그대로 전달하는 게 유리.Converting to text risks information loss and errors — passing original visual information as-is is more advantageous.

[추론] 위 활용 패턴은 이미지·PDF 입력이 텍스트 설명보다 효과적인 대표 사례 — 원본 시각 정보를 그대로 전달하는 게 유리. (docs.anthropic.com/en/docs/build-with-claude/vision 확인.)[inference] The above usage patterns are representative cases where image/PDF input is more effective than text description — passing original visual information as-is is more advantageous. (See docs.anthropic.com/en/docs/build-with-claude/vision.)

3막 — 왜 이미지가 더 정확한가Act 3 — Why images are more accurate

텍스트 설명은 해석을 거친다 — 이미지는 원본을 그대로 전달한다.Text descriptions pass through interpretation — images deliver the original as-is.

텍스트 설명Text description
"버튼이 파란색이고 오른쪽 상단에 있다" — 사람이 해석해서 쓴 것, 오류·누락 가능."the button is blue and in the top right" — written through human interpretation, can have errors or omissions.
이미지 직접 전달Direct image
Claude가 원본을 직접 분석 — 사람 중간 해석 없이, 디테일 유지.Claude analyzes the original directly — no human intermediary, details preserved.

[추론] 텍스트 설명은 사람이 시각 정보를 언어로 번역하는 과정에서 해석·단순화·누락이 생긴다. 이미지를 직접 전달하면 그 번역 단계가 없어져 원본 정보가 보존된다 — 멀티모달의 핵심 이점.[inference] Text descriptions introduce interpretation, simplification, and omission as a person translates visual info into language. Passing the image directly removes that translation step, preserving the original information — the core benefit of multimodal.

3막 — 이미지를 잘 쓰는 법Act 3 — How to use images well

이미지 + 명확한 질문 = 최적 결과.Image + a clear question = optimal result.

최적 이미지 입력 = [목적에 맞는 크기] + [명확한 질문] + [필요한 맥락 텍스트]
  → 정확한 분석
Optimal image input = [right size for the purpose] + [clear question] + [necessary context text]
  → accurate analysis

이미지가 시각 정보를 담당하고, 텍스트가 맥락을 담당한다 — 둘이 함께여야 최적.The image handles visual info, the text handles context — together they're optimal.

[추론] 이미지 입력 최적화 3요소: (1) 목적에 맞는 크기 — 불필요하게 크면 토큰 낭비; (2) 명확한 질문 — "이 차트에서 2025년 최대값은?" vs "분석해줘"; (3) 필요한 맥락 텍스트 — 배경 설명·분석 기준 등 이미지 단독으로 전달 안 되는 정보.[inference] Three elements of optimal image input: (1) right size for purpose — unnecessarily large wastes tokens; (2) clear question — "what's the max value in 2025 on this chart?" vs "analyze this"; (3) necessary context text — background, analysis criteria, etc. that images alone can't convey.

3막 — 워크플로우에 통합하기Act 3 — Integrating into a workflow

이미지는 '입력 변환기' — 텍스트 파이프라인 앞에 둔다.Images as an 'input converter' — place them before the text pipeline.

시각 정보이미지·PDFVisual sourceimage·PDF
Claude 분석직접 처리Claude analysisdirect processing
구조화된 텍스트Structured text결과 출력result output
다음 단계 처리Next stage processing파이프라인 연결pipeline connected

멀티모달 입력으로 구조화된 텍스트를 얻어 — 그 뒤 파이프라인을 태운다.Use multimodal input to get structured text — then run it through the downstream pipeline.

[추론] 멀티모달 입력의 워크플로우 역할: 시각 정보(이미지·PDF)를 구조화된 텍스트로 변환하는 '입력 전처리' 단계 — 이후 요약·분류·번역·코드생성 등 텍스트 파이프라인에 연결. (s14 멀티에이전트 하네스 정합 — 입력 단계로서의 멀티모달.)[inference] Workflow role of multimodal input: an 'input preprocessing' stage that converts visual info (images/PDFs) into structured text — then connects to text pipelines for summarization, classification, translation, code generation, etc. (Aligns with s14 multi-agent harness — multimodal as the input stage.)

3막 — 조심해야 할 것Act 3 — Things to watch out for

이미지 입력의 두 가지 주의사항: 프라이버시비용.Two things to watch with image input: privacy and cost.

프라이버시Privacy

이미지 안의 개인정보(얼굴·주민번호·의료정보)는 API 전송 전 확인 필요. 정책 숙지 후 사용.Personal info in images (faces, ID numbers, medical info) needs review before API transmission. Know the policy before use.

비용Cost

이미지가 많으면 토큰이 빠르게 쌓인다. 배치 처리·크기 최적화로 관리.Many images stack up tokens fast. Manage with batch processing and size optimization.

[추론] (1) 프라이버시 — 이미지에는 텍스트보다 더 많은 개인정보가 담길 수 있으므로 API 전송 전 민감정보 검토·마스킹 고려; (2) 비용 — 이미지당 토큰 소모가 크므로 대량 이미지 처리 시 비용 추정 필요. (s16 비용·거버넌스 정합.)[inference] (1) Privacy — images can contain more personal info than text, so review and consider masking sensitive info before API transmission; (2) Cost — token consumption per image is high, so estimate costs for bulk image processing. (Aligns with s16 cost & governance.)

4막 — 이미지 입력 전 5점검Act 4 — 5 checks before image input

이미지를 쓰기 전, 이 5가지를 확인한다.Before using an image, check these five.

  1. 1
    텍스트로 설명하기 어려운가?Is it hard to explain in text? → 어렵다면 이미지가 낫다→ if so, an image is better
  2. 2
    지원 포맷인가?Is it a supported format? → JPEG·PNG·GIF·WebP·PDF 확인→ check JPEG·PNG·GIF·WebP·PDF
  3. 3
    크기가 적절한가?Is the size appropriate? → 목적에 맞게 리사이즈·압축→ resize or compress for the purpose
  4. 4
    민감정보가 없는가?No sensitive data? → 있으면 마스킹 후 전송→ mask it before sending if there is
  5. 5
    질문이 명확한가?Is the question clear? → 이미지 + 구체적 질문 = 정확한 답→ image + specific question = accurate answer

[추론] 5항목은 각각 슬라이드 06·03·04·10·08의 내용과 대응 — 필요성·포맷·크기·프라이버시·질문 명확성. 이미지는 '항상 쓰면 좋은 것'이 아니라 '텍스트보다 효과적일 때 쓰는 것'.[inference] The five map onto slides 06·03·04·10·08 — necessity·format·size·privacy·question clarity. Images aren't 'always better' — they're for when they're more effective than text.

4막 — 텍스트의 한계, 이미지의 강점Act 4 — Text's limits, image's strengths

텍스트가 못하는 것을 — 이미지가 한다.What text can't do — images do.

이미지가 더 나은 경우 =
[공간 레이아웃] + [시각적 패턴] + [현재 상태 스냅샷] + [손글씨·그림]
  → 텍스트 설명보다 원본 그대로
Images are better for =
[spatial layout] + [visual patterns] + [current-state snapshot] + [handwriting·drawings]
  → original as-is, not a text description

[추론] 이미지가 텍스트보다 우위인 네 가지 유형: (1) 공간 레이아웃; (2) 시각적 패턴; (3) 현재 상태 스냅샷; (4) 손글씨·그림. 텍스트는 의미·논리·언어에 강하고, 이미지는 시각·공간·상태에 강하다.[inference] Four types where images outperform text: (1) spatial layout; (2) visual patterns; (3) current-state snapshots; (4) handwriting/drawings. Text is strong for meaning, logic, and language; images are strong for visuals, space, and state.

4막 — 같은 질문, 다른 결과Act 4 — Same question, different outcome

'텍스트로 설명'과 '이미지로 직접'은 다르다.'Explain in text' and 'show directly as image' are different.

텍스트 설명Text description
"차트 왼쪽에 막대가 세 개 있고 오른쪽으로 갈수록 높아집니다…" — 길고, 해석 오류 가능, 디테일 손실."There are three bars on the left side of the chart and they get taller going right…" — long, possible errors, detail loss.
이미지 직접Direct image
[차트 이미지 첨부] "이 차트의 최대·최소·추세를 분석해줘" — 짧고, 원본 그대로, 정확.[chart image attached] "analyze the max, min, and trend of this chart" — short, original as-is, accurate.

[추론] 실전 레시피: (1) 이미지 첨부; (2) 구체적 질문으로 목적 명시; (3) 필요한 맥락 텍스트 추가. 텍스트 설명은 번거롭고 정보 손실 — 이미지는 원본 그대로 전달해 짧고 정확.[inference] Practical recipe: (1) attach the image; (2) state the purpose with a specific question; (3) add necessary context text. Text description is tedious and loses info — images deliver the original as-is, short and accurate.

닫으며 · 텍스트 너머로Closing · beyond the text

텍스트 밖으로 나가라 —
이미지가 더 정확할 때는, 이미지를 써라.
Step outside the text —
when an image is more accurate, use the image.

한 단어로: 시각 정보는 이미지로 — 직접, 원본, 정확하게.In a word: visual info as images — directly, original, accurately.

5점검: 필요성·포맷·크기·프라이버시·질문 명확성. 다음 강 예고 — 결과물의 품질을 어떻게 측정하는지 (Rule No.18).5 checks: necessity·format·size·privacy·question clarity. Next up — how do we measure the quality of results (Rule No.18).

RULE No.17

[추론] Rule No.17 핵심: 텍스트로 설명하기 어려운 시각 정보는 이미지로 직접 전달한다 — 번역 단계 없이 원본 보존. Rule No.2(컨텍스트 보호 — 이미지 크기 최적화)·No.16(비용·거버넌스 — 이미지 토큰 계획)과 연결. As of 2026-06.[inference] Core of Rule No.17: visual info that's hard to explain in text is passed directly as images — original preserved without a translation step. Connected to Rule No.2 (protect context — image size optimization) & No.16 (cost & governance — image token planning). As of 2026-06.