지금까지 우리는 텍스트로 Claude와 대화했습니다. 그런데 Claude는 이미지·PDF도 직접 봅니다. 오늘은 텍스트 너머의 입력을 제대로 활용합니다. Until now we've talked to Claude in text. But Claude can look directly at images and PDFs too. Today we properly use inputs beyond the text.
As of 2026-06 · 지원 포맷·API 파라미터는 버전마다 바뀝니다 — '텍스트 밖으로'라는 원리가 진실. [추론]As of 2026-06 · supported formats & API parameters change by version — the principle 'step outside the text' is the truth. [inference]
텍스트로 길게 설명하는 것보다 — 이미지 하나가 더 정확하고 빠를 때가 있다.Sometimes one image is more accurate and faster — than a long text description.
[출처: docs.anthropic.com/en/docs/build-with-claude/vision] Claude는 이미지를 직접 입력으로 받아 분석할 수 있다 — 스크린샷·차트·다이어그램·문서 이미지 모두 포함.[source: docs.anthropic.com/en/docs/build-with-claude/vision] Claude can take images directly as input for analysis — includes screenshots, charts, diagrams, and document images.
| 모달Modal | 지원 포맷Supported formats |
|---|---|
| 이미지Images | JPEG, PNG, GIF, WebP |
| 최대 100페이지 문서documents up to 100 pages | |
| 코드/텍스트Code/text | 모든 텍스트 기반 파일all text-based files |
| 구조 텍스트Structured text | Markdown, CSV, JSON 등etc. |
[출처: docs.anthropic.com/en/docs/build-with-claude/vision] [출처: docs.anthropic.com/en/docs/build-with-claude/pdf-support] 지원 이미지 형식: JPEG, PNG, GIF, WebP. PDF: 최대 100페이지. As of 2026-06, 공식 문서로 현행 확인.[source: docs.anthropic.com/en/docs/build-with-claude/vision] [source: docs.anthropic.com/en/docs/build-with-claude/pdf-support] Supported image formats: JPEG, PNG, GIF, WebP. PDF: up to 100 pages. As of 2026-06; confirm live via official docs.
해상도를 낮춰도 — 분석에 충분한 경우가 많다.Lower resolution — is often sufficient for analysis.
[출처: docs.anthropic.com/en/docs/build-with-claude/vision] 1024×1024 이미지 ≈ 1,568 tokens. 이미지 토큰은 텍스트 토큰과 같은 컨텍스트 윈도우에서 차감. 불필요하게 큰 이미지는 리사이즈·압축해서 토큰 절약. As of 2026-06.[source: docs.anthropic.com/en/docs/build-with-claude/vision] 1024×1024 image ≈ 1,568 tokens. Image tokens are deducted from the same context window as text tokens. Resize/compress unnecessarily large images to save tokens. As of 2026-06.
표·그래프 읽기, 특정 섹션 요약, 여러 페이지 교차 분석.Read tables/graphs, summarize specific sections, cross-analyze multiple pages.
100페이지 넘으면 분할 필요 · 스캔 PDF는 OCR 한계 있음.Over 100 pages needs splitting · scanned PDFs have OCR limits.
[출처: docs.anthropic.com/en/docs/build-with-claude/pdf-support] PDF 최대 100페이지, 페이지당 약 1,500 tokens. 100페이지 초과 시 분할 필요. 스캔 PDF는 텍스트 레이어 없으면 정확도 저하 가능. As of 2026-06.[source: docs.anthropic.com/en/docs/build-with-claude/pdf-support] PDF up to 100 pages, ~1,500 tokens per page. Over 100 pages needs splitting. Scanned PDFs without a text layer may lose accuracy. As of 2026-06.
텍스트로 옮기면 정보 손실·오류 가능성 — 원본 시각 정보를 그대로 전달하는 게 유리.Converting to text risks information loss and errors — passing original visual information as-is is more advantageous.
[추론] 위 활용 패턴은 이미지·PDF 입력이 텍스트 설명보다 효과적인 대표 사례 — 원본 시각 정보를 그대로 전달하는 게 유리. (docs.anthropic.com/en/docs/build-with-claude/vision 확인.)[inference] The above usage patterns are representative cases where image/PDF input is more effective than text description — passing original visual information as-is is more advantageous. (See docs.anthropic.com/en/docs/build-with-claude/vision.)
[추론] 텍스트 설명은 사람이 시각 정보를 언어로 번역하는 과정에서 해석·단순화·누락이 생긴다. 이미지를 직접 전달하면 그 번역 단계가 없어져 원본 정보가 보존된다 — 멀티모달의 핵심 이점.[inference] Text descriptions introduce interpretation, simplification, and omission as a person translates visual info into language. Passing the image directly removes that translation step, preserving the original information — the core benefit of multimodal.
이미지가 시각 정보를 담당하고, 텍스트가 맥락을 담당한다 — 둘이 함께여야 최적.The image handles visual info, the text handles context — together they're optimal.
[추론] 이미지 입력 최적화 3요소: (1) 목적에 맞는 크기 — 불필요하게 크면 토큰 낭비; (2) 명확한 질문 — "이 차트에서 2025년 최대값은?" vs "분석해줘"; (3) 필요한 맥락 텍스트 — 배경 설명·분석 기준 등 이미지 단독으로 전달 안 되는 정보.[inference] Three elements of optimal image input: (1) right size for purpose — unnecessarily large wastes tokens; (2) clear question — "what's the max value in 2025 on this chart?" vs "analyze this"; (3) necessary context text — background, analysis criteria, etc. that images alone can't convey.
멀티모달 입력으로 구조화된 텍스트를 얻어 — 그 뒤 파이프라인을 태운다.Use multimodal input to get structured text — then run it through the downstream pipeline.
[추론] 멀티모달 입력의 워크플로우 역할: 시각 정보(이미지·PDF)를 구조화된 텍스트로 변환하는 '입력 전처리' 단계 — 이후 요약·분류·번역·코드생성 등 텍스트 파이프라인에 연결. (s14 멀티에이전트 하네스 정합 — 입력 단계로서의 멀티모달.)[inference] Workflow role of multimodal input: an 'input preprocessing' stage that converts visual info (images/PDFs) into structured text — then connects to text pipelines for summarization, classification, translation, code generation, etc. (Aligns with s14 multi-agent harness — multimodal as the input stage.)
이미지 안의 개인정보(얼굴·주민번호·의료정보)는 API 전송 전 확인 필요. 정책 숙지 후 사용.Personal info in images (faces, ID numbers, medical info) needs review before API transmission. Know the policy before use.
이미지가 많으면 토큰이 빠르게 쌓인다. 배치 처리·크기 최적화로 관리.Many images stack up tokens fast. Manage with batch processing and size optimization.
[추론] (1) 프라이버시 — 이미지에는 텍스트보다 더 많은 개인정보가 담길 수 있으므로 API 전송 전 민감정보 검토·마스킹 고려; (2) 비용 — 이미지당 토큰 소모가 크므로 대량 이미지 처리 시 비용 추정 필요. (s16 비용·거버넌스 정합.)[inference] (1) Privacy — images can contain more personal info than text, so review and consider masking sensitive info before API transmission; (2) Cost — token consumption per image is high, so estimate costs for bulk image processing. (Aligns with s16 cost & governance.)
[추론] 5항목은 각각 슬라이드 06·03·04·10·08의 내용과 대응 — 필요성·포맷·크기·프라이버시·질문 명확성. 이미지는 '항상 쓰면 좋은 것'이 아니라 '텍스트보다 효과적일 때 쓰는 것'.[inference] The five map onto slides 06·03·04·10·08 — necessity·format·size·privacy·question clarity. Images aren't 'always better' — they're for when they're more effective than text.
[추론] 이미지가 텍스트보다 우위인 네 가지 유형: (1) 공간 레이아웃; (2) 시각적 패턴; (3) 현재 상태 스냅샷; (4) 손글씨·그림. 텍스트는 의미·논리·언어에 강하고, 이미지는 시각·공간·상태에 강하다.[inference] Four types where images outperform text: (1) spatial layout; (2) visual patterns; (3) current-state snapshots; (4) handwriting/drawings. Text is strong for meaning, logic, and language; images are strong for visuals, space, and state.
[추론] 실전 레시피: (1) 이미지 첨부; (2) 구체적 질문으로 목적 명시; (3) 필요한 맥락 텍스트 추가. 텍스트 설명은 번거롭고 정보 손실 — 이미지는 원본 그대로 전달해 짧고 정확.[inference] Practical recipe: (1) attach the image; (2) state the purpose with a specific question; (3) add necessary context text. Text description is tedious and loses info — images deliver the original as-is, short and accurate.
한 단어로: 시각 정보는 이미지로 — 직접, 원본, 정확하게.In a word: visual info as images — directly, original, accurately.
5점검: 필요성·포맷·크기·프라이버시·질문 명확성. 다음 강 예고 — 결과물의 품질을 어떻게 측정하는지 (Rule No.18).5 checks: necessity·format·size·privacy·question clarity. Next up — how do we measure the quality of results (Rule No.18).
[추론] Rule No.17 핵심: 텍스트로 설명하기 어려운 시각 정보는 이미지로 직접 전달한다 — 번역 단계 없이 원본 보존. Rule No.2(컨텍스트 보호 — 이미지 크기 최적화)·No.16(비용·거버넌스 — 이미지 토큰 계획)과 연결. As of 2026-06.[inference] Core of Rule No.17: visual info that's hard to explain in text is passed directly as images — original preserved without a translation step. Connected to Rule No.2 (protect context — image size optimization) & No.16 (cost & governance — image token planning). As of 2026-06.