Baidu에서 공개한 Unlimited-OCR. 기존 OCR 모델들이 가지는 제약 사항인 100페이지나 되는 대용량 문서 분석도 가능하다고 해서 기대하고 있습니다.
Baidu, Unlimited-OCR 공개
2일 전, Baidu에서 Unlimited-OCR을 발표했습니다. 이는 기존 OCR 모델들이 가지는 문서 해독 제약을 없앤 모델로서 기대를 하고 있습니다. 아래는 GPT 요약 내용입니다.
====
“기존 OCR이 문서를 못 읽었다”기보다는 “긴 문서를 한 번에 통합적으로 이해하지 못했다”가 더 정확한 표현입니다.
기존 OCR 계열의 구조적 한계
전통적인 OCR 파이프라인은 보통 다음과 같습니다.
PDF (100 페이지)
→ 페이지 분리
→ OCR 수행 (1페이지씩)
→ 텍스트 합치기
→ LLM 분석
예를 들면:
Tesseract
PaddleOCR
EasyOCR
Azure OCR
Google Document AI
OCR + GPT 파이프라인
대부분은 페이지 단위로 처리합니다. (ECVA)
문제는:
1. 페이지 간 관계를 잃어버림
예를 들어
1페이지:
계약 조건
23페이지:
예외 조항
57페이지:
부칙
질문:
“계약 해지 조건은 무엇인가?”
이면 실제 답은 여러 페이지에 흩어져 있을 수 있습니다.
기존 OCR은
OCR 결과:
Page1.txt
Page23.txt
Page57.txt
로 분리된 상태라서 이후 LLM이 다시 조합해야 합니다.
2. 컨텍스트 길이 제한
최근 OCR-VLM 계열도 문제였습니다.
예를 들면:
GOT-OCR
Nougat
DeepSeek-OCR
Qianfan-OCR
등은 End-to-End 구조이지만,
문서가 길어질수록 Decoder KV Cache가 계속 증가합니다. (arXiv)
예:
10 페이지 → OK
50 페이지 → 느려짐
100 페이지 → 메모리 폭증
3. Cross-page reasoning 어려움
최근 연구에서는
문서 이해 질문의 약 33%가 여러 페이지의 정보를 동시에 참조해야 한다고 보고했습니다. (arXiv)
예:
표는 5페이지
설명은 18페이지
결론은 44페이지
현재 VLM조차 이런 Long-context Document Understanding 성능이 높지 않습니다. (arXiv)
Unlimited-OCR이 주장하는 해결책
바이두 논문의 핵심은 OCR 정확도가 아니라
“One-shot Long-horizon Parsing”
입니다. (GitHub)
즉
100 페이지 PDF
↓
한 번에 입력
↓
한 번에 Markdown 출력
을 목표로 합니다.
어떻게 가능한가?
논문에서는
R-SWA (Reference Sliding Window Attention)
이라는 Attention 구조를 사용합니다. (arXiv)
기존 Transformer:
출력이 길어질수록
KV Cache
↑
↑
↑
계속 증가
Unlimited-OCR:
KV Cache 크기
고정
에 가깝게 유지합니다. (arXiv)
그래서
수십 페이지
↓
단일 Forward Pass
가 가능하다고 주장합니다. (arXiv)
DeepSeek-OCR과의 차이
흥미롭게도 Unlimited-OCR은 완전히 새로운 OCR이 아닙니다.
논문에서 직접
DeepSeek-OCR을 기반으로 확장했다
고 설명합니다. (GitHub)
비교하면:
| 항목 | DeepSeek-OCR | Unlimited-OCR |
|---|---|---|
| 문서 압축 | 매우 강함 | 동일 |
| OCR 정확도 | 높음 | 비슷 |
| 긴 문서 처리 | 제한적 | 핵심 목표 |
| KV Cache | 계속 증가 | 거의 고정 |
| 수십 페이지 단일 처리 | 어려움 | 가능 |
| 설계 목표 | OCR 효율 | Long-horizon Parsing |
실제로 사용자 입장에서 체감되는 차이
예를 들어 사용자가 ISO27001 증빙 PDF 200페이지를 OCR한다고 가정하면,
기존 방식:
PDF
→ 200개 페이지 분리
→ OCR
→ 페이지 텍스트 합치기
→ RAG
→ LLM
Unlimited-OCR 방식:
PDF
→ OCR 모델
→ 전체 Markdown
으로 처리할 수 있다는 것입니다. (AI Weekly)
다만 주의할 점
현재 공개된 Unlimited-OCR은 상당히 인상적이지만 아직 검증이 덜 됐습니다.
공개된 지 며칠 안 됨
독립 벤치마크 부족
“수십 페이지를 한 번에 처리”는 확인됐지만 실제 기업 문서(수백 페이지 계약서, ISO 문서 등)에서 어느 정도 성능이 나오는지는 아직 검증 필요 (AI Weekly)
따라서 현재 시점에서는
OCR 정확도를 혁신했다기보다,
OCR의 컨텍스트 길이 한계를 해결하려는 첫 번째 본격적인 오픈소스 모델
로 보는 것이 가장 적절합니다.
특히 사용자가 현재 시험 중인 OpenClaw/Claude Code/Agent 워크플로우 관점에서는, 이 모델이 성숙하면 “PDF → OCR → Chunking → RAG” 파이프라인 자체를 상당 부분 단순화할 가능성이 있습니다. 지금까지는 OCR 결과를 페이지별로 잘라서 벡터DB에 넣어야 했지만, Unlimited-OCR은 문서 전체의 구조와 문맥을 유지한 Markdown을 생성하는 방향을 지향하고 있기 때문입니다. (GitHub)
※ 지난 게시글:
- AI 뉴스 훑어보기 – 2026.6.19
- AI 뉴스 훑어보기 – 2026.6.18
- AI 뉴스 훑어보기 – 2026.6.17
- AI 뉴스 훑어보기 – 2026.6.16
- AI 뉴스 훑어보기 – 2026.6.10
※ 출처: r/LocalLLM, r/openclaw, r/unsloth, r/opencode, r/claude













