Baidu에서 공개한 Unlimited-OCR. 기존 OCR 모델들이 가지는 제약 사항인 100페이지나 되는 대용량 문서 분석도 가능하다고 해서 기대하고 있습니다.

Baidu, Unlimited-OCR 공개

2일 전, Baidu에서 Unlimited-OCR을 발표했습니다. 이는 기존 OCR 모델들이 가지는 문서 해독 제약을 없앤 모델로서 기대를 하고 있습니다. 아래는 GPT 요약 내용입니다. 

AD

====

“기존 OCR이 문서를 못 읽었다”기보다는 “긴 문서를 한 번에 통합적으로 이해하지 못했다”가 더 정확한 표현입니다.

기존 OCR 계열의 구조적 한계

전통적인 OCR 파이프라인은 보통 다음과 같습니다.

PDF (100 페이지)

→ 페이지 분리
→ OCR 수행 (1페이지씩)
→ 텍스트 합치기
→ LLM 분석

예를 들면:

  • Tesseract

  • PaddleOCR

  • EasyOCR

  • Azure OCR

  • Google Document AI

  • OCR + GPT 파이프라인

대부분은 페이지 단위로 처리합니다. (ECVA)

문제는:

1. 페이지 간 관계를 잃어버림

예를 들어

1페이지:
계약 조건

23페이지:
예외 조항

57페이지:
부칙

질문:

“계약 해지 조건은 무엇인가?”

이면 실제 답은 여러 페이지에 흩어져 있을 수 있습니다.

기존 OCR은

OCR 결과:
Page1.txt
Page23.txt
Page57.txt

로 분리된 상태라서 이후 LLM이 다시 조합해야 합니다.


2. 컨텍스트 길이 제한

최근 OCR-VLM 계열도 문제였습니다.

예를 들면:

  • GOT-OCR

  • Nougat

  • DeepSeek-OCR

  • Qianfan-OCR

등은 End-to-End 구조이지만,

문서가 길어질수록 Decoder KV Cache가 계속 증가합니다. (arXiv)

예:

10 페이지 → OK

50 페이지 → 느려짐

100 페이지 → 메모리 폭증

3. Cross-page reasoning 어려움

최근 연구에서는

문서 이해 질문의 약 33%가 여러 페이지의 정보를 동시에 참조해야 한다고 보고했습니다. (arXiv)

예:

표는 5페이지
설명은 18페이지
결론은 44페이지

현재 VLM조차 이런 Long-context Document Understanding 성능이 높지 않습니다. (arXiv)


Unlimited-OCR이 주장하는 해결책

바이두 논문의 핵심은 OCR 정확도가 아니라

“One-shot Long-horizon Parsing”

입니다. (GitHub)

100 페이지 PDF

↓

한 번에 입력

↓

한 번에 Markdown 출력

을 목표로 합니다.


어떻게 가능한가?

논문에서는

R-SWA (Reference Sliding Window Attention)

이라는 Attention 구조를 사용합니다. (arXiv)

기존 Transformer:

출력이 길어질수록

KV Cache
↑
↑
↑
계속 증가

Unlimited-OCR:

KV Cache 크기

고정

에 가깝게 유지합니다. (arXiv)

그래서

수십 페이지

↓

단일 Forward Pass

가 가능하다고 주장합니다. (arXiv)


DeepSeek-OCR과의 차이

흥미롭게도 Unlimited-OCR은 완전히 새로운 OCR이 아닙니다.

논문에서 직접

DeepSeek-OCR을 기반으로 확장했다

고 설명합니다. (GitHub)

비교하면:

항목DeepSeek-OCRUnlimited-OCR
문서 압축매우 강함동일
OCR 정확도높음비슷
긴 문서 처리제한적핵심 목표
KV Cache계속 증가거의 고정
수십 페이지 단일 처리어려움가능
설계 목표OCR 효율Long-horizon Parsing

실제로 사용자 입장에서 체감되는 차이

예를 들어 사용자가 ISO27001 증빙 PDF 200페이지를 OCR한다고 가정하면,

기존 방식:

PDF

→ 200개 페이지 분리
→ OCR
→ 페이지 텍스트 합치기
→ RAG
→ LLM

Unlimited-OCR 방식:

PDF

→ OCR 모델

→ 전체 Markdown

으로 처리할 수 있다는 것입니다. (AI Weekly)


다만 주의할 점

현재 공개된 Unlimited-OCR은 상당히 인상적이지만 아직 검증이 덜 됐습니다.

  • 공개된 지 며칠 안 됨

  • 독립 벤치마크 부족

  • “수십 페이지를 한 번에 처리”는 확인됐지만 실제 기업 문서(수백 페이지 계약서, ISO 문서 등)에서 어느 정도 성능이 나오는지는 아직 검증 필요 (AI Weekly)

따라서 현재 시점에서는

OCR 정확도를 혁신했다기보다,
OCR의 컨텍스트 길이 한계를 해결하려는 첫 번째 본격적인 오픈소스 모델

로 보는 것이 가장 적절합니다.

특히 사용자가 현재 시험 중인 OpenClaw/Claude Code/Agent 워크플로우 관점에서는, 이 모델이 성숙하면 “PDF → OCR → Chunking → RAG” 파이프라인 자체를 상당 부분 단순화할 가능성이 있습니다. 지금까지는 OCR 결과를 페이지별로 잘라서 벡터DB에 넣어야 했지만, Unlimited-OCR은 문서 전체의 구조와 문맥을 유지한 Markdown을 생성하는 방향을 지향하고 있기 때문입니다. (GitHub)


 

※ 출처: r/LocalLLM, r/openclaw, r/unsloth, r/opencode, r/claude

AD

LEAVE A REPLY

Please enter your comment!
Please enter your name here