socOCRbench, vLLM 모델들의 OCR 벤치 결과를 이용하면 적절한 비용으로 원하는 품질을 얻을 수 있는 모델을 선택하기 쉬울 겁니다. 또, Local AI 모델 훈련/실행할 수 있는 Web UI UnSloth Studio (beta) 공개 소식도 있네요. 이 외에도 OpenClaw로 가능한 5가지 작업, 유용한 Skill 5가지 글도 있습니다.

AD

하버드 대학교 박사 과정 Noah Dasanaike의 “ vLLM 모델별 OCR 벤치” 결과입니다. AI 모델별로 OCR 품질과 비용을 비교했습니다.
시험 방법에 따라 v1, v2, v3 로 구분하고 있는데 v3 dots.ocr의 경우, 공통 프롬프트가 아닌 dots.ocr 이미지 기반 자체 프롬프트를 사용했다고 하니 유리한 점수가 나왔을 수 있습니다. OCR용 AI 모델 선택을 위한 참고 정보로 보시면 되겠습니다.

OpenSource로서 Local AI 모델 훈련(Fine-tuning 포함)하는데 있어서 가장 큰 2가지 문제인 학습 속도와, VRAM을 절약할 수 있다고 하는 점이 눈에 띄네요. 또한 AI 모델 학습에 코딩이 필요 없다고 합니다. 광고대로라면 더 작은 VRAM (8~12GB)에서도 VRAM 용량 보다 더 큰 모델 학습이 가능해 보입니다. 게다가 Google Colab notebook 활용해서 22B이상 대형 모델 훈련도 가능하다고 합니다.

주요 특징:

  • Mac, Windows 및 Linux에서 모델을 로컬로 실행
  • 500개 이상의 모델을 2배 빠르게 학습하고 VRAM을 70% 절약
  • GGUF, 비전, 오디오 및 임베딩 모델 지원
  • 모델을 나란히 비교하고 대결
  • 셀프 힐링 툴 호출 및 웹 검색
  • PDF, CSV 및 DOCX에서 데이터셋 자동 생성
  • 코드 실행으로 LLM이 코드를 테스트해 더 정확한 출력 제공
  • 모델을 GGUF, Safetensors 등으로 내보내기
  • 자동 추론 매개변수 튜닝(온도, top-p 등) + 채팅 템플릿 편집

현재 진행 중인 GTC 행사에서 발표한 NemoClaw는 기업에서 사용할 수 있는 수준의 “보안”을 강화했다고 합니다. 특히 OpenShell 의 경우, 기존 OpenClaw에서 무제한 권한을 사용하던 것을 “정책” 기반 개인 정보 및 보안을 따른다고 합니다. 이에 따라 프로그램 실행이나 폴더 접근 권한을 통제할 수 있어서 보다 안전성을 강화했다고 합니다.

OpenClaw 기본 설정 후에 다른 Skill/Tool 설치 없이도 가능한 작업 5가지를 소개하고 있습니다.

  • Local 파일 읽고, 쓰고, 관리하기
  • 직접적인 Shell 명령 실행
  • Browser Skill 없이 웹 탐색하기
  • 내장 Cron 기능 이용해서 예약 작업 실행
  • Orchestrator 없이 연속 작업 실행

Manifest: OpenClaw와 모델 제공업체 사이에 라우팅 계층을 추가합니다. 모든 요청은 분류되어 처리 가능한 가장 저렴한 모델로 전송됩니다. 이 기능이 없으면 간단한 도구 호출조차도 기본 모델로 전송됩니다. 라우팅을 통해 가벼운 작업은 저렴하게 처리되고, 복잡한 추론 작업에는 더 강력한 모델이 사용됩니다. 장기적으로 불필요한 비용을 크게 절감할 수 있습니다.

Composio: MCP 서버를 통해 통합을 처리합니다. API 키와 토큰 갱신을 직접 관리하는 대신, 앱을 한 번만 연결하면 OAuth, 갱신 주기, 속도 제한을 관리해 줍니다. 각 통합은 독립적으로 실행되므로 오류가 발생해도 다른 통합에 영향을 미치지 않습니다. 따라서 여러 앱을 사용하는 워크플로도 안정적으로 운영할 수 있습니다.

Hyperspell: 기본 메모리 시스템을 지식 그래프 기반의 검색 계층으로 대체합니다. 모든 데이터를 로드하거나 압축 메모리에 의존하는 대신, 각 단계 전에 관련 컨텍스트만 삽입합니다. 이를 통해 프롬프트 크기를 줄이고 장시간 세션에서도 기억력을 향상시킬 수 있습니다.

Foundry: 에이전트 사용 방식을 분석하여 반복적인 워크플로를 도구로 변환합니다. 이 기능은 세션 패턴을 감지하고 실행 간에 유지되는 새로운 도구 정의를 작성합니다. 이러한 도구 정의는 단순히 프롬프트 지침이 아니라 입력과 출력이 정의된 실행 가능한 도구입니다.

Opik: 에이전트 실행에 구조화된 추적 기능을 추가합니다. LLM 호출, 도구 입력 및 출력, 지연 시간, 토큰 사용량을 스팬으로 캡처합니다. 로그를 읽는 대신 전체 실행 경로를 따라가며 속도가 느려지거나 오류가 발생한 지점을 확인할 수 있습니다.


※ 출처: Reddit/LocalLLaMa, OpenClaw

AD

LEAVE A REPLY

Please enter your comment!
Please enter your name here