실제 Balatro 게임을 이용해서 LLM 성능을 벤치하는 도구인 Evalatro. 재미난 아이디어가 아닐 수 없습니다. 실제 Balatro 게임을 보유하고 계신 분들께서는 한 번 실험해 보시기 바랍니다.
Evalatro: Balatro 게임 플레이를 이용한 LLM 오픈 벤치마크
아이디어가 상당히 재미있어서 가볍게 읽어 보십시오. Balatro는 카드 덱 게임으로 규칙만 파악하고 나면 한 게임 한 게임 시간 순삭하는 게임입니다. 카드를 잘 조합해서 카드 숫자 합이 기준을 넘기면 클리어하는 게임입니다. 카드 숫자를 배수로 만들어 주는 카드, 특정 카드들을 카드 숫자 합산에서 제외하는 카드, 복제 카드 등등 종류가 상당히 다양하기 때문에 그 때 그 때 전략을 다변화해야 승리 횟수를 올릴 수 있는 게임입니다. 글 작성자는 LLM을 이용해서 이 Balatro게임을 하도록 해서 어떤 모델이 게임에서 승리하는지를 벤치하는 도구를 만들었습니다. 다른 벤치마크는 연산 성능과 같은 수학적 능력, 코딩 능력을 다루는데 반해 실제 게임을 이용했다는 점에서 재미있는 시도가 아닐 수 없습니다. 벤치를 위해서는 실제 Balatro 게임이 필요한데 Steam에서 16,500 원에 44%세일 중이네요.
=================
프로젝트 목적: LLM이 실제 카드게임 Balatro를 플레이하도록 하는 오픈 벤치마크인 Evalatro를 만들었음.
동작 방식: 모델은 게임에 연결되어 화면이 아닌 텍스트 형태의 게임 상태(state)를 받고 자체적으로 행동을 결정함(전술 힌트 없음).
핵심 기능/특징:
- 고정 시드(fixed seeds)로 재현성 확보 — 모든 모델이 동일한 카드 배치를 봄.
- 실제 Balatro 게임 + Steamodded + balatrobot을 사용해 자동 플레이 구현.
- 라이브 뷰어와 공개 리더보드 제공, 각 런(run) 결과는 공개 대시보드로 전송(개인 정보 없음, 오픈 소스).
- 점수 계산은 서버에서 수행해 조작 방지.
- 벤치마크 목표는 Ante 12(기본 게임은 Ante 8) — 채점 기준으로 설정(토론 가능).
- Windows/macOS 자동 설치 지원.
- 모델의 추론(reasoning)을 볼 수 있고 모든 실행을 리플레이 가능.
- 실행 전 별도의 게임 프로필을 만들어 모든 콘텐츠를 잠금 해제해 모델 제한을 제거(사용자 메인 세이브 보호).
초기 결과:
- 몇 모델만 소량 실행됨.
- 최고 기록자는 mimo-v2.5-pro로 Ante 5까지 도달.
- deepseek-v4-pro 등도 시도했으나 낮은 성과였음.
커뮤니티 반응:
- Ante 12는 높은 목표지만 흥미롭다는 의견.
- 모델에게 사전 지침을 얼마나 주느냐가 성과에 큰 영향이라는 지적(전략적 팁 유무).
- 모바일 UI 불편 문제 제기되었고 작성자가 수정했다고 응답.
- 일부가 게임의 ‘무료 승리’ 메커니즘을 지적했으나 고정 시드가 이를 상쇄할 것이라는 의견도 있음.
※ 지난 게시글:
- AI 뉴스 훑어보기 – 2026.6.10
- AI 뉴스 훑어보기 – 2026.6.4
- AI 뉴스 훑어보기 – 2026.6.1
- AI 뉴스 훑어보기 – 2026.5.29
- AI 뉴스 훑어보기 – 2026.5.28
※ 출처: r/LocalLLM, r/openclaw, r/unsloth, r/opencode, r/claude












