※ 출처: Reddit/Clawdbot, LocalLLM
Tip if you use quantisation
AI 모델을 양자화 해서 사용하는 경우, Context 길이에 따라 신뢰할 수 있는 성능 수치가 급격히 떨어진다고 합니다. 연구자의 공식적인 자료는 아니지만 참고할 만 합니다. 예를 들은 Q4 양자화의 경우, Context 길이가 16K 이상이 되면 급격하게 성능 수치가 떨어진다고 합니다. 참고로, 다른 글에서 추론 성능을 유지하기 위해서는 Session 을 자주 Reset 해 주면 context 길이에 따른 제약이나 메모리 문제로 인한 환상을 줄일 수 있다고도 합니다.
AD
I made a little CLI tool to easily use deepseek or kimi / glm for FREE thanks to Nvidia NIM servers. it’s called free-coding-models, on github/npm. openclaw compatible
무료 AI 모델을 알아서 교대로 사용할 수 있도록 해 주는 CLI 도구입니다. 무료 AI API 들을 설정해 두면 Rate Limit, AI API 서비스 상태를 자동으로 확인해서 변경하여 사용할 수 있도록 한다고 합니다. 직접 사용해 보지는 못했습니다.
Can 10 frontier models explain why 0.1 + 0.2 ≠ 0.3?
0.1 + 0.2 ≠ 0.3 인 것을 증명(?)하는 것으로 AI 모델 성능을 시험했다고 합니다. AI 모델 학습에는 다양한 수식 증명 자료도 많다고 합니다. 하지만 결과에서 보듯이 AI 모델별 성능 차이가 나는 것을 볼 수 있습니다.
관련 게시글
AD












