Home AI 동향

AI 뉴스 훑어보기 – 2026.5.21

2026-05-21

458

일상 업무에 사용할 수 있는 Claude Skill, Qwen 3.6 35B 모델의 다양한 성능 시험 후기를 읽어 보세요.1password는 OpenAI와 협력해서 사용자 승인 후, 런타임에만 자격 증명을 제공하는 기능을 구현했습니다.

2026년, 업무 적합도 가장 좋은 Claude Skill

이미지 & 시각화

인포그래픽 자동 생성(콘텐츠 분석 → 레이아웃 선택 → 시각 스타일 → 생성).
레이아웃 청사진 추출 후 시각 구조를 고정해 내용 재작성하고 VLM(비전-언어 모델)으로 검토·재시도하는 방식.
용도: 인포그래픽, 설명 이미지, 보고서 비주얼, 소셜 포스트, 미흡한 아이디어를 보기 좋게 만드는 작업 등.

프레젠테이션(PPT)

두 가지 분리:
- sn_ppt_standard: 편집 가능한 비즈니스 덱(텍스트·차트 편집 가능)
- sn_ppt_creative: 비주얼 중심의 풀-블리드 슬라이드(디자인성 강한 16:9 장면).
편집성 유지 여부를 구분하는 설계가 중요하다고 강조.

데이터 분석(DA)

sn-da-excel-workflow: 파일 크기/행 수에 따라 라우팅
- 1만 행 미만: 직접 읽기
- 1만–10만 행: Parquet 캐시 사용
- 10만 행 이상: 스트리밍 대용량 처리

대용량 처리에서는 Parquet 청크 쓰기, 타입 다운캐스팅, 엑셀 읽기 시 openpyxl read_only + iter_rows 등으로 메모리 문제 회피.

심층 연구(Deep Research)

sn-deep-research:
- 중간 산출물을 만드는 단계적 워크플로:
- request.md → plan.json → sub_reports/*.md → synthesis.md → report.md
합성(synthesis) 단계가 최종 리포트 이전에 있어 판단을 먼저 만들게 하고, 작업을 재개·감사하기 쉬움.

검색(Search)

증거(자료) 유형별로 라우팅: 학술 검색, 코드/GitHub/기술 검색, 영어 소셜, 중국 소셜, 일반 웹 검색 등 — 서로 다른 증거 유형엔 다른 검색 방식 필요.

LoRA 두 개와 Klein 9B를 결합하여 극도의 사실감을 구현

한 사용자가 특정 LoRA 두 개를 Klein 9B Distilled 모델과 성공적으로 결합하여 기존의 단일 LoRA 결과보다 훨씬 뛰어난 사실적인 이미지를 생성했습니다. 이 기술은 ‘Smartphone Snapshot Photo Reality’ LoRA와 피부 및 신체 디테일에 초점을 맞춘 두 번째 LoRA를 SNof 1.3 샘플러를 사용하여 결합하는 것입니다. 이 획기적인 결과는 LoRA를 결합하면 단일 고품질 LoRA를 사용하는 것보다 훨씬 뛰어난 사실감을 얻을 수 있음을 보여주며, Stable Diffusion 사용자에게 창의적인 가능성을 넓혀줄 수 있습니다. 또한 여러 개의 미세 조정 레이어를 성능 저하 없이 처리하는 데 있어 모델의 용량이 중요하다는 점을 강조합니다. Klein 9B Distilled 모델은 강도가 각각 1.0인 LoRA 세 개(총 3.0)를 ‘과열’ 없이 처리할 수 있는 반면, Z Image Turbo는 강도가 1.4를 넘지 않는 LoRA 두 개로 제한됩니다. 이 워크플로는 SNof 1.3 샘플러를 사용했지만, 저자는 SNof 1.4에 대해서는 테스트하지 않았습니다.

LoRA(Low-Rank Adaptation)는 기존 안정 확산(Stable Diffusion) 체크포인트를 수정하여 전체 모델을 재학습시키지 않고 특정 스타일이나 주제를 주입하는 경량 미세 조정 모델입니다. Klein 9B Distilled는 속도와 품질에 최적화된 FLUX.2 아키텍처의 변형으로, 일반 소비자용 하드웨어에서 효율적으로 실행되도록 설계되었습니다.

1Password, OpenAI Codex 통합으로 AI 코딩 에이전트 보안 강화

1Password는 OpenAI와 협력하여 사용자 승인 후 런타임에만 자격 증명을 주입하는 보안 솔루션을 구현했습니다. 이 솔루션은 AI 코딩 에이전트에서 프로덕션 자격 증명을 안전하게 보호합니다. 이를 통해 프롬프트, 저장소 또는 모델의 컨텍스트 창에 자격 증명이 실수로 유출되는 것을 방지합니다. 이는 AI 코딩 에이전트가 프롬프트 주입이나 컨텍스트 노출을 통해 프로덕션 자격 증명을 실수로 유출하는 심각한 취약점을 해결하는 것으로, 최근 여러 벤더의 시스템 카드 감사에서 지적된 문제입니다. 이 솔루션은 자율 코딩 도구 생태계의 보안을 위한 현실적인 기준을 제시합니다. 자격 증명은 스크립트에서 필요한 바로 그 순간에만 복호화되어 주입되므로 노출 가능성을 거의 0에 가깝게 줄입니다. 기존 방식과 달리, 이 접근 방식은 자격 증명이 프롬프트 표면이나 모델의 컨텍스트 창에 절대 노출되지 않도록 보장합니다.

Qwen 3.6 35B 성능 시험 후기 모음:

1) Qwen 3.6 35B GGUF: GPU 및 CPU에서 NTP와 MTP 양자화 결과 비교

ByteShape는 Qwen 3.6 35B 모델에 대한 새로운 GGUF 양자화 결과를 발표했으며, 다양한 GPU 및 CPU 환경에서 Next Token Prediction(NTP)과 Multi-Token Prediction(MTP) 방식을 비교했습니다. 이번 발표에는 MTP가 GPU에서 20~40%의 속도 향상을 제공하지만 메모리 사용량을 증가시키는 반면, CPU에서는 NTP가 여전히 권장되는 선택임을 보여주는 자세한 벤치마크 결과가 포함되어 있습니다. 이 분석은 로컬 LLM 사용자가 추론 속도, 메모리 사용량 및 모델 품질의 균형을 유지하면서 양자화 수준과 하드웨어 호환성에 대한 정보에 입각한 결정을 내리는 데 도움이 됩니다. 또한 MTP와 같은 투기적 디코딩 기법과 기존 NTP 간의 장단점을 다루며, 이는 소비자용 하드웨어에서 성능을 최적화하는 데 매우 중요합니다. 벤치마크 테스트는 RTX 4090, Intel Ultra 7 및 Raspberry Pi 5에서 수행되었으며, 비트당 가중치(bpw)가 낮다고 해서 항상 품질이나 속도가 향상되는 것은 아니라는 점을 보여줍니다. 특히 CPU MTP는 상당한 속도 저하를 보인 반면, GPU MTP는 상당한 속도 향상을 달성했으며, 저자들은 전체 정밀도에서 형식 준수 문제로 인해 MMLU 테스트를 제외했습니다.

2) RTX 5080 16GB: Qwen3.6 128k 컨텍스트에서 35B MoE — 56 tok/s, 그리고 MTP가 도움이 되지 않는 이유

RTX 5080 16GB GPU에서 128k 컨텍스트 길이로 Qwen3.6 35B MoE 모델을 테스트한 벤치마크 결과, 이 구성에서는 다중 토큰 예측(MTP)이 표준 추론에 비해 성능 향상을 제공하지 않는 것으로 나타났습니다. 이 결과는 개발자가 긴 컨텍스트를 대상으로 할 때 llama.cpp 구성에서 불필요한 복잡성을 피하는 데 도움이 됩니다. 특정 짧은 컨텍스트 임계값을 넘어서면 예측 디코딩 오버헤드가 이점보다 크기 때문입니다. 35B Q4_K_XL 모델은 MTP를 사용했을 때 128k 컨텍스트에서 초당 56개의 토큰 생성 속도를 달성하여 MTP를 사용하지 않은 동일 모델의 속도와 동일한 성능을 보였습니다. 반면 27B IQ3 변형 모델은 더 짧은 컨텍스트에서 초당 73개의 토큰으로 더 나은 성능을 제공했습니다.

3) LM Studio에서 RTX 3090으로 Qwen3.6-35B-A3B-MTP를 실행하면 엄청나게 빠릅니다.

LM Studio를 사용하여 RTX 3090에서 Qwen3.6-35B-A3B-MTP 모델로 초당 100~107개의 토큰 생성 속도를 달성했다고 보고했습니다. 이는 MTP를 사용하지 않은 버전은 물론 Qwen3.5-9B 모델보다도 훨씬 뛰어난 성능입니다. 이러한 성능 데이터는 대규모 로컬 LLM 실행을 위한 소비자 하드웨어의 기능을 평가하는 개발자에게 매우 중요하며, MoE 아키텍처가 중급 GPU에서도 높은 처리량을 제공할 수 있음을 보여줍니다. Qwen3.6-35B의 MTP(다중 토큰 예측) 변형은 Q4_K_M 양자화를 사용하여 전체 컨텍스트 크기에서 초당 100~107개의 토큰을 생성했으며, 27B 변형은 MTP를 사용하지 않은 버전의 30~32개의 토큰/초에 비해 46~50개의 토큰/초의 속도를 보였습니다.

※ 지난 게시글:

※ 출처: r/LocalLLM, r/openclaw, r/unsloth, r/opencode, r/claude

넷플릭스 크리스마스 영화 2023 추천작

【최애의 아이】(推しの子,OSHI NO KO) 2023 애니 강추 작품 !

플래시(The Flash)

스파이더맨: 어크로스 더 유니버스

AI 뉴스 훑어보기 – 2026.7.1

AI 뉴스 훑어보기 – 2026.6.24

AI 뉴스 훑어보기 – 2026.6.19

AI 뉴스 훑어보기 – 2026.6.18

AI 뉴스 훑어보기 – 2026.5.21

2026년, 업무 적합도 가장 좋은 Claude Skill

LoRA 두 개와 Klein 9B를 결합하여 극도의 사실감을 구현

1Password, OpenAI Codex 통합으로 AI 코딩 에이전트 보안 강화

Qwen 3.6 35B 성능 시험 후기 모음:

1) Qwen 3.6 35B GGUF: GPU 및 CPU에서 NTP와 MTP 양자화 결과 비교

2) RTX 5080 16GB: Qwen3.6 128k 컨텍스트에서 35B MoE — 56 tok/s, 그리고 MTP가 도움이 되지 않는 이유

3) LM Studio에서 RTX 3090으로 Qwen3.6-35B-A3B-MTP를 실행하면 엄청나게 빠릅니다.

READ MORE

AI & OpenClaw – 2026.4.10 소식

AI 뉴스 훑어보기 – 2026.5.29

AI & OpenClaw – 2026.3.17 소식

SKT 해킹 피해 방지를 위한 개인 보안 강화 방안

Latest Posts

AI 뉴스 훑어보기 – 2026.7.1

AI 뉴스 훑어보기 – 2026.6.24

AI 뉴스 훑어보기 – 2026.6.19

Most Popular

Raspberry PI 에서 docker 설치와 실행하기 – buster OS편

Raspberry PI 에서 docker 설치와 실행하기

Raspberry Pi + nginx-rtmp 실시간 스트리밍 서버 구축

Fast Access

AI & OpenClaw – 2026.4.3 소식

OpenClaw – 2026.2.24 소식

AI & OpenClaw – 2026.4.16 소식

AI 뉴스 훑어보기 – 2026.6.19