LLM 파인튜닝(SFT/RL)과 RAG 구축을 위해 잡음(노이즈) 데이터를 정제/가공해 주는 DataFlow 소식입니다. 파인튜닝 시도하시는 분들이라면 관심을 가져 보면 좋겠습니다.
DataFlow: LLM 데이터 정제·전처리를 위한 오픈소스 데이터 준비 시스템
목적:
LLM 파인튜닝(SFT/RL)과 RAG 구축을 위해 잡음 많은 데이터(PDF, 웹 텍스트, 불완전한 QA 등)를 자동으로 정제·가공하도록 설계됨.
AD
핵심 기능:
- 140개 이상의 미리 만들어진 연산자(룰 기반, LLM 기반, 딥러닝 모델 포함)를 제공.
- 연산자를 체인으로 연결해 파이프라인을 구성 가능.
- 동적 에이전트가 사용자 데이터셋에 맞춰 커스텀 연산자를 작성하고 파이프라인을 조립해주는 기능 포함.
- vLLM 등 로컬 GPU 추론을 지원.
대표적 사용 사례:
- SFT & RL 학습 데이터 생성(원시 텍스트에서 QA 쌍 추출)
- 추론(체인오브소트, 난이도 추정) 확장
- 지식베이스 정리 및 에이전트형 RAG(지저분한 PDF/표에서 깨끗한 QA 추출)
- Text2SQL 데이터 준비
성과:
같은 프레임워크를 사용해 ICML 2025 AI for Math Challenge와 BAAI LIC 2025에서 1등 수상.
실제 작동하는 파워 사용자를 위한 12가지 Tip
OpenClaw로 24/7 워크플로우를 안정적·효율적으로 운영하는 실무 팁 12가지를 정리한 글입니다. 주요 내용은 다음과 같습니다.
- 대화를 주제별 스레드로 분리하라 — 컨텍스트 혼잡을 줄여 기억·응답 정확도 향상.
- 타이핑 대신 음성 메모 활용 — 이동 중이나 긴 프롬프트 입력 시 효율적.
- 작업에 맞는 모델 배정 — 메인 에이전트, 코드용 모델, 저비용 Q&A 모델 등 역할 분리.
- 서브 에이전트에 작업 위임 — 메인은 기획·위임·리포트만 하고 실행은 서브 에이전트에 맡김.
- 모델별로 최적화된 프롬프트 따로 관리 — 모델 특성에 맞춘 형식 유지 및 동기화.
- 정기 작업은 야간에 스케줄링 — 실사용 시간과 토큰 경쟁을 피함.
- 에이전트 활동 전부 로깅 — 에러 진단, 자동 수리 제안 등에 유용.
- 다층 보안 강화 — 입력 필터링(프롬프트 인젝션 방지), 모델 기반 검토, 출력 개인정보 제거, 최소 권한 원칙, 승인 게이트, 사용률/예산 제한 등.
- 시스템 문서화 — 제품 문서, 워크플로 문서, 파일맵, 학습 기록, 모델별 프롬프트 가이드 유지.
- API 호출 대신 구독 활용 권장 — 대량 사용 시 정액 구독이 비용 효율적일 수 있음.
- 알림 배치화 — 우선도에 따라 요약/즉시 알림 분리.
- 코드 변경은 개발도구에서, 일상 운영은 채팅앱에서 — 적절한 도구를 역할에 맞게 사용.
댓글에서 눈에 띄는 논점:
- VPS 권장하지만 민감 정보(금융, 자격증명, API 키) 저장·보안 우려 제기.
- VPS 서비스 중단 리스크와 공급자 선택 문제 제기.
- 음성→텍스트 전사 품질 관련: iOS 음성입력, Discord 메모, Whisper(로컬 설치 또는 서비스) 등이 언급됨.
- “프로덕션 수준이면 VPS + 문서화(팁 9) 필수”라는 추천.
- 설정 소요 시간은 현재 환경에 따라 달라짐.
- 텔레그램 그룹과 봇 연동 문제(그룹 메시지 인식 관련) 문의가 있음.
※ 지난 게시글:
- AI & OpenClaw – 2026.3.30 소식
- AI & OpenClaw – 2026.3.27 소식
- AI & OpenClaw – 2026.3.26 소식
- AI & OpenClaw – 2026.3.25 소식
- AI & OpenClaw – 2026.3.24 소식
※ 출처: Reddit/LocalLLaMa, OpenClaw
AD










