Home SE Note

On-Prem AI 서비스-(3) Local LLM은 왜 필요할까?

2025-12-23

Local LLM 구축의 동기

많은 AI 서비스 제공 업체들이 무료/유료 서비스를 제공하고 있기에 간단하게 여러가지 AI를 쉽게 사용 가능합니다. 반대로 Local LLM과 같은 On-Prem AI 서비스를 구축하기 위해서는 개발/운영 인력,H/W, S/W, 기반 기술에 대한 이해와 지식 등 챙길 것들이 너무나 많고 어렵습니다. 특히, AI 학습과 서비스 구성의 핵심인 GPU 가격이 수 백~수 천 만원이나 하는 현재, 개인/소규모 업체에게는 불가능에 가깝습니다. ChatGPT, Gemini LLM도 Vibe coding에 잘 활용하고 있음에도 Local LLM에 대한 흥미가 가시지 않았습니다. 기술적 관심도 있었지만 가장 큰 이유는 “비용” 입니다. 범용 Chat LLM 서비스는 월 $20(환율 때문에 계속 비싸지지만)로 충분히 사용 가능하지만 Claude Code, Cursor와 같이 AI가 직접 코딩, 실행, Debug 하는 경우, 자작 서비스를 AI LLM과 연계할 경우, 다양한 MCP Server와 연계한 업무 처리 등 AI API를 이용하려면 추가적인 API 요금제 가입이 필요합니다. (현재,무료 제공해 주는 Gemini CLI 에게 감사…) 전문 개발자라면 생산성을 고려해 볼 때 충분히 유료 API 서비스를 사용할 가치가 있겠지만 비개발자 입장에서는 뭐 하나 해 볼까 해도 비용이 두렵기도 해서 일일이 LLM이 제시한 코드를 Copy+Paste 해서 사용하곤 했습니다.

그 외에도 사적이든 회사든 대외 보안이 필요한 각종 파일을 상용 LLM 에게 전달하는 것은 심히 우려가 되는 부분입니다. 일반적인 공용 AI 보다는 보안 강화해서 상용 AI SaaS 회사들이 빌려주는 On-Prem AI 서비스도 있는 것으로 압니다만 보안 걱정이 모두 사라지는 것은 아닙니다.

요약해 보면 아래와 같은 이유로 Local LLM 사용을 고려할 수 있습니다.

API 비용
기술적 트렌드에 대한 관심
실무 도입 전, 다양한 AI 모델 비교/검토/시험
MCP 이용한 AI 확장
보안

Local LLM 고려 사항

Local LLM 을 구축하기 위해 고려할 사항이 있습니다.

GPU: 실제 서비스에 사용할 것이 아니므로 고성능까지는 필요 없지만 VRAM은 클 수록 더 큰 모델을 사용해 볼 수 있으니 VRAM 이 큰 모델이면 좋습니다. Nvidia GPU 뿐 아니라 AMD, 일반 CPU 에서도 시험 가능하기에 고가의 Nvidia GPU를 구입하지 않아도 됩니다만 가능하면 Nvidia GPU가 있는 것이 편합니다.
OS: Windows/Mac/Linux 상관 없으니 본인이 사용하기에 가장 익숙한 OS 를 선택하시기 바랍니다.
기초적인 AI 용어/기술에 대한 이해: LLM이든 생성형 AI, RAG(검색 증강 생성)든 기본적인 용어와 기초적인 이해는 필요합니다. IT대기업 기술 문서나 개인 테크 블로그에 잘 정리한 글들이 많으니 짬짬이 읽어 보고 지식을 쌓기 추천합니다.
AI 모델 운영 플랫폼의 선택: Google, AWS, Azure의 가상 AI Cloud H/W 서비스를 이용하는 방법이나 HuggingFace, Ollama 등 Open AI 플랫폼을 이용하는 방법이 있습니다. 처음 시작은 HuggingFace나 Ollama와 같이 “무료” 사용 가능한 플랫폼이 좋습니다.

Local LLM을 위한 장비 준비

Mainboard: PCIe 3또는 4 x16배속 x 1 ea (최소, 권장 2개)
OS: Ubuntu 24.04
GPU: Nvidia GPU 8GB (무리하면 24GB VRAM)
S/W: 최신 Nvidia Driver , 최신 CUDA Toolkit

Local LLM구성을 해 보니 가장 중요한 것이 GPU VRAM입니다. 8GB VRAM으로는 대형 모델 탑재 자체가 불가능했습니다. GPU 모델이 30xx, 40xx 냐 보다 VRAM 크기가 더 중요하니 VRAM이 큰 중고 GPU를 구입하는 것도 좋은 전략입니다. 24GB VRAM GPU가 있다면 더할 나위 없겠습니다.

Mainboard 선택도 중요합니다. GPU 2개 VRAM을 Pool로 구성해서 사용할 수 있기에 Mainboard PCIe 확장 슬롯이 최소 2개가 있다면 좋습니다. 필자 PC는 일반 완제품 사양을 꼼꼼하게 보지 않고 구매하다 보니 PCIe 확장 슬롯이 1개 밖에 없어서 GPU가 있다고 해도 복수 설치가 불가능한 상태입니다. 물론, 별도로 PCIe 슬롯 수를 증설해주는 PCIe 확장 Riser Card류가 있습니다만 직접 장착하는 것 대비해서 추가 부품 구매 비용도 발생하고, 안전성, 성능면에서 부족하진 않을까 싶습니다.

Ollama

GPU 사용 준비를 마치고 Local LLM 실행 방법을 찾아 보았습니다. 대표적인 것이 ollama입니다. ollama는 오픈 소스로 다양한 오픈 소스 AI 모델을 손쉽게 사용해 볼 수 있습니다. Ollama 설치와 간단한 이용 방법 관련 글은 Google 검색 결과 중, 맘에 드시는 글을 읽어 보시기 바랍니다. ollama를 System 서비스로 설치하였기에 장비 부팅과 함께 기본 ollama 서비스가 실행됩니다. 아래는 시험해 볼 AI 모델들 입니다. 아쉽게도 8GB VRAM 으로는 7B~8B 정도 모델 탑재하는 것이 최대입니다.

Bash

$ ollama list
NAME                          ID              SIZE      MODIFIED
qwen3-vl:4b                   1343d82ebee3    3.3 GB    2 weeks ago
gemma3:27b_vram24G            a418f5838eaf    17 GB     2 weeks ago
qwen3-vl:8b                   901cae732162    6.1 GB    2 weeks ago
gemma3:27b                    a418f5838eaf    17 GB     2 weeks ago
gpt-oss:latest                17052f91a42e    13 GB     2 weeks ago
gemma3:12b                    f4031aab637d    8.1 GB    2 weeks ago
ministral-3:8b_cpuonly_bug    77300ee7514e    6.0 GB    2 weeks ago
ministral-3:3b_cpuonly_bug    a48e77f25d79    3.0 GB    2 weeks ago
ministral-3:3b                a48e77f25d79    3.0 GB    2 weeks ago
ministral-3:8b                77300ee7514e    6.0 GB    2 weeks ago
mistral:7b                    6577803aa9a0    4.4 GB    3 months ago
gemma3:4b                     a2af6cc3eb7f    3.3 GB    3 months ago
llama3.2:3b                   a80c4f17acd5    2.0 GB    3 months ago
gemma3:1b                     8648f39daa8f    815 MB    3 months ago
gemma3:270m                   e7d36fb2c3b3    291 MB    3 months ago
qwen2.5-coder:latest          dae161e27b0e    4.7 GB    5 months ago
llama3:8b                     365c0bd3c000    4.7 GB    5 months ago

$ ollama list
NAME                          ID              SIZE      MODIFIED
qwen3-vl:4b                   1343d82ebee3    3.3 GB    2 weeks ago
gemma3:27b_vram24G            a418f5838eaf    17 GB     2 weeks ago
qwen3-vl:8b                   901cae732162    6.1 GB    2 weeks ago
gemma3:27b                    a418f5838eaf    17 GB     2 weeks ago
gpt-oss:latest                17052f91a42e    13 GB     2 weeks ago
gemma3:12b                    f4031aab637d    8.1 GB    2 weeks ago
ministral-3:8b_cpuonly_bug    77300ee7514e    6.0 GB    2 weeks ago
ministral-3:3b_cpuonly_bug    a48e77f25d79    3.0 GB    2 weeks ago
ministral-3:3b                a48e77f25d79    3.0 GB    2 weeks ago
ministral-3:8b                77300ee7514e    6.0 GB    2 weeks ago
mistral:7b                    6577803aa9a0    4.4 GB    3 months ago
gemma3:4b                     a2af6cc3eb7f    3.3 GB    3 months ago
llama3.2:3b                   a80c4f17acd5    2.0 GB    3 months ago
gemma3:1b                     8648f39daa8f    815 MB    3 months ago
gemma3:270m                   e7d36fb2c3b3    291 MB    3 months ago
qwen2.5-coder:latest          dae161e27b0e    4.7 GB    5 months ago
llama3:8b                     365c0bd3c000    4.7 GB    5 months ago

가장 최신의 OpenGPT 모델인 gpt-oss:latest 모델은 ChatGPT와 거의 동일한 능력(?)으로 보입니다. gpt-oss 모델 정보는 아래와 같습니다.

Bash

$ ollama run gpt-oss
>>> /show info
  Model
    architecture        gptoss
    parameters          20.9B
    context length      131072
    embedding length    2880
    quantization        MXFP4

  Capabilities
    completion
    tools
    thinking

  Parameters
    temperature    1

  License
    Apache License
    Version 2.0, January 2004

$ ollama run gpt-oss
>>> /show info
  Model
    architecture        gptoss
    parameters          20.9B
    context length      131072
    embedding length    2880
    quantization        MXFP4

  Capabilities
    completion
    tools
    thinking

  Parameters
    temperature    1

  License
    Apache License
    Version 2.0, January 2004

간단하게 대화를 시도해 봅니다. Thinking 하는 부분까지 그대로 노출이 되어서 LLM이 추론하는 과정을 살펴 볼 수 있습니다. 답변에 보면 **ChatGPT** 표시한 것이 있는데 이는 Markup으로 HTML UI 에서는 진한 글씨로 보일 겁니다. 이 상태로 계속해서 대화를 이어 나가면 됩니다.

Bash

>>> 안녕? 너는 누구니?
Thinking...
The user writes in Korean: "안녕? 너는 누구니?" meaning "Hello? Who are you?" The assistant should respond in Korean presumably. They
want a friendly greeting. The assistant is ChatGPT. We should answer accordingly. Probably "안녕하세요! 저는 OpenAI가 만든 인공지능 언
어 모델인 ChatGPT입니다. 무엇을 도와드릴까요?" Provide friendly.
...done thinking.

안녕하세요! 저는 OpenAI가 만든 인공지능 언어 모델 **ChatGPT**입니다. 언제든 궁금한 것이 있으면 물어보세요. 도와드릴게요!

>>> 안녕? 너는 누구니?
Thinking...
The user writes in Korean: "안녕? 너는 누구니?" meaning "Hello? Who are you?" The assistant should respond in Korean presumably. They
want a friendly greeting. The assistant is ChatGPT. We should answer accordingly. Probably "안녕하세요! 저는 OpenAI가 만든 인공지능 언
어 모델인 ChatGPT입니다. 무엇을 도와드릴까요?" Provide friendly.
...done thinking.

안녕하세요! 저는 OpenAI가 만든 인공지능 언어 모델 **ChatGPT**입니다. 언제든 궁금한 것이 있으면 물어보세요. 도와드릴게요!

LLM 자신이 언제 만들어진 모델인지도 잘 인지하고 있습니다.

Bash

>>> 언제 만들어졌니?
Thinking...
We need to answer. The user asked in Korean: "언제 만들어졌니?" meaning "When were you made?" We can answer: ChatGPT is based on
GPT-4, launched 2023. Or GPT-3.5 earlier. Provide timeline. Use Korean.
...done thinking.

저는 OpenAI가 개발한 인공지능 언어 모델인 **ChatGPT**입니다.
- **GPT‑3**(기본 모델): 2020년 6월 공개
- **ChatGPT**(대화형 버전): 2022년 11월에 처음 공개
- **GPT‑3.5**(향상 버전): 2022년 12월에 출시
- **GPT‑4**(현재 사용 중인 모델): 2023년 3월에 공개

따라서 “언제 만들어졌니?” 라고 물으신다면, 현재 사용하고 계시는 버전은 **GPT‑4**이며 2023년 3월에 출시되었습니다. 이전 버전들도 각각 위
와 같은 시기에 만들어졌습니다.

>>> 언제 만들어졌니?
Thinking...
We need to answer. The user asked in Korean: "언제 만들어졌니?" meaning "When were you made?" We can answer: ChatGPT is based on
GPT-4, launched 2023. Or GPT-3.5 earlier. Provide timeline. Use Korean.
...done thinking.

저는 OpenAI가 개발한 인공지능 언어 모델인 **ChatGPT**입니다.
- **GPT‑3**(기본 모델): 2020년 6월 공개
- **ChatGPT**(대화형 버전): 2022년 11월에 처음 공개
- **GPT‑3.5**(향상 버전): 2022년 12월에 출시
- **GPT‑4**(현재 사용 중인 모델): 2023년 3월에 공개

따라서 “언제 만들어졌니?” 라고 물으신다면, 현재 사용하고 계시는 버전은 **GPT‑4**이며 2023년 3월에 출시되었습니다. 이전 버전들도 각각 위
와 같은 시기에 만들어졌습니다.

다음에 할 일

일반 Linux 터미널에서 ollama 로 ChatGPT 오픈 모델을 사용해 보았습니다. 터미널 상태에서는 서로 다른 주제의 대화를 이어 나가기가 어렵고, 과거 대화 목록 관리도 안됩니다. 일반 ChatGPT Web 버전과 유사하게 과거 대화 목록도 있고, 검색도 되고 하는 UI를 구성해 보는 것이 다음 목표입니다.

넷플릭스 크리스마스 영화 2023 추천작

【최애의 아이】(推しの子,OSHI NO KO) 2023 애니 강추 작품 !

플래시(The Flash)

스파이더맨: 어크로스 더 유니버스

ffmpeg for CUDA 이용한 MP4-to-GIF 변환

On-Prem AI 서비스-(4) Ollama 후기