Local LLM 구축의 동기

많은 AI 서비스 제공 업체들이 무료/유료 서비스를 제공하고 있기에 간단하게 여러가지 AI를 쉽게 사용 가능합니다. 반대로 자신만의 AI 서비스를 구축하기 위해서는 H/W, S/W, 기반 기술에 대한 이해와 지식 등 챙길 것들이 너무나 많고 어렵습니다. 특히, AI 학습과 서비스 구성의 핵심인 GPU 가격이 수 백~수 천 만원이나 하기에 개인에게는 불가능에 가깝습니다. ChatGPT, Gemini 외 많은 AI LLM 서비스를 일반 대화 문답이나 Vibe coding에 사용해 보면서 잘 활용하고 있음에도 Local LLM 욕구가 생겼습니다. 이는 역설적이게도 “비용” 문제 때문이었습니다. ChatGPT, Gemini 와 같은 범용 Chat LLM 서비스는 월 $20(환율 때문에 계속 비싸지지만)로 충분히 사용이 가능합니다. Claude Code, Cursor와 같이 AI가 직접 코딩, 실행, Debug까지 하는 경우, 자작 서비스를 AI LLM과 연계하고자 할 때, 다양한 MCP Server와 연계한 업무 처리 등을 위해서는 API 호출 기반의 요금제를 사용해야만 합니다. (무료로 제공해 주는 Gemini CLI 에게 감사…) 전문 개발자라면 생산성을 고려해 볼 때 충분히 유료 API 서비스를 사용할 가치가 있겠지만 비개발자 입장에서는 뭐 하나 해 볼까 해도 비용이 두렵기도 해서 일일이 Chat LLM 대화를 Copy+Paste 해서 사용하곤 했습니다.

장비 준비

  • Mainboard: PCIe 3또는 4 x16배속 x 1 ea (최소, 권장 2개)
  • OS: Ubuntu 24.04
  • GPU: Nvidia GPU (최소 8GB 또는 무리하면 24GB VRAM)
  • S/W: 최신 Nvidia Driver , 최신 CUDA Toolkit

Local LLM구성을 해 보니 가장 중요한 것이 GPU VRAM입니다. 8GB VRAM으로는 대형 모델 탑재 자체가 불가능했습니다. GPU 모델이 30xx, 40xx 냐 보다 VRAM 크기가 더 중요하니 VRAM이 큰 중고 GPU를 구입하는 것도 좋은 전략입니다. 24GB VRAM GPU가 있다면 더할 나위 없겠습니다.

AD

Mainboard 선택도 중요합니다. GPU 2개 VRAM을 Pool로 구성해서 사용할 수도 있다고 하는데 Mainboard PCIe 확장 슬롯이 최소 2개가 있다면 좋습니다. 필자 PC는 일반 완제품 사양을 꼼꼼하게 보지 않고 구매하다 보니 PCIe 확장 슬롯이 1개 밖에 없어서 GPU가 있다고 해도 복수 설치가 불가능한 상태입니다. 물론, 별도로 PCIe 슬롯 수를 증설할 수 있는 Riser Card류가 있습니다만 Mainboard 직접 장착하는 GPU 보다 추가 비용도 발생하고, 안전성, 성능면에서 부족하진 않을까 싶습니다.

PICe 확장 Riser Card <출처: Aliexpress>

Ollama의 발견

GPU 사용 준비를 마쳤다면 Local LLM 실행 방법을 찾아 보았습니다. 대표적인 것이 ollama입니다. ollama는 오픈 소스로 다양한 오픈 소스 AI 모델을 손쉽게 사용해 볼 수 있다는 겁니다. Ollama 설치와 간단한 이용 방법을 설명한 글은 Google 검색 결과 중, 맘에 드시는 글을 읽어 보시기 바랍니다. ollama 는 System 서비스로 설치하였기에 장비 부팅과 함께 기본 Daemon 이 실행됩니다. 아래는 시험해 볼 AI 모델들 입니다. 아쉽게도 8GB VRAM 으로는 7B~8B 정도 모델 탑재하는 것이 최대입니다.

Bash
$ ollama list
NAME                          ID              SIZE      MODIFIED
qwen3-vl:4b                   1343d82ebee3    3.3 GB    2 weeks ago
gemma3:27b_vram24G            a418f5838eaf    17 GB     2 weeks ago
qwen3-vl:8b                   901cae732162    6.1 GB    2 weeks ago
gemma3:27b                    a418f5838eaf    17 GB     2 weeks ago
gpt-oss:latest                17052f91a42e    13 GB     2 weeks ago
gemma3:12b                    f4031aab637d    8.1 GB    2 weeks ago
ministral-3:8b_cpuonly_bug    77300ee7514e    6.0 GB    2 weeks ago
ministral-3:3b_cpuonly_bug    a48e77f25d79    3.0 GB    2 weeks ago
ministral-3:3b                a48e77f25d79    3.0 GB    2 weeks ago
ministral-3:8b                77300ee7514e    6.0 GB    2 weeks ago
mistral:7b                    6577803aa9a0    4.4 GB    3 months ago
gemma3:4b                     a2af6cc3eb7f    3.3 GB    3 months ago
llama3.2:3b                   a80c4f17acd5    2.0 GB    3 months ago
gemma3:1b                     8648f39daa8f    815 MB    3 months ago
gemma3:270m                   e7d36fb2c3b3    291 MB    3 months ago
qwen2.5-coder:latest          dae161e27b0e    4.7 GB    5 months ago
llama3:8b                     365c0bd3c000    4.7 GB    5 months ago

가장 최신의 OpenGPT 모델인 gpt-oss:latest 모델은 ChatGPT와 거의 동일한 능력(?)으로 보입니다. gpt-oss 모델 정보는 아래와 같습니다.

Bash
$ ollama run gpt-oss
>>> /show info
  Model
    architecture        gptoss
    parameters          20.9B
    context length      131072
    embedding length    2880
    quantization        MXFP4

  Capabilities
    completion
    tools
    thinking

  Parameters
    temperature    1

  License
    Apache License
    Version 2.0, January 2004

간단하게 대화를 시도해 봅니다. Thinking 하는 부분까지 그대로 노출이 되어서 LLM이 추론하는 과정을 살펴 볼 수 있습니다. 답변에 보면 **ChatGPT** 표시한 것이 있는데 이는 Markup으로 HTML UI 에서는 진한 글씨로 보일 겁니다. 이 상태로 계속해서 대화를 이어 나가면 됩니다.

Bash
>>> 안녕? 너는 누구니?
Thinking...
The user writes in Korean: "안녕? 너는 누구니?" meaning "Hello? Who are you?" The assistant should respond in Korean presumably. They
want a friendly greeting. The assistant is ChatGPT. We should answer accordingly. Probably "안녕하세요! 저는 OpenAI가 만든 인공지능 언
어 모델인 ChatGPT입니다. 무엇을 도와드릴까요?" Provide friendly.
...done thinking.

안녕하세요! 저는 OpenAI가 만든 인공지능 언어 모델 **ChatGPT**입니다. 언제든 궁금한 것이 있으면 물어보세요. 도와드릴게요!

LLM 자신이 언제 만들어진 모델인지도 잘 인지하고 있습니다.

Bash
>>> 언제 만들어졌니?
Thinking...
We need to answer. The user asked in Korean: "언제 만들어졌니?" meaning "When were you made?" We can answer: ChatGPT is based on
GPT-4, launched 2023. Or GPT-3.5 earlier. Provide timeline. Use Korean.
...done thinking.

저는 OpenAI가 개발한 인공지능 언어 모델인 **ChatGPT**입니다.
- **GPT‑3**(기본 모델): 2020 6 공개
- **ChatGPT**(대화형 버전): 2022 11월에 처음 공개
- **GPT‑3.5**(향상 버전): 2022 12월에 출시
- **GPT‑4**(현재 사용 중인 모델): 2023 3월에 공개

따라서 “언제 만들어졌니?” 라고 물으신다면, 현재 사용하고 계시는 버전은 **GPT‑4**이며 2023 3월에 출시되었습니다. 이전 버전들도 각각 
 같은 시기에 만들어졌습니다.

다음에 할 일

일반 Linux 터미널에서 ollama 로 ChatGPT 오픈 모델을 사용해 보았습니다. 터미널 상태에서는 서로 다른 주제의 대화를 이어 나가기가 어렵고, 과거 대화 목록 관리도 안됩니다. 일반 ChatGPT Web 버전과 유사하게 과거 대화 목록도 있고, 검색도 되고 하는 UI를 구성해 보는 것이 다음 목표입니다.

AD

LEAVE A REPLY

Please enter your comment!
Please enter your name here