※ 이전 글:
- On-Prem AI 서비스-(1) dcgm-exporter 구성
- On-Prem AI 서비스-(2) prometheus + grafana 설정
- On-Prem AI 서비스-(3) Local LLM은 왜 필요할까?
Ollama
GPU 사용 준비를 마치고 Local LLM 실행 방법을 찾아 보았습니다. 대표적인 것이 ollama입니다. ollama는 오픈 소스로 다양한 오픈 소스 AI 모델을 손쉽게 사용해 볼 수 있습니다. Ollama 설치와 간단한 이용 방법 관련 글은 Google 검색 결과 중, 맘에 드시는 글을 읽어 보시기 바랍니다. ollama를 System 서비스로 설치하였기에 장비 부팅과 함께 기본 ollama 서비스가 실행됩니다. 아래는 시험해 볼 AI 모델들 입니다. 아쉽게도 8GB VRAM 으로는 7B~8B 정도 모델 탑재하는 것이 최대입니다.
$ ollama list
NAME ID SIZE MODIFIED
qwen3-vl:4b 1343d82ebee3 3.3 GB 2 weeks ago
gemma3:27b_vram24G a418f5838eaf 17 GB 2 weeks ago
qwen3-vl:8b 901cae732162 6.1 GB 2 weeks ago
gemma3:27b a418f5838eaf 17 GB 2 weeks ago
gpt-oss:latest 17052f91a42e 13 GB 2 weeks ago
gemma3:12b f4031aab637d 8.1 GB 2 weeks ago
ministral-3:8b_cpuonly_bug 77300ee7514e 6.0 GB 2 weeks ago
ministral-3:3b_cpuonly_bug a48e77f25d79 3.0 GB 2 weeks ago
ministral-3:3b a48e77f25d79 3.0 GB 2 weeks ago
ministral-3:8b 77300ee7514e 6.0 GB 2 weeks ago
mistral:7b 6577803aa9a0 4.4 GB 3 months ago
gemma3:4b a2af6cc3eb7f 3.3 GB 3 months ago
llama3.2:3b a80c4f17acd5 2.0 GB 3 months ago
gemma3:1b 8648f39daa8f 815 MB 3 months ago
gemma3:270m e7d36fb2c3b3 291 MB 3 months ago
qwen2.5-coder:latest dae161e27b0e 4.7 GB 5 months ago
llama3:8b 365c0bd3c000 4.7 GB 5 months ago가장 최신의 OpenGPT 모델인 gpt-oss:latest 모델은 ChatGPT와 거의 동일한 능력(?)으로 보입니다. gpt-oss 모델 정보는 아래와 같습니다.
$ ollama run gpt-oss
>>> /show info
Model
architecture gptoss
parameters 20.9B
context length 131072
embedding length 2880
quantization MXFP4
Capabilities
completion
tools
thinking
Parameters
temperature 1
License
Apache License
Version 2.0, January 2004
ollama로 AI 모델 실행을 한 후, ollama Log와 GPU 사용량을 확인합니다. ollama 실행 로그를 통해 ollama가 모델 적재(loading)하는 과정을 알 수 있고, VRAM 부족이나 다른 이유로 모델 적재에 실패하는 경우, 원인 파악도 쉽게 할 수 있습니다. GPU VRAM에 모델 전체 크기를 업로드하기 때문에 VRAM이 부족할 경우, 적재 실패가 납니다.
$ journalctl -u ollama --no-pager --follow --pager-endGPU 사용량을 보는 이유는 GPU 컴퓨팅 자원이 부족할 경우, CPU자원을 추가로 사용하는데 CPU 100% 라면 GPU 이용이 불가능한 모델이니 GPU 사용하는 다른 모델로 변경하기 바랍니다. 필자의 8GB 장비에서 gpt-oss 모델을 사용할 경우, CPU 47%, GPU 53% 사용하는 것을 알 수 있습니다. 간신히 실행 시켜 볼 수 있습니다.
$ ollama ps
NAME ID SIZE PROCESSOR CONTEXT UNTIL
gpt-oss:latest 17052f91a42e 14 GB 47%/53% CPU/GPU 4096 4 minutes from now간단하게 대화를 시도해 봅니다. Thinking …까지 그대로 노출이 되어서 LLM이 추론하는 과정을 엿볼 수 있습니다. 답변에 보면 **ChatGPT** 표시한 것이 있는데 이는 Markup으로 Web에서는 진한 글씨로 보일 겁니다. 이 상태로 계속해서 대화를 이어 나가면 됩니다.
>>> 안녕? 너는 누구니?
Thinking...
The user writes in Korean: "안녕? 너는 누구니?" meaning "Hello? Who are you?" The assistant should respond in Korean presumably. They
want a friendly greeting. The assistant is ChatGPT. We should answer accordingly. Probably "안녕하세요! 저는 OpenAI가 만든 인공지능 언
어 모델인 ChatGPT입니다. 무엇을 도와드릴까요?" Provide friendly.
...done thinking.
안녕하세요! 저는 OpenAI가 만든 인공지능 언어 모델 **ChatGPT**입니다. 언제든 궁금한 것이 있으면 물어보세요. 도와드릴게요!
LLM 자신이 언제 만들어진 모델인지도 잘 인지하고 있습니다.
>>> 언제 만들어졌니?
Thinking...
We need to answer. The user asked in Korean: "언제 만들어졌니?" meaning "When were you made?" We can answer: ChatGPT is based on
GPT-4, launched 2023. Or GPT-3.5 earlier. Provide timeline. Use Korean.
...done thinking.
저는 OpenAI가 개발한 인공지능 언어 모델인 **ChatGPT**입니다.
- **GPT‑3**(기본 모델): 2020년 6월 공개
- **ChatGPT**(대화형 버전): 2022년 11월에 처음 공개
- **GPT‑3.5**(향상 버전): 2022년 12월에 출시
- **GPT‑4**(현재 사용 중인 모델): 2023년 3월에 공개
따라서 “언제 만들어졌니?” 라고 물으신다면, 현재 사용하고 계시는 버전은 **GPT‑4**이며 2023년 3월에 출시되었습니다. 이전 버전들도 각각 위
와 같은 시기에 만들어졌습니다.추가로, Gemma3:12b를 실행해 보았습니다. 아래 로그에서 중요한 부분이 “offloading / offloaded” 입니다. AI 모델별로 신경명 layer 개수가 다르다고 합니다. gemma3의 경우, 총 49개의 layer가 있는데 GPU VRAM 이 부족해서 42개만 GPU에게 담당 시키고, 나머지 7개는 CPU에게 담당 시키도록 했다는 의미입니다. 나머지 로그를 보면 GPU와 CPU간 부하 분담을 하는 것을 알 수 있습니다.
Dec 24 10:56:49 AI ollama[1562]: time=2025-12-24T10:56:49.512+09:00 level=INFO source=ggml.go:482 msg="offloading 42 repeating layers to GPU"
Dec 24 10:56:49 AI ollama[1562]: time=2025-12-24T10:56:49.512+09:00 level=INFO source=ggml.go:486 msg="offloading output layer to CPU"
Dec 24 10:56:49 AI ollama[1562]: time=2025-12-24T10:56:49.512+09:00 level=INFO source=ggml.go:494 msg="offloaded 42/49 layers to GPU"
Dec 24 10:56:50 AI ollama[1562]: time=2025-12-24T10:56:49.512+09:00 level=INFO source=device.go:240 msg="model weights" device=CUDA0 size="5.2 GiB"
Dec 24 10:56:50 AI ollama[1562]: time=2025-12-24T10:56:49.512+09:00 level=INFO source=device.go:245 msg="model weights" device=CPU size="3.1 GiB"
Dec 24 10:56:50 AI ollama[1562]: time=2025-12-24T10:56:49.512+09:00 level=INFO source=device.go:251 msg="kv cache" device=CUDA0 size="644.0 MiB"
Dec 24 10:56:50 AI ollama[1562]: time=2025-12-24T10:56:49.512+09:00 level=INFO source=device.go:256 msg="kv cache" device=CPU size="92.0 MiB"
Dec 24 10:56:50 AI ollama[1562]: time=2025-12-24T10:56:49.512+09:00 level=INFO source=device.go:262 msg="compute graph" device=CUDA0 size="1.2 GiB"
Dec 24 10:56:50 AI ollama[1562]: time=2025-12-24T10:56:49.512+09:00 level=INFO source=device.go:267 msg="compute graph" device=CPU size="18.0 MiB"
Dec 24 10:56:50 AI ollama[1562]: time=2025-12-24T10:56:49.512+09:00 level=INFO source=device.go:272 msg="total memory" size="10.2 GiB"
Dec 24 10:56:50 AI ollama[1562]: time=2025-12-24T10:56:49.512+09:00 level=INFO source=sched.go:517 msg="loaded runners" count=1CPU와 GPU 분담 비율을 보면 gpt-oss 보다 GPU를 더 많이 사용하고 있습니다.
]$ ollama ps
NAME ID SIZE PROCESSOR CONTEXT UNTIL
gemma3:12b f4031aab637d 10 GB 32%/68% CPU/GPU 4096 4 minutes from now대화가 가능한 서비스 시작까지 걸린 시간은 242.84초입니다. 첫 실행 때 보다 두 번째 실행 할 때 필요한 시간이 거의 없는데 이는 ollama 초기화 작업에 걸리는 시간 유무 때문이라고 합니다. 모델 처음 로드할 때는 JIT(Just‑In‑Time) 컴파일, 그래프 최적화, 토크나이저 로딩 같은 작업을 하는 초기화 작업 시간이 많이 필요하지만 두 번째 부터는 가중치 캐시,컨테이너 가중치 캐시를 사용해서 빠르게 실행이 가능하다고 합니다.
Dec 24 11:00:50 AI ollama[1562]: time=2025-12-24T11:00:50.676+09:00 level=INFO source=server.go:1332 msg="llama runner started in 242.84 seconds"실제 대화 성능은 gpt-oss 보다 훨씬 빠릅니다. 질문과 동시에 답변을 하기 시작합니다.
$ ollama run gemma3:12b
>>> 안녕? 너는 누구니?
안녕하세요! 저는 Gemma입니다. Google DeepMind에서 개발한 대규모 언어 모델이에요.
>>> gemma3:12b 모델인데 가장 최근 출시일은 언제지?
Gemma 3.12B 모델은 2024년 3월 14일에 공개되었습니다. 😊
>>> Sengpt-oss:latest vs. gemma3:12B 답변 속도 체감
1) gpt-oss:latest

2) gemma3:12B

다음에 할 일
일반 Linux 터미널에서 ollama 이용해서 ChatGPT 오픈 모델인 gpt-oss, gemma3:12B 모델을 사용해 보았습니다. 터미널 상태에서는 서로 다른 주제의 대화를 이어 나가기가 어렵고, 과거 대화 목록 관리도 안되기에 일반 ChatGPT Web 버전과 유사하게 UI를 구성해 보겠습니다.















