Home SE Note

On-Prem AI 서비스-(4) Ollama 후기

2025-12-24

※ 이전 글:

Ollama

GPU 사용 준비를 마치고 Local LLM 실행 방법을 찾아 보았습니다. 대표적인 것이 ollama입니다. ollama는 오픈 소스로 다양한 오픈 소스 AI 모델을 손쉽게 사용해 볼 수 있습니다. Ollama 설치와 간단한 이용 방법 관련 글은 Google 검색 결과 중, 맘에 드시는 글을 읽어 보시기 바랍니다. ollama를 System 서비스로 설치하였기에 장비 부팅과 함께 기본 ollama 서비스가 실행됩니다. 아래는 시험해 볼 AI 모델들 입니다. 아쉽게도 8GB VRAM 으로는 7B~8B 정도 모델 탑재하는 것이 최대입니다.

Bash

$ ollama list
NAME                          ID              SIZE      MODIFIED
qwen3-vl:4b                   1343d82ebee3    3.3 GB    2 weeks ago
gemma3:27b_vram24G            a418f5838eaf    17 GB     2 weeks ago
qwen3-vl:8b                   901cae732162    6.1 GB    2 weeks ago
gemma3:27b                    a418f5838eaf    17 GB     2 weeks ago
gpt-oss:latest                17052f91a42e    13 GB     2 weeks ago
gemma3:12b                    f4031aab637d    8.1 GB    2 weeks ago
ministral-3:8b_cpuonly_bug    77300ee7514e    6.0 GB    2 weeks ago
ministral-3:3b_cpuonly_bug    a48e77f25d79    3.0 GB    2 weeks ago
ministral-3:3b                a48e77f25d79    3.0 GB    2 weeks ago
ministral-3:8b                77300ee7514e    6.0 GB    2 weeks ago
mistral:7b                    6577803aa9a0    4.4 GB    3 months ago
gemma3:4b                     a2af6cc3eb7f    3.3 GB    3 months ago
llama3.2:3b                   a80c4f17acd5    2.0 GB    3 months ago
gemma3:1b                     8648f39daa8f    815 MB    3 months ago
gemma3:270m                   e7d36fb2c3b3    291 MB    3 months ago
qwen2.5-coder:latest          dae161e27b0e    4.7 GB    5 months ago
llama3:8b                     365c0bd3c000    4.7 GB    5 months ago

$ ollama list
NAME                          ID              SIZE      MODIFIED
qwen3-vl:4b                   1343d82ebee3    3.3 GB    2 weeks ago
gemma3:27b_vram24G            a418f5838eaf    17 GB     2 weeks ago
qwen3-vl:8b                   901cae732162    6.1 GB    2 weeks ago
gemma3:27b                    a418f5838eaf    17 GB     2 weeks ago
gpt-oss:latest                17052f91a42e    13 GB     2 weeks ago
gemma3:12b                    f4031aab637d    8.1 GB    2 weeks ago
ministral-3:8b_cpuonly_bug    77300ee7514e    6.0 GB    2 weeks ago
ministral-3:3b_cpuonly_bug    a48e77f25d79    3.0 GB    2 weeks ago
ministral-3:3b                a48e77f25d79    3.0 GB    2 weeks ago
ministral-3:8b                77300ee7514e    6.0 GB    2 weeks ago
mistral:7b                    6577803aa9a0    4.4 GB    3 months ago
gemma3:4b                     a2af6cc3eb7f    3.3 GB    3 months ago
llama3.2:3b                   a80c4f17acd5    2.0 GB    3 months ago
gemma3:1b                     8648f39daa8f    815 MB    3 months ago
gemma3:270m                   e7d36fb2c3b3    291 MB    3 months ago
qwen2.5-coder:latest          dae161e27b0e    4.7 GB    5 months ago
llama3:8b                     365c0bd3c000    4.7 GB    5 months ago

가장 최신의 OpenGPT 모델인 gpt-oss:latest 모델은 ChatGPT와 거의 동일한 능력(?)으로 보입니다. gpt-oss 모델 정보는 아래와 같습니다. 참고로, gpt-oss:latest가 gpt-oss:20B 네요.

Bash

$ ollama run gpt-oss
>>> /show info
  Model
    architecture        gptoss
    parameters          20.9B
    context length      131072
    embedding length    2880
    quantization        MXFP4

  Capabilities
    completion
    tools
    thinking

  Parameters
    temperature    1

  License
    Apache License
    Version 2.0, January 2004

$ ollama run gpt-oss
>>> /show info
  Model
    architecture        gptoss
    parameters          20.9B
    context length      131072
    embedding length    2880
    quantization        MXFP4

  Capabilities
    completion
    tools
    thinking

  Parameters
    temperature    1

  License
    Apache License
    Version 2.0, January 2004

ollama로 AI 모델 실행을 한 후, ollama Log와 GPU 사용량을 확인합니다. ollama 실행 로그를 통해 ollama가 모델 적재(loading)하는 과정을 알 수 있고, VRAM 부족이나 다른 이유로 모델 적재에 실패하는 경우, 원인 파악도 쉽게 할 수 있습니다. GPU VRAM에 모델 전체 크기를 업로드하기 때문에 VRAM이 부족할 경우, 적재 실패가 납니다.

Bash

$ journalctl -u ollama --no-pager --follow --pager-end

$ journalctl -u ollama --no-pager --follow --pager-end

GPU 사용량을 보는 이유는 GPU 컴퓨팅 자원이 부족할 경우, CPU자원을 추가로 사용하는데 CPU 100% 라면 GPU 이용이 불가능한 모델이니 GPU 사용하는 다른 모델로 변경하기 바랍니다. 필자의 8GB 장비에서 gpt-oss 모델을 사용할 경우, CPU 47%, GPU 53% 사용하는 것을 알 수 있습니다. 간신히 실행 시켜 볼 수 있습니다.

Bash

$ ollama ps
NAME              ID              SIZE     PROCESSOR          CONTEXT    UNTIL
gpt-oss:latest    17052f91a42e    14 GB    47%/53% CPU/GPU    4096       4 minutes from now

$ ollama ps
NAME              ID              SIZE     PROCESSOR          CONTEXT    UNTIL
gpt-oss:latest    17052f91a42e    14 GB    47%/53% CPU/GPU    4096       4 minutes from now

간단하게 대화를 시도해 봅니다. Thinking …까지 그대로 노출이 되어서 LLM이 추론하는 과정을 엿볼 수 있습니다. 답변에 보면 **ChatGPT** 표시한 것이 있는데 이는 Markup으로 Web에서는 진한 글씨로 보일 겁니다. 이 상태로 계속해서 대화를 이어 나가면 됩니다.

Bash

>>> 안녕? 너는 누구니?
Thinking...
The user writes in Korean: "안녕? 너는 누구니?" meaning "Hello? Who are you?" The assistant should respond in Korean presumably. They
want a friendly greeting. The assistant is ChatGPT. We should answer accordingly. Probably "안녕하세요! 저는 OpenAI가 만든 인공지능 언
어 모델인 ChatGPT입니다. 무엇을 도와드릴까요?" Provide friendly.
...done thinking.

안녕하세요! 저는 OpenAI가 만든 인공지능 언어 모델 **ChatGPT**입니다. 언제든 궁금한 것이 있으면 물어보세요. 도와드릴게요!

>>> 안녕? 너는 누구니?
Thinking...
The user writes in Korean: "안녕? 너는 누구니?" meaning "Hello? Who are you?" The assistant should respond in Korean presumably. They
want a friendly greeting. The assistant is ChatGPT. We should answer accordingly. Probably "안녕하세요! 저는 OpenAI가 만든 인공지능 언
어 모델인 ChatGPT입니다. 무엇을 도와드릴까요?" Provide friendly.
...done thinking.

안녕하세요! 저는 OpenAI가 만든 인공지능 언어 모델 **ChatGPT**입니다. 언제든 궁금한 것이 있으면 물어보세요. 도와드릴게요!

LLM 자신이 언제 만들어진 모델인지도 잘 인지하고 있습니다.

Bash

>>> 언제 만들어졌니?
Thinking...
We need to answer. The user asked in Korean: "언제 만들어졌니?" meaning "When were you made?" We can answer: ChatGPT is based on
GPT-4, launched 2023. Or GPT-3.5 earlier. Provide timeline. Use Korean.
...done thinking.

저는 OpenAI가 개발한 인공지능 언어 모델인 **ChatGPT**입니다.
- **GPT‑3**(기본 모델): 2020년 6월 공개
- **ChatGPT**(대화형 버전): 2022년 11월에 처음 공개
- **GPT‑3.5**(향상 버전): 2022년 12월에 출시
- **GPT‑4**(현재 사용 중인 모델): 2023년 3월에 공개

따라서 “언제 만들어졌니?” 라고 물으신다면, 현재 사용하고 계시는 버전은 **GPT‑4**이며 2023년 3월에 출시되었습니다. 이전 버전들도 각각 위
와 같은 시기에 만들어졌습니다.

>>> 언제 만들어졌니?
Thinking...
We need to answer. The user asked in Korean: "언제 만들어졌니?" meaning "When were you made?" We can answer: ChatGPT is based on
GPT-4, launched 2023. Or GPT-3.5 earlier. Provide timeline. Use Korean.
...done thinking.

저는 OpenAI가 개발한 인공지능 언어 모델인 **ChatGPT**입니다.
- **GPT‑3**(기본 모델): 2020년 6월 공개
- **ChatGPT**(대화형 버전): 2022년 11월에 처음 공개
- **GPT‑3.5**(향상 버전): 2022년 12월에 출시
- **GPT‑4**(현재 사용 중인 모델): 2023년 3월에 공개

따라서 “언제 만들어졌니?” 라고 물으신다면, 현재 사용하고 계시는 버전은 **GPT‑4**이며 2023년 3월에 출시되었습니다. 이전 버전들도 각각 위
와 같은 시기에 만들어졌습니다.

추가로, Gemma3:12b를 실행해 보았습니다. 아래 로그에서 중요한 부분이 “offloading / offloaded” 입니다. AI 모델별로 신경명 layer 개수가 다르다고 합니다. gemma3의 경우, 총 49개의 layer가 있는데 GPU VRAM 이 부족해서 42개만 GPU에게 담당 시키고, 나머지 7개는 CPU에게 담당 시키도록 했다는 의미입니다. 나머지 로그를 보면 GPU와 CPU간 부하 분담을 하는 것을 알 수 있습니다.

Bash

Dec 24 10:56:49 AI ollama[1562]: time=2025-12-24T10:56:49.512+09:00 level=INFO source=ggml.go:482 msg="offloading 42 repeating layers to GPU"
Dec 24 10:56:49 AI ollama[1562]: time=2025-12-24T10:56:49.512+09:00 level=INFO source=ggml.go:486 msg="offloading output layer to CPU"
Dec 24 10:56:49 AI ollama[1562]: time=2025-12-24T10:56:49.512+09:00 level=INFO source=ggml.go:494 msg="offloaded 42/49 layers to GPU"
Dec 24 10:56:50 AI ollama[1562]: time=2025-12-24T10:56:49.512+09:00 level=INFO source=device.go:240 msg="model weights" device=CUDA0 size="5.2 GiB"
Dec 24 10:56:50 AI ollama[1562]: time=2025-12-24T10:56:49.512+09:00 level=INFO source=device.go:245 msg="model weights" device=CPU size="3.1 GiB"
Dec 24 10:56:50 AI ollama[1562]: time=2025-12-24T10:56:49.512+09:00 level=INFO source=device.go:251 msg="kv cache" device=CUDA0 size="644.0 MiB"
Dec 24 10:56:50 AI ollama[1562]: time=2025-12-24T10:56:49.512+09:00 level=INFO source=device.go:256 msg="kv cache" device=CPU size="92.0 MiB"
Dec 24 10:56:50 AI ollama[1562]: time=2025-12-24T10:56:49.512+09:00 level=INFO source=device.go:262 msg="compute graph" device=CUDA0 size="1.2 GiB"
Dec 24 10:56:50 AI ollama[1562]: time=2025-12-24T10:56:49.512+09:00 level=INFO source=device.go:267 msg="compute graph" device=CPU size="18.0 MiB"
Dec 24 10:56:50 AI ollama[1562]: time=2025-12-24T10:56:49.512+09:00 level=INFO source=device.go:272 msg="total memory" size="10.2 GiB"
Dec 24 10:56:50 AI ollama[1562]: time=2025-12-24T10:56:49.512+09:00 level=INFO source=sched.go:517 msg="loaded runners" count=1

Dec 24 10:56:49 AI ollama[1562]: time=2025-12-24T10:56:49.512+09:00 level=INFO source=ggml.go:482 msg="offloading 42 repeating layers to GPU"
Dec 24 10:56:49 AI ollama[1562]: time=2025-12-24T10:56:49.512+09:00 level=INFO source=ggml.go:486 msg="offloading output layer to CPU"
Dec 24 10:56:49 AI ollama[1562]: time=2025-12-24T10:56:49.512+09:00 level=INFO source=ggml.go:494 msg="offloaded 42/49 layers to GPU"
Dec 24 10:56:50 AI ollama[1562]: time=2025-12-24T10:56:49.512+09:00 level=INFO source=device.go:240 msg="model weights" device=CUDA0 size="5.2 GiB"
Dec 24 10:56:50 AI ollama[1562]: time=2025-12-24T10:56:49.512+09:00 level=INFO source=device.go:245 msg="model weights" device=CPU size="3.1 GiB"
Dec 24 10:56:50 AI ollama[1562]: time=2025-12-24T10:56:49.512+09:00 level=INFO source=device.go:251 msg="kv cache" device=CUDA0 size="644.0 MiB"
Dec 24 10:56:50 AI ollama[1562]: time=2025-12-24T10:56:49.512+09:00 level=INFO source=device.go:256 msg="kv cache" device=CPU size="92.0 MiB"
Dec 24 10:56:50 AI ollama[1562]: time=2025-12-24T10:56:49.512+09:00 level=INFO source=device.go:262 msg="compute graph" device=CUDA0 size="1.2 GiB"
Dec 24 10:56:50 AI ollama[1562]: time=2025-12-24T10:56:49.512+09:00 level=INFO source=device.go:267 msg="compute graph" device=CPU size="18.0 MiB"
Dec 24 10:56:50 AI ollama[1562]: time=2025-12-24T10:56:49.512+09:00 level=INFO source=device.go:272 msg="total memory" size="10.2 GiB"
Dec 24 10:56:50 AI ollama[1562]: time=2025-12-24T10:56:49.512+09:00 level=INFO source=sched.go:517 msg="loaded runners" count=1

CPU와 GPU 분담 비율을 보면 gpt-oss 보다 GPU를 더 많이 사용하고 있습니다.

Bash

]$ ollama ps
NAME          ID              SIZE     PROCESSOR          CONTEXT    UNTIL
gemma3:12b    f4031aab637d    10 GB    32%/68% CPU/GPU    4096       4 minutes from now

]$ ollama ps
NAME          ID              SIZE     PROCESSOR          CONTEXT    UNTIL
gemma3:12b    f4031aab637d    10 GB    32%/68% CPU/GPU    4096       4 minutes from now

대화가 가능한 서비스 시작까지 걸린 시간은 242.84초입니다. 첫 실행 때 보다 두 번째 실행 할 때 필요한 시간이 거의 없는데 이는 ollama 초기화 작업에 걸리는 시간 유무 때문이라고 합니다. 모델 처음 로드할 때는 JIT(Just‑In‑Time) 컴파일, 그래프 최적화, 토크나이저 로딩 같은 작업을 하는 초기화 작업 시간이 많이 필요하지만 두 번째 부터는 가중치 캐시,컨테이너 가중치 캐시를 사용해서 빠르게 실행이 가능하다고 합니다.

Bash

Dec 24 11:00:50 AI ollama[1562]: time=2025-12-24T11:00:50.676+09:00 level=INFO source=server.go:1332 msg="llama runner started in 242.84 seconds"

Dec 24 11:00:50 AI ollama[1562]: time=2025-12-24T11:00:50.676+09:00 level=INFO source=server.go:1332 msg="llama runner started in 242.84 seconds"

실제 대화 성능은 gpt-oss 보다 훨씬 빠릅니다. 질문과 동시에 답변을 하기 시작합니다.

Bash

$ ollama run gemma3:12b
>>> 안녕? 너는 누구니?
안녕하세요! 저는 Gemma입니다. Google DeepMind에서 개발한 대규모 언어 모델이에요.

>>> gemma3:12b 모델인데 가장 최근 출시일은 언제지?
Gemma 3.12B 모델은 2024년 3월 14일에 공개되었습니다. 😊

>>> Sen

$ ollama run gemma3:12b
>>> 안녕? 너는 누구니?
안녕하세요! 저는 Gemma입니다. Google DeepMind에서 개발한 대규모 언어 모델이에요.

>>> gemma3:12b 모델인데 가장 최근 출시일은 언제지?
Gemma 3.12B 모델은 2024년 3월 14일에 공개되었습니다. 😊

>>> Sen

gpt-oss:latest(20B) vs. gemma3:12B 답변 속도 체감

1) gpt-oss:latest

2) gemma3:12B

다음에 할 일

일반 Linux 터미널에서 ollama 이용해서 ChatGPT 오픈 모델인 gpt-oss, gemma3:12B 모델을 사용해 보았습니다. 터미널 상태에서는 서로 다른 주제의 대화를 이어 나가기가 어렵고, 과거 대화 목록 관리도 안되기에 일반 ChatGPT Web 버전과 유사하게 UI를 구성해 보겠습니다.

넷플릭스 크리스마스 영화 2023 추천작

【최애의 아이】(推しの子,OSHI NO KO) 2023 애니 강추 작품 !

플래시(The Flash)

스파이더맨: 어크로스 더 유니버스

ffmpeg for CUDA 이용한 MP4-to-GIF 변환