나는 가난한 학생이다.
내가 가진 건 32GB 통합 메모리의 인텔 CPU, 그리고 게임하다 남은 8GB VRAM의 4060 Ti eGPU뿐이다.
4060 Ti는 빠르다. 하지만 VRAM이 8GB라서 큰 모델은 못 올리고, 오프로딩은 기분 내킬 때만 돌아간다.
인텔 NPU는… 음… LLM 가속에는 응원단장 정도의 역할을 한다. “할 수 있어 CPU! 넌 할 수 있어!” 같은 느낌.
그래도 koboldcpp처럼 Vulkan으로 연산해주는 도구가 있어서 CPU-only보다는 훨씬 낫다.
물론, 이 모든 삽질을 무색하게 만드는 최고의 솔루션은 그냥 온라인에서 Gemini, Perplexity, Copilot, Github 등을 쓰는 것이다.
문제는…
비행기 안에서는 온라인이 안 된다.
특히 내가 탄 젯블루 B777은 인터넷은커녕 충전 포트조차 없었다.
이쯤 되면 “비행기”라기보다 “하늘을 나는 고립된 감옥”에 가깝다.
새벽에 갑자기 전화가 와서 한국행 비행기를 타게 됐다.
문제는, 과제가 산더미였다는 것.
비행기에서 잠만 잘 수는 없었다. (사실 잤어도 아무도 뭐라 안 했겠지만…)
그래서 오프라인에서 돌릴 LLM 모델을 찾았는데…
어제 SSD 용량 확보한다고 모델을 전부 삭제해버렸다.
이게 바로 인간의 어리석음이다.
다행히 하나 남아 있던 커다란 qwen 모델이 있었다.
koboldcpp로 로딩! → 실패.
(아마 모델이 나를 거부한 듯하다. “나를 이런 환경에서 돌리려고?” 하는 느낌)
LM Studio로 CPU 모드로 로딩! → 된다.
속도는 느리지만, 돌아간다.
돌아간다는 사실만으로도 감동적이었다.
간단한 질문을 던졌더니 모델이 10분 동안 생각하더니
초당 한 단어씩 뱉기 시작했다.
초당. 한 단어.
이쯤 되면 LLM이 아니라 고대 점술사다.
“잠깐… 내가… 영감을… 받는… 중이니… 기다려라…”
배터리는 없고, 충전도 안 되고, 할 것도 없고…
결국 나는 LLM이 뱉는 단어를 하나하나 읽으며 기다렸다.
그런데 신기하게도,
느린 LLM을 보면서 오히려 내가 더 많이 학습되고 있었다.
컴퓨터가 아니라 내가.
이게 바로 오프라인 LLM의 진정한 가치인가 싶었다.
속도가 아니라 강제 명상.
그래서 지금, 느려터진 공용 WiFi를 붙잡고
돌아가는 비행기에서 쓸 gguf 모델을 다시 다운로드 중이다.
이번에는 koboldcpp에서 잘 돌아가길 바란다.
적어도 다음 비행기에서는 과제 정도는 할 수 있겠지.
아니면 또 초당 한 단어의 점술쇼를 보게 될지도 모르고.