내장 SSD는 이미 OS, Docker 이미지, 영상 편집 캐시로 빵빵하게 차 있고, 그런데 Llama 3.1이니 Qwen이니 DeepSeek이니 자꾸 받고 싶은 모델은 늘어만 갑니다. 그래서 누구나 한 번쯤 이런 생각을 합니다. "외장 SSD에 넣고 거기서 그냥 돌리면 안 되나?"
결론부터 던지자면, 됩니다. 다만 "성능에 문제가 없냐"는 질문의 답은 "무엇이 성능이냐"에 따라 갈립니다. 모델 로딩 시간이라면 약간 손해 보고, 토큰 생성 속도라면 사실상 차이 없고, 모델이 RAM/VRAM에 다 안 들어가서 SSD에서 직접 읽는 상황이라면 외장이냐 내장이냐가 진짜로 중요해집니다.
하나씩 풀어봅니다.
핵심부터: 로컬 LLM은 언제 SSD를 읽는가?
이 부분을 이해 못 하면 외장 SSD 얘기 자체가 뜬구름이 됩니다. 로컬 LLM이 SSD에 의존하는 시점은 크게 두 가지입니다.
1. 모델 로딩 시점
GGUF 파일을 디스크에서 읽어 RAM 또는 VRAM에 올리는 단계입니다. 한 번 일어나고 끝납니다. 이 시간은 거의 전적으로 SSD 읽기 속도에 비례합니다.
2. 추론(inference) 도중 mmap을 통한 페이지 폴트
llama.cpp는 기본적으로 모델 파일을 mmap()으로 매핑합니다. Linux의 mmap, Windows의 CreateFileMappingA를 사용해 모델 파일을 가상 메모리 주소 공간에 매핑만 해두고, 실제로 필요한 페이지만 그때그때 디스크에서 읽어오는 방식입니다. RAM이 충분하면 OS가 알아서 캐싱하기 때문에 두 번째 실행부터는 디스크를 거의 안 건드립니다. 그런데 RAM이 부족하면? 추론할 때마다 SSD에서 가중치를 계속 읽습니다. 이때부터 SSD 속도가 토큰 생성 속도를 직접적으로 좌우합니다.
외장 SSD를 썼을 때 실제로 어떤 일이 일어나나
모델 로딩 시간: 약간 길어진다
내장 NVMe SSD는 PCIe 4.0/5.0 기준 일반적으로 3,000~12,000 MB/s 수준의 순차 읽기 속도를 냅니다. 반면 외장 SSD는 인터페이스가 병목입니다.
| 인터페이스 | 이론 대역폭 | 실측 대략치 |
| USB 3.0 (USB 3.2 Gen 1) | 5 Gbps | 약 400~500 MB/s |
| USB 3.2 Gen 2 | 10 Gbps | 약 800~1,050 MB/s |
| USB 3.2 Gen 2x2 | 20 Gbps | 약 1,600~2,000 MB/s |
| Thunderbolt 3/4, USB4 | 40 Gbps | 약 2,500~3,000 MB/s |
| 내장 PCIe 4.0 x4 NVMe | 64 Gbps | 약 5,000~7,000 MB/s |
Samsung T7 같은 대중적인 USB 3.2 Gen 2 외장 NVMe는 800~900 MB/s 정도의 실효 속도를 내며, 5GB 모델 기준 10초 이내에 로딩이 끝납니다. 같은 모델을 내장 NVMe(3,000 MB/s 이상)에서 로딩하면 2~3초면 끝납니다. 차이가 분명히 있긴 합니다.
다만 이건 처음 한 번뿐입니다. 한 번 RAM에 올라가고 나면 그 다음부터는 SSD 인터페이스가 무엇이든 상관이 없습니다.
추론 속도: 모델이 RAM에 다 들어간다면 차이 없음
이 부분이 중요합니다. 일단 모델이 RAM이나 VRAM에 완전히 올라가면, 추론은 RAM 대역폭(DDR5-6400 기준 약 88 GB/s) 또는 VRAM 대역폭(RTX 3090 기준 약 1 TB/s)이 병목입니다. 이 단계에서 SSD는 거의 일을 하지 않습니다. 외장이건 내장이건 토큰 생성 속도(tok/s)는 동일합니다.
실제로 macOS에서 Ollama 모델 디렉토리를 외장 SSD로 옮긴 사용자들의 보고를 보면, USB 3.0 이상의 외장 SSD를 쓰는 한 추론 성능 영향은 거의 무시할 수준이며, 모델 로딩 시 몇 초 더 걸리는 정도가 전부라고 합니다.
RAM 부족 + mmap 추론: 여기서 외장 SSD의 한계가 드러남
문제는 모델이 RAM에 다 안 들어갈 때입니다. 예를 들어 DeepSeek-R1 같은 거대 MoE 모델을 RAM과 VRAM 합쳐도 부족한 상태에서 mmap으로 돌리는 케이스입니다. 이 경우 추론 중에 SSD를 지속적으로 읽는데, 한 사용자의 보고에 따르면 PCIe Gen 5 x4 내장 NVMe SSD가 추론 중 2~5 GB/s의 읽기 대역폭을 보여줬다고 합니다. 이걸 외장 USB 3.2 Gen 2(약 1 GB/s)로 돌리면 토큰 생성 속도가 그만큼 떨어질 가능성이 큽니다.
쉽게 말해, "RAM 부족분을 SSD로 메우면서 추론하는" 시나리오에서는 외장 SSD의 인터페이스 속도가 그대로 tok/s에 반영됩니다.
그래서 결론: 누구에게 외장 SSD가 괜찮은가
외장 SSD로 가도 무리 없는 경우
- 모델 크기가 RAM/VRAM에 충분히 들어가는 경우(예: 8B 모델 Q4 양자화 = 약 4.7GB)
- 노트북 내장 스토리지가 부족해서 일단 모델을 보관할 곳이 필요한 경우
- 여러 PC를 오가며 같은 모델 환경을 들고 다니고 싶은 경우(휴대성)
- 모델 로딩 시간 몇 초 차이는 신경 안 쓰는 경우
외장 SSD를 추천하지 않는 경우
- RAM/VRAM이 모자라서 mmap 기반 SSD 직접 읽기로 거대 모델을 돌리는 경우
- 모델을 매번 다른 모델로 자주 바꿔가며 로딩하는 워크플로우
- 가능하면 USB 3.0(약 400 MB/s)급 외장은 피해야 합니다. 로딩이 정말 답답해집니다
SSD 수명 걱정은 안 해도 되나?
자주 받는 질문입니다. 결론: 거의 문제 없습니다. LLM 추론은 SSD에 쓰기(write)가 아니라 읽기(read)를 합니다. SSD 수명을 갉아먹는 건 쓰기 사이클이라, 읽기 위주의 LLM 워크로드는 SSD 마모에 거의 기여하지 않습니다. 다만 발열 관리는 신경 써야 합니다. 장시간 고속 읽기가 이어지면 컨트롤러가 뜨거워지면서 thermal throttling으로 속도가 떨어질 수 있는데, 이건 내장이든 외장이든 마찬가지지만 외장은 케이스 방열이 일반적으로 더 열악합니다.
정리: 한 줄 요약과 추천 구성
한 줄로: "모델이 RAM에 잘 들어가는 일반 사용자라면 외장 SSD로도 충분하다. 다만 USB 3.2 Gen 2 이상은 써라."
추천 구성을 표로 정리하면 다음과 같습니다.
| 사용 시나리오 | 추천 외장 SSD | 인터페이스 비고 |
| 8B~14B 모델 가끔 사용 | USB 3.2 Gen 2 (10 Gbps) | Samsung T7, SanDisk Extreme Pro 등 |
| 30B 이상 모델 자주 사용 | Thunderbolt 3/4 or USB4 | 로딩 시간 차이 체감 |
| RAM 부족하지만 거대 모델 시도 | 내장 NVMe 권장 | 외장은 추론 속도 손해 큼 |
| 휴대성 우선 | USB 3.2 Gen 2 + exFAT 포맷 | 크로스 플랫폼 호환 |
내장 SSD 용량이 부족해서 어쩔 수 없이 외장으로 가야 한다면, 너무 죄책감 가지지 않아도 됩니다. 8B~14B 정도의 양자화 모델을 RAM 충분한 PC에서 돌리는 일반적인 시나리오라면 외장 SSD는 "약간 느린 모델 창고"일 뿐, 추론 자체에는 영향이 없습니다.
다만 절대 USB 메모리(보통 100~250 MB/s)는 쓰지 마세요. 외장 NVMe SSD와 USB 메모리는 이름만 비슷할 뿐 완전히 다른 물건입니다. 5GB 모델 한 번 로딩하다가 인내심이 폭발할 수 있습니다.
참고 자료:
- Reducing Cold Start Latency for LLM Inference with NVIDIA Run:ai Model Streamer, NVIDIA Technical Blog: https://developer.nvidia.com/blog/reducing-cold-start-latency-for-llm-inference-with-nvidia-runai-model-streamer/
- Portable LLM on a USB Stick: Offline AI Setup [2026 Guide]: https://www.kunalganglani.com/blog/portable-llm-usb-stick
- Move Ollama Model Storage to an External Drive on macOS, Carmelyne Thompson: https://carmelyne.com/the-ultimate-guide-move-ollama-model-storage-to-an-external-drive-on-macos-m1-m2-friendly/
- llama.cpp guide - Running LLMs locally, on any hardware, from scratch: https://blog.steelph0enix.dev/posts/llama-cpp-guide/
- unsloth/DeepSeek-R1-GGUF 토론, Hugging Face: https://huggingface.co/unsloth/DeepSeek-R1-GGUF/discussions/13
- "30B model now needs only 5.8GB of RAM? How?" llama.cpp Discussion #638: https://github.com/ggml-org/llama.cpp/discussions/638
- Ollama Issue #8795: Load model into NVME SSD: https://github.com/ollama/ollama/issues/8795
- Recommended Hardware for Running LLMs Locally, GeeksforGeeks: https://www.geeksforgeeks.org/deep-learning/recommended-hardware-for-running-llms-locally/
'IT > AI' 카테고리의 다른 글
| Opus 4.7 vs Opus 4.7 1M, 같은 모델인데 왜 다르게 보일까? 정확한 비교 완전 정리 (2) | 2026.05.15 |
|---|---|
| Codex 모바일 원격 접속, 진짜 폰으로 코딩이 될까? 클로드 코드 원격과도 비교 (1) | 2026.05.15 |
| Codex에 펫이 생겼다고? OpenAI의 깜찍한 신기능 Codex Pets 기능 정리 (1) | 2026.05.15 |
| 2만9천원에 풀렸던 ChatGPT Pro 선물하기 이벤트 사용 관련 QnA 총정리 (0) | 2026.05.14 |
| 구글 Gemini 3.1 Ultra 출시 200만 토큰의 의미 (2) | 2026.05.13 |