“이번 달 OpenAI API 비용이 왜 이렇게 많이 나왔지?” “회사 코드를 외부 서비스에 보내지 않고도 AI를 쓸 수는 없을까?”
로컬 LLM이 다시 주목받는 이유는 결국 비용과 보안입니다. Ollama는 그 로컬 모델 실행 흐름을 가장 쉽게 시작할 수 있는 도구 중 하나입니다.
이 글은 아래 질문에 답합니다.
- Ollama는 무엇이고 왜 많이 쓰는가?
- 내 컴퓨터에서 어떤 모델까지 돌릴 수 있는가?
- 설치 후 개발 흐름에 어떻게 붙일 수 있는가?
짧게 말하면, Ollama는 로컬 LLM을 비교적 쉽게 실행하고, 개발 도구와 연결하고, 오프라인 워크플로우를 만들 수 있게 해주는 가장 실용적인 입문 도구입니다.
Ollama란?
Ollama는 로컬 환경에서 LLM을 내려받아 실행하고 관리할 수 있게 해주는 도구입니다. 설치 후에는 터미널에서 바로 모델을 실행할 수 있고, 로컬 API 서버처럼 붙여 쓸 수도 있습니다.
즉, “내 PC 안에서만 돌아가는 AI”를 만들고 싶은 개발자에게 특히 잘 맞습니다.
내 컴퓨터에서 돌아갈까?
핵심은 RAM 또는 VRAM입니다. 모델 크기에 따라 필요한 자원이 달라집니다.
| 모델 크기 | 최소 메모리 | 권장 환경 |
|---|---|---|
| 3B 이하 | 4GB | 8GB |
| 7B~8B | 8GB | 16GB 이상 |
| 14B~30B | 16GB | 32GB 이상 |
| 70B 이상 | 64GB | 128GB 이상 |
애플 실리콘 맥처럼 통합 메모리 환경은 로컬 LLM 실행에 특히 유리합니다.
1. Ollama 설치와 첫 모델 실행
공식 사이트에서 설치하거나, macOS에서는 Homebrew로 설치할 수 있습니다.
brew install ollama
설치 후에는 아래처럼 모델을 바로 실행할 수 있습니다.
ollama run llama3.1
처음 실행하면 모델 파일을 다운로드하고, 이후에는 REPL처럼 프롬프트를 입력할 수 있는 환경이 열립니다.
2. Modelfile로 내 모델 만들기
Ollama의 강점 중 하나는 Modelfile입니다. 반복해서 같은 시스템 프롬프트와 설정을 줄 필요 없이, 원하는 기본값을 모델에 묶어둘 수 있습니다.
FROM llama3.1
PARAMETER temperature 0.3
PARAMETER num_ctx 4096
SYSTEM """
You are a senior backend developer and pair programming partner.
Answer with practical code and short explanations.
"""
그다음 아래처럼 빌드합니다.
ollama create my-senior-dev -f ./Modelfile
ollama run my-senior-dev
3. 개발 흐름에 연결하기
Ollama는 기본적으로 http://localhost:11434에서 로컬 API처럼 동작합니다. 그래서 다양한 개발 도구와 연결할 수 있습니다.
1. 터미널에서 직접 쓰기
간단한 테스트는 curl로도 가능합니다.
curl http://localhost:11434/api/generate -d '{
"model": "my-senior-dev",
"prompt": "파이썬 정렬 코드 예시를 보여줘",
"stream": false
}'
2. VS Code나 Cursor에 붙이기
Continue 같은 확장을 쓰면 에디터 안에서 Ollama 모델을 직접 사용할 수 있습니다.
3. 웹 UI 붙이기
Open WebUI를 띄우면 ChatGPT 비슷한 화면에서 로컬 모델을 사용할 수 있습니다.
언제 API보다 로컬 모델이 더 좋을까?
1. 비용을 줄이고 싶을 때
반복 호출이 많은 작업은 로컬 모델이 더 경제적일 수 있습니다.
2. 외부 전송이 부담될 때
사내 코드나 민감한 문서를 다룰 때는 로컬이 심리적으로도 운영적으로도 편할 수 있습니다.
3. 오프라인 환경이 필요할 때
인터넷 없이도 모델을 써야 하는 경우 로컬이 강합니다.
자주 하는 실수
1. 하드웨어 한계를 무시하고 큰 모델부터 시도하기
처음에는 7B~8B급부터 시작하는 편이 현실적입니다.
2. 로컬 모델이면 무조건 더 낫다고 생각하기
작업에 따라서는 여전히 API 모델이 더 품질이 좋거나 편할 수 있습니다.
3. 모델만 띄우고 워크플로우 연결은 안 하기
실전 가치는 에디터, 터미널, 검증 도구와 연결할 때 더 커집니다.
다음에 읽기 좋은 글
- 로컬 모델과 상용 모델을 어떻게 비교할지 궁금하다면 LLM 벤치마크 가이드
- 로컬 모델을 더 능동적인 작업 흐름과 연결하고 싶다면 AI Agent 입문 가이드
심사 대기 중에는 광고 대신 관련 가이드를 먼저 보여줍니다.
먼저 읽어볼 가이드
검색 유입이 많은 핵심 글부터 이어서 보세요.
- 미들웨어 트러블슈팅 가이드: Redis vs RabbitMQ vs Kafka 개발자를 위한 미들웨어 트러블슈팅 허브 글입니다. Redis, RabbitMQ, Kafka 중 어떤 증상부터 먼저 봐야 하는지와 어떤 문제 패턴이 각 시스템에 가까운지 정리합니다.
- Kubernetes CrashLoopBackOff: 먼저 볼 것들 startup failure, probe, config, resource limit 관점에서 CrashLoopBackOff를 어떻게 나눠서 봐야 하는지 정리한 가이드입니다.
- Kafka consumer lag가 계속 늘 때: 트러블슈팅 가이드 Kafka consumer lag가 계속 늘어날 때 무엇부터 봐야 하는지 정리합니다. poll 주기, 처리 속도, rebalance, consumer 설정까지 실전 기준으로 다룹니다.
- Kafka Rebalancing Too Often 가이드 Kafka consumer group에서 rebalance가 너무 자주 일어날 때 membership flapping, poll timing, protocol, assignment churn을 어떤 순서로 봐야 하는지 설명하는 실전 가이드입니다.
- Docker container가 계속 재시작될 때: 먼저 확인할 것들 exit code, command failure, environment mistake, health check 관점에서 Docker restart loop를 푸는 실전 가이드입니다.
심사 대기 중에는 광고 대신 관련 가이드를 먼저 보여줍니다.