Local LLM
Ollama
Chạy các mô hình LLM trên máy local hoặc server riêng, hỗ trợ nhiều model như Llama, Mistral, Gemma.
Ghi chú review
Tài nguyên phụ thuộc vào kích thước model. Model 7B cần tối thiểu 8 GB RAM. GPU giúp tăng tốc đáng kể.
Hướng dẫn deploy
Chạy một container Docker đơn giản. Tải model sau khi khởi động.
- Chạy container Ollama với volume lưu trữ models.
- Tải model đầu tiên bằng lệnh `ollama pull llama3.2`.
- Test bằng `ollama run llama3.2` hoặc gọi API tại port 11434.
- Kết hợp với Open WebUI để có giao diện chat.
- Cấu hình GPU passthrough nếu có NVIDIA GPU.
Backup:Models có thể tải lại. Backup thư mục cấu hình nếu có custom Modelfiles.
Copy để chạy trên server
Dùng từng block riêng: lưu compose trước, hoặc copy script bash để tạo file và chạy container.
docker-compose.ymlyaml
services:
ollama:
image: ollama/ollama:latest
container_name: ollama
volumes:
- ./models:/root/.ollama
ports:
- "11434:11434"
restart: unless-stoppedsetup.shbash
#!/usr/bin/env bash
set -euo pipefail
sudo mkdir -p /opt/ollama
sudo chown "$USER":"$USER" /opt/ollama
cd /opt/ollama
cat > docker-compose.yml <<'COMPOSE'
services:
ollama:
image: ollama/ollama:latest
container_name: ollama
volumes:
- ./models:/root/.ollama
ports:
- "11434:11434"
restart: unless-stopped
COMPOSE
docker compose up -d
echo "Ollama is running on http://SERVER_IP:11434"
echo "Pull a model with: docker exec ollama ollama pull llama3.2"Stack
GoDocker