Ollama

Chạy các mô hình LLM trên máy local hoặc server riêng, hỗ trợ nhiều model như Llama, Mistral, Gemma.

Ghi chú review

Tài nguyên phụ thuộc vào kích thước model. Model 7B cần tối thiểu 8 GB RAM. GPU giúp tăng tốc đáng kể.

Hướng dẫn deploy

Chạy một container Docker đơn giản. Tải model sau khi khởi động.

Chạy container Ollama với volume lưu trữ models.
Tải model đầu tiên bằng lệnh `ollama pull llama3.2`.
Test bằng `ollama run llama3.2` hoặc gọi API tại port 11434.
Kết hợp với Open WebUI để có giao diện chat.
Cấu hình GPU passthrough nếu có NVIDIA GPU.

Backup:Models có thể tải lại. Backup thư mục cấu hình nếu có custom Modelfiles.

Copy để chạy trên server

Dùng từng block riêng: lưu compose trước, hoặc copy script bash để tạo file và chạy container.

docker-compose.ymlyaml

services:
  ollama:
    image: ollama/ollama:latest
    container_name: ollama
    volumes:
      - ./models:/root/.ollama
    ports:
      - "11434:11434"
    restart: unless-stopped

setup.shbash

#!/usr/bin/env bash
set -euo pipefail

sudo mkdir -p /opt/ollama
sudo chown "$USER":"$USER" /opt/ollama
cd /opt/ollama

cat > docker-compose.yml <<'COMPOSE'
services:
  ollama:
    image: ollama/ollama:latest
    container_name: ollama
    volumes:
      - ./models:/root/.ollama
    ports:
      - "11434:11434"
    restart: unless-stopped
COMPOSE

docker compose up -d
echo "Ollama is running on http://SERVER_IP:11434"
echo "Pull a model with: docker exec ollama ollama pull llama3.2"

Stack

GoDocker