// Architecture note

LLM Hosting Explained

cf-node-client
momo auto_awesome BUY CLAUDE KIT WITH 20% OFF coffee BUY ME COFFEE
Claude Code
CLI / IDE
máy lập trình
HTTPS
api.anthropic
.com
Anthropic servers
route
Claude
Sonnet / Opus
LLM model
✓ Dùng ngay, không setup
✓ Model mạnh nhất
✗ Tốn tiền theo token
✗ Data gửi lên Anthropic cloud
VS
Claude Code
CLI / IDE
máy lập trình
HTTPS
self-llm
.leo.ai
public domain
tunnel
Cloudflare
Tunnel
zero-trust proxy
local
Ollama
:11434
Mac mini
run
Qwen 2.5
local GPU/CPU
LLM model
✓ Free / không tốn token
✓ Data private hoàn toàn
✗ Cần Mac mạnh (≥32GB RAM)
✗ Model yếu hơn Claude
⚡ Latency phụ thuộc hardware
💡 Tại sao cần Cloudflare Tunnel?

Mac mini chạy local → không có IP public → Claude Code không gọi thẳng được.
Cloudflare tạo tunnel ngầm: self-llm.leo.ailocalhost:11434 trên Mac.
Không cần mở firewall, không cần config router — chạy 1 lệnh là xong.

Claude Code
máy lập trình
local machine
HTTPS request
◀ response stream
api.anthropic.com
Anthropic servers
internet / cloud
inference
Claude
Sonnet / Opus
LLM model

Ưu điểm

  • 🚀Dùng ngay không cần setup gì
  • 🧠Model mạnh nhất hiện tại (Opus, Sonnet)
  • 🔄Tự động update model mới
  • 📈Scale vô giới hạn theo nhu cầu

Nhược điểm

  • 💰Tốn tiền theo token — cộng dồn nhanh
  • 🔓Data gửi lên server Anthropic (US)
  • 🌐Cần internet, phụ thuộc uptime Anthropic
  • ⚖️Ràng buộc TOS / rate limit
1
Claude Code
máy local / IDE — gọi HTTPS đến domain
2
self-llm.leo.ai
public domain — DNS trỏ về Cloudflare
3
Cloudflare Tunnel
zero-trust proxy — không cần mở port / firewall
4
Ollama — Mac mini
localhost:11434 — serve OpenAI-compatible API
5
Qwen 2.5
LLM chạy local GPU/CPU — inference hoàn toàn offline
💡 Key insight — Cloudflare Tunnel

Mac mini chạy local → không có IP public → Claude Code không gọi thẳng được.
Cloudflare tạo tunnel ngầm: self-llm.leo.ailocalhost:11434 trên Mac.
Không cần mở firewall, không cần config router — chạy 1 lệnh là xong.

Ưu điểm

  • 🆓Free hoàn toàn — không tốn token
  • 🔒Data private — không ra ngoài
  • Không bị rate limit
  • 🌐Có thể dùng offline (sau khi setup)

Nhược điểm

  • 💻Cần Mac mạnh (≥32GB RAM cho 70B)
  • 🧠Model yếu hơn Claude Sonnet/Opus
  • ⚙️Tự setup, tự maintain
  • 🐢Latency cao hơn nếu hardware yếu
Số giờ dùng / ngày 4h
1h 12h
Claude Max 5x
$100
/tháng cố định
Chi phí / ngày
~$3.33
Chi phí / giờ
~$0.14
Unlimited usage trong plan — không lo overrun
BEST VALUE
Self-hosted (Ollama)
$0
/tháng (điện ~$5-10)
Chi phí / ngày
~$0.27
Chi phí / giờ
~$0.01
Mac mini M4 ~15W idle, ~30W load. Tính điện $0.15/kWh
Tiết kiệm được
$90
/tháng
1 năm tiết kiệm
~$1,080
ROI Mac mini M4
~7 tháng
Mac mini M4 base ~$599. Hoàn vốn trong <1 năm
Chi phí tích lũy theo tháng
Claude Max 5x $100/mo
Self-hosted ~$7.5/mo

⚠ Claude Max 5x = $100/tháng flat — unlimited usage với Sonnet/Haiku, Opus có giới hạn cao hơn. Self-hosted = chỉ tính tiền điện, không tính hardware (Mac mini M4 ~$599 one-time). Model chất lượng khác nhau đáng kể.