Lokale KI & LLMs mit eGPU
Large Language Models lokal betreiben – ohne Cloud, ohne Abo, mit voller Kontrolle über deine Daten.
Warum lokale LLMs?
Vorteile:
- Datenschutz: Nichts verlässt deinen Rechner
- Keine monatlichen Kosten
- Offline nutzbar
- Volle Kontrolle & Anpassbarkeit
Nachteile:
- Hohe Hardware-Anforderungen (VRAM!)
- Kleinere Modelle als GPT-4/Claude
- Ersteinrichtung nötig
VRAM ist King
Der wichtigste Faktor für lokale LLMs ist VRAM. Die Modellgröße bestimmt, was auf deine GPU passt.
VRAM-Anforderungen (quantisiert Q4)
| Modellgröße | VRAM benötigt | Empfohlene GPU |
|---|---|---|
| 7B Parameter | ~4-6 GB | RTX 4060, RX 7600 |
| 13B Parameter | ~8-10 GB | RTX 4070, RX 7700 XT |
| 30-34B Parameter | ~20 GB | RTX 4090, 2x 4070 |
| 70B Parameter | ~40 GB | Mehrere GPUs / CPU-Offload |
Faustregel: Nimm die Parameteranzahl in Milliarden, teile durch 2 = benötigter VRAM in GB (bei 4-Bit Quantisierung).
Die besten Modelle für Einsteiger
1. Llama 3.2 (3B / 8B)
- Von Meta, Open Source
- Beste Qualität für die Größe
- 8B-Version läuft auf 8 GB VRAM
2. Mistral 7B / Mixtral 8x7B
- Europäisches Modell (Frankreich)
- Sehr effizient
- Mixtral braucht ~26 GB VRAM
3. Phi-3 (Mini/Medium)
- Von Microsoft
- Extrem kompakt (3.8B)
- Läuft auf fast jeder GPU
4. Qwen 2.5 (7B / 14B / 32B)
- Von Alibaba
- Sehr gut für Code
- Verschiedene Größen verfügbar
Software-Setup
Option 1: Ollama (Empfohlen)
Am einfachsten für den Einstieg.
Installation:
# macOS / Linux
curl -fsSL https://ollama.com/install.sh | sh
# Windows: Installer von ollama.com
Modell laden und starten:
ollama run llama3.2
# oder
ollama run mistral
ollama run phi3
GPU-Nutzung prüfen:
ollama ps
# Zeigt VRAM-Nutzung an
Option 2: LM Studio
- Grafische Oberfläche
- Modell-Browser integriert
- Chat-Interface wie ChatGPT
- Download: lmstudio.ai
Option 3: Text Generation WebUI (oobabooga)
- Für Fortgeschrittene
- Maximale Kontrolle
- Viele Einstellungsmöglichkeiten
eGPU-spezifische Tipps
CUDA unter Thunderbolt
Thunderbolt-eGPUs funktionieren problemlos für LLMs. Die Bandbreite ist weniger kritisch als beim Gaming, da:
- Modell wird einmal in VRAM geladen
- Wenig Datentransfer während Inferenz
- Latenz spielt keine Rolle
Performance-Verlust: ~5-10% vs. Desktop (kaum spürbar bei Text-Generierung)
OCuLink-Vorteil
Mit OCuLink erreichst du nahezu Desktop-Performance. Für LLMs aber kein Must-Have.
Mehrere GPUs
Ollama unterstützt Multi-GPU automatisch:
# Prüfen welche GPUs erkannt werden
nvidia-smi
# oder
rocm-smi # AMD
Empfohlene GPU-Konfigurationen
Budget: RTX 4060 Ti 16GB (~400€)
- Modelle: Bis 13B problemlos, 34B mit Offloading
- Pro: Viel VRAM fürs Geld
- Contra: Langsamer bei großen Modellen
Sweet Spot: RTX 4070 Super 12GB (~550€)
- Modelle: 7B-13B flüssig
- Pro: Schnelle Inferenz
- Contra: “Nur” 12 GB VRAM
High-End: RTX 4080 Super 16GB (~1.000€)
- Modelle: Bis 30B mit guter Geschwindigkeit
- Pro: Schnell + viel VRAM
- Contra: Braucht starkes Netzteil (650W+)
Enthusiast: 2x RTX 4070 Ti Super
- Modelle: 70B möglich
- Pro: 32 GB kombinierter VRAM
- Contra: Braucht spezielles Setup, teuer
Performance-Benchmarks
Tokens pro Sekunde (t/s) bei verschiedenen Setups:
| Modell | RTX 4060 Ti | RTX 4070 Super | RTX 4080 Super |
|---|---|---|---|
| Llama 3.2 8B | ~35 t/s | ~50 t/s | ~65 t/s |
| Mistral 7B | ~40 t/s | ~55 t/s | ~70 t/s |
| Llama 3.1 70B | CPU-Offload | CPU-Offload | ~8 t/s* |
*Mit Quantisierung
Zum Vergleich: Menschliche Lesegeschwindigkeit liegt bei ~4-5 Wörtern/Sekunde. Alles über 20 t/s fühlt sich “instant” an.
Praktische Anwendungen
1. Lokaler Coding-Assistent
ollama run codellama:13b
# oder
ollama run deepseek-coder:6.7b
Integration in VS Code mit “Continue” Extension.
2. Dokumente analysieren
Mit Retrieval Augmented Generation (RAG):
- PrivateGPT
- LocalGPT
- AnythingLLM
3. Kreatives Schreiben
ollama run llama3.2:8b
# Gut für Texte, Stories, Zusammenfassungen
Troubleshooting
”CUDA out of memory”
- Kleineres Modell wählen
- Quantisierung erhöhen (Q4 statt Q8)
- Andere Anwendungen schließen
- Context-Länge reduzieren
Modell läuft auf CPU statt GPU
# NVIDIA-Treiber prüfen
nvidia-smi
# Ollama neu starten
sudo systemctl restart ollama
Langsame Generierung
- GPU-Auslastung prüfen (sollte >90% sein)
- Thermal Throttling ausschließen
- Quantisiertes Modell verwenden
Fazit
Für lokale LLMs mit eGPU empfehle ich:
- Einsteiger: RTX 4060 Ti 16GB + Ollama + Llama 3.2 8B
- Enthusiast: RTX 4070 Super/4080 Super + beliebige 13B-Modelle
- Profi: Dual-GPU Setup oder Desktop-Build
Die eGPU-Lösung ist perfekt, wenn du:
- Einen Laptop als Hauptrechner nutzt
- Datenschutz wichtig ist
- Gelegentlich größere Modelle laufen lassen willst
Der Thunderbolt-Overhead ist bei LLMs vernachlässigbar – du bekommst praktisch Desktop-Performance.