Lokale KI & LLMs mit eGPU

Large Language Models lokal betreiben – ohne Cloud, ohne Abo, mit voller Kontrolle über deine Daten.

Warum lokale LLMs?

Vorteile:

Datenschutz: Nichts verlässt deinen Rechner
Keine monatlichen Kosten
Offline nutzbar
Volle Kontrolle & Anpassbarkeit

Nachteile:

Hohe Hardware-Anforderungen (VRAM!)
Kleinere Modelle als GPT-4/Claude
Ersteinrichtung nötig

VRAM ist King

Der wichtigste Faktor für lokale LLMs ist VRAM. Die Modellgröße bestimmt, was auf deine GPU passt.

VRAM-Anforderungen (quantisiert Q4)

Modellgröße	VRAM benötigt	Empfohlene GPU
7B Parameter	~4-6 GB	RTX 4060, RX 7600
13B Parameter	~8-10 GB	RTX 4070, RX 7700 XT
30-34B Parameter	~20 GB	RTX 4090, 2x 4070
70B Parameter	~40 GB	Mehrere GPUs / CPU-Offload

Faustregel: Nimm die Parameteranzahl in Milliarden, teile durch 2 = benötigter VRAM in GB (bei 4-Bit Quantisierung).

Die besten Modelle für Einsteiger

1. Llama 3.2 (3B / 8B)

Von Meta, Open Source
Beste Qualität für die Größe
8B-Version läuft auf 8 GB VRAM

2. Mistral 7B / Mixtral 8x7B

Europäisches Modell (Frankreich)
Sehr effizient
Mixtral braucht ~26 GB VRAM

3. Phi-3 (Mini/Medium)

Von Microsoft
Extrem kompakt (3.8B)
Läuft auf fast jeder GPU

4. Qwen 2.5 (7B / 14B / 32B)

Von Alibaba
Sehr gut für Code
Verschiedene Größen verfügbar

Software-Setup

Option 1: Ollama (Empfohlen)

Am einfachsten für den Einstieg.

Installation:

# macOS / Linux
curl -fsSL https://ollama.com/install.sh | sh

# Windows: Installer von ollama.com

Modell laden und starten:

ollama run llama3.2
# oder
ollama run mistral
ollama run phi3

GPU-Nutzung prüfen:

ollama ps
# Zeigt VRAM-Nutzung an

Option 2: LM Studio

Grafische Oberfläche
Modell-Browser integriert
Chat-Interface wie ChatGPT
Download: lmstudio.ai

Option 3: Text Generation WebUI (oobabooga)

Für Fortgeschrittene
Maximale Kontrolle
Viele Einstellungsmöglichkeiten

eGPU-spezifische Tipps

CUDA unter Thunderbolt

Thunderbolt-eGPUs funktionieren problemlos für LLMs. Die Bandbreite ist weniger kritisch als beim Gaming, da:

Modell wird einmal in VRAM geladen
Wenig Datentransfer während Inferenz
Latenz spielt keine Rolle

Performance-Verlust: ~5-10% vs. Desktop (kaum spürbar bei Text-Generierung)

OCuLink-Vorteil

Mit OCuLink erreichst du nahezu Desktop-Performance. Für LLMs aber kein Must-Have.

Mehrere GPUs

Ollama unterstützt Multi-GPU automatisch:

# Prüfen welche GPUs erkannt werden
nvidia-smi
# oder
rocm-smi  # AMD

Empfohlene GPU-Konfigurationen

Budget: RTX 4060 Ti 16GB (~400€)

Modelle: Bis 13B problemlos, 34B mit Offloading
Pro: Viel VRAM fürs Geld
Contra: Langsamer bei großen Modellen

Sweet Spot: RTX 4070 Super 12GB (~550€)

Modelle: 7B-13B flüssig
Pro: Schnelle Inferenz
Contra: “Nur” 12 GB VRAM

High-End: RTX 4080 Super 16GB (~1.000€)

Modelle: Bis 30B mit guter Geschwindigkeit
Pro: Schnell + viel VRAM
Contra: Braucht starkes Netzteil (650W+)

Enthusiast: 2x RTX 4070 Ti Super

Modelle: 70B möglich
Pro: 32 GB kombinierter VRAM
Contra: Braucht spezielles Setup, teuer

Performance-Benchmarks

Tokens pro Sekunde (t/s) bei verschiedenen Setups:

Modell	RTX 4060 Ti	RTX 4070 Super	RTX 4080 Super
Llama 3.2 8B	~35 t/s	~50 t/s	~65 t/s
Mistral 7B	~40 t/s	~55 t/s	~70 t/s
Llama 3.1 70B	CPU-Offload	CPU-Offload	~8 t/s*

*Mit Quantisierung

Zum Vergleich: Menschliche Lesegeschwindigkeit liegt bei ~4-5 Wörtern/Sekunde. Alles über 20 t/s fühlt sich “instant” an.

Praktische Anwendungen

1. Lokaler Coding-Assistent

ollama run codellama:13b
# oder
ollama run deepseek-coder:6.7b

Integration in VS Code mit “Continue” Extension.

2. Dokumente analysieren

Mit Retrieval Augmented Generation (RAG):

PrivateGPT
LocalGPT
AnythingLLM

3. Kreatives Schreiben

ollama run llama3.2:8b
# Gut für Texte, Stories, Zusammenfassungen

Troubleshooting

”CUDA out of memory”

Kleineres Modell wählen
Quantisierung erhöhen (Q4 statt Q8)
Andere Anwendungen schließen
Context-Länge reduzieren

Modell läuft auf CPU statt GPU

# NVIDIA-Treiber prüfen
nvidia-smi

# Ollama neu starten
sudo systemctl restart ollama

Langsame Generierung

GPU-Auslastung prüfen (sollte >90% sein)
Thermal Throttling ausschließen
Quantisiertes Modell verwenden

Fazit

Für lokale LLMs mit eGPU empfehle ich:

Einsteiger: RTX 4060 Ti 16GB + Ollama + Llama 3.2 8B
Enthusiast: RTX 4070 Super/4080 Super + beliebige 13B-Modelle
Profi: Dual-GPU Setup oder Desktop-Build

Die eGPU-Lösung ist perfekt, wenn du:

Einen Laptop als Hauptrechner nutzt
Datenschutz wichtig ist
Gelegentlich größere Modelle laufen lassen willst

Der Thunderbolt-Overhead ist bei LLMs vernachlässigbar – du bekommst praktisch Desktop-Performance.