Lokale KI & LLMs mit eGPU

Large Language Models lokal betreiben – ohne Cloud, ohne Abo, mit voller Kontrolle über deine Daten.

Warum lokale LLMs?

Vorteile:

  • Datenschutz: Nichts verlässt deinen Rechner
  • Keine monatlichen Kosten
  • Offline nutzbar
  • Volle Kontrolle & Anpassbarkeit

Nachteile:

  • Hohe Hardware-Anforderungen (VRAM!)
  • Kleinere Modelle als GPT-4/Claude
  • Ersteinrichtung nötig

VRAM ist King

Der wichtigste Faktor für lokale LLMs ist VRAM. Die Modellgröße bestimmt, was auf deine GPU passt.

VRAM-Anforderungen (quantisiert Q4)

ModellgrößeVRAM benötigtEmpfohlene GPU
7B Parameter~4-6 GBRTX 4060, RX 7600
13B Parameter~8-10 GBRTX 4070, RX 7700 XT
30-34B Parameter~20 GBRTX 4090, 2x 4070
70B Parameter~40 GBMehrere GPUs / CPU-Offload

Faustregel: Nimm die Parameteranzahl in Milliarden, teile durch 2 = benötigter VRAM in GB (bei 4-Bit Quantisierung).


Die besten Modelle für Einsteiger

1. Llama 3.2 (3B / 8B)

  • Von Meta, Open Source
  • Beste Qualität für die Größe
  • 8B-Version läuft auf 8 GB VRAM

2. Mistral 7B / Mixtral 8x7B

  • Europäisches Modell (Frankreich)
  • Sehr effizient
  • Mixtral braucht ~26 GB VRAM

3. Phi-3 (Mini/Medium)

  • Von Microsoft
  • Extrem kompakt (3.8B)
  • Läuft auf fast jeder GPU

4. Qwen 2.5 (7B / 14B / 32B)

  • Von Alibaba
  • Sehr gut für Code
  • Verschiedene Größen verfügbar

Software-Setup

Option 1: Ollama (Empfohlen)

Am einfachsten für den Einstieg.

Installation:

# macOS / Linux
curl -fsSL https://ollama.com/install.sh | sh

# Windows: Installer von ollama.com

Modell laden und starten:

ollama run llama3.2
# oder
ollama run mistral
ollama run phi3

GPU-Nutzung prüfen:

ollama ps
# Zeigt VRAM-Nutzung an

Option 2: LM Studio

  • Grafische Oberfläche
  • Modell-Browser integriert
  • Chat-Interface wie ChatGPT
  • Download: lmstudio.ai

Option 3: Text Generation WebUI (oobabooga)

  • Für Fortgeschrittene
  • Maximale Kontrolle
  • Viele Einstellungsmöglichkeiten

eGPU-spezifische Tipps

CUDA unter Thunderbolt

Thunderbolt-eGPUs funktionieren problemlos für LLMs. Die Bandbreite ist weniger kritisch als beim Gaming, da:

  • Modell wird einmal in VRAM geladen
  • Wenig Datentransfer während Inferenz
  • Latenz spielt keine Rolle

Performance-Verlust: ~5-10% vs. Desktop (kaum spürbar bei Text-Generierung)

Mit OCuLink erreichst du nahezu Desktop-Performance. Für LLMs aber kein Must-Have.

Mehrere GPUs

Ollama unterstützt Multi-GPU automatisch:

# Prüfen welche GPUs erkannt werden
nvidia-smi
# oder
rocm-smi  # AMD

Empfohlene GPU-Konfigurationen

Budget: RTX 4060 Ti 16GB (~400€)

  • Modelle: Bis 13B problemlos, 34B mit Offloading
  • Pro: Viel VRAM fürs Geld
  • Contra: Langsamer bei großen Modellen

Sweet Spot: RTX 4070 Super 12GB (~550€)

  • Modelle: 7B-13B flüssig
  • Pro: Schnelle Inferenz
  • Contra: “Nur” 12 GB VRAM

High-End: RTX 4080 Super 16GB (~1.000€)

  • Modelle: Bis 30B mit guter Geschwindigkeit
  • Pro: Schnell + viel VRAM
  • Contra: Braucht starkes Netzteil (650W+)

Enthusiast: 2x RTX 4070 Ti Super

  • Modelle: 70B möglich
  • Pro: 32 GB kombinierter VRAM
  • Contra: Braucht spezielles Setup, teuer

Performance-Benchmarks

Tokens pro Sekunde (t/s) bei verschiedenen Setups:

ModellRTX 4060 TiRTX 4070 SuperRTX 4080 Super
Llama 3.2 8B~35 t/s~50 t/s~65 t/s
Mistral 7B~40 t/s~55 t/s~70 t/s
Llama 3.1 70BCPU-OffloadCPU-Offload~8 t/s*

*Mit Quantisierung

Zum Vergleich: Menschliche Lesegeschwindigkeit liegt bei ~4-5 Wörtern/Sekunde. Alles über 20 t/s fühlt sich “instant” an.


Praktische Anwendungen

1. Lokaler Coding-Assistent

ollama run codellama:13b
# oder
ollama run deepseek-coder:6.7b

Integration in VS Code mit “Continue” Extension.

2. Dokumente analysieren

Mit Retrieval Augmented Generation (RAG):

  • PrivateGPT
  • LocalGPT
  • AnythingLLM

3. Kreatives Schreiben

ollama run llama3.2:8b
# Gut für Texte, Stories, Zusammenfassungen

Troubleshooting

”CUDA out of memory”

  • Kleineres Modell wählen
  • Quantisierung erhöhen (Q4 statt Q8)
  • Andere Anwendungen schließen
  • Context-Länge reduzieren

Modell läuft auf CPU statt GPU

# NVIDIA-Treiber prüfen
nvidia-smi

# Ollama neu starten
sudo systemctl restart ollama

Langsame Generierung

  • GPU-Auslastung prüfen (sollte >90% sein)
  • Thermal Throttling ausschließen
  • Quantisiertes Modell verwenden

Fazit

Für lokale LLMs mit eGPU empfehle ich:

  • Einsteiger: RTX 4060 Ti 16GB + Ollama + Llama 3.2 8B
  • Enthusiast: RTX 4070 Super/4080 Super + beliebige 13B-Modelle
  • Profi: Dual-GPU Setup oder Desktop-Build

Die eGPU-Lösung ist perfekt, wenn du:

  • Einen Laptop als Hauptrechner nutzt
  • Datenschutz wichtig ist
  • Gelegentlich größere Modelle laufen lassen willst

Der Thunderbolt-Overhead ist bei LLMs vernachlässigbar – du bekommst praktisch Desktop-Performance.