Holger's KI-Insights Newsletter
Posts
Der Anfänger Guide durch den lokalen KI-Dschungel

Der Anfänger Guide durch den lokalen KI-Dschungel

Lokale KI Modelle nutzen, ohne Kosten und Datenaustausch

Holger Gelhausen
20. November 2025

Wer KI lokal laufen lassen will, sieht ganz viele Fachbegriffe die kryptisch sind, die man aber verstehen sollte, um das passende lokale KI Modell auszusuchen. Deshalb der Beitrag, Licht ins Dunkel zu bekommen.

Ich hatte gestern die Aufgabe 4000 Records ins Seatable zu klassifizieren. Ich wollte nicht die Cloud Provider nutzen. Deshalb lokale KI. Ich musste ein paar Abkürzungen selber nochmal nachlesen. Ich habe von den Modellen im Post eine Auswahl genommen, es gibt im Moment tausende LLMs mit den spezifischen Tunings.

Link zu dem LinkedIn Post von mir.

Übersicht in LLM Studio, wenn man dann ins Detail geht zu einem Modell findet man viele Optionen

🎯 Teil 1: Die Grundprinzipien verstehen

Was ist überhaupt ein LLM - das wissen jetzt alle?

LLM = Large Language Model = Großes Sprach-Modell

In einfachen Worten: Eine künstliche Intelligenz, die Sprache versteht und generieren kann. Wie ChatGPT, Claude oder Gemini – aber auf Ihrem eigenen Computer.

Beispiele (Die neuesten Modelle):

Llama 3.1 & 3.2 (von Meta/Facebook)
Qwen 2.5 (von Alibaba – aktuell der Preis-Leistungs-Sieger)
Gemma 2 (von Google – sehr menschlicher Schreibstil)
Mistral NeMo (von Mistral AI & NVIDIA)
Phi-3.5 (von Microsoft – für schwächere Hardware)

Das zentrale Problem: Modelle sind RIESIG

Hier ist das Kernproblem, um das sich alles dreht:

Ein "normales" LLM ist gigantisch:

Llama 3.1 - 8 Milliarden Parameter (8B) → Original-Größe: 16 GB → Braucht mindestens 20 GB Grafikkarten-Speicher (VRAM)

Llama 3.1 - 70 Milliarden Parameter (70B) → Original-Größe: 140 GB → Braucht mindestens 160 GB VRAM

Das Problem:

Eine RTX 4090 (Top-GPU) hat nur 24 GB VRAM
Ein Mac M2 Ultra in maximaler Stufe hat zwar 192 GB RAM, aber andere Einschränkungen
Die meisten Consumer-GPUs haben 8-16 GB

Die Lösung: KOMPRESSION (Fachbegriff: "Quantisierung")

Quantisierung: Bücher kleiner machen

Stellen Sie sich vor, Sie haben ein Lexikon mit 10.000 Seiten. Das passt nicht in Ihren Rucksack. Was tun?

Option 1: Original behalten (16-Bit / FP16)

📚 Hardcover-Lexikon, 10.000 Seiten → Perfekte Qualität → Passt nicht in den Rucksack → Sehr schwer

Option 2: Taschenbuch-Ausgabe (8-Bit)

📕 Taschenbuch, kleinerer Druck, dünneres Papier → 5.000 Seiten (halbe Größe!) → Qualität: 95% vom Original → Passt in den Rucksack

Option 3: Zusammenfassung (4-Bit) ⭐

📗 Nur die wichtigsten Infos → 2.500 Seiten (viertel Größe!) → Qualität: 80-85% vom Original → Passt easy in den Rucksack → SWEET SPOT!

Option 4: Notizen (2-Bit)

📘 Nur Stichpunkte → 1.250 Seiten → Qualität: 50-60% → ⚠️ Zu viel weggelassen!

Bei KI-Modellen funktioniert es genauso!

16-Bit (Original): 16 GB → Perfekt, aber riesig
8-Bit: 8 GB → Sehr gut
4-Bit: 4 GB → ⭐ Sweet Spot! (80-85% Qualität)
2-Bit: 2 GB → ⚠️ Zu ungenau

Warum ist 4-Bit so beliebt?

Die Goldilocks-Zone: Nicht zu groß, nicht zu klein – genau richtig!

Was Sie gewinnen	Was Sie verlieren
✅ 4x weniger Speicher	❌ ~15% Qualität
✅ 2-3x schneller	(Kaum merkbar bei den meisten Aufgaben!)
✅ Passt in Consumer-GPUs
✅ Viel günstiger

Beispiel:Llama 3.1 8B (Original 16-Bit): → 16 GB Datei → Braucht RTX 4090 (24 GB VRAM) → Kosten: ~1.800€

Llama 3.1 8B (4-Bit komprimiert): → 4 GB Datei → Läuft auf RTX 4060 Ti (16 GB VRAM) → Kosten: ~500€ → 80% der Qualität, 30% des Preises!

📦 Teil 2: Die verschiedenen Formate verstehen

Jetzt wird's interessant! Es gibt verschiedene Methoden, um ein Modell auf 4-Bit zu komprimieren. Jede hat Vor- und Nachteile.

Think of it wie Video-Formate:

MP4 (universal, funktioniert überall)
MKV (bessere Qualität, braucht spezielle Player)
AVI (alt, aber funktioniert noch)

Bei LLMs gibt es:

GGUF (universal)
GPTQ (NVIDIA-optimiert)
EXL2 (NVIDIA-optimiert, noch besser)
AWQ (NVIDIA-optimiert, beste Qualität)

Lassen Sie mich jede erklären:

🌍 GGUF: Der Universalist

Ausgeschrieben: GPT-Generated Unified Format

Die Metapher: Das MP3 der LLM-Welt

Funktioniert überall
Nicht die beste Qualität, aber solide
Einfach zu nutzen

Eigenschaften: ✅ Funktioniert auf ALLEN Systemen:

Windows (CPU + NVIDIA/AMD GPU)
Mac (CPU + Metal GPU)
Linux (CPU + NVIDIA/AMD GPU)

✅ Ein Programm: llama.cpp / LM Studio / Ollama

Sehr populär
Große Community
Viele Tools

❌ Nicht die schnellste Option auf NVIDIA ❌ Nicht die beste Qualität bei 4-Bit

Wann GGUF nutzen?

Sie haben einen Mac
Sie haben eine AMD-Grafikkarte
Sie wollen einfach nur testen
Sie wollen maximale Kompatibilität

Erkennbar an: Dateiendung: .gguf Beispiel: Llama-3.1-8B-Q4_K_M.gguf

GGUF-Varianten entschlüsselt:

Q4_K_M

M = Medium (Qualitätsstufe)
K = K-Quants (verbesserte Methode)
Q4 = 4-Bit Kompression

Empfehlung: Für die meisten Zwecke ist Q4_K_M oder Q5_K_M perfekt!

🚀 GPTQ: Der NVIDIA-Spezialist

Ausgeschrieben: GPT Quantization

Die Metapher: Ein Turbo-Lader speziell für NVIDIA-Autos

Nur mit NVIDIA-Motoren kompatibel
Aber dann: 30-60% schneller!

Eigenschaften: ✅ SEHR schnell auf NVIDIA GPUs (RTX Serie) ✅ Nutzt spezielle Hardware (INT4 Tensor Cores) ✅ 30-60% schneller als GGUF

❌ NUR NVIDIA (CUDA) ❌ Funktioniert NICHT auf Mac ❌ Funktioniert NICHT auf AMD

Wie funktioniert GPTQ? (vereinfacht)

GGUF komprimiert jede Zahl einzeln: 3.14159 → 32.71828 → 3

GPTQ ist intelligenter – gruppiert ähnliche Zahlen: Gruppe 1: [3.14159, 2.71828] → [3.1, 2.7] ← genauer!

= Bessere Qualität bei gleicher Größe

Wann GPTQ nutzen?

Sie haben eine NVIDIA RTX GPU
Sie wollen maximale Geschwindigkeit
Sie brauchen keine Mac-Kompatibilität

Erkennbar an: Im Namen: "GPTQ" oder "4bit-128g" Dateiformat: .safetensors

⚡ EXL2: Der Intelligente

Ausgeschrieben: ExLlama2 Format

Die Metapher: Ein Smart-Packer der weiß, was wichtig ist

Wichtige Sachen: hohe Qualität (mehr Bits)
Unwichtige Sachen: niedrige Qualität (weniger Bits)
Im Durchschnitt: z.B. 4.0 Bits

Eigenschaften: ✅ Intelligenteste Kompression ✅ Variable Bits-per-Weight (bpw) ✅ Oft SCHNELLER als GPTQ ✅ BESSERE Qualität als GPTQ

❌ NUR mit exLlama2-Software ❌ NUR NVIDIA GPUs

Wie funktioniert EXL2?

Stellen Sie sich ein Orchester vor:

GPTQ: Alle Instrumente gleich aufnehmen

Violine: 4-Bit
Trommel: 4-Bit
Flöte: 4-Bit
Durchschnitt: 4-Bit

EXL2: Wichtige Instrumente besser aufnehmen!

Violine: 6-Bit ← Hauptinstrument, wichtig!
Trommel: 2-Bit ← Laut, braucht weniger Details
Flöte: 5-Bit ← Mittelwichtig
Durchschnitt: 4.3 Bits per Weight (bpw)

= Besserer Sound bei gleicher Dateigröße!

Bei LLMs:

Attention-Layer: 6-Bit ← Sehr wichtig für Verständnis!
Feed-Forward: 3-Bit ← Weniger kritisch
Durchschnitt: 4.0 bpw

Was bedeutet "bpw"? bpw = bits per weight = Bits pro Gewicht

2.5 bpw = Sehr komprimiert (niedrige Qualität)
4.0 bpw = ⭐ Sweet Spot! (gute Balance)
6.0 bpw = Hohe Qualität (fast wie Original)

Wann EXL2 nutzen?

Sie haben NVIDIA RTX GPU
Sie wollen MAXIMALE Performance
Sie sind bereit, exLlama2 zu installieren

💎 AWQ: Der Qualitäts-Champion

Ausgeschrieben: Activation-aware Weight Quantization

Die Metapher: Ein Psychologe für Ihr Modell

Beobachtet: Welche Neuronen sind am aktivsten?
Entscheidung: Aktive Neuronen weniger komprimieren!
Resultat: Beste Qualität bei 4-Bit

Eigenschaften: ✅ BESTE Qualität bei 4-Bit (5-10% besser als GPTQ) ✅ Funktioniert mit vLLM (Production-System) ✅ Ähnliche Geschwindigkeit wie GPTQ ✅ Wissenschaftlich fundiert

❌ NUR NVIDIA GPUs ❌ Weniger verbreitet als GPTQ

Wie funktioniert AWQ?

Training mit Test-Daten: Modell bekommt 1000 Beispiel-Texte. System beobachtet: Welche Neuronen feuern oft?
Wichtigkeit messen: Neuron A (95% aktiv) ist WICHTIG. Neuron C (5% aktiv) ist unwichtig.
Intelligente Kompression: Neuron A bekommt 6-Bit, Neuron C nur 2-Bit.

Das Ergebnis:

Gleiche Dateigröße wie GPTQ
Aber 5-10% bessere Qualität!
Besonders gut bei: Reasoning, Math, Code

📊 Format-Vergleich auf einen Blick

Die 4 Formate im direkten Vergleich:

Format	Geschwindigkeit	Qualität	Kompatibilität	Für wen?
GGUF	⭐⭐⭐ Mittel	⭐⭐⭐⭐ Gut	⭐⭐⭐⭐⭐ Überall	Mac, AMD, Anfänger
GPTQ	⭐⭐⭐⭐⭐ Sehr schnell	⭐⭐⭐ OK	⭐⭐ Nur NVIDIA	NVIDIA-User, Speed
EXL2	⭐⭐⭐⭐⭐ Sehr schnell	⭐⭐⭐⭐ Gut	⭐⭐ Nur NVIDIA	Max. Performance
AWQ	⭐⭐⭐⭐ Schnell	⭐⭐⭐⭐⭐ Sehr gut	⭐⭐ Nur NVIDIA	Production, Qualität

Konkrete Zahlen: Llama 3.1 8B auf RTX 4090

Format	VRAM	Geschwindigkeit	Qualität	Empfehlung
Original (16-Bit)	16 GB	131 tok/s	100%	Nur für Forschung
GGUF Q4_K_M	5 GB	100 tok/s	85%	✅ Mac/AMD
GPTQ 4-bit	5 GB	185 tok/s	80%	✅ Speed
EXL2 4.0 bpw	5 GB	211 tok/s	85%	⭐ Best Choice!
AWQ 4-bit	5 GB	150 tok/s	90%	✅ Production

Fazit: Auf NVIDIA GPUs ist EXL2 der Gewinner für Geschwindigkeit, AWQ für Qualität!

Wie kann ich ein lokales Modell installieren? Hier eine schöne Übersicht

🎯 Teil 3: Die 5 Use Cases (Update 2025)

Jetzt wird's praktisch! Hier sind 5 konkrete Anwendungsfälle – und was Sie jeweils brauchen. (Aktualisiert mit den besten Modellen Stand Ende 2024).

USE CASE 1: Persönlicher Coding-Assistent

Was wollen Sie erreichen?

Code-Vorschläge in Ihrer IDE
Bugs finden und erklären
Code in verschiedenen Sprachen generieren
Alles offline und privat

Warum brauchen Sie das?

Keine monatlichen $20-200 für GitHub Copilot/Cursor
Ihr Code verlässt nie Ihren Rechner
Keine Rate-Limits

Was brauchen Sie?

Hardware:
- Minimum: RTX 4060 Ti (16 GB)
- Optimal: RTX 4090 (24 GB)
- Mac: M2 Pro/Max mit 32+ GB RAM
Modell (Update): ⭐ Qwen 2.5 Coder 14B
- Spezialisiert auf Code (92+ Sprachen)
- Schlägt in Tests oft sogar GPT-4o
- Alternative für schwache PCs: Qwen 2.5 Coder 7B
Format:
- NVIDIA: AWQ 4-bit (beste Qualität für Code)
- Mac: GGUF Q4_K_M

Was bekommen Sie?

Geschwindigkeit: 83 tok/s (RTX 4090)
Qualität: 95% von GitHub Copilot
Kosten: 0€/Monat

USE CASE 2: Automatische Daten-Extraktion

Was wollen Sie erreichen?

Hunderte PDFs/Rechnungen verarbeiten
Strukturierte Daten extrahieren
Direkt in Excel/Datenbank importieren
Kein manuelles Abtippen mehr!

Was brauchen Sie?

Hardware:
- Minimum: RTX 3060 (12 GB)
- Mac: M1/M2 mit 16+ GB
Modell (Update): ⭐ Llama 3.1 8B Instruct (oder Qwen 2.5 7B)
- Unterstützt "Native Structured Output"
- Geheimtipp: Phi-3.5 Mini (extrem schnell für Massenverarbeitung auf Laptops)
Format:
- NVIDIA: EXL2 4.0 bpw (maximale Speed!)
- Mac: GGUF Q4_K_M

Beispiel-Output: Input: PDF-Rechnung (unstrukturiert) Output:

{"invoice_nr": "2024-0815", "total": 428.40}

USE CASE 3: Smart Home / API-Automatisierung

Was wollen Sie erreichen?

Sprachbefehle verstehen ("Mach das Licht an")
API-Calls generieren (Philips Hue, Home Assistant)
Komplexe Automation
Alles lokal, keine Cloud!

Was brauchen Sie?

Hardware:
- Minimum: RTX 3070 (8 GB)
Modell (Update): ⭐ Hermes 3 (Llama-3.1 8B)
- Spezialist für "Agentic Behavior"
- Versteht komplexe API-Strukturen und Function Calling besser als das Standard-Modell
Format:
- NVIDIA: GPTQ 4-bit
- Mac: GGUF Q4_K_M

Beispiel: Sie sagen: "Dimm das Wohnzimmerlicht auf 30%" Modell denkt:

{"function": "set_light", "room": "wohnzimmer", "brightness": 30}

System führt aus → Licht dimmt sich!

USE CASE 4: Content & Kreatives Schreiben

Was wollen Sie erreichen?

Blog-Artikel generieren
Produkt-Beschreibungen erstellen
SEO-optimierte Texte
Natürlich klingende E-Mails

Was brauchen Sie?

Hardware:
- Minimum: RTX 3060 (12 GB)
- Mac: M1/M2 mit 16 GB
Modell (Wichtiges Update): ⭐ Gemma 2 9B Instruct (von Google)
- Llama klingt oft roboterhaft ("delve", "tapestry").
- Gemma 2 schreibt deutlich menschlicher, kreativer und lebendiger.
- Perfekte Größe für Heim-PCs (9B).
Format:
- NVIDIA: AWQ 4-bit (beste Qualität)
- Mac: GGUF Q5_K_M (etwas bessere Qualität)

Was bekommen Sie? Qualität: 90% von einem professionellen Texter, aber in Sekunden.

USE CASE 5: Intelligenter Chatbot / Support

Was wollen Sie erreichen?

Kunden-Support automatisieren
Fragen zu Bestellungen beantworten
24/7 verfügbar, 100% privat

Was brauchen Sie?

Hardware:
- Minimum: RTX 3060 (12 GB)
- Optimal: RTX 4070 (12 GB)
Modell (Sweet Spot): ⭐ Mistral NeMo 12B
- Füllt die Lücke zwischen 8B (zu dumm) und 70B (zu teuer).
- Passt perfekt in 12 GB VRAM.
- Deutlich intelligenteres Kontext-Verständnis.
Format:
- NVIDIA: EXL2 4.0 bpw
- Mac: GGUF Q4_K_M

Beispiel-Dialog: Kunde: "Wo ist meine Bestellung #12345?" Bot: [Analysiert → Erkennt: order_status_query] → [Fragt Datenbank ab] → "Ihre Bestellung kommt morgen!"

🎓 Teil 4: Entscheidungshilfen

Welche Hardware brauche ich?

Sie haben einen Gaming-PC mit NVIDIA-Grafikkarte:

RTX 4090 (24 GB):
- ✅ Alle Modelle bis 14B problemlos
- ✅ Qwen 2.5 32B (4-bit) möglich!
- ✅ Llama 3.1 70B (stark komprimiert mit EXL2)
- → Format: EXL2 oder AWQ
RTX 4080 / 4070 Ti (16 GB):
- ✅ Qwen 2.5 Coder 14B perfekt
- ✅ Mistral NeMo 12B
- ⚠️ 30B+ Modelle schwierig
- → Format: EXL2 oder GPTQ
RTX 3060 / 4070 (12 GB):
- ✅ Mistral NeMo 12B (der perfekte Match!)
- ✅ Alle 7-9B Modelle (Gemma 2, Llama 3.1)
- → Format: GGUF Q4_K_M oder EXL2

Sie haben einen Mac:

Mac M3/M2 Ultra (64-192 GB):
- ✅ Auch 70B Modelle möglich!
- → Format: GGUF Q4_K_M
Mac M3/M2 Max (32-96 GB):
- ✅ Bis 30B Modelle (z.B. Qwen 2.5 32B)
- → Format: GGUF Q4_K_M
Mac M3/M2 Pro (16-32 GB):
- ✅ 7-14B Modelle (Qwen 14B, Mistral NeMo 12B)
- → Format: GGUF Q4_K_M
Mac M1 (8-16 GB):
- ✅ Nur 7-9B Modelle (Gemma 2, Llama 3.1, Phi-3.5)
- → Format: GGUF Q4_K_M

Sie haben nur CPU (keine GPU):

⚠️ Sehr langsam, aber möglich:

Moderne CPU:
- ✅ Phi-3.5 Mini (3.8B) läuft sehr gut!
- → Format: GGUF Q4_K_M

Welches Format für mich?

Schnelle Entscheidung:

ICH HABE...	ICH NUTZE...
NVIDIA RTX 4090	EXL2 4.0 bpw ⭐
NVIDIA RTX 4070-4080	GPTQ oder EXL2
NVIDIA RTX 3060-3090	GPTQ 4-bit
Mac (beliebig)	GGUF Q4_K_M
AMD GPU	GGUF Q4_K_M
Nur CPU	GGUF Q4_K_M
Production/Multi-User	AWQ 4-bit + vLLM

Welches Modell für welchen Zweck? (2025 Edition)

Für Code-Generierung:

Qwen 2.5 Coder 14B ⭐⭐⭐⭐⭐ (Der neue Standard)
DeepSeek Coder V2 16B ⭐⭐⭐⭐
Qwen 2.5 Coder 7B ⭐⭐⭐⭐ (Für Laptops)

Für JSON / Strukturierte Daten:

Llama 3.1 8B Instruct ⭐⭐⭐⭐⭐ (Native JSON Support)
Qwen 2.5 7B ⭐⭐⭐⭐⭐
Phi-3.5 Mini ⭐⭐⭐⭐ (Bei riesigen Datenmengen)

Für deutsche Texte & Kreatives:

Gemma 2 9B ⭐⭐⭐⭐⭐ (Sehr menschlich)
Llama 3.1 8B ⭐⭐⭐⭐
Mistral NeMo 12B ⭐⭐⭐⭐

Für Allround-Nutzung:

Llama 3.1 8B ⭐⭐⭐⭐⭐ (Große Community)
Mistral NeMo 12B ⭐⭐⭐⭐⭐ (Beste Intelligenz/Größe)
Qwen 2.5 7B ⭐⭐⭐⭐⭐ (Sehr vielseitig)

📚 Teil 5: Das komplette Glossar

Basis-Begriffe

LLM = Large Language Model Große künstliche Intelligenz die Sprache versteht. Beispiele: ChatGPT, Claude, Llama, Qwen.
Parameter Die "Größe" eines Modells in Milliarden Zahlen. 8B = 8 Milliarden, 70B = 70 Milliarden. Mehr Parameter = intelligenter, aber größer.
Token Ein "Wort-Stück" - wie das Modell Text verarbeitet. ~1,3 Tokens pro deutsches Wort. "Hallo Welt" = ~2-3 Tokens.
tok/s = Tokens per Second Geschwindigkeit: Wie viele Wort-Stücke pro Sekunde. 100 tok/s ≈ 75 Wörter/Sekunde.
Inference Wenn das Modell eine Antwort generiert. NICHT das Training!
Context Window Wie viel Text das Modell "im Gedächtnis" behält. 128K = Ein ganzes Buch.

Hardware-Begriffe

GPU = Graphics Processing Unit Grafikkarte - viel schneller als CPU für KI. Beispiele: NVIDIA RTX 4090, AMD Radeon.
CPU = Central Processing Unit Der "normale" Prozessor. Kann LLMs nutzen, aber 10-100x langsamer.
VRAM = Video RAM Speicher AUF der Grafikkarte. Das wichtigste Limit! Das Modell muss ins VRAM passen.
CUDA NVIDIAs Programmiersprache für GPUs. Meiste LLM-Software braucht CUDA (Nur NVIDIA!).
Metal Apples GPU-Programmiersprache (Für Mac M-Chips).

Quantisierung

Quantisierung / Quantization Kompression: Modelle kleiner machen. Weniger Speicher, schneller, minimaler Qualitätsverlust.
FP16 Original-Genauigkeit (16 GB für ein 8B-Modell).
4-bit / INT4 Stark komprimiert (4 GB für ein 8B-Modell). Sweet Spot!
bpw = bits per weight Durchschnittliche Bits pro Zahl. Bei EXL2: 4.0 bpw = gute Balance.

Formate

GGUF Universal-Format (Mac, Windows, Linux).
GPTQ NVIDIA-optimierte Kompression.
EXL2 Intelligente variable Kompression. Schnellste Option für NVIDIA.
AWQ Beste Qualität bei 4-Bit.

Software

llama.cpp Sehr beliebtes LLM-Programm. Funktioniert überall. Nutzt GGUF.
LM Studio Benutzerfreundliche Oberfläche (wie ChatGPT) für den PC.
vLLM Production-System für LLMs. Multi-User, sehr schnell.
Ollama Sehr einfaches Tool. "Docker für LLMs". Nutzt GGUF.

JSON & APIs

JSON Standard für strukturierte Daten ({"name": "Max"}).
Function Calling Modell kann "Funktionen" aufrufen (z.B. Wetter-API, Datenbank).
Structured Output Antwort folgt festem Schema. Garantiert gültiges Format.

✅ Zusammenfassung: Die wichtigsten Erkenntnisse

Das Kern-Prinzip: Große Modelle (140 GB) → Kompression → Kleine Modelle (4 GB) 4-Bit = Sweet Spot! (80-85% Qualität bei 25% Größe)
Die vier Formate:
- GGUF: Universal, funktioniert überall
- GPTQ: NVIDIA-schnell, 30-60% faster
- EXL2: NVIDIA-schnellste, intelligente Kompression
- AWQ: Beste Qualität, für Production
Die Top-Modelle heute (2025):
- Coding: Qwen 2.5 Coder 14B
- Daten: Llama 3.1 8B / Qwen 2.5
- Content: Gemma 2 9B
- Chatbot: Mistral NeMo 12B
- Laptop: Phi-3.5 Mini

🎯 Ihr nächster Schritt

Sie haben jetzt das komplette Wissen! Aber wo anfangen?

Meine Empfehlung für absolute Anfänger:

Schritt 1: Hardware prüfen

Habe ich eine NVIDIA GPU mit 12+ GB? → EXL2 oder GPTQ
Habe ich einen Mac mit M-Chip? → GGUF
Habe ich nur eine CPU? → GGUF (langsam)

Schritt 2: Einfaches Tool installieren → Ollama (am einfachsten!) oder → LM Studio (GUI, sehr anfängerfreundlich)

Schritt 3: Erstes Modell testen Empfehlung: Gemma 2 9B (für kreative) oder Llama 3.1 8B (für sachliche Aufgaben). Version: Q4_K_M.

🙏 Schlusswort

Der LLM-Dschungel ist nicht mehr so dicht, oder? 🌴 Dennoch kann man auch bei diesen Inhalten in die Tiefe gehen.

Was Sie jetzt wissen:

✅ Warum Modelle komprimiert werden müssen
✅ Was 4-Bit bedeutet (und warum es der Sweet Spot ist)
✅ Die 4 Haupt-Formate (GGUF, GPTQ, EXL2, AWQ)
✅ Welches Format für welche Hardware
✅ Die besten Modelle für 5 konkrete Use Cases
✅ Alle Fachbegriffe in einfachen Worten

Viel Erfolg bei Ihrer LLM-Reise!