Dein eigener Claude-Ersatz im Homelab: Kostenlose Coding-KI mit Ollama

Servus, Homelab-Enthusiasten und Admins!

Wer kennt es nicht? Man sitzt an einem Projekt, braucht mal schnell eine Code-Idee, einen Bugfix-Vorschlag oder eine Erklärung für ein komplexes API. KI-Tools wie ChatGPT oder Claude sind da Gold wert. Aber mal ehrlich, die Premium-Abos gehen ins Geld, besonders wenn man sie regelmäßig nutzt. 200 Dollar im Monat für Claude Code? Puh, das summiert sich. In meiner Erfahrung gibt es fast immer eine Open-Source-Alternative, die man im eigenen Homelab betreiben kann – und die ist oft nicht nur kostenlos, sondern bietet auch mehr Kontrolle über die eigenen Daten.

Genau darum geht es heute: Wir bauen uns unseren eigenen, kostenlosen "Claude Code"-Ersatz. Das bedeutet nicht, dass wir Anthropic's Claude direkt klonen, sondern dass wir die Funktionalität einer leistungsstarken Coding-KI bei uns zu Hause hosten. Und das Beste daran? Es ist wirklich 100% kostenlos, abgesehen von den Stromkosten für deinen Server. Wir nutzen dafür Ollama, ein geniales Tool, das den Betrieb von Large Language Models (LLMs) auf deiner Hardware zum Kinderspiel macht.

Ich hab das selbst schon unzählige Male auf meinen Proxmox-Servern, in LXCs oder sogar auf meinem alten NUC eingerichtet. Es ist erstaunlich, welche Power man heute schon aus vergleichsweise günstiger Hardware kitzeln kann. Lass uns das gemeinsam angehen!

Voraussetzungen: Was du brauchst

Bevor wir loslegen, lass uns kurz checken, ob du alles am Start hast. Keine Sorge, die Anforderungen sind für die meisten Homelab-Setups gut machbar.

Ein Linux-Server: Das kann ein dedizierter Rechner, ein alter PC, ein Raspberry Pi 4 (für kleinere Modelle) oder, wie in meinem Fall meistens, eine Proxmox LXC oder VM sein. Wichtig ist, dass es ein 64-Bit Linux-System ist (Debian, Ubuntu, Fedora, etc.). Ich persönlich nutze am liebsten schlanke Debian 12 LXCs für solche Dienste.
Genügend RAM: Das ist der wichtigste Faktor. LLMs fressen Arbeitsspeicher. Für die meisten Code-Modelle, die wirklich nützlich sind (z.B. ein 7B-Parameter-Modell), solltest du mindestens 8 GB RAM auf deinem Server freihaben. Wenn du größere Modelle (13B oder sogar 34B) ausprobieren willst, sind 16 GB oder mehr ein Muss. Wer das zum ersten Mal einrichtet, stolpert oft über zu wenig RAM – das Modell lädt dann einfach nicht oder stürzt ab.
Ausreichend Speicherplatz: Die Modelle sind keine Leichtgewichte. Ein 7B-Modell kann schnell mal 4-5 GB groß sein, ein 34B-Modell auch mal 20 GB oder mehr. Plane also mindestens 20-50 GB freien Speicherplatz ein, je nachdem, wie viele Modelle du testen möchtest. SSDs sind hier natürlich von Vorteil für die Ladezeiten.
Grundkenntnisse der Linux-Kommandozeile: Du solltest dich auf deinem Server per SSH einloggen und grundlegende Befehle ausführen können.
Optional: GPU-Beschleunigung: Wenn du eine NVIDIA-GPU in deinem Server hast (und die entsprechenden Treiber installiert sind), kann Ollama diese nutzen, um die Inferenzzeit massiv zu beschleunigen. Für den Anfang ist das aber kein Muss, CPU-Betrieb funktioniert auch, ist nur langsamer.

Mein Tipp: Fang klein an. Ein schlanker LXC mit 8 GB RAM und einem schnellen 7B-Modell ist ein hervorragender Startpunkt. Du kannst später immer noch aufrüsten oder andere Modelle ausprobieren.

Schritt-für-Schritt-Anleitung: Deine eigene Coding-KI

Jetzt wird's ernst! Wir installieren Ollama, laden ein Code-Modell herunter und lassen es für uns arbeiten.

1. Ollama auf deinem Linux-Server installieren

Ollama ist super einfach zu installieren. Sie stellen ein praktisches Skript bereit, das alles für dich erledigt. Verbinde dich per SSH mit deinem Server.

Zuerst solltest du sicherstellen, dass dein System auf dem neuesten Stand ist:

sudo apt update && sudo apt upgrade -y

Danach können wir Ollama herunterladen und installieren. Das Skript erkennt dein System und installiert die notwendigen Komponenten:

curl -fsSL https://ollama.com/install.sh | sh

Dieses Skript installiert Ollama als Systemdienst. Das hat mir viel Zeit gespart, da ich mich nicht um manuelle Service-Dateien kümmern musste. Nach der Installation läuft Ollama automatisch im Hintergrund und wartet darauf, dass du Modelle herunterlädst und damit interagierst. Du kannst den Status des Dienstes überprüfen mit:

systemctl status ollama

Du solltest eine Ausgabe sehen, die anzeigt, dass der Dienst aktiv ist und läuft (active (running)).

2. Ein geeignetes Code-Modell herunterladen

Jetzt kommt der spannende Teil: Wir holen uns ein Modell, das speziell für Coding-Aufgaben trainiert wurde. Es gibt viele großartige Open-Source-Modelle, die über Ollama verfügbar sind. Für den Anfang empfehle ich dir deepseek-coder:6.7b oder codellama:7b. Beide sind relativ klein (passen gut in 8GB RAM) und liefern erstaunlich gute Ergebnisse für Code-Generierung und -Erklärung.

Ich persönlich habe mit deepseek-coder sehr gute Erfahrungen gemacht, da es oft präzisere Code-Snippets liefert. Wir laden es direkt über den Ollama-Client herunter:

ollama run deepseek-coder:6.7b

Beim ersten Ausführen dieses Befehls lädt Ollama das Modell herunter. Das kann je nach Internetgeschwindigkeit und Modellgröße ein paar Minuten dauern. Du siehst einen Fortschrittsbalken, der anzeigt, wie weit der Download ist. Wichtig zu wissen: Ollama speichert die Modelle standardmäßig unter /usr/share/ollama/.ollama/models. Wenn du Docker nutzt, liegt es im Container-Volume.

3. Mit dem Modell interagieren: Dein persönlicher Coding-Assistent

Sobald der Download abgeschlossen ist, startet Ollama automatisch eine interaktive Sitzung mit dem Modell. Du kannst sofort loslegen und dem Modell Fragen stellen oder Coding-Aufgaben geben. Stell dir das wie einen Chat mit deiner lokalen KI vor.

Hier sind ein paar Beispiele, wie du dein neues Tool nutzen kannst:

>>> Give me a Python function to calculate the factorial of a number recursively.

Die KI wird dir daraufhin den angefragten Python-Code generieren. Oder du fragst nach einer Erklärung:

>>> Explain the concept of dependency injection in Spring Boot with a simple Java example.

Das Modell wird dir eine Erklärung und ein Code-Beispiel liefern. Du kannst auch Code-Snippets einfügen und das Modell bitten, sie zu optimieren oder Fehler zu finden. Um die interaktive Sitzung zu beenden, gib einfach /bye ein oder drücke Strg + D.

Mein Tipp: Sei präzise in deinen Prompts. Je genauer du beschreibst, was du brauchst, desto besser sind die Ergebnisse. Gib Kontext an, welche Sprache du verwendest, welche Bibliotheken, etc.

4. Ollama als API nutzen (für fortgeschrittene Integrationen)

Das Coole an Ollama ist, dass es nicht nur eine Kommandozeilen-Schnittstelle bietet, sondern auch eine REST-API. Das bedeutet, du kannst deine selbst gehostete KI in andere Anwendungen integrieren, sei es in Home Assistant, N8N, eigene Skripte oder Web-Frontends.

Standardmäßig lauscht die Ollama-API auf Port 11434. Du kannst sie einfach mit curl testen:

curl http://localhost:11434/api/generate -d '{
  "model": "deepseek-coder:6.7b",
  "prompt": "Why is the sky blue?",
  "stream": false
}'

Dieser Befehl sendet eine Anfrage an dein lokal laufendes deepseek-coder-Modell. Du solltest eine JSON-Antwort mit der generierten Antwort des Modells erhalten. Wenn du Ollama auf einem Proxmox LXC betreibst und von deinem Host oder einem anderen Client darauf zugreifen möchtest, musst du eventuell die Firewall-Regeln anpassen, um Port 11434 zu öffnen. Denk daran, localhost durch die IP-Adresse deines Ollama-Servers zu ersetzen.

Für N8N-Nutzer unter euch: Ihr könnt einfach einen HTTP Request Node verwenden, um diese API anzusprechen und so eure Workflows mit KI-Power zu erweitern. Das ist wirklich ein Game-Changer für Automatisierungen, wo ich früher auf teure Cloud-APIs angewiesen war!

Häufige Fehler und Lösungen

Manchmal läuft nicht alles auf Anhieb glatt. Hier sind ein paar typische Stolpersteine, über die ich selbst schon gestolpert bin, und wie du sie beheben kannst:

1. Fehlermeldung: "Error: not enough memory to run this model"

Problem: Das ist der Klassiker. Du hast versucht, ein Modell zu laden, für das dein Server nicht genügend RAM hat. Oft passiert das bei 13B- oder 34B-Modellen auf Systemen mit nur 8 GB RAM.
Lösung:
- Wähle ein kleineres Modell. Statt deepseek-coder:6.7b oder codellama:7b könntest du zum Beispiel tinyllama:1.1b probieren, obwohl dessen Coding-Fähigkeiten begrenzt sind. Oder du schaust, ob es kleinere, quantisierte Versionen deines Wunschmodells gibt (z.B. deepseek-coder:6.7b-q4_K_M).
- Rüste deinen Server auf. Mehr RAM ist hier die einfachste Lösung.
- Stelle sicher, dass keine anderen speicherhungrigen Anwendungen auf deinem Server laufen, die den RAM blockieren.

2. Ollama lässt sich nicht installieren / curl-Skript schlägt fehl

Problem: Das Installationsskript von Ollama funktioniert nicht oder bricht mit Fehlern ab. Das kann an fehlenden Abhängigkeiten, fehlerhaften Rechten oder Netzwerkproblemen liegen.
Lösung:
- Prüfe deine Internetverbindung. Das Skript muss Dateien herunterladen können.
- Stelle sicher, dass curl auf deinem System installiert ist: sudo apt install curl.
- Überprüfe die Fehlermeldung genau. Manchmal fehlen spezifische Pakete wie systemd oder libstdc++. Installiere diese gegebenenfalls manuell.
- Wenn du in einem strengen Netzwerk bist, prüfe, ob Proxies oder Firewalls den Download blockieren.
- Versuche eine manuelle Installation, indem du das Binary direkt von der Ollama-Website herunterlädst und ausführst, anstatt das Skript zu nutzen. Das ist aber seltener nötig.

3. Modell lädt nicht oder reagiert nicht auf Prompts

Problem: Du hast ollama run <modellname> ausgeführt, aber es passiert nichts, oder das Modell antwortet nicht.
Lösung:
- Modellname prüfen: Tippfehler sind schnell passiert. Überprüfe den exakten Namen des Modells auf der Ollama-Modellbibliothek.
- Ist Ollama aktiv? Überprüfe den Status des Ollama-Dienstes mit systemctl status ollama. Wenn er nicht läuft, versuche sudo systemctl start ollama.
- Log-Dateien prüfen: Schau in die Ollama-Logs. Diese findest du normalerweise im Journalctl: journalctl -u ollama.service. Hier siehst du oft konkrete Fehlermeldungen, die dir weiterhelfen.
- Neustart: Manchmal hilft ein einfacher Neustart des Ollama-Dienstes: sudo systemctl restart ollama.
- Ausreichend Speicherplatz? Auch wenn es nicht direkt als "not enough memory" angezeigt wird, kann fehlender Festplattenspeicher zum Downloadfehler führen.

Das hat mir schon oft den Tag gerettet, diese Checkliste abzuarbeiten, bevor ich stundenlang im Dunkeln tappe.

Fazit und nächste Schritte

Gratulation! Du hast es geschafft, deine eigene, kostenlose Coding-KI in deinem Homelab einzurichten. Du bist jetzt nicht mehr auf teure Cloud-Dienste angewiesen, hast die volle Kontrolle über deine Daten und kannst nach Herzenslust mit verschiedenen Modellen experimentieren. Das ist nicht nur kostensparend, sondern auch ein riesiger Schritt in Richtung Souveränität in deinem digitalen Reich.

Was sind die nächsten Schritte? Hier ein paar Ideen:

Experimentiere mit anderen Modellen: Die Ollama-Modellbibliothek ist riesig. Probiere verschiedene Code-Modelle aus oder wage dich an Modelle für Textgenerierung, Bildbeschreibung und vieles mehr.
Ein Web-Frontend: Um die Nutzung bequemer zu machen, könntest du ein Web-Frontend wie Ollama Web UI oder Open WebUI (ehemals Ollama Web UI) installieren. Diese bieten eine schicke Chat-Oberfläche im Browser.
Integration in N8N/Home Assistant: Wie kurz erwähnt, die Ollama-API ist perfekt, um deine KI in Automatisierungen einzubinden. Stell dir vor, Home Assistant generiert dir auf Zuruf Code-Snippets oder N8N fasst E-Mails zusammen.
GPU-Beschleunigung: Wenn du eine passende GPU hast, nimm dir die Zeit, die Treiber korrekt zu installieren und Ollama für die GPU-Nutzung zu konfigurieren. Der Performance-Boost ist enorm!

Das war's von meiner Seite zu diesem spannenden Thema. Ich hoffe, dieser Guide hilft dir, dein Homelab auf das nächste Level zu heben und die Macht der KI kostenlos zu nutzen. Viel Spaß beim Experimentieren und Codieren!