Fine-Tuning oder RAG?

RAG ist meist erste Wahl: einfacher, guenstiger. Fine-Tuning bei sehr spezifischer Domaenensprache oder konsistenten Output-Formaten.

Was kostet ein Schweizer Partner?

Tagessatz CHF 1'400-2'400. Pilot mit Cloud+RAG CHF 15'000-40'000. Self-Hosted Vollloesung CHF 80'000-180'000.

Wann lohnt sich ein eigenes KI-Modell statt ChatGPT?

Q: Kann ich ein eigenes Modell selbst betreiben?

Theoretisch ja, in der Praxis braucht es ML-Engineering und DevOps. KMU: externer Partner fuer Einfuehrung, internes Team fuer Routine.

Q: Welche Hardware brauche ich?

Fuer 70B-Modell: 2-4 NVIDIA H100/A100 GPUs (CHF 25'000-50'000 pro GPU) oder Cloud-Instances mit Schweizer Region.

Stand: 13. Mai 2026 — Zuletzt aktualisiert: 13. Mai 2026

ChatGPT, Claude, Gemini — die grossen Cloud-LLMs sind beeindruckend leistungsfaehig. Trotzdem entscheiden sich immer mehr Schweizer KMU fuer eigene KI-Modelle. Warum? Datenschutz, Spezialisierung, Kostenkontrolle. Doch wann lohnt sich der Aufwand eines eigenen Modells wirklich — und wann ist Standard-KI die bessere Wahl?

Key Insight:

Ein eigenes KI-Modell (Fine-Tuned Open-Source-LLM auf eigener Infrastruktur) kostet typischerweise CHF 25’000-80’000 in der Einfuehrung und CHF 1’500-4’500 pro Monat im Betrieb. Standard-KI wie ChatGPT Enterprise kostet CHF 60-200 pro Nutzer und Monat. Break-even bei eigenem Modell: meist ab 30-50 aktiven Nutzern oder spezifischen Anwendungsfaellen mit sehr hohem Datenschutz.

Welche Optionen gibt es?

Es gibt nicht nur «Cloud-KI vs eigenes Modell», sondern ein Spektrum von vier Optionen. Jede hat klare Staerken und Schwaechen, je nach Anwendungsfall, Datenschutz-Anforderungen und Budget.

Option	Datenschutz	Kosten Einfuehrung	Monatliche Kosten	Anpassbarkeit
Public Cloud LLM (ChatGPT Free)	Niedrig	CHF 0	CHF 0	Gering
Enterprise Cloud LLM (ChatGPT Ent.)	Mittel-Hoch	CHF 0-5’000	CHF 60-200/User	Mittel (Custom GPTs)
Cloud LLM mit RAG (Retrieval)	Hoch	CHF 8’000-25’000	CHF 500-2’000	Hoch
Self-Hosted Open-Source LLM	Sehr hoch	CHF 25’000-80’000	CHF 1’500-4’500	Sehr hoch

Was ist Retrieval-Augmented Generation (RAG)?

RAG kombiniert ein Standard-LLM (z. B. GPT-4 oder Claude) mit Ihrer eigenen Wissensbasis. Wenn ein Nutzer eine Frage stellt, sucht das System zuerst relevante Dokumente aus Ihrer Datenbank (Vertraege, Handbuecher, FAQ) und gibt diese zusammen mit der Frage an das LLM. So bekommen Sie spezifische, kontextrelevante Antworten — ohne ein eigenes Modell trainieren zu muessen.

RAG ist oft die beste Loesung fuer KMU

Fuer 80% der Anwendungsfaelle ist RAG der ideale Mittelweg: Sie nutzen die Leistung eines Top-LLMs (GPT-4, Claude), kombinieren es aber mit Ihren eigenen Daten — ohne diese Daten dem LLM-Anbieter zu uebermitteln. Tools wie LangChain, LlamaIndex oder fertige Plattformen (PrivateGPT, Anything LLM) machen RAG-Setups in 2-4 Wochen umsetzbar.

Wann brauche ich wirklich ein eigenes Modell?

Ein eigenes Self-Hosted Open-Source-LLM (Llama 3, Mistral, Qwen) lohnt sich nur in spezifischen Faellen: bei extremen Datenschutz-Anforderungen (Banken, Healthcare, Anwaelte), bei sehr spezialisierten Domaenen (juristische Sprache, medizinische Befunde), bei sehr hoher Nutzerzahl (50+ aktive Nutzer) oder bei vollstaendiger Datenhoheit als Compliance-Anforderung.

Szenario	Empfehlung	Begruendung
Kleines KMU, allgemeine Texte	ChatGPT Enterprise	Beste Leistung, geringer Aufwand
Eigene Wissensbasis nutzen	Cloud LLM + RAG	Spezifisch, ohne Modell-Training
Bank / Versicherung / Healthcare	Self-Hosted LLM in CH/EU	Datenschutz-Pflicht
Anwaltskanzlei	Self-Hosted LLM oder RAG mit EU-Hosting	Anwaltsgeheimnis
Industrie mit IP-Schutz	Self-Hosted LLM	Schutz vor Datenlecks
Sehr spezielle Branchensprache	Fine-Tuning auf Open-Source	Verbesserte Genauigkeit

Was kostet ein eigenes LLM in der Praxis?

Die Kosten zerfallen in vier Bereiche: 1. Setup und Konzept (CHF 8’000-20’000), 2. Hardware oder Cloud-Infrastruktur (eigener Server CHF 15’000-45’000 oder Cloud CHF 800-2’500 pro Monat), 3. Fine-Tuning falls noetig (CHF 5’000-25’000), 4. Wartung und Updates (1-3 Tage pro Monat oder CHF 1’000-3’000).

Welche Open-Source-Modelle eignen sich?

Der Open-Source-Bereich hat 2025/2026 enorm aufgeholt. Llama 3.3 70B, Mistral Large, Qwen 3 und DeepSeek V3 erreichen 85-95% der Leistung von GPT-4 in vielen Anwendungen. Fuer Deutsch / Schweizer Hochdeutsch: Aleph Alpha Pharia, Llama 3.3 mit Fine-Tuning auf deutschen Daten oder Mixtral. Wichtig: Sprachqualitaet vor Auswahl pruefen.

⚠ Vorsicht bei unrealistischen Erwartungen

Ein Self-Hosted Open-Source-LLM ist nicht automatisch genauer als ChatGPT — im Gegenteil. Ohne Fine-Tuning und gute Daten kann es deutlich schlechter performen. Auch der Betriebsaufwand wird oft unterschaetzt: kontinuierliche Wartung, Modell-Updates, Performance-Monitoring. Wer kein technisches Team hat: lieber bei Cloud-LLM + RAG bleiben.

Wie laeuft eine typische Implementierung ab?

Eine professionelle Einfuehrung eines eigenen KI-Modells dauert typischerweise 3-6 Monate. Phasen: 1. Anforderungsanalyse und Use-Case-Definition (3-4 Wochen), 2. Modellauswahl und Infrastruktur-Setup (4-6 Wochen), 3. Datenaufbereitung und Fine-Tuning (6-10 Wochen), 4. Test- und Pilotphase (4-6 Wochen), 5. Produktiv-Rollout und Schulung (2-3 Wochen). Wer das in 6 Wochen verspricht, verspricht zu viel.

✓ Praxisbeispiel: Anwaltskanzlei aus Genf

Kanzlei mit 45 Anwaelten, viele sensitive Mandantendaten. Anforderung: KI-gestuetzte Dokumentenrecherche und Vertragsanalyse, aber ohne externe Cloud. Loesung: Self-Hosted Llama 3.3 70B mit Fine-Tuning auf juristischen Daten, Server in Schweizer Rechenzentrum, RAG mit eigener Vertragsdatenbank. Investition: CHF 95’000 Einfuehrung, CHF 4’200 monatlicher Betrieb. Resultate: 40% Zeitersparnis bei Standardrecherche, vollumfaengliche Datenschutzkonformitaet.

Was sind die wichtigsten Auswahlkriterien?

Sechs Kriterien helfen bei der Wahl: 1. Wie sensitiv sind Ihre Daten? 2. Wie viele Nutzer werden das System nutzen? 3. Brauchen Sie domaenenspezifische Anpassung? 4. Welches Budget steht zur Verfuegung? 5. Welche technischen Ressourcen sind intern verfuegbar? 6. Wie wichtig ist absolute Datenhoheit?

Haeufig gestellte Fragen (FAQ)

Kann ich ein eigenes Modell selbst betreiben?

Theoretisch ja, praktisch braucht es ML-Engineering-Kenntnisse und einen DevOps-Background. Fuer KMU empfehlenswert: externer Partner fuer Einfuehrung, internes Team fuer Routineaufgaben nach Schulung.

Welche Hardware brauche ich?

Fuer ein 70B-Modell mit niedriger Latenz: 2-4 GPUs vom Typ NVIDIA H100 oder A100 (Kosten: CHF 25’000-50’000 pro GPU). Alternativ: Cloud-GPU-Instances (AWS, Azure) mit Schweizer Region — flexibler, aber bei Vollnutzung teurer.

Lohnt sich Fine-Tuning oder ist RAG immer besser?

RAG ist meist die erste Wahl: einfacher, guenstiger, leichter zu aktualisieren. Fine-Tuning lohnt sich bei sehr spezifischer Domaenensprache (juristisch, medizinisch) oder wenn das Modell ein bestimmtes Ausgabe-Format konsistent liefern soll.

Was kostet ein guter Schweizer Implementierungspartner?

Tagessaetze fuer KI-Spezialisten: CHF 1’400-2’400. Ein Pilotprojekt mit Cloud + RAG: CHF 15’000-40’000. Vollwertige Self-Hosted Loesung: CHF 80’000-180’000. Wichtig: Partner mit Referenzen im KMU-Umfeld waehlen, nicht nur Konzernerfahrung.

Welches KI-Modell passt zu Ihrem KMU?

Wir analysieren Ihre Anforderungen objektiv und empfehlen die wirtschaftlichste Loesung — von ChatGPT Enterprise bis hin zu Self-Hosted LLMs. Persoenlich, ohne Hersteller-Bindung.

Kostenlose Erstberatung anfragen