KI-Architektur: der Schlüssel zu einem skalierbaren und leistungsfähigen Projekt

Was ist eine KI-Architektur?

Unter KI-Architektur versteht man die Summe aller technischen Weichenstellungen eines Projekts mit künstlicher Intelligenz: gewähltes Modell, Zugriffsweg (API, lokaler Betrieb, Fine-Tuning), Umgang mit den Daten, Zusammenspiel der Komponenten. Wie tragfähig diese Architektur entworfen ist, entscheidet über Leistung, Kosten und Skalierbarkeit des gesamten Vorhabens.

Für Schweizer KMU sind diese Weichenstellungen heikel. Ein technischer Fehlstart kann Monate Verzögerung und Zehntausende Franken kosten. Dieser Leitfaden zeigt bewährte Architekturmuster, Auswahlkriterien und typische Fallstricke.

Die drei grundlegenden Architekturmuster

Muster 1: API Wrapper

Das schlankste Muster: ein LLM über die API (GPT-4o, Claude, Gemini) ansprechen und die Geschäftslogik drumherum bauen. Keine eigene Infrastruktur, keine GPU. Die Kosten richten sich nach der Nutzung (pay-per-token).

Geeignet für: schnelles Prototyping, überschaubare Volumen (unter 10'000 Anfragen pro Tag), generische Einsatzfälle (Zusammenfassung, Klassifikation, Content-Generierung).

Typische Architektur: Die Anwendung ruft die API des Anbieters auf, schickt einen mit Geschäftskontext angereicherten Prompt mit, empfängt die Antwort und verarbeitet sie weiter. Ein klug gesetzter Cache (Redis, Upstash) drückt die Kosten, indem er redundante Aufrufe abfängt.

Hauptvorteil: Time-to-Market in wenigen Tagen. Ein KMU bringt innert einer Woche einen lauffähigen Prototyp auf die Beine.

Grenze: Abhängigkeit von einem einzigen Anbieter. Planen Sie von Beginn weg eine Abstraktionsschicht (Provider Pattern) ein, um das Modell ohne Umschreiben des Codes wechseln zu können.

Muster 2: RAG (Retrieval-Augmented Generation)

RAG hat sich als Standard für KI-Projekte im Unternehmen durchgesetzt. Statt alles in den Prompt zu pumpen, koppelt man eine semantische Suchmaschine an ein LLM.

So funktioniert es in drei Schritten:

Indexieren: Ihre Dokumente (PDF, Webseiten, interne Datenbanken) werden in Chunks zerlegt und in Embeddings – numerische Vektoren – überführt.
Suchen: Stellt ein Nutzer eine Frage, ermittelt das System über Vektorähnlichkeit die treffendsten Chunks.
Generieren: Das LLM bekommt die Frage UND die einschlägigen Chunks und formuliert eine kontextualisierte Antwort mit Quellenangaben.

Geeignet für: Wenn das LLM auf Ihre Geschäftsdaten zurückgreifen soll (interne Dokumentation, Wissensdatenbank, Produktkatalog, Rechtskorpus).

Wichtige technische Weichenstellungen:

Embedding-Modelle: OpenAI text-embedding-3, Cohere Embed v3, Open-Source-Modelle (BGE-M3, E5-large-v2). Bei Mehrsprachigkeit (Französisch/Deutsch/Englisch) sind BGE-M3 oder Cohere die erste Wahl.
Vektordatenbanken: Pinecone, Weaviate, Qdrant oder pgvector auf PostgreSQL. Letzteres ist für KMU ein guter Mittelweg: kein zusätzlicher Service, kalkulierbare Kosten, solide Performance bis in den Millionenbereich an Dokumenten.

Hauptvorteil: kontextualisierte Antworten, weniger Halluzinationen, nachvollziehbare Quellen.

Grenze: Die Qualität eines RAG-Systems steht und fällt mit den indexierten Daten. Veraltete oder schlecht strukturierte Dokumente liefern mittelmässige Antworten.

Muster 3: Autonome Agenten

KI-Agenten markieren die nächste Komplexitätsstufe. Ein Agent ist ein LLM, das Werkzeuge bedient (Websuche, Berechnungen, API-Aufrufe, Datenbankabfragen) und eine Abfolge von Aktionen plant, um eine komplexe Aufgabe abzuschliessen.

Geeignet für: mehrstufige Aufgaben (Recherchieren, Analysieren, Entscheiden, Handeln), Anbindung an bestehende Systeme (CRM, ERP), Automatisierung komplexer Workflows.

Orchestrierungs-Frameworks: LangGraph, CrewAI, das Agents-SDK von OpenAI oder das Claude Agent SDK von Anthropic. Welches passt, hängt von Ihrem technischen Stack und dem gewünschten Mass an Kontrolle ab.

Hauptvorteil: End-to-End-Automatisierung ganzer Geschäftsprozesse. Die KI-Chatbots der neuen Generation bauen häufig auf diesem Muster auf, um kontextuelle, mehrstufige Interaktionen zu ermöglichen.

Grenze: höhere Komplexität, anspruchsvolles Debugging, hohe Token-Kosten – ein Agent setzt für eine einzige Aufgabe schnell 10 bis 50 LLM-Aufrufe ab. Heben Sie sich dieses Muster für Anwendungsfälle mit klarem Wertbeitrag auf.

Auswahlkriterien für das LLM

Die Modellwahl ist nicht in Stein gemeisselt, prägt aber Leistung und Kosten massgeblich. Diese Kriterien gehören auf den Prüfstand:

Kriterium	Leitfragen
Leistung im konkreten Anwendungsfall	2 bis 3 Modelle an 50 realen Beispielen aus Ihrem Fachgebiet testen. Generische Benchmarks genügen nicht.
Kosten pro Anfrage	Durchschnittskosten pro Nutzerinteraktion ausrechnen, nicht bloss den Preis pro Token.
Latenz	Ein Kunden-Chatbot muss unter 2 Sekunden antworten. Eine Batch-Verarbeitung verträgt 30 Sekunden.
Kontextfenster	Bei RAG mit langen Dokumenten ist ein Fenster von 128K+ Tokens ein Trumpf.
Mehrsprachigkeit	In der Schweiz ist die Unterstützung von Französisch, Deutsch und Englisch oft unverzichtbar.
Compliance und Hosting	Wo werden die Daten verarbeitet? Welche vertraglichen Zusagen zur Nicht-Speicherung gibt es?

2026 sind Claude (Anthropic), GPT-4o (OpenAI) und Gemini (Google) die Referenzmodelle für Unternehmensprojekte. Für lokalen Betrieb unter dem Vorzeichen der Datensouveränität halten Llama (Meta), Mistral und Qwen konkurrenzfähig mit.

Reale Kosten einer KI-Architektur in der Schweiz

Die Kosten verteilen sich auf vier Kategorien:

1. Initiale Entwicklungskosten

Einfacher API Wrapper: CHF 5'000.– bis CHF 15'000.–
Vollständiges RAG mit Interface: CHF 15'000.– bis CHF 40'000.–
Multi-Agent-System: CHF 40'000.– bis CHF 100'000.–

2. Wiederkehrende API-Kosten

Für eine Anwendung mit 1'000 monatlich aktiven Nutzern:

API Wrapper: CHF 200.– bis CHF 800.– pro Monat
RAG (Embeddings + Generierung): CHF 300.– bis CHF 1'500.– pro Monat
Agenten: CHF 1'000.– bis CHF 5'000.– pro Monat

3. Infrastrukturkosten

Cloud-Lösung (Supabase, Vercel, AWS): CHF 50.– bis CHF 500.– pro Monat
Lokaler Einsatz mit GPU: CHF 2'000.– bis CHF 10'000.– pro Monat (Hardware-Abschreibung inbegriffen)

4. Wartungskosten

Rechnen Sie mit 15 bis 20 % der ursprünglichen Entwicklungskosten pro Jahr für Wartung, Modell-Updates und Weiterentwicklung des Systems.

Der Kern der Sache: fangen Sie mit der günstigsten Variante an (API Wrapper) und steigern Sie die Komplexität erst, wenn der geschäftliche Nutzen belegt ist.

Skalierungsmuster

Horizontale Skalierung

Steigen die Nutzerzahlen, muss die Architektur mitziehen. Das empfohlene Setup:

Asynchrone Warteschlange (Redis Queue, BullMQ), um Lastspitzen abzufangen, ohne Anfragen zu verlieren
Semantischer Cache für wiederkehrende Fragen: liegt eine ähnliche Frage bereits beantwortet vor, geben Sie die Cache-Antwort zurück, statt das LLM noch einmal aufzurufen
Intelligentes Rate Limiting pro Nutzer und Anfragetyp

Vertikale Skalierung (Qualität)

So heben Sie die Antwortqualität, ohne das Modell zu wechseln:

Re-Ranking: Nach der Vektorsuche sortiert ein Re-Ranking-Modell (Cohere Rerank, Cross-Encoder) die Treffer nach tatsächlicher Relevanz neu.
Adaptives Chunking: Passen Sie die Chunk-Grösse dem Dokumenttyp an (Absätze bei Fliesstext, Abschnitte bei technischer Dokumentation).
Feedback-Schleife: Sammeln Sie Nutzerrückmeldungen ein und nutzen Sie sie, um das System fortlaufend nachzuschärfen.

Provider Pattern

Bauen Sie eine Abstraktionsschicht ein, die Ihren Geschäftscode vom LLM-Anbieter entkoppelt. Kommt ein leistungsfähigeres oder günstigeres Modell auf den Markt, wechseln Sie den Provider, ohne am Rest der Anwendung zu schrauben. Dieses Muster ist Pflicht: Der LLM-Markt dreht sich quartalsweise.

Die 5 häufigsten Fehler

1. Mit Fine-Tuning starten

Fine-Tuning braucht es als ersten Schritt nur selten. In 80 % der Fälle liefert ein sauberes RAG mit gut formulierten Prompts gleichwertige Resultate zu einem Bruchteil der Kosten. Heben Sie sich Fine-Tuning für die Fälle auf, in denen das Modell einen sehr spezifischen Stil treffen oder ein technisches Vokabular beherrschen muss, das RAG nicht abdeckt.

2. Die Datenqualität unterschätzen

Füttern Sie ein RAG-System mit veralteten, schlecht formatierten oder widersprüchlichen Dokumenten, fallen die Antworten mittelmässig aus. Daten zu bereinigen und sauber zu strukturieren bindet oft 50 bis 60 % des gesamten Aufwands eines KI-Projekts. Diese Zeit ist nicht verloren, sondern der lohnendste Posten überhaupt.

3. Die Evaluation auf die lange Bank schieben

Ohne Qualitätsmetriken (Relevanz, Quellentreue, Vollständigkeit) lässt sich kein Fortschritt belegen. Etablieren Sie von Anfang an einen Evaluationsrahmen: ein Set aus 50 bis 100 Referenz-Frage-Antwort-Paaren, automatisch und manuell ausgewertet.

4. Die API-Kosten im Produktivbetrieb unterschätzen

Token-Kosten klettern mit dem Volumen rasch. Ein Prototyp für CHF 50.– pro Monat kann im Produktivbetrieb auf CHF 2'000.– pro Monat steigen. Rechnen Sie vorab realistisch durch – auf Basis der Nutzerzahl, der Nutzungsfrequenz und der durchschnittlichen Anfragegrösse.

5. Einen Monolithen bauen

Ein monolithisches KI-System lässt sich schlecht weiterentwickeln und schwer debuggen. Setzen Sie auf eine modulare Architektur: Suchmaschine, LLM, Cache, Benutzeroberfläche und Evaluationsschicht bleiben eigenständige Bausteine. Muss ein Baustein gewechselt werden, bleibt der Rest unangetastet.

Die empfohlene progressive Strategie

Für ein Schweizer KMU, das ein KI-Projekt anpackt, hier die pragmatische Roadmap:

Woche 1–2: Proof of Concept über eine API (Claude oder GPT-4o) an einem klar umrissenen, messbaren Anwendungsfall. Werkzeuge wie Claude Code beschleunigen diese Phase. Budget: CHF 5'000.– bis CHF 10'000.–.
Monat 1–2: RAG-Prototyp mit Ihren Geschäftsdaten, systematische Qualitätsmessung, Nutzertests. Budget: CHF 10'000.– bis CHF 25'000.–.
Monat 3–4: Produktivsetzung mit Monitoring, Feedback-Schleife, laufendem Feilen an Prompts und Chunking.
Ab Monat 6: Fine-Tuning oder lokalen Betrieb prüfen, sobald die Volumen es rechtfertigen. Agenten ergänzen, wenn komplexe Workflows automatisiert werden sollen.

Dieser stufenweise Weg hält die Risiken klein und erlaubt es, den Nutzen zu belegen, bevor grosse Summen fliessen. Genau so gehen wir in unserem PoC IA Express vor.

Synthese

Drei Muster geben KI-Projekten Struktur: API Wrapper, RAG und Agenten. Beginnen Sie mit dem einfachsten.
RAG ist der Standard für Unternehmensprojekte: kontextualisierte Antworten, nachvollziehbare Quellen, kontrollierte Kosten.
Das Provider Pattern schützt Ihre Investition – Ihre Architektur bleibt vom LLM-Anbieter unabhängig.
Datenqualität und fortlaufende Evaluation wiegen schwerer als die Modellwahl.
Rechnen Sie realistisch: Ein KI-Projekt in der Schweiz startet bei CHF 5'000.– für einen PoC und liegt bei CHF 15'000.– bis CHF 40'000.– für eine produktive RAG-Lösung.
Sprechen Sie mit MCVA Consulting, um Ihr KI-Projekt mit einer skalierbaren, auf Ihren Kontext zugeschnittenen Architektur aufzustellen.

Häufige Fragen

Sollte man ein Modell fine-tunen oder RAG verwenden?

In den allermeisten Fällen ist RAG die richtige Wahl, um anzufangen. Fine-Tuning lohnt sich in zwei klar umrissenen Konstellationen: wenn das Modell einen sehr eigenen Kommunikationsstil treffen muss (juristischer Ton, hochspezialisiertes medizinisches Vokabular), oder wenn die Anfragevolumen so gross werden, dass die RAG-Kosten (Embeddings plus Kontexttoken) jene eines fine-getunten Modells überschreiten. In der Praxis brauchen weniger als 20 % der KI-Unternehmensprojekte Fine-Tuning. Setzen Sie immer zuerst auf ein sauberes RAG, loten Sie dessen Grenzen aus und prüfen Sie dann, ob Fine-Tuning eine Verbesserung bringt, welche die Kosten rechtfertigt (CHF 5'000.– bis CHF 20'000.– für ein qualitatives Fine-Tuning, plus Wartung).

Welches Budget für eine KI-Architektur in der Schweiz?

Ein realistischer Proof of Concept bewegt sich zwischen CHF 5'000.– und CHF 15'000.–, Entwicklung und Tests inbegriffen. Eine produktive Lösung mit RAG, Benutzeroberfläche und Monitoring liegt bei CHF 15'000.– bis CHF 40'000.–. Die laufenden Kosten (API, Hosting, Wartung) bewegen sich je nach Volumen zwischen CHF 500.– und CHF 3'000.– pro Monat. Der Return on Investment bemisst sich am Produktivitätsgewinn oder am zusätzlichen Umsatz: Ein KI-Assistent, der 10 Mitarbeitenden täglich 2 Stunden abnimmt, entspricht in der Schweiz einer Einsparung von CHF 8'000.– bis CHF 15'000.– pro Monat. Bei klar fokussierten Projekten ist der ROI üblicherweise nach 3 bis 6 Monaten erreicht.

Wie Datensouveränität gewährleisten?

Drei Wege, in aufsteigender Strenge. Erstens vertragliche Zusagen: Anthropic, OpenAI und Google bieten Geschäftskunden Nicht-Speicherungs-Klauseln (Business- oder Enterprise-Pläne). Zweitens Betrieb auf europäischer Infrastruktur: Dienste wie Azure OpenAI lassen das Modell in einem Rechenzentrum in der Schweiz oder in Europa laufen – die Daten verlassen die Jurisdiktion nicht. Drittens lokaler Betrieb von Open-Source-Modellen (Llama, Mistral): Die Daten bleiben vollständig auf Ihrer eigenen Infrastruktur. Das ist hardwareintensiver, gibt Ihnen dafür die volle Kontrolle. Wer dem DSG oder branchenspezifischen Regulierungen (Finanz, Gesundheit) untersteht, sollte vor der Architekturwahl eine formelle Risikoanalyse durchführen.

Sie haben ein KI-Projekt im Kopf und wissen nicht, wo anfangen? Sprechen Sie mit MCVA Consulting für eine kostenlose technische Auslegeordnung. Wir helfen Ihnen, die zu Ihrem Anwendungsfall, Ihrem Budget und Ihren regulatorischen Rahmenbedingungen passende Architektur zu wählen. Entdecken Sie unseren PoC IA Express und kommen Sie in zwei Wochen vom Konzept zum Prototyp.