RAG selber bauen vs. kaufen: Eine ehrliche TCO-Rechnung
Embedding-Pipeline, Vector-DB-Ops, Eval-Framework, Multi-Tenant-RBAC. Was es wirklich kostet, RAG in-house zu bauen — und wann der Build-Case hält.
Build vs. Buy ist ein altes Spiel. Bei RAG kommen ein paar Eigenheiten dazu, die viele unterschätzen. Hier ist die ehrliche Rechnung.
Was ein Eigen-RAG-Stack wirklich umfasst
Ein Production-RAG braucht mindestens diese Komponenten:
- Embedding-Pipeline: Chunking-Strategie (recursive, semantic, sliding-window), Embedding-Provider-Abstraktion (OpenAI, Voyage, Cohere, Jina), Re-Embedding-Workflow bei Modell-Updates.
- Vector-DB-Ops: Qdrant/Weaviate/Pinecone betreiben, Backup/Restore, Index-Monitoring, Multi-Tenant-Isolation.
- Retrieval-Logic: BM25 + Vector-Hybrid, Re-Ranking (Cohere Rerank, eigene Cross-Encoder), Citations, Trace-Aufzeichnung.
- Multi-LLM-Routing: Provider-Failover, Cost-Tracking, BYOK-Logik, Streaming-Handling.
- Multi-Tenant-RBAC: Workspace-Isolation, Role-based Access, Audit-Logs.
- Eval-Framework: Golden-Set, F1, Citation-Precision, CI-Integration.
- Observability: p50/p95/p99-Latenzen, Token-Verbrauch, Trace-API.
Das sind nicht 6 Sprints. Das sind 6 Sprints für die V1, plus 12-18 Monate Maintenance, plus On-Call-Last.
Die ehrliche TCO-Rechnung über 36 Monate
Build-Variante (mittlere Annahmen):
- Initial: 6 Sprints × 200 Engineer-Stunden × 90 €/h = 108 000 €
- Maintenance Year 1: 30 % der Initial = 32 400 €
- Maintenance Year 2-3: 25 % der Initial × 2 = 54 000 €
- Vector-DB-Hosting (Qdrant Cloud): 1 200 €/Mo × 36 = 43 200 €
- LLM-Provider-Kosten: ~2 000 €/Mo (medium B2B-SaaS) × 36 = 72 000 €
- Total 3-Jahres-TCO: 309 600 €
Buy-Variante (Anirag API) für die gleiche Workload:
- Free-Tier: Monate 1-3 (Pilot mit 10k Queries/Mo): 0 €
- Pay-as-you-go: ~30 000 €/Jahr × 3 = 90 000 €
- Total 3-Jahres-TCO: 90 000 €
Differenz: 219 600 € über 3 Jahre. Plus: keine Engineer-Stunden gebunden, keine On-Call-Last, keine Eval-Framework-Eigenentwicklung.
Wann der Build-Case trotzdem hält
Es gibt drei Szenarien, wo Build sinnvoll ist:
- Du baust ein RAG-Produkt selbst (du bist Anirag's Wettbewerber). Dann ist deine Infra dein Differenzierungs-Asset, kein Cost-Center.
- Du hast extrem spezielle Compliance-Requirements, die kein Anbieter erfüllt (z. B. Air-Gap-Hardware-HSM, eigene Cryptographie, Closed-Source-Reverse-Engineering verboten). In diesem Fall brauchst du Source-Code-Zugriff — Anirag Sovereign mit Source-Escrow ist die Brücke.
- Dein Team will gezielt RAG-Expertise aufbauen als Hire-Magnet oder Conference-Talk-Material. Auch legitim — aber das ist Investment in dein Team, nicht in die App.
Wann Buy klar gewinnt
- Time-to-Market: 2 Tage statt 6 Monate
- Eval-Framework + Trace-API von Tag 1 verfügbar
- Multi-LLM-Routing inklusive (kein Vendor-Lock-in)
- Updates rollen automatisch ein (Model-Updates, Re-Ranker-Verbesserungen)
- Self-Hosting-Option als Brücke, falls Compliance später härter wird
Honest Caveats
Anirag ist nicht Open-Source-First. Vector-DB ist Qdrant (Apache-2.0). Embedding-Pipeline ist offen. SDKs sind MIT. Aber: Der Orchestrierungs-Layer + RBAC + Audit-Log sind proprietär — dokumentiert und reverse-engineerable, aber nicht direkt forkbar. Wer das nicht akzeptiert, baut selbst.
Fazit
In 8 von 10 Fällen ist Buy die richtige Antwort — vor allem wenn du nicht im RAG-Business bist. Build-vs-Buy ist nicht „6 Monate vs. 2 Tage" für die V1, es ist 3-Jahres-TCO 310 k € vs. 90 k €. Das ist Geld, das in dein Kerngeschäft fließen kann.
Disclaimer: Die TCO-Rechnung basiert auf medianen B2B-SaaS-Annahmen. Für Hochlast-Szenarien (>10 M Queries/Mo) verschiebt sich die Buy-Kurve nach oben — aber Build-Wartung skaliert nicht-linear. Calc auf Anfrage.
Sondierungsgespräch
Lassen Sie uns 30 Minuten über Ihre Branche sprechen.
Persona-spezifische Beratung ohne Verkaufsdruck. Klare Empfehlung, ob Anirag zu Ihrer Compliance- und Budget-Realität passt.
Beratungsgespräch buchen