Build-vs-Buy: Eigener Stack = sechs Monate (Embedding-Pipeline, Vector-DB-Ops, Eval, Monitoring).
API-Lib in zwei Tagen integriert, Multi-Tenant + RBAC + Audit out-of-the-box.
REST + TypeScript- und Python-SDK, OpenAPI 3.1, p99 unter 800 ms unter Last. Qdrant unter Apache-2.0, Helm-Charts für Self-Hosting, Multi-LLM-Router (Anthropic, OpenAI Ireland, Mistral, Aleph Alpha, Llama-EU). Token-Level-Observability eingebaut.
Build-vs-Buy: Eigener Stack = sechs Monate (Embedding-Pipeline, Vector-DB-Ops, Eval, Monitoring).
API-Lib in zwei Tagen integriert, Multi-Tenant + RBAC + Audit out-of-the-box.
LLM-Provider-Lock-in vermeiden — heute OpenAI, morgen Claude, übermorgen Mistral.
Multi-LLM-Router mit BYOK pro Provider. Routing-Regeln nach Sprache, Latenz, Kosten oder Workspace.
„Funktioniert unser RAG?" ist nicht beantwortbar ohne Goldstandard-Datasets.
Eingebautes Eval-Framework: Goldstandard-Datasets, Recall-at-K, Citation-Accuracy, Halluzinations-Score.
Cost-Predictability — Pinecone + OpenAI-Embedding-Rechnung explodiert bei Skalierung.
Token-Level-Observability, Hard-Cost-Caps pro Workspace, Embedding-Cache eingebaut.
TypeScript- oder Python-SDK installieren, API-Key holen (60 Sekunden auf der Web-Konsole), erste Embedding-Pipeline starten.
Multi-Tenant-Workspaces per API. RBAC, SSO und Audit-Log out-of-the-box. Quellen via REST oder Connectors.
Multi-LLM-Router konfigurieren: Sprache → Modell, Workspace → Region, Latenz-Budget → Provider. Token-Level-Observability auf Datadog/Grafana.
Beide first-class. Postman/Bruno-Collection, asciinema-Quickstarts, GitHub-Examples-Repo.
Vollständige OpenAPI 3.1 Spec, optional gRPC für High-Throughput. Versioniert, breaking changes über Major.
Anthropic, OpenAI Ireland, Mistral, Aleph Alpha, Llama-EU. BYOK. Routing-Regeln nach Sprache, Latenz, Kosten.
Token-Level-Logs, Latency-Histogramm p50/p95/p99, Embedding-Cache-Hit-Rate. Datadog-, Grafana-, OpenTelemetry-Export.
Goldstandard-Datasets, Recall-at-K, Citation-Accuracy, Halluzinations-Score. CI-Integration über @anirag/eval-Paket.
Helm-Charts für Kubernetes. Open-Source-Stack: Qdrant (Apache-2.0), Postgres, Redis. Sovereign-Plan.
374.400 €
2.880 Stunden pro Jahr freigesetzt
„Zwei Tage von npm install bis Production. SDK ist sauber, Docs sind vollständig, Eval-Framework hat uns vor zwei Regression-Bugs bewahrt."
„Multi-LLM-Router war der Killer für uns — Claude für DE, GPT für EN, Mistral für Latenz-kritische Anfragen. Routing in 12 Zeilen Config."
Beide first-class. @anirag/sdk (TS) und anirag-py (Python). Plus OpenAPI 3.1 für andere Sprachen. Postman/Bruno-Collection im GitHub-Examples-Repo.
Ja, Sovereign-Plan. Helm-Charts für Kubernetes, Terraform-Module, OCI-konforme Container. Stack ist Qdrant + Postgres + Redis — alles Open-Source.
Public Status-Page hat historische Werte. p50 ~250ms, p95 ~600ms, p99 ~800ms (Frankfurt → Frankfurt, mid-tier Modelle). Worst-case dokumentiert pro Modell.
Trace-View pro Query: Embedding-Vektor, Top-K-Kandidaten mit Scores, Reranking-Pfad, finaler Context. Replay-API zum lokalen Reproduzieren.
Qdrant (Apache-2.0), Postgres, Redis sind Open-Source. Reranker und Eval-Framework proprietary, aber als @anirag/eval-Paket lokal lauffähig.
Free tier, no credit card. 100k embeddings, 10k queries — enough for a real prototype.