Zum Hauptinhalt springen
Für Developer · API-first · Self-hostable

RAG, die produktiv geht. APIs, denen du wirklich vertrauen kannst.

Open-Source-Vector-DB. Multi-LLM. p99 < 800 ms. Echtes OpenAPI 3.1, idiomatische SDKs in TypeScript und Python. Kein Vendor-Lock-in, keine Black-Box, keine Surprise-Bills.

Pain Points

Drei Dinge, die jede:r Tech-Lead an Eigen-RAG hasst.

Build vs. Buy ist nicht mehr eine 6-Monats-Diskussion. Es ist eine 2-Tages-API-Integration.

Build vs. Buy: 6 Monate vs. 2 Tage

Embedding-Pipeline, Vector-DB-Ops, Eval-Framework, Multi-Tenant-RBAC, Monitoring – oder ein API-Call.

LLM-Provider-Lock-in

Heute OpenAI. Morgen Claude. Übermorgen Mistral. Anirag routet zwischen Providern mit einem Config-Change.

Wie debugge ich Retrieval?

Die Trace-API sagt dir genau, welche Chunks gefunden wurden, welche verworfen, warum diese Antwort und nicht eine andere.

In 4 Endpoints

Anirag für Developer.

REST + TypeScript- + Python-SDKs. OpenAPI 3.1. Self-hostable. p99 < 800 ms.

  1. POST /v1/collections

    Knowledge-Base erstellen. Vector-Store wird automatisch provisioniert.

  2. POST /v1/docs

    PDFs, DOCX, URLs hochladen oder via S3 streamen. Auto-Chunking, Auto-Embedding.

  3. POST /v1/query

    RAG-Query mit Citations, Multi-LLM-Routing, optional Streaming.

  4. GET /v1/traces/{id}

    Token-Level-Observability, gefundene Chunks, Latency-Breakdown.

Features für Developer

Vier Gründe, warum dein:e CTO unterschreibt.

OpenAPI 3.1 + Postman

Echte Spec, kein Doku-Theater. Import in Postman, Bruno, Insomnia. Client-Generation in jeder Sprache.

TS- + Python-SDKs

Beide Open-Source auf GitHub. Idiomatisch, typed, mit guten Error-Messages. npm i @anirag/sdk.

Self-Hosting-Option

Helm-Chart für Kubernetes, Docker-Compose für Linux. Air-Gap-fähig. Eigene Postgres + Qdrant + Redis nutzbar.

Token-Level-Observability

p50/p95/p99-Latenzen pro Endpoint. Token-Verbrauch pro Query. Trace-API. Sentry-kompatibler OpenTelemetry-Export.

Case-Vignette

Series-A B2B-SaaS — B2B-Forecasting-SaaS.

Series A 12 M€, 38 Mitarbeitende, 60 Enterprise-Kunden.

Vor / Nach Anirag

Von „6 Sprints" zu „2 Tagen" — bei 9 % des ursprünglichen Budgets.

Vor

  • 6 Sprints geplant für eigenen RAG-Stack
  • 32 k €/Monat Budget kalkuliert
  • Kein Eval-Framework, keine Observability
  • Pinecone-Kosten skalieren unkontrolliert

Nach

  • 2 Tage Integration, Production-ready
  • 2,8 k €/Monat (= 9 % des Original-Budgets)
  • p95 = 420 ms, p99 = 780 ms
  • 0,0023 € pro Query, vorhersagbar

→ Series-B-Demo lief mit RAG-Feature live · CTO sparte 4 Engineering-Monate

Ehrliches RAG ohne Bullshit. Echte OpenAPI-Spec, kein Doku-Theater. Self-Hosting-Option machte unsere Security-Review trivial. Wir haben in 2 Tagen ausgeliefert, wofür wir sonst 6 Monate gebraucht hätten."
A.T., Senior Backend Engineer & RAG-Tech-Lead

FAQ

Häufige Fragen aus Engineering-Teams.

API-Key in 2 Minuten.

Keine Kreditkarte. Free-Tier: 100 k Embeddings + 10 k Queries pro Monat.