LÖSUNGEN/DEVELOPER · API · TECH-TEAMS

REST + TS-SDK + PYTHON-SDK · OPENAPI 3.1 · P99 < 800 MS

RAG that doesn't lock you in. Multi-LLM. Self-hostable. Open-Source-Stack.

REST + TypeScript- und Python-SDK, OpenAPI 3.1, p99 unter 800 ms unter Last. Qdrant unter Apache-2.0, Helm-Charts für Self-Hosting, Multi-LLM-Router (Anthropic, OpenAI Ireland, Mistral, Aleph Alpha, Llama-EU). Token-Level-Observability eingebaut.

Get an API key Read the docs

Public Status-Page · Versionierter Changelog · Roadmap auf Linear öffentlich

PROBLEM · LÖSUNG

Was Sie kennen. Wie wir es lösen.

PAIN · 01

Build-vs-Buy: Eigener Stack = sechs Monate (Embedding-Pipeline, Vector-DB-Ops, Eval, Monitoring).

JTBD

API-Lib in zwei Tagen integriert, Multi-Tenant + RBAC + Audit out-of-the-box.

PAIN · 02

LLM-Provider-Lock-in vermeiden — heute OpenAI, morgen Claude, übermorgen Mistral.

JTBD

Multi-LLM-Router mit BYOK pro Provider. Routing-Regeln nach Sprache, Latenz, Kosten oder Workspace.

PAIN · 03

„Funktioniert unser RAG?" ist nicht beantwortbar ohne Goldstandard-Datasets.

JTBD

Eingebautes Eval-Framework: Goldstandard-Datasets, Recall-at-K, Citation-Accuracy, Halluzinations-Score.

PAIN · 04

Cost-Predictability — Pinecone + OpenAI-Embedding-Rechnung explodiert bei Skalierung.

JTBD

Token-Level-Observability, Hard-Cost-Caps pro Workspace, Embedding-Cache eingebaut.

Two days to production

Vom Anlass zur ersten Antwort.

STEP · 01
npm i @anirag/sdk
TypeScript- oder Python-SDK installieren, API-Key holen (60 Sekunden auf der Web-Konsole), erste Embedding-Pipeline starten.
STEP · 02
Workspace + Quellen einrichten
Multi-Tenant-Workspaces per API. RBAC, SSO und Audit-Log out-of-the-box. Quellen via REST oder Connectors.
STEP · 03
In Production routen
Multi-LLM-Router konfigurieren: Sprache → Modell, Workspace → Region, Latenz-Budget → Provider. Token-Level-Observability auf Datadog/Grafana.

Built for Engineers

Was eingebaut ist.

TypeScript + Python SDK

Beide first-class. Postman/Bruno-Collection, asciinema-Quickstarts, GitHub-Examples-Repo.

OpenAPI 3.1 + gRPC

Vollständige OpenAPI 3.1 Spec, optional gRPC für High-Throughput. Versioniert, breaking changes über Major.

Multi-LLM-Router

Anthropic, OpenAI Ireland, Mistral, Aleph Alpha, Llama-EU. BYOK. Routing-Regeln nach Sprache, Latenz, Kosten.

Token-Observability

Token-Level-Logs, Latency-Histogramm p50/p95/p99, Embedding-Cache-Hit-Rate. Datadog-, Grafana-, OpenTelemetry-Export.

Eval-Framework

Goldstandard-Datasets, Recall-at-K, Citation-Accuracy, Halluzinations-Score. CI-Integration über @anirag/eval-Paket.

Self-hostable

Helm-Charts für Kubernetes. Open-Source-Stack: Qdrant (Apache-2.0), Postgres, Redis. Sovereign-Plan.

Engineering-grade compliance

Compliance ist die Basis, nicht der Nachschlag.

Public Status-Page mit p50/p95/p99 pro Region — historisch 99.96 % Uptime in den letzten 12 Monaten.
Versionierter Changelog, breaking changes über Major-Bump, 90-Tage-Deprecation-Period.
OpenTelemetry-Export für eigene Observability-Stacks.
Open-Source-Komponenten dokumentiert: Qdrant Apache-2.0, Postgres, Redis. Kein Vendor-Lock-in.
Roadmap öffentlich auf Linear — Feature-Requests und Voting offen.

Was du bei Build-vs-Buy einsparst

Was Sie konkret einsparen.

Engineers, die sonst RAG bauen3

Wochen Engineering-Zeit (eigener Stack)24

Vollkosten-Stundensatz Engineer130

EINSPARUNG · ANNUALISIERT

374.400 €

2.880 Stunden pro Jahr freigesetzt

Annahme: 24 Wochen Build-Time bei 3 Engineers (40 h Woche) bei 130 € Vollkosten. anirag-Integration: 2 Tage 1 Engineer.

Integriert in deinen Stack

Integriert in Ihren Stack.

GIGitHub Actions

DADatadog

GRGrafana

OPOpenTelemetry

VEVercel

RARailway

FLFly.io

AWAWS Frankfurt

STIMMEN

Was Praktiker sagen.

„Zwei Tage von npm install bis Production. SDK ist sauber, Docs sind vollständig, Eval-Framework hat uns vor zwei Regression-Bugs bewahrt."

A.T.Tech-Lead · B2B-SaaS, Series A

„Multi-LLM-Router war der Killer für uns — Claude für DE, GPT für EN, Mistral für Latenz-kritische Anfragen. Routing in 12 Zeilen Config."

P.K.Staff Engineer · Logistik-SaaS

HÄUFIGE FRAGEN

Was Ihre Compliance, IT und Fachbereich fragen.

Habt ihr ein vernünftiges TS/Python-SDK oder muss ich REST roh aufrufen?

Beide first-class. @anirag/sdk (TS) und anirag-py (Python). Plus OpenAPI 3.1 für andere Sprachen. Postman/Bruno-Collection im GitHub-Examples-Repo.

Self-hosting-Option, falls wir wachsen?

Ja, Sovereign-Plan. Helm-Charts für Kubernetes, Terraform-Module, OCI-konforme Container. Stack ist Qdrant + Postgres + Redis — alles Open-Source.

Wie sind eure Latencies p50/p95/p99 unter Load?

Public Status-Page hat historische Werte. p50 ~250ms, p95 ~600ms, p99 ~800ms (Frankfurt → Frankfurt, mid-tier Modelle). Worst-case dokumentiert pro Modell.

Wie debugge ich, warum Retrieval Chunk X statt Y geholt hat?

Trace-View pro Query: Embedding-Vektor, Top-K-Kandidaten mit Scores, Reranking-Pfad, finaler Context. Replay-API zum lokalen Reproduzieren.

Open-Source-Komponenten oder proprietary Black-Box?

Qdrant (Apache-2.0), Postgres, Redis sind Open-Source. Reranker und Eval-Framework proprietary, aber als @anirag/eval-Paket lokal lauffähig.

Get your API key in 2 minutes.

Free tier, no credit card. 100k embeddings, 10k queries — enough for a real prototype.

Get API key Read the docs

RAG that doesn't lock you in. Multi-LLM. Self-hostable. Open-Source-Stack.

npm i @anirag/sdk

Workspace + Quellen einrichten

In Production routen

TypeScript + Python SDK

OpenAPI 3.1 + gRPC

Multi-LLM-Router

Token-Observability

Eval-Framework

Self-hostable

Get your API key in 2 minutes.