API · TOKEN-BASED · BYOK · MULTI-LLM

Pay per Token. Nicht per Tier.

REST + TypeScript- + Python-SDK. OpenAPI 3.1, p99 unter 800 ms, Multi-LLM-Router nativ. Keine Tier-Schwellen, keine Surprise-Bills — Sie zahlen genau das, was Sie nutzen.

API-Key holen · 1M Tokens free Kosten kalkulieren

TOKEN-PREISE · STANDARD

Eine Spalte. Ein Preis.

Standard-Modell: claude-sonnet-4-6 (EU-FRA1). Modellspezifische Preise unten — Sie wählen pro Workspace, pro Query oder per Routing-Regel.

Verbrauchstyp	Einheit	Preis	Hinweis
Embeddings	1M Input-Tokens	0,02 €	OpenAI text-embedding-3-small · default
Embeddings (Premium)	1M Input-Tokens	0,12 €	Voyage-3-large · höhere Qualität
Query · Input	1M Tokens	3,50 €	Prompt + RAG-Kontext (Standard-Modell)
Query · Output	1M Tokens	14,00 €	Generierter Antwort-Text (Standard-Modell)
Audio-Transkription	1 Minute Audio	0,004 €	Lokales Whisper auf EU-Worker · 99 Sprachen · keine Cloud-Drittanbieter
Video-Transkription	1 Minute Video	0,005 €	yt-dlp + lokales Whisper · YouTube/Vimeo/Loom
Storage	1 GB / Monat	0,30 €	Postgres + Qdrant, EU-Region

Alle Preise netto in Euro. Alle Verbräuche werden pro Workspace im Dashboard live getrackt. BYOK reduziert Modell-Calls auf eine Plattform-Fee von 10 %.

MODELL-PREISE · MULTI-LLM

Pro Modell, pro Region.

Modell	Input · 1M Tokens	Output · 1M Tokens	Region
claude-sonnet-4-6	3,50 €	14,00 €	EU-FRA1
claude-opus-4-7	12,00 €	60,00 €	EU-FRA1
claude-haiku-4-5	0,80 €	3,20 €	EU-FRA1
gpt-5.1	9,00 €	27,00 €	EU-IRL
gpt-5.1-mini	0,40 €	1,60 €	EU-IRL
mistral-large-3	1,80 €	5,40 €	FR-PAR
pharia-1-aleph	2,40 €	9,60 €	DE-HEI
llama-3.3-70b-eu	0,60 €	0,60 €	Self-hosted

COMMITTED-USE · RABATTE

Volumen senkt den Preis.

Pay-as-you-go

0 €/Monat

Standard-Rates

Kein Mindestumsatz. Free-Tier: 1 Mio. Tokens/Monat geschenkt.

Auswählen

Beliebt

Committed-Use · 100M

ab 290 €/Monat

−15 %

100 Mio. Tokens monatlich (Input + Output kombiniert), Rest pay-as-you-go.

Auswählen

Committed-Use · 1B

ab 2.400 €/Monat

−30 %

1 Mrd. Tokens monatlich. Dedizierte Throughput-Reservierung.

Auswählen

Enterprise

individuell

−40 % +

Volume-Tier ab 10 Mrd. Tokens/Monat, BYOK-Hybrid, eigener Region-Cluster.

Sales kontaktieren

BEISPIEL-KALKULATION

Mittelständischer SaaS · 100 Mitarbeiter · ~500 Queries/Tag

Embeddings · 50 GB Wissensbasis~1,20 € einmalig
Query-Input · 15.000/Monat × 6k Tokens315,00 €
Query-Output · 15.000/Monat × 800 Tokens168,00 €
Storage · 50 GB15,00 €

Total / Monat (pay-as-you-go)≈ 498 €

Mit Committed-Use 100M (15 % Rabatt): ≈ 423 €/Monat. BYOK auf eigene Anthropic-Keys: Plattform-Fee ≈ 50 €/Monat (zusätzlich Provider-Rechnung direkt).

RATE LIMITS · PRO ENDPOINT

Limits transparent.

Endpoint	Free	Pay-as-you-go	Committed
POST /v1/embeddings	100/min	1.000/min	10.000/min
POST /v1/query	60/min	600/min	6.000/min
POST /v1/transcribe	10/min	60/min	300/min
POST /v1/sources	30/min	300/min	1.500/min
GET /v1/traces/*	120/min	1.200/min	10.000/min

SDK · QUICKSTART

Vom API-Key zum ersten Citation in 60 Sekunden.

OpenAPI-3.1-Spec live unter app.anirag.io/api/openapi — direkt in Stoplight, Swagger-UI, Redoc oder beliebigem OpenAPI-Codegen für TS-/Python-SDKs konsumierbar. Rate-Limit: 60 RPM (read/write) · 120 RPM (admin) · HeadersX-RateLimit-Limit/-Remaining/-Reset.

import { Anirag } from "@anirag/sdk";

const aq = new Anirag({
  apiKey: process.env.ANIRAG_API_KEY,
  region: "eu-fra1",
});

const { answer, citations, usage } = await aq.ask({
  workspace: "ops",
  query: "Wie ist die Wartung der Hydraulik geregelt?",
  model: "claude-sonnet-4-6",
});

console.log(answer);
// → "Wartung erfolgt alle 500 Betriebsstunden …"
console.log(usage);
// → { input_tokens: 4234, output_tokens: 287, cost_eur: 0.019 }

API · STATUS

status.anirag.io →

Alle Systeme operational

Region eu-fra1: API p99 312 ms · Embeddings p99 184 ms · Uptime 99,98 % (30 d)

API · FAQ

Acht häufige Fragen.

01Warum reines Token-Pricing — keine Tiers?

Tier-Pricing bestraft Wachstum. Mit Token-Pricing zahlen Sie genau das, was Sie nutzen. Free-Tier (1 Mio. Tokens/Monat) deckt Test-Phase ab; danach lineare Skalierung. Committed-Use ab 100 Mio. Tokens spart 15-40 %.

02Werden Eingabe- und Ausgabe-Tokens getrennt abgerechnet?

Ja, gleich wie bei OpenAI/Anthropic. Input ist günstiger (3,50 €/1M Standard-Modell), Output teurer (14 €/1M). Die meisten RAG-Workloads sind 80 % Input/20 % Output — die Mischrate liegt bei ~5,60 €/1M.

03Was kostet die Transkription von Videos?

0,005 €/Minute. Eine Stunde Webinar = 0,30 €. Für 100 Stunden Material/Monat (typisch DTC oder B2B-Marketing): ca. 30 € + Embedding-Kosten (typisch 1-2 € pro Stunde Audio). Whisper läuft lokal auf unserem EU-Worker — kein OpenAI, kein US-Cloud-Drittanbieter.

04Wie funktioniert BYOK?

Sie hinterlegen Ihre eigenen Provider-Keys (Anthropic, OpenAI, Mistral, Aleph) verschlüsselt mit AES-256-GCM. Anirag routet, Sie zahlen direkt beim Provider. Anirag-Plattform-Fee: 10 % des Token-Volumens (statt voller Modellrate).

05Wie ist die Latenz?

p50 < 320 ms, p99 < 800 ms (Anirag-Inferenz, ohne LLM-Roundtrip). Streaming-Tokens werden ab 280 ms TTFB ausgeliefert. LLM-Latenz hängt vom Provider ab.

06Gibt es einen TypeScript- und Python-SDK?

Beide, plus OpenAPI 3.1 für Custom-Generation. Streaming, Retry-Logic, Tracing-Header — out-of-the-box. Pinecone-API-kompatibler Layer für einfache Migration.

07Wie wird abgerechnet?

Pay-as-you-go: am Monatsende. Committed-Use: am Monatsanfang, Verbrauch wird abgezogen. Über-Verbrauch: pay-as-you-go-Rate. Keine Surprise-Bills, Hard-Cap konfigurierbar.

08Kann ich den API-Stack selbst hosten?

Ja, im Sovereign-Plan via Helm-Charts auf Ihrem Kubernetes. Air-Gap-Modus + lokales LLM (Llama-3.3-70B-EU) machen den Stack komplett offline. Pricing ist dann fix (ab 30 k €/Jahr), keine Token-Calls nach außen.

API-Key in 30 Sekunden.

1 Mio. Tokens kostenlos pro Monat · keine Kreditkarte. Pay-as-you-go ab Token 1.000.001.

API-Key holen Docs lesen