anirag.io
API · TOKEN-BASED · BYOK · MULTI-LLM

Pay per Token. Nicht per Tier.

REST + TypeScript- + Python-SDK. OpenAPI 3.1, p99 unter 800 ms, Multi-LLM-Router nativ. Keine Tier-Schwellen, keine Surprise-Bills — Sie zahlen genau das, was Sie nutzen.

TOKEN-PREISE · STANDARD

Eine Spalte. Ein Preis.

Standard-Modell: claude-sonnet-4-6 (EU-FRA1). Modellspezifische Preise unten — Sie wählen pro Workspace, pro Query oder per Routing-Regel.

VerbrauchstypEinheitPreisHinweis
Embeddings1M Input-Tokens0,02 €OpenAI text-embedding-3-small · default
Embeddings (Premium)1M Input-Tokens0,12 €Voyage-3-large · höhere Qualität
Query · Input1M Tokens3,50 €Prompt + RAG-Kontext (Standard-Modell)
Query · Output1M Tokens14,00 €Generierter Antwort-Text (Standard-Modell)
Audio-Transkription1 Minute Audio0,004 €Lokales Whisper auf EU-Worker · 99 Sprachen · keine Cloud-Drittanbieter
Video-Transkription1 Minute Video0,005 €yt-dlp + lokales Whisper · YouTube/Vimeo/Loom
Storage1 GB / Monat0,30 €Postgres + Qdrant, EU-Region

Alle Preise netto in Euro. Alle Verbräuche werden pro Workspace im Dashboard live getrackt. BYOK reduziert Modell-Calls auf eine Plattform-Fee von 10 %.

MODELL-PREISE · MULTI-LLM

Pro Modell, pro Region.

ModellInput · 1M TokensOutput · 1M TokensRegion
claude-sonnet-4-63,50 €14,00 €EU-FRA1
claude-opus-4-712,00 €60,00 €EU-FRA1
claude-haiku-4-50,80 €3,20 €EU-FRA1
gpt-5.19,00 €27,00 €EU-IRL
gpt-5.1-mini0,40 €1,60 €EU-IRL
mistral-large-31,80 €5,40 €FR-PAR
pharia-1-aleph2,40 €9,60 €DE-HEI
llama-3.3-70b-eu0,60 €0,60 €Self-hosted

COMMITTED-USE · RABATTE

Volumen senkt den Preis.

Pay-as-you-go

0 €/Monat

Standard-Rates

Kein Mindestumsatz. Free-Tier: 1 Mio. Tokens/Monat geschenkt.

Auswählen
Beliebt

Committed-Use · 100M

ab 290 €/Monat

−15 %

100 Mio. Tokens monatlich (Input + Output kombiniert), Rest pay-as-you-go.

Auswählen

Committed-Use · 1B

ab 2.400 €/Monat

−30 %

1 Mrd. Tokens monatlich. Dedizierte Throughput-Reservierung.

Auswählen

Enterprise

individuell

−40 % +

Volume-Tier ab 10 Mrd. Tokens/Monat, BYOK-Hybrid, eigener Region-Cluster.

Sales kontaktieren

BEISPIEL-KALKULATION

Mittelständischer SaaS · 100 Mitarbeiter · ~500 Queries/Tag

  • Embeddings · 50 GB Wissensbasis~1,20 € einmalig
  • Query-Input · 15.000/Monat × 6k Tokens315,00 €
  • Query-Output · 15.000/Monat × 800 Tokens168,00 €
  • Storage · 50 GB15,00 €
Total / Monat (pay-as-you-go)≈ 498 €

Mit Committed-Use 100M (15 % Rabatt): ≈ 423 €/Monat. BYOK auf eigene Anthropic-Keys: Plattform-Fee ≈ 50 €/Monat (zusätzlich Provider-Rechnung direkt).

RATE LIMITS · PRO ENDPOINT

Limits transparent.

EndpointFreePay-as-you-goCommitted
POST /v1/embeddings100/min1.000/min10.000/min
POST /v1/query60/min600/min6.000/min
POST /v1/transcribe10/min60/min300/min
POST /v1/sources30/min300/min1.500/min
GET /v1/traces/*120/min1.200/min10.000/min

SDK · QUICKSTART

Vom API-Key zum ersten Citation in 60 Sekunden.

OpenAPI-3.1-Spec live unter app.anirag.io/api/openapi — direkt in Stoplight, Swagger-UI, Redoc oder beliebigem OpenAPI-Codegen für TS-/Python-SDKs konsumierbar. Rate-Limit: 60 RPM (read/write) · 120 RPM (admin) · HeadersX-RateLimit-Limit/-Remaining/-Reset.

import { Anirag } from "@anirag/sdk";

const aq = new Anirag({
  apiKey: process.env.ANIRAG_API_KEY,
  region: "eu-fra1",
});

const { answer, citations, usage } = await aq.ask({
  workspace: "ops",
  query: "Wie ist die Wartung der Hydraulik geregelt?",
  model: "claude-sonnet-4-6",
});

console.log(answer);
// → "Wartung erfolgt alle 500 Betriebsstunden …"
console.log(usage);
// → { input_tokens: 4234, output_tokens: 287, cost_eur: 0.019 }

Alle Systeme operational

Region eu-fra1: API p99 312 ms · Embeddings p99 184 ms · Uptime 99,98 % (30 d)

API · FAQ

Acht häufige Fragen.

01Warum reines Token-Pricing — keine Tiers?

Tier-Pricing bestraft Wachstum. Mit Token-Pricing zahlen Sie genau das, was Sie nutzen. Free-Tier (1 Mio. Tokens/Monat) deckt Test-Phase ab; danach lineare Skalierung. Committed-Use ab 100 Mio. Tokens spart 15-40 %.

02Werden Eingabe- und Ausgabe-Tokens getrennt abgerechnet?

Ja, gleich wie bei OpenAI/Anthropic. Input ist günstiger (3,50 €/1M Standard-Modell), Output teurer (14 €/1M). Die meisten RAG-Workloads sind 80 % Input/20 % Output — die Mischrate liegt bei ~5,60 €/1M.

03Was kostet die Transkription von Videos?

0,005 €/Minute. Eine Stunde Webinar = 0,30 €. Für 100 Stunden Material/Monat (typisch DTC oder B2B-Marketing): ca. 30 € + Embedding-Kosten (typisch 1-2 € pro Stunde Audio). Whisper läuft lokal auf unserem EU-Worker — kein OpenAI, kein US-Cloud-Drittanbieter.

04Wie funktioniert BYOK?

Sie hinterlegen Ihre eigenen Provider-Keys (Anthropic, OpenAI, Mistral, Aleph) verschlüsselt mit AES-256-GCM. Anirag routet, Sie zahlen direkt beim Provider. Anirag-Plattform-Fee: 10 % des Token-Volumens (statt voller Modellrate).

05Wie ist die Latenz?

p50 < 320 ms, p99 < 800 ms (Anirag-Inferenz, ohne LLM-Roundtrip). Streaming-Tokens werden ab 280 ms TTFB ausgeliefert. LLM-Latenz hängt vom Provider ab.

06Gibt es einen TypeScript- und Python-SDK?

Beide, plus OpenAPI 3.1 für Custom-Generation. Streaming, Retry-Logic, Tracing-Header — out-of-the-box. Pinecone-API-kompatibler Layer für einfache Migration.

07Wie wird abgerechnet?

Pay-as-you-go: am Monatsende. Committed-Use: am Monatsanfang, Verbrauch wird abgezogen. Über-Verbrauch: pay-as-you-go-Rate. Keine Surprise-Bills, Hard-Cap konfigurierbar.

08Kann ich den API-Stack selbst hosten?

Ja, im Sovereign-Plan via Helm-Charts auf Ihrem Kubernetes. Air-Gap-Modus + lokales LLM (Llama-3.3-70B-EU) machen den Stack komplett offline. Pricing ist dann fix (ab 30 k €/Jahr), keine Token-Calls nach außen.

API-Key in 30 Sekunden.

1 Mio. Tokens kostenlos pro Monat · keine Kreditkarte. Pay-as-you-go ab Token 1.000.001.