API

Rate-Limits

Limits pro Plan, Burst-Verhalten, Backoff-Empfehlungen.

Anirag rate-limitet auf zwei Achsen: pro API-Key + pro Workspace.

Limits pro Plan

Plan	Queries/min	Queries/Monat	Embeddings/Monat	Concurrent Uploads
Free	30	10.000	100.000	2
Pro	100	100.000	1.000.000	10
Scale	500	500.000	5.000.000	50
Enterprise	Custom	Custom	Custom	Custom

Headers

Jede Response enthält die aktuellen Rate-Limit-Header:

httpX-RateLimit-Limit: 100
X-RateLimit-Remaining: 87
X-RateLimit-Reset: 1714378800

→X-RateLimit-Limit — Aktuelles Limit pro Minute.
→X-RateLimit-Remaining — Verbleibende Calls in diesem Fenster.
→X-RateLimit-Reset — Unix-Timestamp, wann das Fenster resettet.

Burst-Verhalten

Anirag erlaubt 2× Burst über 10 Sekunden. Beispiel: Pro-Plan = 100 Queries/min steady, kann kurzfristig 200 Queries in 10 Sekunden absorbieren.

Backoff-Empfehlung

Bei 429 Too Many Requests:

01Retry-After aus dem Response-Header lesen.
02Exponential-Backoff: 1s, 2s, 4s, 8s — max. 4 Retries.
03Nach 4 erfolglosen Retries: Plan-Upgrade prüfen oder Workload verteilen.

Quota-Reset

Monats-Quota resetten am 1. des Monats um 00:00 UTC. Bei Plan-Upgrade greift die neue Quota sofort, der Rest des Monats wird anteilig berechnet.

Workspace-Limits (Enterprise)

Für Enterprise-Pläne können wir Limits pro Workspace setzen — z. B. wenn ein interner Test-Workspace nicht das Production-Volumen mitfressen soll.

Soft-Throttling

Anirag drosselt vor harten Rate-Limits. Bei 80 % Quota: Antworten werden langsamer ausgeliefert (Soft-Throttle), aber nicht abgewiesen. Ab 95 %: Soft-Hint im Response-Header X-RateLimit-Warning.