anirag.io

API

Rate-Limits

Limits pro Plan, Burst-Verhalten, Backoff-Empfehlungen.

Anirag rate-limitet auf zwei Achsen: pro API-Key + pro Workspace.

Limits pro Plan

PlanQueries/minQueries/MonatEmbeddings/MonatConcurrent Uploads
Free3010.000100.0002
Pro100100.0001.000.00010
Scale500500.0005.000.00050
EnterpriseCustomCustomCustomCustom

Headers

Jede Response enthält die aktuellen Rate-Limit-Header:

httpX-RateLimit-Limit: 100
X-RateLimit-Remaining: 87
X-RateLimit-Reset: 1714378800
  • X-RateLimit-Limit — Aktuelles Limit pro Minute.
  • X-RateLimit-Remaining — Verbleibende Calls in diesem Fenster.
  • X-RateLimit-Reset — Unix-Timestamp, wann das Fenster resettet.

Burst-Verhalten

Anirag erlaubt 2× Burst über 10 Sekunden. Beispiel: Pro-Plan = 100 Queries/min steady, kann kurzfristig 200 Queries in 10 Sekunden absorbieren.

Backoff-Empfehlung

Bei 429 Too Many Requests:

  1. 01Retry-After aus dem Response-Header lesen.
  2. 02Exponential-Backoff: 1s, 2s, 4s, 8s — max. 4 Retries.
  3. 03Nach 4 erfolglosen Retries: Plan-Upgrade prüfen oder Workload verteilen.

Quota-Reset

Monats-Quota resetten am 1. des Monats um 00:00 UTC. Bei Plan-Upgrade greift die neue Quota sofort, der Rest des Monats wird anteilig berechnet.

Workspace-Limits (Enterprise)

Für Enterprise-Pläne können wir Limits pro Workspace setzen — z. B. wenn ein interner Test-Workspace nicht das Production-Volumen mitfressen soll.

Soft-Throttling

Anirag drosselt vor harten Rate-Limits. Bei 80 % Quota: Antworten werden langsamer ausgeliefert (Soft-Throttle), aber nicht abgewiesen. Ab 95 %: Soft-Hint im Response-Header X-RateLimit-Warning.