API
Rate-Limits
Limits pro Plan, Burst-Verhalten, Backoff-Empfehlungen.
Anirag rate-limitet auf zwei Achsen: pro API-Key + pro Workspace.
Limits pro Plan
| Plan | Queries/min | Queries/Monat | Embeddings/Monat | Concurrent Uploads |
|---|---|---|---|---|
| Free | 30 | 10.000 | 100.000 | 2 |
| Pro | 100 | 100.000 | 1.000.000 | 10 |
| Scale | 500 | 500.000 | 5.000.000 | 50 |
| Enterprise | Custom | Custom | Custom | Custom |
Headers
Jede Response enthält die aktuellen Rate-Limit-Header:
httpX-RateLimit-Limit: 100
X-RateLimit-Remaining: 87
X-RateLimit-Reset: 1714378800- →X-RateLimit-Limit — Aktuelles Limit pro Minute.
- →X-RateLimit-Remaining — Verbleibende Calls in diesem Fenster.
- →X-RateLimit-Reset — Unix-Timestamp, wann das Fenster resettet.
Burst-Verhalten
Anirag erlaubt 2× Burst über 10 Sekunden. Beispiel: Pro-Plan = 100 Queries/min steady, kann kurzfristig 200 Queries in 10 Sekunden absorbieren.
Backoff-Empfehlung
Bei 429 Too Many Requests:
- 01Retry-After aus dem Response-Header lesen.
- 02Exponential-Backoff: 1s, 2s, 4s, 8s — max. 4 Retries.
- 03Nach 4 erfolglosen Retries: Plan-Upgrade prüfen oder Workload verteilen.
Quota-Reset
Monats-Quota resetten am 1. des Monats um 00:00 UTC. Bei Plan-Upgrade greift die neue Quota sofort, der Rest des Monats wird anteilig berechnet.
Workspace-Limits (Enterprise)
Für Enterprise-Pläne können wir Limits pro Workspace setzen — z. B. wenn ein interner Test-Workspace nicht das Production-Volumen mitfressen soll.
Soft-Throttling
Anirag drosselt vor harten Rate-Limits. Bei 80 % Quota: Antworten werden langsamer ausgeliefert (Soft-Throttle), aber nicht abgewiesen. Ab 95 %: Soft-Hint im Response-Header X-RateLimit-Warning.