anirag.io

Concepts

Embeddings

Chunking-Strategie, Modell-Wahl, Re-Embedding, Custom-Modelle.

Embeddings werden bei Upload automatisch erzeugt und in Qdrant gespeichert.

Default-Strategie

  • Chunker: Recursive splitter mit 512 Tokens / 64 Tokens Overlap.
  • Modell: text-embedding-3-small (OpenAI Ireland) oder bge-m3 (lokal).
  • Distance: Cosine.
  • Dimensions: 1536 (small) oder 3072 (large).

Modell-Wahl

ModellRegionDimensionsKosten/1M TokensStärken
text-embedding-3-smallIreland1536$0,02Default, schnell, günstig
text-embedding-3-largeIreland3072$0,13Höhere Qualität, mehr Speicher
voyage-3-largeEU1024$0,12Code + Multilingual
mistral-embedFR1024€0,10EU-only, gut für DE-Inhalte
bge-m3Self-Host10240 (Eigenkosten)On-Prem-Modus

Wechsel des Embedding-Modells

bashPATCH /v1/workspaces/{id}
{
  "embedding_model": "voyage-3-large"
}

Re-Embedding läuft asynchron. Während der Re-Index-Phase sind beide Modelle aktiv (Old + New). Cut-Over erfolgt automatisch, wenn alle Chunks neu indexiert sind. Dauer: ~10 Min pro 100k Chunks.

Custom-Embedding-Modelle (Enterprise)

Sie können eigene fine-tuned Embedding-Modelle einbinden, z. B. für medizinische Codes oder juristische Klassifikation:

bashPOST /v1/workspaces/{id}/custom-embeddings
{
  "name": "medizin-fine-tune-v1",
  "endpoint": "https://your-modelhost.example/embed",
  "auth_header": "Bearer ...",
  "dimensions": 1024
}

Anirag ruft Ihren Endpoint pro Embedding auf. Region und Latency müssen Sie selbst sicherstellen.

Permissions im Embedding

Pro Chunk wird die ACL des Quell-Dokuments mit-vererbt. Bei Query-Time wird der User-Token gegen die ACL gefiltert. Siehe Datenfluss für Details.