Concepts

Embeddings

Chunking-Strategie, Modell-Wahl, Re-Embedding, Custom-Modelle.

Embeddings werden bei Upload automatisch erzeugt und in Qdrant gespeichert.

Default-Strategie

→Chunker: Recursive splitter mit 512 Tokens / 64 Tokens Overlap.
→Modell: text-embedding-3-small (OpenAI Ireland) oder bge-m3 (lokal).
→Distance: Cosine.
→Dimensions: 1536 (small) oder 3072 (large).

Modell-Wahl

Modell	Region	Dimensions	Kosten/1M Tokens	Stärken
text-embedding-3-small	Ireland	1536	$0,02	Default, schnell, günstig
text-embedding-3-large	Ireland	3072	$0,13	Höhere Qualität, mehr Speicher
voyage-3-large	EU	1024	$0,12	Code + Multilingual
mistral-embed	FR	1024	€0,10	EU-only, gut für DE-Inhalte
bge-m3	Self-Host	1024	0 (Eigenkosten)	On-Prem-Modus

Wechsel des Embedding-Modells

bashPATCH /v1/workspaces/{id}
{
  "embedding_model": "voyage-3-large"
}

Re-Embedding läuft asynchron. Während der Re-Index-Phase sind beide Modelle aktiv (Old + New). Cut-Over erfolgt automatisch, wenn alle Chunks neu indexiert sind. Dauer: ~10 Min pro 100k Chunks.

Custom-Embedding-Modelle (Enterprise)

Sie können eigene fine-tuned Embedding-Modelle einbinden, z. B. für medizinische Codes oder juristische Klassifikation:

bashPOST /v1/workspaces/{id}/custom-embeddings
{
  "name": "medizin-fine-tune-v1",
  "endpoint": "https://your-modelhost.example/embed",
  "auth_header": "Bearer ...",
  "dimensions": 1024
}

Anirag ruft Ihren Endpoint pro Embedding auf. Region und Latency müssen Sie selbst sicherstellen.

Permissions im Embedding

Pro Chunk wird die ACL des Quell-Dokuments mit-vererbt. Bei Query-Time wird der User-Token gegen die ACL gefiltert. Siehe Datenfluss für Details.