Concepts
Embeddings
Chunking-Strategie, Modell-Wahl, Re-Embedding, Custom-Modelle.
Embeddings werden bei Upload automatisch erzeugt und in Qdrant gespeichert.
Default-Strategie
- →Chunker: Recursive splitter mit 512 Tokens / 64 Tokens Overlap.
- →Modell:
text-embedding-3-small(OpenAI Ireland) oderbge-m3(lokal). - →Distance: Cosine.
- →Dimensions: 1536 (small) oder 3072 (large).
Modell-Wahl
| Modell | Region | Dimensions | Kosten/1M Tokens | Stärken |
|---|---|---|---|---|
| text-embedding-3-small | Ireland | 1536 | $0,02 | Default, schnell, günstig |
| text-embedding-3-large | Ireland | 3072 | $0,13 | Höhere Qualität, mehr Speicher |
| voyage-3-large | EU | 1024 | $0,12 | Code + Multilingual |
| mistral-embed | FR | 1024 | €0,10 | EU-only, gut für DE-Inhalte |
| bge-m3 | Self-Host | 1024 | 0 (Eigenkosten) | On-Prem-Modus |
Wechsel des Embedding-Modells
bashPATCH /v1/workspaces/{id}
{
"embedding_model": "voyage-3-large"
}Re-Embedding läuft asynchron. Während der Re-Index-Phase sind beide Modelle aktiv (Old + New). Cut-Over erfolgt automatisch, wenn alle Chunks neu indexiert sind. Dauer: ~10 Min pro 100k Chunks.
Custom-Embedding-Modelle (Enterprise)
Sie können eigene fine-tuned Embedding-Modelle einbinden, z. B. für medizinische Codes oder juristische Klassifikation:
bashPOST /v1/workspaces/{id}/custom-embeddings
{
"name": "medizin-fine-tune-v1",
"endpoint": "https://your-modelhost.example/embed",
"auth_header": "Bearer ...",
"dimensions": 1024
}Anirag ruft Ihren Endpoint pro Embedding auf. Region und Latency müssen Sie selbst sicherstellen.
Permissions im Embedding
Pro Chunk wird die ACL des Quell-Dokuments mit-vererbt. Bei Query-Time wird der User-Token gegen die ACL gefiltert. Siehe Datenfluss für Details.