Concepts
Sources & Connectors
Welche Quellen Anirag indizieren kann — Dokumente, Wikis, Video, Audio, Social, Meeting-Recordings — und wie Transkription läuft.
Anirag akzeptiert deutlich mehr als PDFs. Jede Quelle wird normalisiert, bei Bedarf transkribiert und in Chunks zerlegt — die Antwort-Pipeline behandelt sie alle einheitlich mit Source-Citations.
Unterstützte Quellen
Dokumente und Wikis
| Quelle | Sync-Modus | Permissions-Mirroring | Hinweis |
|---|---|---|---|
| PDF / DOCX / MD | Direkt-Upload | Workspace-Rolle | OCR für gescannte PDFs |
| SharePoint Online | Webhook-Sync (Live) | AD-Gruppen-ACL | Microsoft-Graph-OAuth |
| Confluence | Polling 5 Min | Space-Permissions | Cloud + Data-Center |
| Google Drive | Workspace-OAuth | Drive-Permissions | Folder-Watch |
| Notion | Workspace-Token | Page-Permissions | DB-Sync via Notion-API |
Video-Plattformen
| Quelle | Sync-Modus | Transkription | Hinweis |
|---|---|---|---|
| YouTube · Video | Einzelne URL | Whisper-EU | Captions falls vorhanden |
| YouTube · Channel | RSS-Auto-Monitor (15 Min) | Whisper-EU | Neue Uploads automatisch |
| Vimeo | Showcase + Privacy-Token | Whisper-EU | Private Videos via OAuth |
| Loom | Workspace-Library | Whisper-EU | Auto-Sync nach Recording |
| MP4 / MKV / MOV | Direkt-Upload (max 5 GB) | Whisper-EU | Speaker-Diarization optional |
Meeting-Recordings
| Quelle | Sync-Modus | Transkription | Hinweis |
|---|---|---|---|
| Zoom Cloud | OAuth + Webhook | Whisper-EU | Auto-Index nach Meeting-Ende |
| Microsoft Teams | Stream + Recording-Folder | Whisper-EU | Channel- + Meeting-Recordings |
| Google Meet | Workspace-Recording-Folder | Whisper-EU | Drive-Auto-Watch |
Audio + Podcast
| Quelle | Sync-Modus | Transkription | Hinweis |
|---|---|---|---|
| RSS-Feed (universal) | Polling 30 Min | Whisper-EU | Apple, Spotify, Eigen-Hosts |
| MP3 / M4A / WAV | Direkt-Upload (max 2 GB) | Whisper-EU | mit Speaker-Diarization |
Social-Video
| Quelle | Sync-Modus | Transkription | Hinweis |
|---|---|---|---|
| TikTok | Account-Monitor (Business) | Whisper-EU | Reels-Texte als Metadata |
| Business-Token | Whisper-EU | Reels + IGTV | |
| OAuth (Page + Personal) | Whisper-EU | Video-Posts + Live-VODs |
Transkription — was unter der Haube läuft
textVideo/Audio
│
├─→ ffmpeg-Audio-Extract (16kHz mono)
│
├─→ Whisper-large-v3 (EU-Region: eu-fra1)
│ ├─ Sprach-Erkennung (99 Sprachen)
│ ├─ Speaker-Diarization (optional)
│ └─ Word-level Timestamps
│
├─→ Transkript-Chunking (512 Tokens, 64 Overlap)
│
└─→ Embedding (text-embedding-3-small standard)API: Source hinzufügen
bashPOST /v1/sources
Authorization: Bearer ar_live_...
Content-Type: application/json
{
"workspace": "ops",
"type": "youtube",
"url": "https://youtube.com/watch?v=dQw4w9WgXcQ",
"options": {
"language": "auto",
"diarization": true,
"embed_after_transcribe": true,
"transcript_only": false
}
}Response
json{
"id": "src_01HKQR...",
"type": "youtube",
"status": "queued",
"estimated_minutes": 4,
"estimated_cost_eur": 0.032,
"webhook_event": "source.indexed"
}Channel-Monitoring (YouTube, Podcast, TikTok)
Statt einzelne URLs hochzuladen, kann ein Channel als Source angelegt werden — Anirag prüft alle 15-30 Min auf neue Uploads und indiziert sie automatisch.
bashPOST /v1/sources
{
"workspace": "ops",
"type": "youtube_channel",
"url": "https://youtube.com/c/AniragKanal",
"options": {
"max_videos_per_run": 50,
"filter_min_duration_seconds": 60,
"filter_published_after": "2026-01-01"
}
}Kosten
| Operation | Preis |
|---|---|
| Audio-Transkription | 0,006 €/Minute |
| Video-Transkription | 0,008 €/Minute |
| Speaker-Diarization | +0,002 €/Minute |
| Embedding (Standard) | 0,02 €/1M Tokens |
| Storage (Transkript+Emb.) | 0,30 €/GB/Monat |
Beispielkalkulation: 1 Stunde YouTube-Webinar
- →Transkription: 60 × 0,008 € = 0,48 €
- →Embedding (~12 k Tokens): 0,012 × 0,02 € = 0,0002 €
- →Storage (~2 MB): vernachlässigbar
- →Total: ~0,48 € für ein vollständig indexiertes 1-Stunden-Webinar.
Permissions
Bei Quellen mit nativen ACLs (SharePoint, Drive, Notion) übernimmt Anirag die Berechtigungen automatisch (Permissions-Mirroring). Bei Quellen ohne ACL (YouTube-Channel, Podcast-RSS) gilt die Workspace-Rolle als Default — Sie können pro Source auch eine eigene ACL setzen:
bashPATCH /v1/sources/{id}
{
"acl": ["group:marketing", "group:executives"]
}DSGVO-Hinweise zu Social-Quellen
Bei TikTok-, Instagram- oder LinkedIn-Account-Monitoring gelten die jeweiligen Plattform-AGB. Anirag indiziert nur öffentlich zugängliche Inhalte oder Inhalte, auf die der Workspace-Besitzer Zugriffsrechte nachweisen kann (Business-Token, eigener Account). Personenbezogene Daten in Kommentaren werden auf Wunsch automatisch pseudonymisiert.
Was kommt als nächstes
- →Embeddings — Chunking-Strategie und Modell-Wahl.
- →Webhooks — Event
source.indexedfür eigene Pipelines. - →Errors — Fehler-Codes für Transkription + Source-Sync.