anirag.io

Concepts

Sources & Connectors

Welche Quellen Anirag indizieren kann — Dokumente, Wikis, Video, Audio, Social, Meeting-Recordings — und wie Transkription läuft.

Anirag akzeptiert deutlich mehr als PDFs. Jede Quelle wird normalisiert, bei Bedarf transkribiert und in Chunks zerlegt — die Antwort-Pipeline behandelt sie alle einheitlich mit Source-Citations.

Unterstützte Quellen

Dokumente und Wikis

QuelleSync-ModusPermissions-MirroringHinweis
PDF / DOCX / MDDirekt-UploadWorkspace-RolleOCR für gescannte PDFs
SharePoint OnlineWebhook-Sync (Live)AD-Gruppen-ACLMicrosoft-Graph-OAuth
ConfluencePolling 5 MinSpace-PermissionsCloud + Data-Center
Google DriveWorkspace-OAuthDrive-PermissionsFolder-Watch
NotionWorkspace-TokenPage-PermissionsDB-Sync via Notion-API

Video-Plattformen

QuelleSync-ModusTranskriptionHinweis
YouTube · VideoEinzelne URLWhisper-EUCaptions falls vorhanden
YouTube · ChannelRSS-Auto-Monitor (15 Min)Whisper-EUNeue Uploads automatisch
VimeoShowcase + Privacy-TokenWhisper-EUPrivate Videos via OAuth
LoomWorkspace-LibraryWhisper-EUAuto-Sync nach Recording
MP4 / MKV / MOVDirekt-Upload (max 5 GB)Whisper-EUSpeaker-Diarization optional

Meeting-Recordings

QuelleSync-ModusTranskriptionHinweis
Zoom CloudOAuth + WebhookWhisper-EUAuto-Index nach Meeting-Ende
Microsoft TeamsStream + Recording-FolderWhisper-EUChannel- + Meeting-Recordings
Google MeetWorkspace-Recording-FolderWhisper-EUDrive-Auto-Watch

Audio + Podcast

QuelleSync-ModusTranskriptionHinweis
RSS-Feed (universal)Polling 30 MinWhisper-EUApple, Spotify, Eigen-Hosts
MP3 / M4A / WAVDirekt-Upload (max 2 GB)Whisper-EUmit Speaker-Diarization

Social-Video

QuelleSync-ModusTranskriptionHinweis
TikTokAccount-Monitor (Business)Whisper-EUReels-Texte als Metadata
InstagramBusiness-TokenWhisper-EUReels + IGTV
LinkedInOAuth (Page + Personal)Whisper-EUVideo-Posts + Live-VODs

Transkription — was unter der Haube läuft

textVideo/Audio
   │
   ├─→ ffmpeg-Audio-Extract (16kHz mono)
   │
   ├─→ Whisper-large-v3 (EU-Region: eu-fra1)
   │     ├─ Sprach-Erkennung (99 Sprachen)
   │     ├─ Speaker-Diarization (optional)
   │     └─ Word-level Timestamps
   │
   ├─→ Transkript-Chunking (512 Tokens, 64 Overlap)
   │
   └─→ Embedding (text-embedding-3-small standard)

API: Source hinzufügen

bashPOST /v1/sources
Authorization: Bearer ar_live_...
Content-Type: application/json

{
  "workspace": "ops",
  "type": "youtube",
  "url": "https://youtube.com/watch?v=dQw4w9WgXcQ",
  "options": {
    "language": "auto",
    "diarization": true,
    "embed_after_transcribe": true,
    "transcript_only": false
  }
}

Response

json{
  "id": "src_01HKQR...",
  "type": "youtube",
  "status": "queued",
  "estimated_minutes": 4,
  "estimated_cost_eur": 0.032,
  "webhook_event": "source.indexed"
}

Channel-Monitoring (YouTube, Podcast, TikTok)

Statt einzelne URLs hochzuladen, kann ein Channel als Source angelegt werden — Anirag prüft alle 15-30 Min auf neue Uploads und indiziert sie automatisch.

bashPOST /v1/sources
{
  "workspace": "ops",
  "type": "youtube_channel",
  "url": "https://youtube.com/c/AniragKanal",
  "options": {
    "max_videos_per_run": 50,
    "filter_min_duration_seconds": 60,
    "filter_published_after": "2026-01-01"
  }
}

Kosten

OperationPreis
Audio-Transkription0,006 €/Minute
Video-Transkription0,008 €/Minute
Speaker-Diarization+0,002 €/Minute
Embedding (Standard)0,02 €/1M Tokens
Storage (Transkript+Emb.)0,30 €/GB/Monat

Beispielkalkulation: 1 Stunde YouTube-Webinar

  • Transkription: 60 × 0,008 € = 0,48 €
  • Embedding (~12 k Tokens): 0,012 × 0,02 € = 0,0002 €
  • Storage (~2 MB): vernachlässigbar
  • Total: ~0,48 € für ein vollständig indexiertes 1-Stunden-Webinar.

Permissions

Bei Quellen mit nativen ACLs (SharePoint, Drive, Notion) übernimmt Anirag die Berechtigungen automatisch (Permissions-Mirroring). Bei Quellen ohne ACL (YouTube-Channel, Podcast-RSS) gilt die Workspace-Rolle als Default — Sie können pro Source auch eine eigene ACL setzen:

bashPATCH /v1/sources/{id}
{
  "acl": ["group:marketing", "group:executives"]
}

DSGVO-Hinweise zu Social-Quellen

Bei TikTok-, Instagram- oder LinkedIn-Account-Monitoring gelten die jeweiligen Plattform-AGB. Anirag indiziert nur öffentlich zugängliche Inhalte oder Inhalte, auf die der Workspace-Besitzer Zugriffsrechte nachweisen kann (Business-Token, eigener Account). Personenbezogene Daten in Kommentaren werden auf Wunsch automatisch pseudonymisiert.

Was kommt als nächstes

  • Embeddings — Chunking-Strategie und Modell-Wahl.
  • Webhooks — Event source.indexed für eigene Pipelines.
  • Errors — Fehler-Codes für Transkription + Source-Sync.