KI-Telefon-Agenten: Technische Implementierung Schritt für Schritt

Von der SIP-Integration bis zur Spracherkennung: Alle technischen Komponenten für produktive KI-Telefon-Agenten. Mit Stack-Empfehlungen und Architektur-Patterns.

Architektur-Überblick

Ein KI-Telefon-Agent ist kein einzelnes Tool, sondern ein System aus mehreren spezialisierten Komponenten. Jede übernimmt eine spezifische Aufgabe – von der Telefonie-Anbindung über die Spracherkennung bis zur Antwortgenerierung.

📞 Telefonie
SIP/PSTN
🎤 STT
Whisper
🧠 LLM
GPT-4
🔊 TTS
Azure
📞

Grundarchitektur: Sprache → Text → Verarbeitung → Text → Sprache

Die vier Kernkomponenten:

  1. Telefonie-Anbindung: Verbindung zum Telefonnetz via SIP-Trunk oder Cloud-Telefonie
  2. Speech-to-Text (STT): Wandelt gesprochene Sprache in Text um
  3. Large Language Model (LLM): Versteht Kontext, trifft Entscheidungen, generiert Antworten
  4. Text-to-Speech (TTS): Wandelt die Textantwort in natürliche Sprache um

Telefonie-Anbindung

Die Telefonie-Schicht ist das Fundament. Hier gibt es verschiedene Ansätze:

Option 1: SIP-Trunk (Empfohlen für DE)

Ein SIP-Trunk verbindet Ihre Infrastruktur direkt mit dem Telefonnetz. Volle Kontrolle, eigene Nummern.

  • Anbieter Deutschland: sipgate, Placetel, easybell, Deutsche Telefon
  • Vorteile: Volle Kontrolle, günstige Minutenpreise, DSGVO-konform
  • Nachteile: Technisches Setup erforderlich

Option 2: Cloud-Telefonie-APIs

Dienste wie Twilio oder Vonage bieten APIs für Telefonie – schneller Start, aber oft US-basiert.

Option 3: Voice-AI-Plattformen

Vapi.ai, Retell.ai oder Bland.ai bieten komplette Voice-AI-Lösungen. Schnellster Start, aber weniger Kontrolle.

DSGVO-Hinweis: Bei US-Anbietern werden Gesprächsdaten in die USA übertragen. Für DSGVO-konforme Anwendungen: Europäische SIP-Anbieter + Self-Hosted-Komponenten oder Azure in EU-Rechenzentren.

Speech-to-Text (STT)

Die Spracherkennung ist kritisch – Fehler hier pflanzen sich durch die gesamte Pipeline fort.

Lösung Qualität Latenz EU-Hosting
OpenAI Whisper Sehr gut ~400ms Nein (USA)
Azure Speech Gut ~200ms Ja
Whisper Self-Hosted Sehr gut ~300ms Ja
Deepgram Sehr gut ~100ms Nein

Empfehlung: Whisper

OpenAI Whisper bietet die beste Qualität, besonders bei Dialekten und undeutlicher Sprache. Für DSGVO: Azure OpenAI Whisper oder Self-Hosted.

# Whisper API Aufruf (Python) import openai audio_file = open("anruf.wav", "rb") transcript = openai.Audio.transcribe( model="whisper-1", file=audio_file, language="de" )

LLM-Integration

Das LLM ist das "Gehirn" des Telefon-Agenten – es versteht Anfragen, entscheidet und kann Tools aufrufen.

Modellauswahl für Telefonie

  • GPT-4o-mini: Beste Balance aus Qualität und Geschwindigkeit
  • GPT-4o: Höchste Qualität, für komplexe Gespräche
  • Gemini Flash: Sehr schnell, für einfache Use Cases

Latenz-Tipp: GPT-4o-mini für Standardanfragen, GPT-4 nur bei komplexen Entscheidungen. Hybridansatz spart Latenz und Kosten.

System Prompt für Telefon-Agenten

Du bist ein freundlicher Telefon-Assistent. WICHTIG FÜR TELEFONGESPRÄCHE: - Halte Antworten KURZ (max. 2-3 Sätze) - Sprich natürlich, nicht wie geschriebener Text - Bestätige Verständnis bevor du handelst - Bei Unklarheiten: Nachfragen statt raten ESKALATION wenn: - Anrufer explizit einen Menschen möchte - Du die Anfrage nach 2x nicht verstehst - Beschwerden oder sensible Themen

Text-to-Speech (TTS)

Die Sprachausgabe entscheidet, wie "menschlich" der Agent klingt.

Lösung Qualität Deutsche Stimmen EU-Hosting
Azure Neural TTS Exzellent 20+ Ja
ElevenLabs Exzellent Multilingual Nein
OpenAI TTS Sehr gut 6 Nein

Empfehlung: Azure Neural TTS

Beste Kombination aus Qualität, deutschen Stimmen und EU-Hosting. Die Stimmen "Katja" und "Conrad" klingen sehr natürlich.

Latenz-Optimierung

Menschen erwarten Antworten in 300-500ms. Das ist die größte technische Herausforderung.

Typische Latenz-Aufschlüsselung: ├── STT (Whisper): 300-500ms ├── LLM (GPT-4o-mini): 200-400ms ├── TTS (Azure): 100-150ms ├── Netzwerk: 50-100ms └── GESAMT: 650-1150ms

Optimierungsstrategien

  1. Streaming TTS: Sprachausgabe starten, bevor die Antwort komplett ist
  2. Schnellere Modelle: GPT-4o-mini statt GPT-4
  3. Filler Sounds: "Hmm" oder "Moment" kauft 500ms Zeit
  4. Interruption Handling: Agent kann unterbrochen werden

Empfohlener Stack (DSGVO-konform)

Komponente Empfehlung Alternative
Telefonie sipgate Trunk Placetel, easybell
STT Azure OpenAI Whisper Whisper Self-Hosted
LLM Azure OpenAI GPT-4o Claude (Anthropic)
TTS Azure Neural TTS Google Cloud TTS
Orchestrierung n8n (Self-Hosted) Custom Python

Kosten: Bei 1.000 Minuten/Monat: ~50-80€ API-Kosten + Hosting. Hauptkostentreiber ist das LLM.

Fazit

Ein produktiver KI-Telefon-Agent erfordert die Integration mehrerer Komponenten. Die Technologie ist reif – der Schlüssel liegt in der richtigen Architektur und Latenz-Optimierung.

Starten Sie mit einem klar abgegrenzten Use Case (z.B. Öffnungszeiten-Auskunft), validieren Sie mit echten Testanrufen, und erweitern Sie schrittweise.

NK

NetSys KI

Wir implementieren KI-Telefon-Agenten für Unternehmen und Kommunen – DSGVO-konform und praxiserprobt.