Warum Deflection Rate die falsche Metrik für Chatbots ist

Jeder Chatbot-Anbieter wirbt mit Deflection Rate. „Unser Bot löst 80% aller Anfragen automatisch." Klingt beeindruckend. Aber die Zahl verbirgt ein fundamentales Problem: Sie misst nicht ob die Antwort richtig war.

Deflection Rate zählt wie viele Kunden aufgehört haben zu fragen nachdem der Bot geantwortet hat. Nicht wie viele eine korrekte Antwort bekommen haben. Das ist ein Unterschied der Unternehmen Geld, Vertrauen und ab August 2026 auch Compliance kosten kann.

Was Deflection Rate wirklich misst

Stellen Sie sich zwei Szenarien vor:

Szenario A: Richtige Antwort

Kunde: Wie lange dauert die Lieferung?

Bot: 3-5 Werktage mit DHL.

Kunde: (zufrieden, schließt den Chat)

→ Deflection Rate: ✓ Resolved. Accuracy: ✓ Korrekt.

Szenario B: Falsche Antwort

Kunde: Kann ich das Sofa zurückgeben?

Bot: Ja, Sie haben 30 Tage Rückgaberecht für alle Artikel.

Kunde: (glaubt es, schließt den Chat)

→ Deflection Rate: ✓ Resolved. Accuracy: ✗ Falsch — Sperrgut ist von der Retoure ausgeschlossen.

Beide Szenarien sehen in der Deflection Rate identisch aus: Ticket resolved, kein menschlicher Agent nötig. Aber in Szenario B hat der Kunde eine falsche Information bekommen. Wenn er das Sofa zurückschickt und erfahren muss dass es nicht geht, ist das Vertrauen zerstört — und der Support-Aufwand verdoppelt.

Der strukturelle Interessenkonflikt

Hier wird es unangenehm: Chatbot-Anbieter verdienen mehr wenn der Bot mehr antwortet. Nicht wenn er richtiger antwortet.

Manche Anbieter rechnen sogar per „resolved conversation" ab. Das bedeutet: Je öfter der Bot antwortet — egal ob richtig oder falsch — desto höher die Rechnung. Das Geschäftsmodell belohnt Quantität, nicht Qualität.

Das ist kein böser Wille. Es ist ein Systemfehler. Deflection Rate war eine sinnvolle Metrik als Chatbots nur vordefinierte FAQ-Antworten lieferten. Bei generativen AI-Bots die frei formulieren ist sie gefährlich — weil der Bot jetzt kreativ falsch liegen kann, und die Metrik es nicht erkennt.

Die Analogie

Deflection Rate ist wie wenn ein Arzt daran gemessen wird wie viele Patienten seine Praxis verlassen — nicht ob sie gesund geworden sind. Die Metrik belohnt „der Patient hat aufgehört zu fragen" statt „der Patient hat die richtige Behandlung bekommen."

Was stattdessen gemessen werden sollte

Deflection Rate

Wie viele Kunden haben aufgehört zu fragen?

Misst Quantität. Belohnt Aufgeben. Bestraft Nachfragen. Zeigt nicht ob die Antwort stimmte.

Per-Topic Accuracy

Wie oft lag der Bot in dieser Kategorie richtig?

Misst Qualität. Belohnt Korrektheit. Zeigt Schwächen pro Thema. Verifizierbar gegen echte Daten.

Per-Topic Accuracy bedeutet: Wie oft gibt der Bot die faktisch richtige Antwort, gemessen pro Themenkategorie — Shipping, Retouren, Produkte, Pricing — und verifiziert gegen die echte Knowledge Base des Unternehmens.

Der Unterschied ist fundamental. Deflection Rate sagt: „Der Kunde hat nicht weiter gefragt." Per-Topic Accuracy sagt: „Die Antwort stimmt mit unserer FAQ überein." Das eine ist eine Annahme. Das andere ist ein Fakt.

Warum das jetzt wichtig wird

Drei Gründe warum Unternehmen jetzt über Accuracy nachdenken müssen:

1. EU AI Act. Ab August 2026 verlangt der EU AI Act Monitoring und Dokumentation für AI-Systeme. „Unser Bot hat 80% Deflection Rate" ist kein Compliance-Nachweis. „Unser Bot hat 92% Accuracy bei Shipping und 78% bei Retouren — hier sind die Daten" ist einer.

2. Haftungsrisiko. Wenn Ihr Bot einem Allergiker sagt ein Produkt sei unbedenklich und der Kunde ins Krankenhaus kommt — haftet nicht der Bot-Anbieter. Sie haften. Und „wir hatten eine hohe Deflection Rate" ist keine Verteidigung.

3. Kundenvertrauen. 80% der Chatbot-Nutzer berichten über Frustration durch falsche Antworten. Ein Chevrolet-Bot hat ein Auto für $1 „verkauft" weil er einen Witz nicht verstanden hat. Ein Amazon-Bot hat Retouren versprochen die nicht existierten. Jeder dieser Fälle hatte eine hervorragende Deflection Rate.

Wie Per-Topic Accuracy funktioniert

Das Prinzip ist einfach: Jede Bot-Antwort wird einer Themenkategorie zugeordnet und gegen die echte Knowledge Base des Unternehmens geprüft.

Der Bot sagt: „Lieferzeit 1-2 Tage." Die FAQ sagt: „3-5 Werktage." Das ist ein Mismatch in der Kategorie Shipping. Nach hunderten solcher Vergleiche entsteht ein Score pro Kategorie — nicht eine einzelne Zahl für den ganzen Bot, sondern ein differenziertes Bild.

Vielleicht ist Ihr Bot bei Shipping hervorragend (92%) aber bei Produktfragen schwach (54%). Das wissen Sie nicht wenn Sie nur Deflection Rate messen. Mit Per-Topic Accuracy wissen Sie es — und können gezielt verbessern.

Der Score aktualisiert sich laufend. Jede neue Interaktion, jedes Kundenfeedback fließt ein. Wenn der Bot bei einem Thema schlechter wird — automatischer Alert. Wenn er besser wird — sichtbar im Dashboard.

Was das für Sie bedeutet

Fragen Sie Ihren Chatbot-Anbieter: „Wie messen Sie Accuracy pro Themenkategorie?" Wenn die Antwort „Deflection Rate" ist, wissen Sie jetzt was das bedeutet.

Die Frage ist nicht ob Ihr Bot Fehler macht. Jeder Bot macht Fehler. Die Frage ist ob Sie wissen wo und wie oft — und ob Sie es dokumentieren können wenn die Behörde fragt.

Tim von Sachs ist AI-Entwickler und Gründer von Anima — einem Audit- und Monitoring-Tool das Per-Topic Accuracy für Chatbots misst. Anfragen: tim@animacompliance.com