Wie ein Supportbot P95 halbierte
Durch serverseitiges Token-Streaming, frühe Titelvorschläge und paralleles Laden relevanter Wissenssegmente sank die gefühlte Wartezeit stark, während P95-Latenzen messbar halbiert wurden. Nutzer blieben länger in der Sitzung, akzeptierten Antworten öfter und bewerteten die Erfahrung höher, obwohl das Modell unverändert blieb.