Aller au contenu principal

𝜏-bench: benchmarking AI agents for the real-world

Sierra’s AI research team is on a mission to advance the frontier of conversational AI agents. In this research paper, we present a new benchmark for evaluating AI agents' performance and reliability in real-world settings, with dynamic user and tool interaction.

Télécharger
Tau Bench cover

Découvrez ce que Sierra peut faire pour vous

Découvrez comment créer des expériences client plus performantes et plus humaines avec l’IA.