Technologie
Crédit : VentureBeat
Anthropic a récemment lancé une fonctionnalité de mise en cache des invites sur son API, permettant de mémoriser le contexte entre les appels API et d’éviter ainsi de répéter les invites.
Cette fonctionnalité de mise en cache est actuellement en version bêta publique sur Claude 3.5 Sonnet et Claude 3 Haiku, tandis que le support pour le modèle le plus grand, Opus, sera disponible prochainement.
La mise en cache des invites, expliquée dans un document de 2023, permet aux utilisateurs de conserver des contextes fréquemment utilisés au cours de leurs sessions. Grâce à cette fonctionnalité, les utilisateurs peuvent ajouter des informations supplémentaires sans augmenter les coûts. Cela est particulièrement utile lorsque quelqu’un souhaite envoyer un grand volume de contexte dans une invite et y faire référence dans différentes conversations avec le modèle. Cela permet également aux développeurs et aux autres utilisateurs d’affiner les réponses du modèle de manière plus efficace.
Selon Anthropic, les premiers utilisateurs ont constaté des améliorations significatives en termes de rapidité et de coûts grâce à la mise en cache des invites pour divers cas d’utilisation, allant de l’inclusion d’une base de connaissances complète à des exemples de 100 coups, en passant par l’intégration de chaque échange d’une conversation dans leur invite.
Les cas d’utilisation potentiels incluent la réduction des coûts et de la latence pour des instructions longues et des documents téléchargés pour des agents conversationnels, une autocomplétion de code plus rapide, la fourniture de multiples instructions à des outils de recherche agentiques et l’intégration de documents entiers dans une invite.
Tarification des invites mises en cache
Un des avantages de la mise en cache des invites est la réduction des prix par token. Anthropic a indiqué que l’utilisation des invites mises en cache est « significativement moins coûteuse » que le prix de base des tokens d’entrée.
Pour Claude 3.5 Sonnet, la rédaction d’une invite à mettre en cache coûtera 3,75 $ par million de tokens (MTok), tandis que l’utilisation d’une invite mise en cache coûtera 0,30 $ par MTok. Le prix de base d’une entrée pour le modèle Claude 3.5 Sonnet est de 3 $/MTok, donc en payant un peu plus à l’avance, vous pouvez vous attendre à une économie de 10x si vous utilisez l’invite mise en cache la prochaine fois.
Les utilisateurs de Claude 3 Haiku paieront 0,30 $/MTok pour mettre en cache et 0,03 $/MTok lors de l’utilisation des invites stockées.
Bien que la mise en cache des invites ne soit pas encore disponible pour Claude 3 Opus, Anthropic a déjà publié ses tarifs. Écrire pour mettre en cache coûtera 18,75 $/MTok, mais accéder à l’invite mise en cache coûtera 1,50 $/MTok.
Cependant, comme l’a noté l’influenceur AI Simon Willison sur X, le cache d’Anthropic n’a qu’une durée de vie de 5 minutes et est rafraîchi à chaque utilisation.
Il ne s’agit pas de la première fois qu’Anthropic tente de rivaliser avec d’autres plateformes d’IA par le biais de la tarification. Avant le lancement de la famille de modèles Claude 3, Anthropic avait déjà réduit les prix de ses tokens.
Actuellement, l’entreprise est engagée dans une sorte de « course vers le bas » face à des concurrents tels que Google et OpenAI pour offrir des options à bas prix aux développeurs tiers construisant sur sa plateforme.
Fonctionnalité très demandée
D’autres plateformes proposent une version de la mise en cache des invites. Lamina, un système d’inférence LLM, utilise la mise en cache KV pour réduire le coût des GPU. Une simple recherche dans les forums de développeurs d’OpenAI ou sur GitHub mettra en évidence des questions sur la manière de mettre en cache les invites.
Il est important de noter que la mise en cache des invites n’est pas la même chose que la mémoire des grands modèles de langage. Par exemple, le GPT-4o d’OpenAI propose une mémoire où le modèle se souvient des préférences ou des détails, mais ne stocke pas les invites et les réponses réelles comme le fait la mise en cache des invites.