Technologie

illustration d'un robot humanoïde en profil avec une coupe révélant des circuits

Crédit : VentureBeat

Anthropic a récemment lancé une fonctionnalité de mise en cache des invites sur son API, permettant de mémoriser le contexte entre les appels API et d’éviter ainsi de répéter les invites.

Cette fonctionnalité de mise en cache est actuellement en version bêta publique sur Claude 3.5 Sonnet et Claude 3 Haiku, tandis que le support pour le modèle le plus grand, Opus, sera disponible prochainement.

La mise en cache des invites, expliquée dans un document de 2023, permet aux utilisateurs de conserver des contextes fréquemment utilisés au cours de leurs sessions. Grâce à cette fonctionnalité, les utilisateurs peuvent ajouter des informations supplémentaires sans augmenter les coûts. Cela est particulièrement utile lorsque quelqu’un souhaite envoyer un grand volume de contexte dans une invite et y faire référence dans différentes conversations avec le modèle. Cela permet également aux développeurs et aux autres utilisateurs d’affiner les réponses du modèle de manière plus efficace.

Selon Anthropic, les premiers utilisateurs ont constaté des améliorations significatives en termes de rapidité et de coûts grâce à la mise en cache des invites pour divers cas d’utilisation, allant de l’inclusion d’une base de connaissances complète à des exemples de 100 coups, en passant par l’intégration de chaque échange d’une conversation dans leur invite.

Les cas d’utilisation potentiels incluent la réduction des coûts et de la latence pour des instructions longues et des documents téléchargés pour des agents conversationnels, une autocomplétion de code plus rapide, la fourniture de multiples instructions à des outils de recherche agentiques et l’intégration de documents entiers dans une invite.

Anthropic (@AnthropicAI) vient d’annoncer une avancée majeure pour leur API : la mise en cache des invites.

Pensez à la mise en cache des invites comme ceci : vous êtes dans un café. La première fois que vous visitez, vous devez expliquer votre commande au barista. Mais la prochaine fois ? Il vous suffit de dire « la d’habitude ».

C’est la mise en cache des invites… pic.twitter.com/ASB1nkdY4U

Tarification des invites mises en cache

Un des avantages de la mise en cache des invites est la réduction des prix par token. Anthropic a indiqué que l’utilisation des invites mises en cache est « significativement moins coûteuse » que le prix de base des tokens d’entrée.

Pour Claude 3.5 Sonnet, la rédaction d’une invite à mettre en cache coûtera 3,75 $ par million de tokens (MTok), tandis que l’utilisation d’une invite mise en cache coûtera 0,30 $ par MTok. Le prix de base d’une entrée pour le modèle Claude 3.5 Sonnet est de 3 $/MTok, donc en payant un peu plus à l’avance, vous pouvez vous attendre à une économie de 10x si vous utilisez l’invite mise en cache la prochaine fois.

Nous venons de déployer la mise en cache des invites dans l’API d’Anthropic.

Elle réduit les coûts d’entrée de l’API jusqu’à 90 % et diminue la latence jusqu’à 80 %.

Voici comment cela fonctionne :

En ce qui concerne les coûts, l’appel API initial est légèrement plus cher (pour tenir compte du stockage de l’invite dans le cache), mais tous les appels suivants coûtent un dixième du prix normal. pic.twitter.com/3cPkz8c0rm

Les utilisateurs de Claude 3 Haiku paieront 0,30 $/MTok pour mettre en cache et 0,03 $/MTok lors de l’utilisation des invites stockées.

Bien que la mise en cache des invites ne soit pas encore disponible pour Claude 3 Opus, Anthropic a déjà publié ses tarifs. Écrire pour mettre en cache coûtera 18,75 $/MTok, mais accéder à l’invite mise en cache coûtera 1,50 $/MTok.

Cependant, comme l’a noté l’influenceur AI Simon Willison sur X, le cache d’Anthropic n’a qu’une durée de vie de 5 minutes et est rafraîchi à chaque utilisation.

Ressemble à la mise en cache de contexte de Gemini, mais le modèle de tarification d’Anthropic est différent.

Gemini facture 4,50 $/million de tokens/heure pour garder le cache de contexte actif.

Anthropic facture pour les écritures de cache, et « le cache a une durée de vie de 5 minutes, rafraîchi chaque fois que le contenu mis en cache est utilisé » https://t.co/rfMQE2J3Rs

Il ne s’agit pas de la première fois qu’Anthropic tente de rivaliser avec d’autres plateformes d’IA par le biais de la tarification. Avant le lancement de la famille de modèles Claude 3, Anthropic avait déjà réduit les prix de ses tokens.

Actuellement, l’entreprise est engagée dans une sorte de « course vers le bas » face à des concurrents tels que Google et OpenAI pour offrir des options à bas prix aux développeurs tiers construisant sur sa plateforme.

Fonctionnalité très demandée

D’autres plateformes proposent une version de la mise en cache des invites. Lamina, un système d’inférence LLM, utilise la mise en cache KV pour réduire le coût des GPU. Une simple recherche dans les forums de développeurs d’OpenAI ou sur GitHub mettra en évidence des questions sur la manière de mettre en cache les invites.

Il est important de noter que la mise en cache des invites n’est pas la même chose que la mémoire des grands modèles de langage. Par exemple, le GPT-4o d’OpenAI propose une mémoire où le modèle se souvient des préférences ou des détails, mais ne stocke pas les invites et les réponses réelles comme le fait la mise en cache des invites.

Show Comments (0)
Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *