Tether rend TurboQuant open source, avec un taux de compression du cache KV pour appareil IA local allant jusqu'à 5 fois
L'équipe de recherche en IA de Tether a annoncé la publication en open source de la version de production de TurboQuant et son intégration dans le SDK QVAC 0.12.0.
TurboQuant repose sur un algorithme de compression de mémoire de Google Research, qui permet de compresser le cache KV de l'exécution IA jusqu'à 5 fois tout en conservant une qualité de sortie proche de celle des modèles non compressés.
Cela signifie que les ordinateurs portables, les téléphones mobiles et les appareils de périphérie peuvent gérer des conversations plus longues, des fichiers plus volumineux et des tâches plus complexes sans avoir besoin de télécharger des données vers le cloud.
Cette version open source comprend un pipeline de quantification complet, des adaptateurs pour les frameworks d'inférence courants et une documentation pour les développeurs, destinés aux développeurs et aux startups déployant l'IA sur du matériel grand public, des appareils de périphérie et des réseaux pair à pair.



