Tether, el emisor de la stablecoin USDT, anunció el lanzamiento de lo que describe como el primer marco de ajuste fino LoRA multiplataforma diseñado para los modelos BitNet de Microsoft, que se basan en una arquitectura de modelo de lenguaje de gran tamaño de 1 bit. La capacidad está integrada en su sistema QVAC Fabric y se informa que reduce significativamente tanto el uso de memoria como las demandas computacionales. Según la compañía, este desarrollo permite que los modelos de lenguaje de gran escala, incluidos aquellos con miles de millones de parámetros, se ajusten finamente utilizando hardware de consumo ampliamente disponible, como portátiles, unidades de procesamiento gráfico estándar y teléfonos inteligentes modernos.
El desarrollo y mantenimiento de sistemas de inteligencia artificial han requerido tradicionalmente hardware de nivel empresarial, particularmente infraestructura especializada de NVIDIA o entornos basados en computación en la nube. Estos requisitos han contribuido a altos costos operativos, limitando el acceso al desarrollo avanzado de IA principalmente a grandes organizaciones con recursos financieros sustanciales y acceso a sistemas informáticos especializados.
Tether declaró que su modelo de lenguaje de gran tamaño QVAC Fabric, mejorado por el marco recién introducido basado en BitNet, aborda estas limitaciones al admitir el ajuste fino LoRA multiplataforma y acelerar la inferencia en una variedad de GPU de consumo heterogéneas. Estas incluyen hardware de Intel, AMD y Apple Silicon, entre otros. Como resultado, los usuarios pueden entrenar y personalizar modelos de IA directamente en dispositivos de consumo comúnmente disponibles en lugar de depender de infraestructura centralizada.
La compañía informó que su equipo de ingeniería ha demostrado con éxito el ajuste fino de BitNet en unidades de procesamiento gráfico móviles por primera vez, incluidas plataformas como Adreno, Mali y GPU Apple Bionic. Las pruebas internas indicaron que un modelo BitNet de 125 millones de parámetros podría ajustarse finamente en aproximadamente diez minutos en un dispositivo Samsung S25 equipado con una GPU Adreno utilizando un conjunto de datos biomédicos que consiste en aproximadamente 300 documentos, o alrededor de 18,000 tokens. Para un modelo de 1.000 millones de parámetros, el mismo conjunto de datos requirió aproximadamente una hora y dieciocho minutos en el Samsung S25 y una hora y cuarenta y cinco minutos en un iPhone 16. La compañía también informó que pudo extender las pruebas a modelos de hasta 13.000 millones de parámetros en el iPhone 16 bajo condiciones de capacidad máxima del dispositivo.
Hallazgos adicionales sugieren que el marco puede admitir el ajuste fino de modelos de hasta el doble del tamaño de modelos comparables que no son BitNet que operan bajo cuantización Q4 en dispositivos edge. Este resultado se atribuye a la huella de memoria reducida asociada con la arquitectura BitNet.
Además de las mejoras en el entrenamiento, el marco también demuestra un rendimiento de inferencia mejorado. Las pruebas realizadas en dispositivos móviles indicaron que los modelos BitNet funcionan sustancialmente más rápido cuando se ejecutan en GPU, con velocidades de procesamiento que van de dos a once veces más altas que la ejecución basada en CPU. Estos resultados indican que las GPU móviles son cada vez más capaces de manejar cargas de trabajo que anteriormente requerían hardware especializado o recursos a nivel de centro de datos.
El sistema también muestra ganancias notables en eficiencia de memoria. Los datos de referencia sugieren que un modelo BitNet-1B que utiliza la configuración TQ1_0 requiere hasta un 77,8 por ciento menos de VRAM en comparación con un modelo Gemma-3-1B de 16 bits y un 65,6 por ciento menos que un modelo Qwen3-0.6B de 16 bits durante los procesos de inferencia y ajuste fino LoRA. Estas reducciones proporcionan capacidad adicional para ejecutar modelos más grandes y habilitar características personalizadas en hardware que anteriormente se habría considerado insuficiente.
Tether indicó además que el marco introduce capacidades de ajuste fino LoRA para modelos de lenguaje de gran tamaño de 1 bit en hardware que no es de NVIDIA por primera vez, extendiendo la compatibilidad a plataformas AMD, Intel, Apple Silicon y GPU móviles. Al reducir la dependencia de infraestructura especializada y servicios en la nube, el enfoque permite que los datos confidenciales permanezcan almacenados localmente en los dispositivos de los usuarios. La compañía señaló que esta eficiencia también puede respaldar el desarrollo de sistemas de aprendizaje federado, en los que los modelos se pueden entrenar de manera colaborativa en dispositivos distribuidos mientras se mantiene la privacidad de los datos y se minimiza la dependencia de sistemas centralizados.
La publicación Tether lanza un marco LoRA BitNet multiplataforma que permite entrenamiento e inferencia de IA con miles de millones de parámetros en dispositivos de consumo apareció primero en Metaverse Post.


