AMD lanza su primer modelo de lenguaje pequeño (SLM) llamado 'AMD - 135m'.
En comparación con los modelos de lenguaje grandes (LLM), el AMD - 135m es compacto, más flexible y está dirigido específicamente a despliegues empresariales privados y especializados.
Los modelos AMD - 135m forman parte de la familia Llama y están disponibles en dos versiones:
Uno de ellos es el modelo base, 'AMD - Llama - 135m', con 670 mil millones de tokens y entrenado en ocho aceleradores INSTINTO MI250 64GB durante seis días.
La segunda versión es la mejorada, 'AMD - Llama - 135m - código', que incluye 20 mil millones de tokens adicionales enfocados en la programación, entrenado en el mismo hardware durante cuatro días.
Proceso de creación y despliegue
AMD utiliza un método llamado 'descodificación especulativa' para generar múltiples tokens candidatos en un solo paso a través de un modelo preliminar más pequeño, que luego son verificados o corregidos por un modelo objetivo más grande y preciso.
Este enfoque facilita la generación de múltiples tokens simultáneamente sin comprometer el rendimiento y reduce la huella de memoria, aunque conlleva a un aumento en el consumo de energía debido a más transacciones de datos.
AMD probó las mejoras de rendimiento de la decodificación de inferencia utilizando el AMD - Llama - 135m - código como modelo preliminar para CodeLlama - 7b.
Por ejemplo, el rendimiento puede mejorarse hasta ~2.8x en aceleradores MI250, hasta ~3.88x en CPUs Ryzen AI, y hasta ~2.98x en NPUs Ryzen AI.
El código de entrenamiento, conjuntos de datos y otros recursos para los modelos AMD - 135m han sido abiertos bajo la licencia Apache 2.0.
Según AMD, su rendimiento está a la par o ligeramente mejor que otros modelos de código abierto. Por ejemplo, supera a modelos como Llama - 68m y Llama - 160m en tareas como Hellaswag, SciQ y ARC - Easy, y tiene un rendimiento comparable a modelos como GTP2 - 124MN y OPT - 125m en tareas como Hellaswag, WinoGrande, SciQ, MMLU y ARC - Easy.