Inicio Noticias de la Industria

AMD lanza su primer modelo de lenguaje pequeño de IA: 690 mil millones de tokens, incremento de 3.88 veces en la velocidad de decodificación de inferencias

kyojuro miércoles, 2 de octubre de 2024

AMD lanza su primer modelo de lenguaje pequeño (SLM) llamado 'AMD - 135m'.

En comparación con los modelos de lenguaje grandes (LLM), el AMD - 135m es compacto, más flexible y está dirigido específicamente a despliegues empresariales privados y especializados.

AMD releases its first AI Small Language Model: 690 billion tokens, 3.88x faster speculative decoding

Los modelos AMD - 135m forman parte de la familia Llama y están disponibles en dos versiones:

Uno de ellos es el modelo base, 'AMD - Llama - 135m', con 670 mil millones de tokens y entrenado en ocho aceleradores INSTINTO MI250 64GB durante seis días.

La segunda versión es la mejorada, 'AMD - Llama - 135m - código', que incluye 20 mil millones de tokens adicionales enfocados en la programación, entrenado en el mismo hardware durante cuatro días.

AMD releases its first AI Small Language Model: 690 billion tokens, 3.88x faster speculative decoding

Proceso de creación y despliegue

AMD utiliza un método llamado 'descodificación especulativa' para generar múltiples tokens candidatos en un solo paso a través de un modelo preliminar más pequeño, que luego son verificados o corregidos por un modelo objetivo más grande y preciso.

Este enfoque facilita la generación de múltiples tokens simultáneamente sin comprometer el rendimiento y reduce la huella de memoria, aunque conlleva a un aumento en el consumo de energía debido a más transacciones de datos.

AMD probó las mejoras de rendimiento de la decodificación de inferencia utilizando el AMD - Llama - 135m - código como modelo preliminar para CodeLlama - 7b.

Por ejemplo, el rendimiento puede mejorarse hasta ~2.8x en aceleradores MI250, hasta ~3.88x en CPUs Ryzen AI, y hasta ~2.98x en NPUs Ryzen AI.

AMD releases its first AI Small Language Model: 690 billion tokens, 3.88x faster speculative decoding AMD releases its first AI Small Language Model: 690 billion tokens, 3.88x faster speculative decoding

El código de entrenamiento, conjuntos de datos y otros recursos para los modelos AMD - 135m han sido abiertos bajo la licencia Apache 2.0.

Según AMD, su rendimiento está a la par o ligeramente mejor que otros modelos de código abierto. Por ejemplo, supera a modelos como Llama - 68m y Llama - 160m en tareas como Hellaswag, SciQ y ARC - Easy, y tiene un rendimiento comparable a modelos como GTP2 - 124MN y OPT - 125m en tareas como Hellaswag, WinoGrande, SciQ, MMLU y ARC - Easy.

AMD releases its first AI Small Language Model: 690 billion tokens, 3.88x faster speculative decoding

Noticias relacionadas

© 2024 - TopCPU.net   Contáctenos Política de privacidad