AMD rilascia il primo modello linguistico AI compatto: 690 miliardi di token, aumento della velocità di decodifica inferenziale di 3,88x

kyojuro mercoledì 2 ottobre 2024

AMD rilascia il suo primo Small Language Model: 690 miliardi di token, decodifica speculativa più veloce di 3,88x

Rispetto ai sempre più grandi modelli linguistici (LLMs), l'AMD-135m è compatto, più flessibile e specificamente mirato, rendendolo ideale per implementazioni aziendali private e specializzate.

AMD rilascia il suo primo Small Language Model: 690 miliardi di token, decodifica speculativa più veloce di 3,88x

I modelli AMD-135m fanno parte della famiglia Llama e sono disponibili in due versioni:

Una è il modello di base, "AMD-Llama-135m", che vanta fino a 670 miliardi di token ed è addestrato su otto acceleratori Instinct MI250 64GB in sei giorni.

La seconda versione è il potenziato "AMD-Llama-135m-code", che include ulteriori 20 miliardi di token focalizzati sulla programmazione, addestrato sullo stesso hardware per quattro giorni.

AMD rilascia il suo primo Small Language Model: 690 miliardi di token, decodifica speculativa più veloce di 3,88x

Processo di creazione e distribuzione

AMD utilizza un metodo chiamato "decodifica speculativa" per generare più token candidati in un unico passaggio attraverso un modello di progetto più piccolo, che vengono poi verificati o corretti da un modello di destinazione più grande e accurato.

Questo approccio facilita la generazione di token multipli contemporaneamente senza compromettere le prestazioni e riduce l'impronta di memoria, anche se porta ad un aumento del consumo di energia a causa di più transazioni di dati.

AMD ha testato i miglioramenti prestazionali della decodifica inferenziale utilizzando il codice AMD-Llama-135m come modello di progetto per CodeLlama-7b.

Ad esempio, le prestazioni possono essere migliorate fino a ~2,8x su acceleratori MI250, fino a ~3,88x su CPU Ryzen AI, e fino a ~2,98x su Ryzen AI NPU.

AMD rilascia il suo primo Small Language Model: 690 miliardi di token, decodifica speculativa più veloce di 3,88x

Il codice di formazione, i dataset e le altre risorse per i modelli AMD-135m sono stati rilasciati sotto licenza Apache 2.0.

Secondo AMD, le sue prestazioni sono alla pari o leggermente migliori rispetto ad altri modelli open-source. Ad esempio, supera modelli come Llama-68m e Llama-160m in compiti come Hellaswag, SciQ e ARC-easy, ed esegue comparabilmente a modelli come GPT-2-124M e OPT-125M in compiti come Hellaswag, WinoGrande, SciQ, MMLU e ARC-easy.

AMD rilascia il suo primo Small Language Model: 690 miliardi di token, decodifica speculativa più veloce di 3,88x

AMD rilascia il primo modello linguistico AI compatto: 690 miliardi di token, aumento della velocità di decodifica inferenziale di 3,88x

AMD rilascia il suo primo Small Language Model: 690 miliardi di token, decodifica speculativa più veloce di 3,88x

Processo di creazione e distribuzione

Notizie correlate