AMD, 새로운 Instinct MI350 AI 가속기 출시

kyojuro 2025년 6월 11일 수요일

외신에 따르면 AMD는 목요일에 AI 가속기 Instinct MI 350 시리즈를 출시할 예정입니다. 이는 AMD의 AI 하드웨어에서 중요한 이정표입니다. TSMC의 3nm 프로세스와 AMD의 최신 CDNA 4 아키텍처를 기반으로 하는 이 시리즈는 NVIDIA의 Blackwell 시리즈와 직접 경쟁하는 고성능 AI 컴퓨팅을 제공합니다. MI 350 시리즈는 하드웨어 사양의 혁신과 최적화된 ROCm 소프트웨어 생태계를 통해 AI 애플리케이션의 호환성과 효율성을 높이며 데이터 센터와 하이퍼스케일 AI 컴퓨팅을 효과적으로 지원합니다.

MI 350 시리즈의 주요 특징은 고성능 하드웨어 구성입니다. 하나의 카드에는 최대 288GB의 HBM 3E 비디오 메모리와 8 TB/s의 메모리 대역폭이 적용되어 있으며, 이는 MI 325X의 256GB 비디오 메모리와 6 TB/s 대역폭에 비해 각각 12.5%와 33.3% 증가한 수치입니다. 연산 성능 면에서 MI 350 시리즈는 FP16, FP8, FP6 및 FP4 등 다양한 부동 소수점 정밀도를 지원하며, FP16 성능은 18.5 PFlops, FP8은 37 PFlops, FP6/FP4는 74 PFlops를 제공합니다. MI 300X와 비교하면 MI 350 시리즈의 FP16 성능은 약 7.4배 향상되었고, 모델 매개변수 처리 용량은 7140억에서 4조 2천억으로 거의 6배 증가했습니다. 이러한 사양은 수조 개의 매개변수를 가진 대형 언어 모델과 하이브리드 전문가 모델의 교육 및 추론 요구에 효과적으로 대응합니다. CDNA 4 아키텍처는 MI 350 시리즈의 성능 혁신의 핵심입니다. CDNA 3 기반의 MI 325X와 비교했을 때, CDNA 4는 FP4 및 FP6 저정밀 데이터 형식을 지원해 계산 복잡성을 크게 줄이고, 대규모 모델 양자화 및 추론 작업에 특히 적합합니다. 또한, 3nm 공정의 도입은 트랜지스터 밀도와 에너지 효율을 더더욱 향상시키며, 단일 카드의 전력 소모는 1000W 이상으로 NVIDIA B200의 1000W 및 GB200의 1700W 같은 수준으로 예상됩니다. MI 350 시리즈는 또한 최대 2.3TB의 총 메모리 용량과 최대 64 TB/s의 총 대역폭을 갖춘 단일 플랫폼 8 카드 구성을 지원하는 첨단 패키징 기술을 채택했습니다. 이로 인해 초대형 AI 워크로드에 충분한 컴퓨팅 리소스를 제공합니다. 소프트웨어 측면에서 AMD는 MI 350 시리즈에 강력한 지원을 제공하기 위해 ROCm 오픈 소프트웨어 스택을 지속적으로 최적화하고 있습니다. 최신 버전인 ROCm 6.2는 6.0에 비해 추론 성능이 2.4배, 교육 성능이 1.8배 향상되었으며, FP8 데이터 형식, Flash Attention 3, Kernel Fusion과 같은 최첨단 기술을 지원합니다. 또한 AMD는 오픈소스 커뮤니티와 협력하여 PyTorch, Triton, ONNX와 같은 주류 AI 프레임워크를 ROCm에 통합하여 MI 350 시리즈가 Stable Diffusion 3, Llama 3.1 및 Hugging Face 플랫폼에서 수백만 개의 모델과 같은 인기 있는 생성 AI 모델을 원활하게 실행할 수 있도록 보장합니다. 이러한 소프트웨어 생태계의 발전은 AMD와 NVIDIA CUDA 생태계 간의 격차를 좁히고 개발자에게 보다 유연한 개발 환경을 제공합니다.

MI 350 시리즈의 출시는 하드웨어 업그레이드뿐만 아니라 AI 시장에서의 AMD의 전략적 배치를 반영한 것입니다. NVIDIA의 Blackwell B200 (192GB HBM 3E, 8TB/s 대역폭)에 비해, MI 350 시리즈는 기억 용량, 대역폭 및 약 35배 향상된 추론 성능에서 50%의 선두를 자랑하며, Blackwell과 Blackwell Ultra 사이에 자리잡고 있습니다. Papermaster는 MI 350 시리즈가 아키텍처 및 포장 혁신을 통해 2025년까지 에너지 효율을 30배 향상시킬 것으로 예상하며, 이는 3nm 공정의 저전력 특성과 저정밀 컴퓨팅을 위한 CDNA 4 아키텍처의 최적화에 의해 가능할 것으로 보입니다. MI 350은 고성능 컴퓨팅(HPC) 및 AI 교육에서 더 높은 성능 대 전력 비율을 입증할 수 있습니다. MI 350 시리즈는 2025년 하반기에 출시될 예정이며, MI 355X 가속기를 포함한 첫 번째 제품으로 Dell, Lenovo, HP 등의 파트너 서버 플랫폼에 통합될 예정입니다. AMD는 또한 CDNA 5 아키텍처 기반의 MI 400 시리즈를 2026년에 출시하여 성능과 효율성을 더욱 향상시킬 계획입니다. 현재 AMD의 AI 가속기는 다양한 애플리케이션에 사용되고 있으며, MI 350 시리즈의 출시는 데이터센터 AI 시장에서 AMD의 경쟁력을 더욱 강화할 것입니다.

그러나 AMD는 여전히 AI 하드웨어 분야에서 도전에 직면해 있습니다. HBM 3E 메모리의 공급 제한은 MI 350의 초기 생산 능력에 영향을 줄 수 있습니다. NVIDIA와 비교하면, AMD의 리드타임은 26주, NVIDIA의 리드타임은 52주 이상으로 고성능 AI 칩에 대한 시장의 강력한 수요를 반영합니다. 또한 ROCm 생태계는 급속히 발전하고 있지만 CUDA에 비해 엔드 투 엔드 기능이 개선되어야 합니다. AMD는 100개 이상의 AI 애플리케이션 개발자와 파트너십을 맺어 생태계 구축을 가속화하고 있으며, 이는 실제로 얼마나 효과적인지 아직 평가가 어렵습니다.

MI 350 시리즈의 출시는 AMD의 AI 하드웨어 경쟁에서 중요한 단계입니다. 3nm 프로세스, CDNA 4 아키텍처 및 288GB의 HBM 3E 비디오 메모리의 조합은 초대규모 AI 모델을 처리하는 데 강력한 지원을 제공하며, ROCm 생태계의 지속적인 최적화는 개발자에게 유연한 소프트웨어 환경을 제공합니다. MI 350 시리즈는 이전 제품과 비교하여 성능, 효율성 및 모델 처리 능력에서 획기적인 발전을 이루었으며, NVIDIA Blackwell 시리즈와의 경쟁은 AI 하드웨어 시장에서 기술 발전을 주도할 것입니다. 앞으로 AMD의 연간 제품 로드맵과 지속적인 아키텍처 혁신은 AI 컴퓨팅 분야에서의 입지를 더욱 강화하여 업계에 더 많은 고성능, 저비용 솔루션을 제공할 것입니다.

관련 뉴스

© 2025 - TopCPU.net