안녕하세요, DWN Logic Lab입니다.
이번에는 Computing 분야의 두 번째 아티클입니다.
요즘 엔비디아, AMD, 인텔, 구글 등의 회사에서 AI 가속기 칩 개발에 열을 올리고 있습니다.
그리고 이러한 칩의 성능을 평가하고 검증할 수 있는 '벤치마크'라는 기준이 있다고 합니다.
이번 아티클은 MLPerf라는 벤치마크를 만드는 회사인 MLCommons에서 발표한 최신 머신 러닝 벤치마크 결과와 새로운 벤치마크에 대한 내용을 담고 있습니다.
해당 아티클의 링크는 아래에 첨부하겠습니다.
https://spectrum.ieee.org/ai-inference
Are Nvidia's Blackwell GPUs Truly Unstoppable in AI Inference? See How AMD's Instinct MI325 Stacks Up!
Nvidia's new Blackwell GPUs dominate MLCommons benchmarks, but AMD's MI325X gives the H200 a run for its money. With MLPerf adding new benchmarks like Llama3.1 405B, the AI race is heating up! Can AMD close the gap with Nvidia? And where does Intel stand i
spectrum.ieee.org
또한 이번 아티클을 읽으면서 '벤치마크'라는 개념을 새로 알게 되었는데요, 관련 정보를 얻기에 좋은 IBM 페이지가 있어 함께 첨부하도록 하겠습니다.
https://www.ibm.com/kr-ko/think/topics/llm-benchmarks
LLM 벤치마크란 무엇인가요? | IBM
LLM 벤치마크는 대규모 언어 모델(LLM)의 성능을 평가하기 위한 표준화된 프레임워크입니다.
www.ibm.com
AI 추론에서 앞서가는 엔비디아 블랙웰
AMD의 2차 MLPerf 벤치마크에 따르면 AMD의 Instinct GPU가 Nvidia H200과 동등한 성능을 발휘합니다
MLCommons의 최신 머신 러닝 벤치마크 결과에 따르면, 엔비디아의 새로운 Blackwell GPU 아키텍처를 기반으로 구축된 컴퓨터가 다른 모든 컴퓨터보다 우수한 성능을 보였습니다. 하지만 AMD의 Instinct GPU를 기반으로 한 최신 제품인 MI325는 본래 경쟁 제품으로 의도된 Nvidia H200과 맞먹는 것으로 입증되었습니다. 비교 가능한 결과는 대부분 작은 규모의 대규모 언어 모델 중 하나인 Llama2 70B(700억 개의 매개변수)를 사용한 테스트에서 나왔습니다. 그러나 MLPerf는 급변하는 AI 환경에 발맞추기 위해, 머신 러닝의 방향을 더 잘 반영하기 위한 세 가지 새로운 벤치마크를 추가했습니다.
MLPerf는 컴퓨터 시스템 간의 제대로 된 비교를(apples-to-apples comparison) 위해 머신 러닝 시스템에 대한 벤치마킹을 실시합니다. 제출자들은 자체 소프트웨어와 하드웨어를 사용하지만, 기본 신경망은 동일해야 합니다. 현재 서버 벤치마크는 총 11개이며, 올해는 3개가 추가되었습니다.
MLCommons의 최신 머신 러닝 벤치마크 결과에 따르면, 엔비디아의 새로운 Blackwell GPU 아키텍처 기반 컴퓨터가 다른 모든 모델보다 우수한 성능을 보였습니다.
하지만 AMD의 Instinct GPU 기반인 MI325 AI 가속기는 본래 의도된 경쟁 제품인 Nvidia H200과 맞먹는 것으로 입증되었습니다.
이러한 결과들은 작은 규모의 대규모 언어 모델(LLM, Large Language Model) 중 하나인 Llama2 70B를 사용한 테스트에서 나왔습니다.
그리고 MLPerf는 급변하는 AI 환경에 발맞추기 위해, 새로운 벤치마크를 추가했습니다. (올해 3개 추가, 총 11개의 벤치마크)
MLPerf Inference의 공동 의장인 Miro Hodak은 "이 분야의 급격한 발전을 따라가기가 어려웠다"고 말합니다. ChatGPT는 2022년 말에야 출시되었고, OpenAI는 지난 9월 과제를 통해 추론할 수 있는 최초의 대규모 언어 모델(LLM)을 공개했으며, LLM은 기하급수적으로 성장했습니다. ㅡ GPT3은 1,750억개의 매개변수를 가진 반면, GPT4는 거의 2조개의 매개변수를 가진 것으로 추정됩니다. Hodak은 맹렬한 혁신의 결과로 "새로운 벤치마크를 현장에 도입하는 속도가 빨라졌습니다."라고 말했습니다.
새로운 벤치마크에는 두 가지 LLM이 포함됩니다. 인기 있고 비교적 컴팩트한 Llama2 70B는 이미 MLPerf 벤치마크로 자리 잡았지만, 컨소시엄은 오늘날 사람들이 챗봇에 기대하는 반응성을 모방하는 벤치마크를 원했습니다. 따라서 새로운 벤치마크인 "Llama2-70B Interactive"는 요구사항을 더욱 강화합니다. 컴퓨터들은 어떤 상황에서든 초당 최소 25개의 토큰을 생성해야 하며, 답변을 시작하는 데 450 밀리초를 초과할 수 없습니다.
복잡한 작업을 추론할 수 있는 네트워크인 "에이전트 AI"의 등장을 목격한 MLPerf는 이에 필요한 몇 가지 특성을 갖춘 LLM을 테스트하고자 했습니다. 그들은 이 작업에 Llama3.1 405B를 선택했습니다. 그 LLM에는 'wide context window'라는 것이 있습니다. 이는 문서, 코드 샘플, 기타 등등(et cetera) 한 번에 얼마나 많은 정보를 처리할 수 있는지를 나타내는 척도입니다. Llama 3.1 405B의 경우, 128,000개의 토큰으로 Llama2 70B의 30배가 넘는 양입니다.
현재 AI 분야는 급격한 발전을 이뤄오고 있습니다. 2022년 말 Chat GPT의 등장으로 대규모 언어 모델이 기하급수적으로 성장하였습니다.
(GPT3은 1,750억개, GPT4는 약 2조개의 매개변수를 가지는 것으로 추정)
따라서 MLPerf Inference는 새로운 벤치마크를 추가하였는데, 기존의 컴팩트한 벤치마크인 Llama2 70B에 챗봇 반응성을 모방한 기능을 더해 "Llama2-70B Interactive"를 만들었습니다.
또한, 더 복잡한 작업 추론이 가능한 "에이전트 AI"의 등장에 맞춰 "Llama3.1 405B"를 새롭게 만들었습니다.
여기에는 문서 등을 얼마나 많이 처리할 수 있는지를 보여주는 '와이드 컨텍스트 윈도우'가 포함되어있습니다.
Blackwell(Nvidia), Instinct(AMD)의 결과
MLPerf Inference 결과 v5.0
각 카테고리별 상위 5개, 초당 샘플 또는 토큰
Nvidia는 자체 제출 자료와 Dell, Google, Supermicro와 같은 15개 파트너사의 자료를 통해 MLPerf 벤치마크에서 우위를 점했습니다. 1세대와 2세대 Hopper 아키텍처 GPU인 H100과 메모리가 강화된 H200 모두 강력한 성능을 보여줬습니다. Nvidia의 가속 컴퓨팅 제품 담당 이사인 Dave Slavator는 2022년 생산에 들어간 Hopper의 경우, "작년 대비 60%의 성능 향상을 달성할 수 있었습니다."라고 말하며, "아직 성능 측면에서는 약간의 개선 여지가 있습니다"라고 덧붙였습니다.
하지만 실제로 압도적인 우위를 점한 것은 Nvidia의 Blackwell 아키텍처 GPU인 B200이었습니다. Salvator는 "Hopper보다 빠른 것은 Blackwell 뿐이다"라고 말합니다. B200은 H200보다 36% 더 많은 고대역폭 메모리를 탑재하고 있지만, 더 중요한 것은 Hopper가 개척한 8비트 대신 4비트만큼 낮은 정밀도를 가진 숫자를 사용하여 핵심 머신 러닝 수학을 수행할 수 있다는 것입니다. 정밀도가 낮은 연산 유닛은 크기가 더 작아 GPU에 더 잘 맞으며, 더 빠른 AI 컴퓨팅이 가능합니다.
Llama3.1 405B 벤치마크에서 Supermicro의 eight-B200 시스템은 Cisco의 eight-H200 시스템보다 초당 토큰 처리량이 거의 4배 높았습니다. 또한 동일한 Supermicro 시스템은 Llama2 70B의 인터랙티브 버전에서 가장 빠른 H200 컴퓨터보다 3배 더 빨랐습니다.
Nvidia는 Blackwell GPU와 Grace GPU의 조합인 GB200을 사용하여 자사의 NVL72 데이터 링크가 다수의 서버를 한 랙에 통합하여 하나의 거대한 GPU처럼 성능을 발휘함을 입증했습니다. 회사가 기자들에게 공유한 검증되지 않은 결과에 따르면, GB200 기반 컴퓨터의 풀 랙(full rack)이 Llama2 70B에서 초당 869,200개의 토큰을 처리했습니다. 이번 MLPerf 테스트 단계에서 가장 빠른 시스템은 Nvidia B200 서버로, 초당 98,443개의 토큰을 처리했습니다.
엔비디아는 1세대 Hopper 아키텍처인 H100, 메모리가 강화된 2세대 아키텍처인 H200 모두 강력한 성능을 보여줬고, 아직 성능 면에서 개선 여지가 있다고 밝혔습니다.
하지만 실제로 압도적인 우위를 점한 건 엔비디아의 Blackwell 아키텍처 GPU인 B200이었습니다. B200은 H200보다 36% 더 많은 고대역폭 메모리(HBM)을 갖고 있지만, Hopper 아키텍처의 8비트보다 더 작은 4비트의 정밀도로 핵심적인 머신 러닝 연산을 수행할 수 있습니다. 그리고 이는 더 빠른 AI 컴퓨팅을 가능하게 합니다.
Llama3.1 405B 벤치마크에서 Supermicro의 8-B200 시스템은 Cisco의 동일 시스템보다 초당 토큰 처리량이 거의 4배 높았고, 또한 Llama2 70B Interactive 버전에서 가장 빠른 H200 컴퓨터보다 3배 더 빨랐습니다.
또한 엔비디아는 Blackwell GPU와 Grace GPU의 조합인 GB200을 만들어 하나의 거대한 GPU처럼 동작함을 보였고, GB200 기반의 풀 랙 컴퓨터는 B200 서버보다 약 9배 더 많은 초당 토큰 처리량을 기록했습니다.
AMD는 최신 Instinct GPU인 MI325X가 Nvidia의 H200과 경쟁할만한 성능을 제공한다고 포지셔닝하고 있습니다. MI325X는 이전 모델인 MI300과 아키텍처는 동일하지만, 더욱 넓은 대역폭의 메모리와 메모리 대역폭을 추가하여 초당 256기가바이트와 6테라바이트(각각 상대적으로 33%와 13% 증가)를 제공합니다.
메모리를 추가하는 것은 점점 더 커지는 LLM을 다루기 위한 전략입니다. AMD의 데이터 센터 GPU 마케팅 이사인 Mahesh Balasubramanian은 "더 큰 모델들은 그 모델이 단일 GPU 또는 단일 서버에 적합하기 때문에 이러한 GPU들의 이점을 활용할 수 있습니다."라고 말합니다. "따라서 서로 다른 GPU 사이나 서로 다른 서버에서 이동하는 통신 오버헤드가 필요하지 않습니다. 이러한 통신을 제거하면 지연 시간이 상당히 개선됩니다." AMD는 소프트웨어 최적화를 통해 추가 메모리를 활용하여 DeepSeek-R1 추론 속도를 여덟배 향상시켰습니다.
Llama2 70B 테스트에서 8개의 GPU를 탑재한 MI325X 컴퓨터는 유사하게 개선된 H200 기반의 시스템보다 3~7% 빠른 속도를 기록했습니다. 그리고 이미지 생성 부분의 MI325X 시스템은 Nvidia H200 컴퓨터보다 10% 정도 빨랐습니다.
이번 단계에서 AMD의 또 다른 주목할만한 성과는 AMD의 파트너사인 Mangoboost가 보여줬는데, 4대의 컴퓨터에서 연산을 수행하여 Llama2 70B 테스트에서 거의 4배의 성능을 보여줬습니다.
AMD는 최신 Instinct GPU인 MI325X가 엔비디아의 H200와 비슷한 성능을 제공한다고 새기고 있습니다.
MI325X는 이전 모델인 MI300과 아키텍처는 동일하지만, 더욱 넓은 대역폭의 메모리와 메모리 대역폭을 추가해 각각 33%, 13% 증가한 성능을 제공합니다.
메모리를 추가하는 방식은 점점 커지는 LLM에 대처하기 위한 전략이라고 합니다.
더 큰 메모리를 가지면 단일 GPU나 단일 서버에 더 적합하고, 서로 다른 GPU나 서버에서 이동할 때 필요한 통신 오버헤드를 없앨 수 있어 더 빠른 연산이 가능합니다. AMD는 이러한 소프트웨어 최적화 방식으로 딥시크-R1의 추론 속도를 8배 향상시켰습니다.
이번 단계에서 주목할만한 AMD의 성과 중 하나는, 파트너사인 Mangoboost가 4대의 컴퓨터에서 연산을 수행해 Llama2 70B 테스트에서 보여준 거의 4배 향상된 성능이었습니다.
Intel은 역사적으로 추론 경쟁에서 CPU 전용 시스템을 선보이며 일부 워크로드의 경우 GPU가 실제로 필요하지 않다는 것을 보여줬습니다. 이번에는 Intel의 3나노미터 공정을 사용하여 만들어진 Granite Rapid로 알려졌던 Intel의 Xeon 6 칩에서 첫 번째 데이터가 공개되었습니다. 초당 40,285개의 샘플을 처리하는 듀얼 Xeon 6 컴퓨터의 가장 좋은 이미지 인식 결과는 두 개의 Nvidia H100이 장착된 Cisco 컴퓨터 성능의 약 1/3 수준이었습니다.
2024년 10월의 Xeon 5 결과와 비교했을 때, 새로운 CPU는 해당 벤치마크에서 약 80% 더 좋은 성능을 제공했고 객체 탐지 및 의료 이미징에서는 더욱 좋은 성능을 제공했습니다. 2021년에 Xeon의 결과를 처음 제출하기 시작한 이후(Xeon 3), Resnet에서 11배의 성능 향상을 달성했습니다.
현재 Intel은 AI 가속 칩 경쟁에서 손을 뗀 것으로 보입니다. Nvidia H100의 대체제였던 Gaudi 3은 새로운 MLPerf 결과나 지난 10월에 공개된 4.1 버전에서 등장하지 않았습니다. Gaudi 3은 소프트웨어가 준비되지 않아 예정보다 늦게 출시되었습니다. 초대 전용 고객 컨퍼런스인 Intel Vision 2025의 개회사에서 신임 CEO인 Lip-Bu Tan은 Intel의 AI 사업에 대해 사과하는 듯 보였습니다. 그는 참석자들에게 "저는 현재 우리의 위치에 만족하지 않습니다."라고 말했습니다. "여러분도 만족하지 못하실 것입니다. 여러분의 심정을 잘 알고 있습니다. 우리는 경쟁력 있는 시스템을 위해 노력하고 있습니다. 하룻밤만에 이루어지지는 않을 것이지만, 여러분을 위해 최선을 다하겠습니다."
Google의 TPU v6e 칩 또한 성능을 보였지만, 이미지 생성 작업에만 국한되었습니다.
4-TPU 시스템은 2024년 10월의 결과에서 초당 5.48 쿼리를 기록하며 이전 버전인 TPU v5e를 사용하는 비슷한 컴퓨터보다 2.5배 향상된 성능을 보였습니다. 그럼에도 불구하고, 초당 5.48 쿼리는 Nvidia H100을 사용하는 비슷한 크기의 Lenovo 컴퓨터와 거의 비슷한 수준이었습니다.
인텔은 역사적으로 CPU 전용 시스템을 보여줬습니다. 이는 일부 워크로드에서 GPU가 필요하지 않다는 점을 보여준 것입니다.
인텔의 3나노미터 공정을 사용한 Xeon 6 칩에서 공개한 첫 번째 데이터는, 엔비디아의 H100이 장착된 Cisco 컴퓨터 성능의 약 1/3 수준의 이미지 인식 결과였습니다.
이는 2024년 10월 Xeon 5 보다 약 80% 증가한 성능이었고, 2021년 Resnet에서의 Xeon 3 보다 11배 향상된 성능이었습니다.
엔비디아 H100의 대체제였던 Gaudi 3의 소프트웨어 미흡으로 인한 늦은 출시 등을 보면, 현재 인텔은 AI 가속기 칩에서 손을 뗀 것으로 보입니다.
하지만 인텔의 신임 CEO는 초대 고객 전용 컨퍼런스인 Intel Vision 2025에서 인텔의 AI 사업에 대해 사과하는 듯 보였고, 최선을 다하겠다고 했습니다.
구글의 TPU v6e칩은 이미지 생성 작업에만 국한된 성능을 보였습니다.
구글의 4-TPU 시스템은 2024년 10월에 이전 버전인 v5e보다 2.5배 향상된 성능을 보였지만, 이는 엔비디아의 H100을 사용하는 비슷한 크기의 Lenovo 컴퓨터와 거의 비슷한 수준이었습니다.
[Nvidia Blackwell Ahead in AI Inference, AMD Second]
IEEE Spectrum Article Summary by DWN Logic Lab
AI 머신 러닝 시스템의 성능을 평가하는 '벤치마크'를 제공하는 기업인 MLCommons에서 최신 벤치마크 결과를 공개했습니다.
Nvidia의 Blackwell 아키텍처 GPU인 B200이 압도적인 우위를 점했습니다. 또한 자사의 Blackwell GPU와 Grace GPU를 조합하여 하나의 거대한 GPU처럼 동작하도록 하였고, 이번 벤치마크 테스트 단계에서도 초당 토큰 처리수가 약 10만개로 가장 빠른 서버였습니다.
AMD는 최신 Instinct GPU인 MI325X가 엔비디아의 H200과 경쟁할만하다고 포지셔닝하고있습니다. 이전 모델보다 더 고대역폭의 메모리를 추가해 성능을 높였는데, 이는 점점 더 커지는 LLM을 다루기 위한 전략이며, 서로 다른 GPU나 서버를 이동할 때 필요한 통신 오버헤드를 줄여 지연 시간을 개선할 수 있다는 장점이 있습니다. 일례로 소프트웨어 최적화를 통해 추가 메모리를 활용하여 DeepSeek-R1의 추론 속도를 여덟 배 향상시키기도 했습니다.
인텔은 AI 추론 경쟁에서 CPU 전용 시스템을 선보여, 일부 워크로드에서는 GPU가 실제로 필요하지 않다는 것을 보여줬습니다. 현재 인텔은 엔비디아 H100의 대안인 가우디 3이 소프트웨어 준비 미흡으로 인해 예정보다 늦게 출시되는 등 AI 가속 칩 경쟁에서 손을 뗀 것으로 보이지만, 인텔의 신임 CEO는 AI 사업에 대해 최선을 다하겠다며 사과하기도 했습니다.
구글의 TPU v6e 칩 또한 성능을 보였지만, 이는 이미지 생성 작업에만 국한되었습니다. 이전 모델보다 2.5배 향상된 성능을 보였지만, 엔비디아 H100을 사용하는 레노버 컴퓨터와 거의 비슷한 수준이었습니다.
세간의 화제인 엔비디아, AMD, HBM, AI 가속기 등에 대해 간략히 알 수 있었던 아티클이었습니다.
요즘은 일반 대중들도 ChatGPU를 일상적으로 사용할 만큼 AI의 영향력이 거대해졌는데요, 이러한 AI의 머신 러닝 성능을 평가할 수 있는 '벤치마크'라는 기준 테스트가 있다는 점을 알게 되어 흥미로웠습니다.
AMD와 인텔이 더욱 좋은 성과 보여주기를 기대해봅니다.
다음에는 IEEE Sperctrum의 다른 아티클 리뷰로 돌아오겠습니다. 감사합니다!