블랙웰 AI 가속기 납품 지연, 발열 문제로 데이터센터 불안 커져
엔비디아의 최신 인공지능(AI) 가속기인 '블랙웰'의 납품이 또다시 지연될 것으로 보인다. 이 지연은 발열 문제를 해결하기 위한 서버 랙의 재설계가 필요해 발생한 것이다. 데이터센터 사업자들은 이러한 납품 지연에 대한 우려를 나타내고 있다.
테크 전문매체 디인포메이션에 따르면, 엔비디아는 블랙웰 전용 서버랙의 과열 문제를 해결하기 위해 여러 차례 서버 공급업체들에게 설계 변경을 요구한 것으로 보인다. 이로 인해 블랙웰을 구매한 고객사는 랙 사용 시기가 지연될 수 있다는 불안감을 나타내고 있다. 서버랙은 여러 컴퓨터 부품이 쌓여 있는 완전한 서버 형태를 의미하며, 엔비디아는 올해 3월 블랙웰을 공개하면서 72개 칩셋을 통합한 NVL72 플랫폼을 소개했다.
NVL72 플랫폼에는 36개의 '그레이스' 중앙처리장치(CPU)와 72개의 블랙웰 그래픽처리장치(GPU)가 탑재된다. 이 플랫폼의 무게는 1.5톤에 달하며, 가동을 위해 132kW의 전력이 필요하다. 이는 단일 서버 기준으로 역대 최대 전력 소모량으로, 전력 소모가 높은 만큼 발열 문제도 발생하게 된다.
이에 따라 엔비디아와 서버 제조업체들은 NVL72 시스템의 냉각을 공기가 아닌 액체로 진행하기로 했다. 그러나 액체 순환 구조가 복잡하고, 순환계가 파손될 경우 시스템 전체에 심각한 문제가 발생할 수 있으므로 안전성 유지가 필수적이다. 이는 서버랙 디자인에 대한 지속적인 수정 요구로 이어지고 있다.
디인포메이션은 복잡한 랙 디자인으로 인한 과열 문제가 서버 신뢰성을 떨어뜨리고 있다고 보도했다. 또한 대부분의 데이터센터가 대규모 수냉 시스템을 운영해본 경험이 없어 이로 인한 불안감이 커지고 있다. 블랙웰 공급에 대한 부정적인 소식이 잇따르면서 앞서 입도선매에 나섰던 데이터센터들은 더욱 불안해하고 있다.
TSMC의 블랙웰 제조 과정에서 불량이 발생했다는 보고도 있으며, 이 과정에서 엔비디아의 젠슨 황 CEO와 TSMC 고위 경영진 간의 언성이 높아졌다는 소식이 전해졌다. 황 CEO는 이러한 불화설을 부인했지만, 결함이 존재했다는 사실은 인정했다. 다만 그는 4분기부터 본격적인 납품이 시작될 것이라는 기존 방침에는 변화가 없음을 여러 차례 강조한 바 있다.
│
이 포스트는 피시아(PHYSIA) 사에서 운영하는 게임메이커.KR 게임 개발 뉴스 블로그에서 작성되었으며, 공공의 이익에 기여하는 목적을 제외한 다른 용도의 무단 배포 및 수정을 금합니다. 참조 - 피시아(PHYSIA), 게임메이커.KR, 게임투비즈(GameToBiz), 게임S/W에이전시, 저널CTL코리아