[디지털포스트(PC사랑)=최호섭 디지털컬럼니스트] 엔비디아의 차세대 인공지능 데이터센터용 수퍼컴퓨터가 출시를 앞두고 있다. 흔히 '블랙웰(Blackwell)'로 더 잘 알려져 있는데, 사실 블랙웰은 칩이나 수퍼컴퓨터의 이름이 아니라 설계의 뿌리인 아키텍처의 이름이다. 이 블랙웰 아키텍처로 B100과 B200 등의 칩이 만들어지고 이를 바탕으로 수퍼컴퓨터가 구축된다. 현재 인공지능 처리에서 가장 넓게 쓰이는 H100를 만든 호퍼 아키텍처의 뒤를 잇는다고 보면 쉽다.
이 칩은 이전과 전혀 다른 설계로, 인공지능 데이터센터의 요구 사항들을 적극적으로 반영하고 있다. 인공지능용 GPU의 성능은 동시에 얼마나 많은 연산을 병렬로 처리할 수 있느냐에 달려 있고, 이는 반도체를 이루는 트랜지스터의 개수와 밀접하게 관련돼 있다. 이전 세대 호퍼 아키텍처는 칩당 800억 개 트랜지스터를 갖고 있었는데, 블랙웰은 1040억 개로 집약도를 높였고, 이렇게 만든 다이 두 개를 하나로 이어 붙이는 칩렛 구조를 통해서 결과적으로 칩 하나에 2080억 개의 트랜지스터를 품게 됐다.
여기에 NVLink 5와 고대역폭 메모리 HBM3E이 더해지면서 고질적인 대규모 GPU 시스템의 데이터 병목 현상을 줄일 수 있는 설계가 마련되면서 블랙웰은 이전 세대보다 비슷한 전력으로 3~5배 많은 연산을 처리할 수 있다는 기대를 모았다. GPU 기반 인공지능 시스템을 다루던 시스템 엔지니어들의 가장 큰 고민거리를 풀어낸 것이다.
고성능 반도체의 숙명 '발열'
하지만 블랙웰은 실제 제품 양산을 앞두고 불안한 목소리도 들린다. 바로 '열'이다. 열은 고성능 반도체에 따라 붙는 숙명과도 같은 존재다. 반도체는 기본적으로 전기를 흘리기도 하고, 가로막기도 하는 특성을 이용해 연산을 처리하는 특성을 갖고 있다.
신호가 한 번 들어올 때마다 반도체는 트랜지스터의 특성을 흉내내서 0과 1을 만들어 낸다. 이를 빠르게 반복하도록 한 것이 과거 반도체 시장의 성장을 이끈 이른바 작동 속도의 마법이다. 하지만 작동 속도를 높이면 열이 뒤따른다. 반도체 업계는 열과 처리 속도의 상관 관계를 풀어내기 위해 미세 공정 기술을 키워냈다. 기본적으로 전자가 흐르는 길을 얇게 만드는 것이다.
반도체 구조가 미세해지면 회로의 크기가 줄어들고, 그에 따라 전자가 이동하는 물리적 거리가 줄어들어서 한 클럭을 처리하는 과정이 훨씬 가벼워진다. 또한 공정 미세화는 열을 낮출 수 있기 때문에 같은 크기의 칩 안에 더 많은 트랜지스터를 넣으면서 작동 속도도 끌어올리는 효과를 낳는다.
미세 공정과 작동 속도는 지난 수 십 년간 반도체와 컴퓨팅 시장의 성장을 이끈 마법 열쇠와도 같다. 이를 통해 CPU는 처리 속도에 집중했고, GPU는 처리량에 눈을 돌리면서 기술의 방향성이 갈라지기 시작했다. 컴퓨터의 역할은 결과적으로 연산의 양에 있고, '하나하나를 빠르게 처리하냐'와 '한 번에 여러개를 처리하냐'를 두고 발전을 이어 왔다.
엔비디아는 일찌감치 컴퓨팅의 한 부분에서는 어렵고 복잡한 연산보다 아주 간단한 연산을 많은 장치로 나누어서 처리하는 분산 컴퓨팅에 눈을 떴다. 엔비디아는 1999년 발표한 '지포스 256' GPU를 통해 CPU보다 더 잘 하는 연산을 그래픽 칩의 영역으로 가져오는 방법을 제시했고, 이후 GPU는 더 많은 연산 처리 유닛을 집약해서 폴리곤, 광원 효과 등의 연산을 동시에 많이 해치우는 데에 집중했다.
그런데 컴퓨터의 역할이 넓어지면서 게임뿐 아니라 작은 연산이 많이 필요한 일들이 점차 눈에 띄게 된다. 동영상 처리를 비롯해 엑셀의 단순하면서도 방대한 연산은 CPU 보다 작은 GPU가 나눠 처리하는 것이 훨씬 효과적이다. 이 아이디어를 일반 연산으로 확장한 것이 바로 CUDA 기술이다.
CUDA를 기점으로 GPU는 사실상 독립적으로 일을 처리하는 컴퓨터 속 컴퓨터가 됐고, 그 성능을 이끌어가기 위해 많은 전기를 쓰면서 그에 따르는 발열을 떠안게 된다. 지금도 GPU에 커다란 쿨러가 달리는 이유다.
엔비디아의 H100과 A100부터 블랙웰 B100으로 이어지는 인공지능 GPU도 결국 기본 구조는 우리가 PC로 게임할 때 쓰는 GPU와 조금도 다르지 않다. 단순히 보면 더 많은 트랜지스터를 집약하고 작동 속도를 높여 AI 연산에 특화한 것이 블랙웰 아키텍처다.
하지만 이제 그 단위가 나노미터 단위로 줄어들면서 미세 공정을 고도화하는 것은 한계에 이르렀다. 블랙웰 아키텍처 기반의 칩도 미세 공정에는 변화가 없다. 대신 엔비디아는 메모리 대역폭을 넓히고, 다이 크기를 늘리는 방식을 통해 성능을 높였다. 하지만 이는 결국 높은 열이 뒤따를 수밖에 없다.
미세공정의 한계, 극복해야 하는 냉각 기술
아직 블랙웰의 발열과 그에 대한 문제점이 공식적으로 드러난 바는 없다. 하지만 양산의 안정성과 냉각 방식을 둔 우려들이 나오고 있다. 칩 자체 뿐 아니라 이를 이용한 서버와 랙 등 시스템 단위의 발열까지 입에 오르내리는 상황이다. 엔비디아도 지난 8월 블랙웰 기반 시스템의 수냉을 언급해 왔다.
시스템 단위의 블랙웰이 갖고 있는 특징 중 하나는 단위 면적당 성능이다. 아직도 인공지능을 위한 GPU 자원은 부족한 상태다. 인공지능 관련 기업들은 GPU를 확보하는 것이 비즈니스에 직접적으로 연결될 정도이고, 클라우드로 전환하는 기업들도 GPU 할당을 안정적으로 받는 것이 가장 큰 고민이다. 한정된 데이터센터 공간에서 더 많은 컴퓨팅 성능을 끌어내는 것은 중요한 숙제다.
블랙웰의 서버 랙 하나에는 GPU 72개, GPU 32개가 들어간다. 이전까지는 GPU 8개가 하나의 단위로 묶였다. CPU와 GPU를 연결하는 시스템 버스의 한계 때문인데, 이 때문에 GPU 8개 단위의 랙을 다시 인피니밴드 등의 패브릭으로 잘 묶는 것이 시스템 엔지니어들의 숙제였다.
블랙웰은 그 한계를 뚫어내는 엔비디아의 시도이기도 하다. 하지만 반도체의 발열은 반드시 뒤따를 수밖에 없다. 정해진 서버 랙 공간 안에 이전보다 훨씬 많은 칩이 들어가면 많은 냉각 성능이 필요하기 마련인데, 칩이 늘어나면 공기 흐름이 더 불리해질 수 있다. 또한 아무리 좋은 쿨러를 써도 공기가 흘러가는 유량에는 물리적 한계가 뒤따른다.
이를 해결하는 방법은 결국 수냉이다. 수냉은 열을 잘 주고 받는 액체를 쿨러로 흘려서 칩의 열을 식히는 것이다. 직접적으로 닿는 면을 차갑게 유지해서 열을 빼내는 것이다. 엔비디아도 수냉 방식이 충분한 냉각 성능과 소음, 그리고 냉각 비용 절감 등의 효과를 가져올 것이라고 강조하고 있다.
발열은 엔비디아만의 문제는 아니다. 미세 공정의 한계는 분명하고, 시장은 점점 더 많은 컴퓨팅 파워를 원하는 상황은 계속해서 이어질 것이다. 이미 다이 크기를 늘리는 방식이 모든 반도체 시장으로 확대되고 있다. CPU 시장의 인텔과 AMD도 이미 작은 단위의 칩을 여러개 묶어서 트랜지스터 집적도를 높이는 칩렛(Chiplet) 구조의 칩을 만들고 있다. 공정을 줄이는 것보다 칩의 크기를 안정적으로 확장하는 방식이 자리를 잡아가는 것이다. 결국 고성능 컴퓨팅을 위한 칩은 크기와 함께 많은 열을 동반하고, 이를 상쇄하는 더 넉넉한 냉각이 요구된다.
하지만 수냉은 위험 요소를 끌어안고 있다. 바로 침수다. 수냉 쿨러는 물이 관을 타고 오가게 되는데, 냉각 환경은 큰 열이 오가기 때문에 시간이 흐름에 따라 피로도가 높아지게 된다. 연결 부위가 새거나 관 자체가 파열되면 물이 흐르고, 이는 돌이킬 수 없는 사고로 이어진다. 실제로 PC 시장에서도 수냉 쿨러의 인기가 서서히 높아지고 있는데, 쿨러의 문제로 침수 사고가 일어나면 칩셋 제조사는 보증 수리를 해주지 않는다. 대신 그에 대한 보상은 쿨러 제조사가 직접 처리해주는 것이 일반적이다.
데이터 센터의 경우에는 환경이 더욱 가혹할 뿐더러 블랙웰처럼 고성능 시스템은 가격이 매우 높기 때문에 여전히 수냉에 대해서는 보수적으로 접근하는 흐름이 있다. 그래서 엔비디아의 적극적인 수냉 시스템 도입은 큰 전환점이 될 수 있다.
다시 떠오르는 액체에 서버 담그는 액침 냉각', 반도체 성능 향상의 열쇠
일반적인 수냉보다 더 적극적인 방법도 제안된다. 서버를 아예 액체 속에 담그는 액침 방식이다. 데이터센터를 완전히 패키징해서 이를 바다에 담궈 열을 안정적으로 유지하는 방식부터 서버를 특수 액체에 담그는 방식까지 고민된다. 차가운 환경에 둬서 직접적으로 열을 뽑아내는 가장 적극적인 방법이기 때문이다.
바다에 넣는 방식은 환경 파괴에 대한 논란이 있지만 데이터센터가 내뿜는 열이 바다에 영향을 끼칠 정도는 아니고, 오히려 전기를 통한 방식보다 탄소 발생을 낮출 수도 있다. 실제로 마이크로소프트는 '나틱(Natick)'이라는 이름의 프로젝트를 통해 2015년부터 캘리포니아 앞바다에 해저 데이터센터를 구축, 운영했다. 2018년부터는 스코틀랜드에서도 실험을 통해 충분한 냉각 성능에 대한 답을 얻어냈다. 하지만 지난 2024년 9월 마이크로소프트는 나틱을 종료했다. 정확한 이유를 밝히지는 않았지만 냉각을 떠나 침수에 대한 완벽한 안정성과 운영 비용 사이의 간극이 있는 것으로 보인다.
현재 데이터센터에 고민되는 액침 냉각 방식은 냉각유를 이용하는 것이다. 전기 흐름을 방해하지 않고, 부식을 일으키지 않는 특수한 기름에 서버를 직접 담그는 방식이다. 뜨거운 물체를 차가운 물이 담긴 욕조에 직접 담그는 것과 비슷하다.
블랙웰 역시 액침 냉각이 대안으로 떠오르고 있다. 국내 IT 기업들도 데이터센터에 절연성 액체를 통해 시스템을 식히는 액침 방식을 적용하기 위해 고민 중이다. 특히 SK, GS칼텍스, 에스오일 등 정유 시장은 윤활유에 기반한 액침 냉각유 소재를 통해 새로운 형태의 데이터 센터 시장을 공략하고 있다. 냉각 기술을 넘어 냉각유에 대한 브랜드를 공개하고 있다.
문제는 안정성이다. 아직 액침 방식은 완전한 안정성을 증명하지 못했다. '안 된다'는 쪽 보다는 수 십 년을 이어 온 공냉 방식을 완전히 대신할 수 있다는 확신이 시장에 깔리지 않았다고 볼 수 있다. 엔비디아를 비롯해 마이크로소프트 구글 등 고성능 대규모 데이터센터를 운영하는 기업들은 모두 적극적으로 액침에 대한 고민을 하고 있지만 아직은 누구도 완전한 안정성을 보장하지 못하는 상황이다. 시스템을 도입하는 입장에서도 저렴한 x86 서버와 달리 블랙웰처럼 가격이 높고 극도의 안정성을 요구하는 시스템에서 액침 냉각을 선택하기는 쉽지 않다.
그럼에도 데이터센터의 액침 냉각 기술은 서서히 자리를 잡아갈 전망이다. 사실상 양자 컴퓨터의 대중화 전까지는 현재의 트랜지스터 집적 형태의 반도체를 쓸 수밖에 없다. 하지만 기술적으로 반도체 미세공정은 물리적인 한계점에 다다랐다. 블랙웰이 채택한 칩렛 방식의 대형 칩은 앞으로의 반도체가 성능을 높여가는 중요한 수순이고, 그에 따르는 높은 열도 피할 수 없다.
그동안 금기시되던 데이터센터의 수냉이 적극적으로 입에 오르내리고 액침 방식까지 고민되는 것은 자연스러운 흐름이다. 앞으로 열에 대한 고민은 더 깊어질 수밖에 없다. 인공지능의 대중화로 세상은 역사상 가장 많은 컴퓨팅 파워를 필요로 하고 있고 현재로서는 더 적극적인 냉각이 반도체의 성능을 끌어내는 열쇠가 되기 때문이다.
[약력]
프리랜서 디지털 컬럼니스트 2015~현재
블로터앤미디어 기자 2012~2015
미디어잇 기자 2005~2012
*공동 취재단 : 디지털포스트(PC사랑) 임병선 팀장, 이백현 기자 l 시장경제 산업1팀 최종희 팀장, 최유진 기자, 산업2팀 성지온 기자, 금융부 유경표 기자, 전지윤 기자