HBM이 AI의 핵심인 이유 (병목, 메모리 패러다임, HBF)

가끔 건설 현장에서 일하다 보면 "겉으로 보이는 것보다 실제 핵심은 따로 있다"는 말을 뼈저리게 실감합니다. 고객은 마감재나 브랜드를 보지만, 프로젝트 성패는 배관이나 구조 설계처럼 눈에 안 보이는 곳에서 결정됩니다. AI 산업도 딱 그렇게 생겼다는 걸, HBM 이야기를 접하고 나서야 제대로 느꼈습니다.

보이지 않는 병목, HBM이 AI 성능을 결정한다.

"GPU가 AI의 핵심 아닌가요?" 저도 처음엔 당연히 그렇게 생각했습니다. 그런데 실제 구조를 들여다보면 얘기가 달라집니다. GPU가 아무리 좋아도, 데이터를 실시간으로 공급해주는 메모리가 따라주지 않으면 성능이 나오질 않습니다. 이 역할을 하는 게 바로 HBM(High Bandwidth Memory), 즉 고대역폭 메모리입니다. 여기서 HBM이란 DRAM 칩을 수직으로 여러 층 쌓아 올려 데이터 전송 속도를 극적으로 높인 메모리 방식을 말합니다. 기존 메모리가 단층 건물이었다면, HBM은 16층짜리 아파트를 지어버린 셈입니다.

이 구조를 가능하게 하는 핵심 기술이 TSV(Through-Silicon Via)입니다. TSV란 반도체 칩을 관통하는 수직 전극을 뜻하는데, 쉽게 말해 16층 아파트에 전기와 냉각을 1층부터 16층까지 고르게 공급하는 배관 역할을 합니다. 건설 현장에서 제가 직접 경험한 것처럼, 설비 배관 하나가 잘못 설계되면 위층 아래층 할 것 없이 문제가 퍼집니다. 반도체도 마찬가지입니다. TSV 품질이 곧 HBM 성능의 차이를 만들고, 이게 결국 AI 서비스의 속도와 품질을 결정합니다.

현장에서 느끼는 병목 현상이 AI 시장에서도 그대로 재현되고 있습니다. 특정 자재 하나가 늦어지면 전체 공정이 멈추듯, 지금 AI 시장에서는 HBM 공급이 그 역할을 하고 있습니다. GPU 설계는 얼마든지 할 수 있고, 위탁 생산도 TSMC를 통해 조절할 수 있지만, 거기에 붙는 HBM이 없으면 완제품 자체가 나오질 않습니다. 세계 최대 AI 기업들이 한국 반도체 공장 앞에 줄을 서는 이유가 여기 있습니다.

AI가 처리하는 데이터 구조를 보면 이 병목이 왜 심화되는지 더 명확해집니다. AI는 질문을 받으면 방대한 데이터를 읽어 'KV 캐시(Key-Value Cache)'를 생성합니다. KV 캐시란 AI가 입력 문장을 내부 언어로 변환해 저장해두는 일종의 암호 장부입니다. 문제는 이 캐시의 크기가 입력 데이터 길이에 비례하거나 그 제곱에 비례해 폭발적으로 커진다는 점입니다. AI가 인터넷 검색 결과를 통째로 처리하는 요즘 구조에서는, 필요한 HBM 용량이 수백 기가바이트 단위로 치솟습니다. 전 세계 AI 기업들이 HBM을 확보하지 못하면 서비스 자체를 운영할 수 없는 상황이 된 겁니다.

실제로 SK하이닉스는 2024년 HBM 매출이 전년 대비 크게 증가했으며, HBM3E 제품 공급에서 경쟁사 대비 선행 우위를 점하고 있다는 평가를 받았습니다(출처: 한국반도체산업협회). 이 수치가 말해주는 건 단순히 제품이 잘 팔린다는 게 아니라, 메모리가 AI 인프라의 실질적인 핵심 자원으로 자리잡았다는 사실입니다.

AI 성능을 결정하는 핵심 요소를 정리하면 다음과 같습니다.

TSV 기술력: 적층된 칩 간 전력·신호 균일 공급 품질
KV 캐시 용량: AI 추론 과정에서 필요한 메모리 크기
레이턴시(Latency): GPU와 HBM 간 데이터 왕복 지연 시간
패키징 기술: HBM과 GPU를 물리적으로 얼마나 가깝게 붙이느냐

메모리 패러다임 전환과 HBF가 가져올 변화

"그럼 메모리만 잘 만들면 모든 게 해결되나요?" 그렇지는 않습니다. 이게 제가 이 주제를 보면서 가장 조심스럽게 생각하는 부분이기도 합니다. HBM의 중요성은 분명하지만, 시장은 언제나 복합 구조로 움직입니다.

최근 일부에서는 HBM 없이도 AI를 구동할 수 있다는 주장이 나오고 있습니다. 터보 퀀트(Turbo Quant)라는 개념이 그 중 하나인데, 이는 AI 모델이 처리하는 데이터를 양자화(Quantization)하는 기법입니다. 양자화란 기존에 소수점 16~32자리까지 정밀하게 표현하던 수치를 3비트, 즉 1에서 8 사이의 정수로 대폭 압축하는 방식입니다. 메모리 사용량을 줄이는 데는 효과적이지만, 정밀도가 떨어진다는 리스크가 있습니다. 솔직히 이건 예상 밖이었습니다. 처음엔 대단한 대안처럼 보였는데, 실제로 따져보면 간단한 텍스트 처리 수준에서는 통하지만, 영상 생성이나 멀티모달 AI처럼 용량이 폭발적으로 커지는 영역에서는 한계가 뚜렷합니다. 중요한 의사결정이나 국방·금융 분야에서 오차가 허용되지 않는 AI라면, 압축으로 인한 데이터 손실이 치명적인 문제가 됩니다.

딥시크(DeepSeek)도 비슷한 맥락에서 볼 수 있습니다. 수학적 알고리즘을 최적화해 낮은 사양의 GPU와 메모리로도 AI 학습을 가능하게 했다는 점은 인상적이었습니다. 제 경험상 이런 시도는 분명 가치 있습니다. 다만, AI가 영상도 만들고 음악도 분석하고 방대한 문서를 동시에 처리하는 에이전틱 AI(Agentic AI) 영역으로 넘어가면, 알고리즘 최적화만으로는 근본적인 메모리 수요를 줄이기 어렵습니다. 대세의 흐름을 바꾸는 데는 한계가 있다고 봅니다.

여기서 앞으로 주목해야 할 기술이 HBF(High Bandwidth Flash)입니다. HBF란 기존에 스마트폰 사진 저장 등 대용량 데이터 보관에 쓰이던 낸드 플래시(NAND Flash) 메모리를 수직으로 적층해 대역폭을 높인 새로운 형태의 메모리를 말합니다. HBM이 빠른 속도가 강점이라면, HBF는 훨씬 큰 용량이 강점입니다. AI가 처리해야 하는 KV 캐시 크기가 폭발적으로 늘어나는 상황에서, 용량 부족을 보완하는 역할로 HBF가 등장할 가능성이 높습니다. 상용화 시점은 2027~2028년이 유력하게 거론되고 있습니다.

흥미로운 건 HBF가 SK하이닉스와 삼성전자 모두에게 유리한 구도라는 점입니다. 두 회사 모두 DRAM과 낸드 플래시를 함께 생산하고, HBM에서 축적한 적층(Stacking) 패키징 기술을 그대로 활용할 수 있기 때문입니다. 한국 반도체 업계가 HBM에 이어 HBF에서도 유리한 출발선에 서 있다는 점은, 제가 이 산업을 지켜보면서 꽤 근거 있는 낙관이라고 느낍니다.

다만 냉정하게 보면 한계도 있습니다. 낸드 플래시는 쓰기 횟수에 제한이 있어 수시로 데이터를 갱신하는 용도엔 적합하지 않고, 중국 반도체 기업들의 추격도 장기적으로 무시할 수 없습니다. 산업연구원에 따르면 중국의 반도체 자급률 목표가 지속적으로 상향되고 있어, 10년 이상의 시계에서는 경쟁 구도가 변할 가능성을 열어두어야 한다고 분석했습니다(출처: 산업연구원).

결국 지금 이 시장을 보는 눈은 하나로 정리됩니다. 겉으로 보이는 GPU 성능이나 AI 서비스 브랜드보다, 실제 병목이 어디에 있는지를 먼저 읽는 것. 건설 현장에서 배관 하나가 막히면 전체 공사가 멈추듯, AI 시장에서의 병목은 지금 명확하게 메모리에 있습니다. 그 구조가 바뀌기 전까지는, 한국 반도체 기업들이 쥐고 있는 이 카드의 가치는 생각보다 훨씬 오래 유효할 가능성이 높습니다. 물론 시장은 항상 복합적으로 움직이기 때문에, 이 흐름을 맹신하기보다는 변화 지점을 함께 지켜보는 시선이 필요합니다. 이 글은 개인적인 경험과 의견을 공유한 것이며, 전문적인 투자 조언이 아닙니다.

참고: https://www.youtube.com/watch?v=bKB4XvaH8PY

novarise-yeom 님의 블로그

HBM이 AI의 핵심인 이유 (병목, 메모리 패러다임, HBF)

보이지 않는 병목, HBM이 AI 성능을 결정한다.

메모리 패러다임 전환과 HBF가 가져올 변화

티스토리툴바

티스토리툴바