Статья

Когда память дороже GPU: о чём молчит Nvidia в презентациях Vera Rubin

Опубликовано 22.05.2026

•

Engineering

Смотреть на стоимость GPU в отрыве от остальной системы — примерно как считать цену дома по стоимости фундамента. Nvidia выпустила платформу Vera Rubin, и по расчётам Tom's Hardware один такой rack обходится в $7,8 млн. Из них почти $2 млн — только память (HBM4), а каждый GPU Rubin стоит «всего» $50 000. За пять лет доля памяти в стоимости стойки выросла с 5% до 25% — рост в 485%.

Для тех, кто собирает инфраструктуру под обучение и инференс, эта цифра — не просто новость про Nvidia. Это сигнал, что архитектура будущих AI-систем будет определяться не столько флопсами GPU, сколько пропускной способностью и объёмом памяти. И трейдоффы, которые раньше были на периферии, становятся центральными.

Память как узкое горлышко, которое теперь ещё и дорогое

Рост стоимости HBM — не случайность. LLM растут быстрее, чем ёмкость одного GPU: модель вроде Llama 3.1 405B требует ~800 ГБ только для весов в FP16. Даже с 288 ГБ HBM3e на B200 это три GPU вразрез — и межсоединение начинает доминировать в задержках. HBM4 обещает до 1 ТБ/с на стек, но цена за гигабайт растёт: сложность производства (гибридное bonding, больше слоёв) бьёт по выходу годных кристаллов.

На нашем опыте, большинство команд, проектирующих AI-кластеры, закладывают бюджет на GPU как на главную статью, а память считают «расходником». В реальности, когда вы упираетесь в лимит VRAM на батч, вы либо покупаете ещё один GPU (и платите за его compute, который не нужен), либо берёте более дорогую память. И то, и другое — скрытые затраты, которые в Vera Rubin становятся явными.

Почему $50 000 за GPU — это ловушка

Сама цифра «$50 000 за Rubin» выглядит как демократизация. Но в системе из 72 GPU (типичный rack) память уже стоит $2 млн, а GPU — $3,6 млн. Соотношение 1:1,8 — и оно будет смещаться в сторону памяти. Для инференса, где latency критична, придётся ставить больше HBM на один GPU, что делает каждый дополнительный гигабайт памяти дороже самого чипа. Для обучения — наоборот: можно размазать модель по большему числу GPU, но тогда платишь за interconnect (NVLink/NVSwitch), который тоже не бесплатный.

Вывод, который мы обычно делаем для себя: при проектировании AI-инфраструктуры стоит моделировать полную стоимость владения (TCO), включая память, интерконнект и охлаждение, а не только «сколько стоят GPU». Иначе, как в стройке, можно получить фундамент за $50 000, а потом потратить $200 000 на стены и крышу — и удивиться, что дом всё равно не влезает в бюджет.

Что это значит для выбора архитектуры

Ну, почти «что это значит». На самом деле: если память дорожает быстрее compute, то стратегия «купим больше GPU и распараллелимся» становится менее выгодной. Альтернативы — более эффективные форматы (FP4, 2-bit квантование), спекулятивный decoding (чтобы меньше обращений к памяти на токен), или переход на custom ASIC с близкой к HBM памятью (как у Google TPU или Groq). Но каждая из них — свой трейдофф: квантование режет качество, спекуляция увеличивает latency на batch, а ASIC — это жёсткая привязка к одному vendor.

В итоге, новость про Vera Rubin — не про Nvidia. Она про то, что AI-инфраструктура перестаёт быть «просто купи GPU». И те, кто закладывает бюджет на 2025-2026, уже сейчас должны считать не флопсы, а гигабайты в секунду на доллар.

Когда память дороже GPU: о чём молчит Nvidia в презентациях Vera Rubin

Память как узкое горлышко, которое теперь ещё и дорогое

Почему $50 000 за GPU — это ловушка

Что это значит для выбора архитектуры

Похожие статьи