Google разделил TPU на две микросхемы: прагматизм вместо универсальности
Опубликовано 28.04.2026
•
Engineering
Когда инфраструктурный гигант решает не делать «одну микросхему на всё», а выпускает два разных чипа под training и inference, это сигнал не столько про технологию, сколько про то, как меняется экономика AI-нагрузок. Google объявил о восьмом поколении TPU с разделением на тренировочный и инференсный варианты — впервые за десятилетнюю историю программы.
Два чипа вместо одного: что стоит за решением
Раньше TPU были универсальными: один чип и на обучение, и на вывод. Теперь Google выпускает два разных кристалла — один заточен под вычислительно тяжёлый training, другой под лёгкий и массовый inference. На первый взгляд — усложнение линейки. Но с точки зрения стоимости владения это чистая прагматика.
Training-чип требует высокой пропускной способности памяти, огромных матричных умножителей и плотного межсоединения. Inference-чипу нужно минимизировать задержку и энергопотребление на один запрос, а не на один терафлопс. Когда объём инференса начинает доминировать (а у Google это уже произошло), универсальный чип платит за ненужную сложность на каждом запросе. Разделение — способ снизить TCO, а не просто «удивить рынок».
Масштаб: кластер до миллиона TPU
Отдельно стоит отметить, что Google заявляет возможность объединения до 1 миллиона TPU в один кластер — это на порядок больше, чем у Nvidia с их NVLink-доменами. Для тех, кто проектирует распределённое обучение, это означает, что топология сети становится главным узким местом, а не ёмкость одного чипа. На практике это значит, что Google может обучать модели, которые Nvidia физически не сможет уместить в одно логическое пространство.
Но для среднего заказчика такой масштаб — скорее маркетинговый сигнал, чем реальная возможность. Мы бы не советовали строить архитектуру под гипотезу «а вдруг нам понадобится миллион чипов» — даже в облаке Google аренда такого кластера будет стоить как небольшой ВВП.
Прагматизм важнее хайпа
Разделение на два чипа — это ещё и признак зрелости рынка. Когда AI-нагрузки были экспериментальными, универсальность оправдывала себя: один тип ускорителя на все задачи упрощает планирование. Но когда inference становится основным источником затрат (как в поиске, YouTube, Gemini), оптимизация под него даёт реальную экономию. На нашем опыте, в проектах с высоким соотношением inference/training (чат-боты, рекомендательные системы, обработка документов) именно стоимость инференса определяет ROI, а не скорость обучения.
Для команд, которые выбирают инфраструктуру под AI-продукт, эта новость — не повод переходить на TPU, а напоминание: универсальное решение почти всегда дороже специализированного на масштабе. Если ваш проект вырастет — вам тоже придётся выбирать между «один чип на всё» и «два чипа под разные задачи». Google сделал этот выбор за себя. Когда его придётся делать вам — вопрос времени.
