JOURNAL / 102025-03-25 · AI · 6 мин чтения
← все статьи

Сколько на самом деле стоит inference

Считаем $/запрос до запуска, а не на ретро. Где self-hosting — миф, а где экономит 60%.

Автор Roman Kapustin · devopsОбновлено 2025-03-27

Цена токена падает, счёт растёт

Стоимость inference падает примерно в 10 раз в год — и всё равно счёт за месяц растёт, потому что растёт использование. Единственная защита — бюджет $/запрос с нулевого дня. Мы считаем его на этапе tech-spec и фиксируем в SLA: средний RAG на 10k обращений — $50–150/мес на API, около нуля на локальной модели.

scoperiskbuffermarginfixed-price formulascope × 1.3 (risk) + 20% (buffer) = pricemargin = price − actual cost − penalty (if late)↳ avg margin 2024 — 2026: 31%
Из чего складывается $/запрос: токены + reranking + ретраи

Self-hosting — не дешевле по умолчанию

Точка безубыточности своей модели — около 500 миллионов токенов в день. Ниже этого API дешевле, как только посчитаешь простой GPU, DevOps и дежурства. Большинство клиентов этого порога никогда не достигают. Мы self-хостим эмбеддинги (разовая батч-операция), но не генерацию.

  1. 01.Кэшируй повторяющиеся запросы — самый дешёвый токен тот, что не отправлен
  2. 02.Батчинг вместо потока одиночных вызовов
  3. 03.Сначала дешёвая модель, дорогая — только на эскалации
  4. 04.Лимит на длину контекста — иначе платишь за тишину
««Давайте поставим свою модель» почти всегда дороже, чем «давайте посчитаем $/запрос».»

Что бы сделали иначе

На одном проекте мы слишком рано подняли self-hosted генерацию — GPU простаивал на 8% утилизации. Вернулись на API и срезали счёт за инфраструктуру на 60%. Сначала считаем, потом ставим железо.

Нужен такой же результат?

Расскажите о проекте — пришлём смету за 24 часа.

Получить смету
⌗ ЖУРНАЛ · ПОДПИСКА

Подписка на журнал

Раз в квартал. Никакого спама. Только новые статьи.

без спама · отписка в один клик