Загрузил sergeyefimov23423

Задание по моделированию инфраструктуры ИИ-сервиса

Задание по моделированию инфраструктуры ИИсервиса
Описание задания
Необходимо выбрать один кейс из предоставленного списка.
Далее выполнить 3 части задания:
(1) концепт технического решения,
(2) расчёт нагрузки на инфраструктуру,
(3) подбор железа или облачного решения.
Если выбранный кейс относится к категории Edge AI, обязательно
выполняется дополнительный блок с топологической схемой.
Раздел 1. Список кейсов
Таблица кейсов партнёров
Ниже представлены все доступные кейсы с классификацией типа
нагрузки. Выберите один кейс и в опросе проводимом в курсе, чтобы
исключить дублирование внутри группы.
№
Название кейса
Тип нагрузки
Категория
1
Сервис по распознаванию
текста
Тяжёлая мультимодальная
(GPU) – большой объём
VRAM
Cloud
GPU
2
Информационный агент для
студентов
Смешанная (CPU/RAM/GPU)
Ассистент юриста
Умеренная (GPU/CPU) –
зависит от LLM
LLM/Agent
Умеренная (GPU/CPU) –
зависит от LLM
LLM/Agent
3
4
Сервис консультаций по
господдержке ИТ-компаний ЧО
LLM/Agent
5
Сервис консультаций по
господдержке
предпринимателей ЧО
Умеренная (GPU/CPU) –
зависит от LLM
LLM/Agent
Сервис консультаций по
господдержке
сельхозпроизводителей
Умеренная (GPU/CPU) –
зависит от LLM
LLM/Agent
Распознавание граффити на
памятниках
Интенсивная (GPU) – высокая
VRAM и тензорные ядра
9
Рекомендательная система по
хоккейной статистике
Аналитическая (CPU/RAM) –
многоядерные процессоры
10
Распознавание оружия и поз
стрельбы
Интенсивная (GPU) – высокая
VRAM и тензорные ядра
Обнаружение происшествий
Интенсивная (GPU) – высокая
VRAM и тензорные ядра
6
8
11
13
Computer
Vision
Analytics
Computer
Vision
Computer
Vision
ИИ-диагностика физического
развития детей и молодёжи
Интенсивная (GPU) – высокая
VRAM и тензорные ядра
ИИ-диагностика развития речи
Мультимодальная (GPU/CPU)
– NLP + аудио
Audio/NLP
ИИ-диагностика социальноэмоционального развития
Мультимодальная (GPU/CPU)
– NLP + аудио
Audio/NLP
Мультибиометрическая
платформа NeuroABIS
Интенсивная (GPU) – высокая
VRAM и тензорные ядра
27
Кросс-платформенный
инсталлятор для FaceSDK
Граничные вычисления (Edge
AI) – NPU, ARM
Edge AI
28
AI-агенты для end-to-end
MLOps процессов
Edge/оптимизированная –
TPU/NPU/Edge GPU
Edge AI
31
Инвариантные дескрипторы для
распознавания отпечатков
пальцев
Edge/оптимизированная –
TPU/NPU/Edge GPU
Edge AI
32
Отечественные
нейровычислительные
устройства Edge AI
Граничные вычисления (Edge
AI) – NPU, ARM
Edge AI
14
15
16
Computer
Vision
Computer
Vision
33
Распознавание событий в
видеопотоке (Vision-Language
модели)
Экстремальная (гибридный
кластер GPU+CPU+СХД)
34
Веб-инструмент аннотации
изображений с приоритизацией
Edge/оптимизированная –
TPU/NPU/Edge GPU
Edge AI
50
Работа с базой данных
Смешанная (CPU/RAM/GPU)
Data
51
Генерация инструкций по видео
Тяжёлая мультимодальная
(GPU) – A100/H100
Cloud
GPU
52
Генерация инструкций по
технической документации
Тяжёлая мультимодальная
(GPU) – A100/H100
Cloud
GPU
53
Генерация инструкций по
данным пользователей
Тяжёлая мультимодальная
(GPU) – A100/H100
Cloud
GPU
56
Прогнозирование
эффективности КПТ при
депрессии
Аналитическая (CPU/RAM) –
in-memory
Analytics
58
Прогнозирование стоимости
медицинской страховки
Аналитическая (CPU/RAM) –
in-memory
Analytics
59
Определение типа банковской
транзакции
Аналитическая (CPU/RAM) –
in-memory
Analytics
60
Коррекция расхода
кориолисового расходомера
(газожидкостный поток)
Потоковая (CPU/RAM) –
быстрый I/O, низкая задержка
Streaming
Коррекция плотности
кориолисового расходомера
(трёхфазный поток)
Потоковая (CPU/RAM) –
быстрый I/O, низкая задержка
Streaming
62
Диагностика подшипников
(гибридная CNN-MLP)
Аналитика реального
времени (CPU/RAM/GPU)
63
Диагностика подшипников по
температурным данным
Потоковая (CPU/RAM) –
быстрый I/O
Streaming
Раннее обнаружение перегрева
подшипника по тренду
температуры
Потоковая (CPU/RAM) –
быстрый I/O
Streaming
Оценка устойчивости модели
диагностики
Потоковая (CPU/RAM) –
быстрый I/O
Streaming
61
64
65
Cloud
GPU
Edge AI
67
Транскрибация контрольного
мероприятия инспектором
Смешанная (GPU) – аудиоинференс
Audio/NLP
71
Распознавание персональных
документов
Тяжёлая мультимодальная
(GPU)
Cloud
GPU
84
Транскрибация и подготовка
стенограмм онлайн
Смешанная (GPU) – аудиоинференс
Audio/NLP
Онлайн-аналитика
взаимодействия с гражданами
(голос + текст)
Мультимодальная (GPU/CPU)
– NLP + аудио
Audio/NLP
Голосовой робот-помощник на
базе ИИ
Смешанная (GPU) – аудиоинференс
Audio/NLP
Игры для развития речи с
модулем NeoMe
Смешанная (GPU) – аудиоинференс
Audio/NLP
Функция голосового
управления
Смешанная (GPU) – аудиоинференс
Audio/NLP
85
93
111
113
Edge AI кейсы (отмечены
): 27, 28, 31, 32, 34, 62 — при выборе
этих кейсов обязательно выполняется Дополнительный блок E.
Раздел 2. Требования к заданию
Часть 1 – Концепт решения
1.1 Постановка задачи и выбор подхода
Опишите выбранный кейс в формате технического брифа:
• Проблема: что именно решает система, для кого она
предназначена, каков ожидаемый бизнес-результат.
• Тип задачи ИИ: классификация / детекция / генерация / регрессия
/ транскрибация / рекомендация и т.д.
• Режим работы: онлайн-инференс (запрос → ответ в реальном
времени), пакетная обработка (batch), потоковая обработка (stream)
или гибрид.
Пример (кейс №3 «Ассистент юриста»): задача — RAG-система поверх
корпуса юридических документов. Тип задачи: генерация текста с retrieval.
Режим: онлайн-инференс с задержкой ≤ 3 с на запрос.
1.2 Технологический стек
Составьте таблицу выбранных технологий по слоям:
Слой
Технология / Инструмент
Обоснование выбора
Модель ИИ
—
—
Фреймворк инференса
—
—
API / бэкенд
—
—
База данных
—
—
Очередь задач (если нужна)
—
—
Мониторинг
—
—
Для каждого элемента — краткое обоснование: почему именно эта
технология, а не альтернативы.
1.3 Архитектурная схема
Нарисуйте блок-схему системы (допустим ASCII-арт, draw.io или любой
редактор диаграмм). Обязательные компоненты на схеме:
• Пользователь / клиент
• API Gateway или балансировщик
• Сервис инференса
• Хранилище данных (БД, векторная БД, объектное хранилище —
по потребности)
• Модуль мониторинга
1.4 Оценка сложности и характера нагрузки
Заполните таблицу оценки:
Параметр
Значение
Комментарий
Тип нагрузки (CPU / GPU / Mixed)
—
—
Преобладающий ресурс (VRAM /
RAM / I/O)
—
—
Требование к задержке (latency)
—
мс или с
Допустим ли batch-режим?
Да / Нет
—
Потребность в постоянном GPU?
Да / Нет
—
Сложность системы (1–5)
—
1 = простой скрипт, 5 =
распределённый кластер
Часть 2 — Расчёт нагрузки
Цель раздела — получить конкретные цифры потребности в ресурсах
для трёх масштабов: малого, среднего и большого. Студент сам задаёт
численные предположения и обосновывает их.
2.1 Определение масштаба (сформулируйте самостоятельно)
Задайте три сценария в зависимости от смысла вашего кейса:
Масштаб
Пример для веб-сервиса
Пример для IoT/Edge
Малый
100 активных пользователей/сутки
10 устройств
Средний
10 000 активных пользователей/сутки
100 устройств
Большой
500 000 активных пользователей/сутки
1 000 устройств
Обоснуйте выбранные числа: на какую реальную аудиторию рассчитан
сервис? Данные можно взять из открытой статистики или
задокументированных аналогов. Обратите внимание на то, что числа даны для
примера. Для вашего кейса числа будут отличаться.
2.2 Расчёт RPS (запросов в секунду)
Для облачных и серверных сервисов используйте формулу:
RPS =
𝑁users × 𝑅day
𝑇active × 3600 × 𝑘peak
где:
𝑁users — число активных пользователей в сутки,
𝑅day — среднее число запросов от одного пользователя в сутки,
𝑇active — число часов активной нагрузки в сутки (обычно 8–12 часов),
𝑘peak — коэффициент пиковой нагрузки (рекомендуется 0,2–0,3, т.е. 20–
30% нагрузки приходится на пиковый час).
Пример расчёта (кейс №3 «Ассистент юриста», средняя нагрузка, 10
000 пользователей/сутки):
RPS =
10 000 × 5
50 000
≈
≈ 6.9 ≈ 7 RPS
8 × 3600 × 0.25
7 200
2.3 Расчёт потребности в VRAM / RAM
Для GPU-сервисов (LLM, Computer Vision):
VRAMmin = VRAMmodel + VRAMbatch = 𝑊 × 𝑃 + 𝐵 × 𝑆 × 𝐿 × 𝐻 × 𝑃
где:
𝑊 — число параметров модели (млрд),
𝑃 — байт на параметр (FP16 = 2 байт, INT8 = 1 байт, FP32 = 4 байт),
𝐵 — размер батча,
𝑆 — длина контекста в токенах,
𝐿 — число слоёв трансформера,
𝐻 — размерность скрытого состояния.
Упрощённое правило (достаточно для данного задания):
VRAMmin ≈ 𝑊params × 2 байт × 1.2
(коэффициент 1.2 — накладные расходы на KV-кэш и активации)
Пример: LLM 7B параметров в FP16:
VRAMmin ≈ 7 × 109 × 2 × 1.2 ≈ 16.8 ГБ
Для CPU/RAM-сервисов (аналитика, потоковая обработка):
RAMservice = RAMmodel + RAMdata\_buffer + RAMOS + RAMreserve
2.4 Расчёт числа GPU-инстансов
RPS × 𝑇inf
𝑁GPU = ⌈
⌉ × 𝑘reserve
𝑈GPU
где:
𝑇inf — время обработки одного запроса на одном GPU (секунды),
𝑈GPU — целевая утилизация GPU (рекомендуется 0.65–0.75),
𝑘reserve — коэффициент резерва отказоустойчивости (1.5 для N+1).
Пример: RPS = 7, 𝑇inf = 3 с, 𝑈GPU = 0.7:
𝑁GPU = ⌈
7×3
⌉ × 1.5 = ⌈30⌉ × 1.5 ≈ 45 → округлить вверх
0.7
Примечание: при малой нагрузке (RPS < 1) возможен один GPU-сервер
с холодным резервом или serverless-инференс.
2.5 Сводная таблица нагрузки
Заполните для всех трёх масштабов:
Параметр
Малый
Средний
Большой
Активных пользователей / устройств в сутки
—
—
—
RPS (средний)
—
—
—
RPS (пиковый)
—
—
—
VRAM / RAM на сервис (ГБ)
—
—
—
Число GPU-инстансов
—
—
—
Объём хранилища (ТБ)
—
—
—
Сетевой трафик (ГБ/сутки)
—
—
—
Часть 3 — Подбор железа или облачного решения
3.1 Требования к выбору
Подбор выполняется для среднего масштаба из Части 2. Допустимы два
варианта:
• Вариант A: собственный физический сервер (on-premise).
• Вариант B: аренда облачного сервера / GPU-инстанса
(допустимы: Yandex Cloud, VK Cloud, Selectel, SberCloud,
международные AWS / GCP / Azure).
Если у кейса нет жёстких требований к конфиденциальности данных —
рекомендуется сравнить оба варианта и обосновать выбор.
3.2 Вариант A — Собственный сервер
Заполните спецификацию:
Компонент
Выбранная модель
Характеристики
Количество
CPU
—
ядра / частота
—
RAM
—
ГБ, тип
—
GPU (если нужен)
—
VRAM / TDP
—
Системный диск
—
SSD NVMe, ГБ
—
Хранилище данных
—
HDD/SSD, ТБ
—
Сетевой адаптер
—
Гбит/с
—
Сервер (шасси)
—
форм-фактор
—
Укажите примерную стоимость конфигурации (в рублях) и обоснуйте,
почему выбранные характеристики соответствуют рассчитанной нагрузке.
Можно ссылаться на Яндекс.Маркет, DNS, Regard и другие магазины.
3.3 Вариант B — Облачный сервер
Выберите конкретный облачный провайдер и инстанс. Заполните:
Параметр
Значение
Провайдер
—
Тип инстанса / тариф
—
CPU (vCPU)
—
RAM (ГБ)
—
GPU (тип / VRAM)
—
Дисковое хранилище
—
Сеть / трафик
—
Стоимость в час (руб.)
—
Стоимость за 1 год (руб.)
—
Формула расчёта годовой стоимости:
Costyear = 𝑃hour × 24 × 365 + 𝐶storage + 𝐶traffic
где:
𝑃hour — почасовая ставка инстанса,
𝐶storage — стоимость хранилища в год,
𝐶traffic — стоимость исходящего трафика в год.
Обязательно приведите ссылку на страницу тарификации выбранного
провайдера.
3.4 Схема развёртывания
Нарисуйте упрощённую схему развёртывания для среднего масштаба:
какие сервисы на каком узле работают, как настроена балансировка, где
хранятся данные.
Раздел 3. Дополнительный блок E — Edge AI кейсы
Этот блок обязателен для кейсов: 27, 28, 31, 32, 34, 62. Для остальных
кейсов — по желанию.
E.1 Что такое Edge AI в контексте кейса
Опишите, почему данный кейс требует обработки на граничном
устройстве, а не в облаке. Укажите:
• Требования к задержке (latency), при которых облако
неприемлемо.
• Наличие или отсутствие постоянного интернета у устройства.
• Требования к конфиденциальности (данные не должны покидать
устройство).
• Ограничения по питанию (бортовое питание, батарейное).
E.2 Выбор Edge-платформы
Выберите платформу для инференса модели на устройстве. Заполните
сравнительную таблицу:
Платформа
CPU / NPU
RAM
(ГБ)
TDP
(Вт)
Поддержка
фреймворков
Стоимость
($)
NVIDIA Jetson
Nano
Cortex-A57 + 128ядерный GPU
4
5–10
TensorRT,
ONNX
~100
NVIDIA Jetson
Orin NX
Cortex-A78AE +
Ampere GPU
8–16
10–25
TensorRT,
PyTorch
~300–500
Raspberry Pi 5 +
Hailo-8
ARM Cortex-A76
+ NPU 26 TOPS
4–8
5–15
ONNX,
TFLite
~100–150
STM32 + XCUBE-AI
Cortex-M7 (MCU)
1–2
МБ
<1
TFLite Micro
< 10
Coral Dev Board
(TPU)
Cortex-A53 + Edge
TPU
1
2–5
TFLite
~100
Собственная
платформа
—
—
—
—
—
Выберите одну платформу и обоснуйте выбор. Укажите, какую
оптимизацию модели потребуется применить (квантизация INT8, прунинг,
дистилляция).
E.3 Схема объединения устройств с центральным сервером
Нарисуйте топологию с обязательными компонентами:
Приведенная схема только для примера, в вашем случае можно
использовать схематический рисунок.
Схема должна включать:
1. Центральный сервер с компонентами: API управления, брокер
сообщений (MQTT / gRPC / HTTP/2), хранилище моделей,
оркестратор задач.
2. Edge-устройства с компонентами: модуль инференса, heartbeatагент, локальный буфер данных.
3. Протоколы связи между уровнями: укажите MQTT, REST, gRPC
или собственный протокол.
4. Канал доставки (LAN, Wi-Fi, 4G/5G, LoRa — в зависимости от
кейса).
E.4 Расчёт нагрузки парка устройств
Для Edge-кейсов "пользователь" — это само устройство. Рассчитайте
нагрузку на центральный сервер:
RPSserver = 𝑁devices × 𝐹report
где 𝐹report — частота отправки данных одним устройством (запросов/сек).
Дополнительно оцените:
• Объём телеметрии в сутки: 𝑉day = 𝑁devices × 𝑆event × 𝐹report × 86400
(байт).
• Нагрузку OTA-обновления: пропускная способность канала при
одновременном обновлении 𝑘% парка.
E.5 Центральный сервер для Edge-системы
Подберите конфигурацию центрального сервера по методологии Части
3. Учтите, что центральный сервер для Edge-системы выполняет:
• Агрегацию телеметрии от всех устройств (высокий I/O).
• Управление версиями моделей и их доставку (объектное
хранилище).
• Мониторинг и алёрты по состоянию устройств.
• Опционально — дообучение/переобучение модели на
накопленных данных (требует GPU).
Раздел 4. Оформление отчёта
Структура отчёта
Отчёт оформляется в виде технического документа со следующей
структурой:
1. Титульный лист — название кейса, ФИО, группа, дата.
2. Введение — описание кейса, цель работы (1 страница).
3. Часть 1. Концепт решения — описание, схема, оценка сложности.
4. Часть 2. Расчёт нагрузки — все формулы, вычисления, сводная
таблица.
5. Часть 3. Выбор железа / облака — спецификации, ценовой расчёт,
схема развёртывания.
6. Блок E (при наличии) — топологическая схема, расчёт нагрузки на
парк, конфигурация сервера.
7. Заключение — выводы об обоснованности выбранной
конфигурации (0,5 страницы).
Требования к оформлению
•
Все формулы подписаны, обозначения переменных объяснены.
•
Все числа в таблицах имеют единицы измерения.
•
Схемы — читаемые, с подписями компонентов.
•
Ссылки на источники цен и технических характеристик обязательны.
•
Объём: 10–25 страниц без учёта титульного листа и схем.
Раздел 5. Возможные вопросы
Q: Как выбрать размер модели, если в кейсе не указано?
A: Выберите наименьшую модель, которая достаточно хорошо решает задачу.
Для RAG-ассистентов — 7B модели достаточно в большинстве случаев. Для
детекции объектов в реальном времени — YOLOv8-n или YOLOv8-s.
Обоснуйте выбор в тексте.
Q: Что делать, если нагрузка оказалась очень маленькой (RPS <
0.1)?
A: При RPS < 0.1 (например, 1 запрос в 10 секунд) целесообразно рассмотреть
serverless-инференс (AWS Lambda + GPU, Yandex Cloud Serverless) или
дежурный режим с «холодным стартом». Опишите этот вариант.
Q: Нужно ли учитывать базу данных в расчёте нагрузки?
A: Да. Для кейсов с векторными базами данных (RAG, рекомендательные
системы) укажите объём хранилища и потребность в RAM для индекса.
Правило: векторная БД с 1 млн векторов размерностью 768 требует примерно
3–6 ГБ RAM.
Q: Можно ли использовать только облако без on-premise?
A: Да. Если кейс не накладывает требований к хранению данных внутри
периметра, облачный вариант предпочтителен для малых и средних нагрузок.
Обоснуйте выбор.
Q: Какой коэффициент пиковой нагрузки 𝑘peak выбрать?
A: Для потребительских сервисов (утро–вечер) — 0.2–0.3. Для B2B-систем с
равномерной нагрузкой — 0.5–0.7. Для систем безопасности
(видеонаблюдение, датчики) — возможен пик при событии: используйте 0.1–
0.15 для фоновой нагрузки и укажите пиковый сценарий отдельно.
Раздел 6. Справочные данные
6.1 Характеристики распространённых GPU
GPU
VRAM (ГБ)
TFlops (FP16)
TDP (Вт)
Формфактор
NVIDIA A100 SXM
80
312
400
SXM
NVIDIA H100 SXM
80
989
700
SXM
NVIDIA RTX 4090
24
165
450
PCIe
NVIDIA RTX 4080
16
97
320
PCIe
NVIDIA RTX 3090
24
71
350
PCIe
NVIDIA A10
24
125
150
PCIe
NVIDIA T4
16
65
70
PCIe
NVIDIA L4
24
121
72
PCIe
AMD Instinct MI300X
192
1307
750
OAM
6.2 Характеристики распространённых LLM-моделей
Модель
Параметры
(млрд)
VRAM FP16
(ГБ)
VRAM INT8
(ГБ)
Задержка (с/запрос,
A100)
Qwen-2.57B
7
~16
~8
1–3
Llama-3-8B
8
~18
~9
1–3
Llama-370B
70
~140
~70
5–15
Mistral-7B
7
~16
~8
1–3
Gemma-227B
27
~54
~27
3–8
GPT-4
(API)
n/a
n/a
n/a
3–20 (зависит от
провайдера)
6.3 Характеристики Computer Vision-моделей
Модель
Задача
Задержка (мс,
GPU)
Задержка (мс,
CPU)
Размер
(МБ)
YOLOv8-n
Детекция
2–5
50–100
6
YOLOv8-l
Детекция
10–20
200–400
83
YOLOv9-e
Детекция
15–30
500+
192
ResNet-50
Классификация
3–7
30–80
98
ViT-B/16
Классификация
8–15
100–300
330
Whisperbase
ASR
50–200 (аудио 30
с)
500–2000
145
Whisperlarge
ASR
200–800 (аудио 30
с)
3000+
1550
6.4 Edge AI платформы
Платформа
AI-
RAM
TDP
Стоимость
4 ГБ
5–10
~$100
7–15
~$250
10–
~$400–
производительность
NVIDIA Jetson
472 GFLOPS
Nano
Вт
NVIDIA Jetson
40 TOPS
Orin Nano
4–8
ГБ
NVIDIA Jetson
70–100 TOPS
Orin NX
Вт
8–16
ГБ
NVIDIA Jetson
275 TOPS
25 Вт
32 ГБ
AGX Orin
Raspberry Pi 5
26 TOPS (NPU)
4–8
ГБ
Google Coral
Rockchip
RK3588
15–
~$900
60 Вт
+ Hailo-8
Dev Board
500
4 TOPS (Edge
5–15
Вт
1 ГБ
TPU)
~$100–
150
2–5
~$100
5–10
~$80–120
Вт
6 TOPS (NPU)
8–16
ГБ
Вт
6.5 Ориентировочные цены на облачные GPU-серверы (2025–2026)
Провайдер
Инстанс
GPU
VRAM
Стоимость
(руб./час)
Yandex Cloud
gpu-standard-v3
A100
80G
80 ГБ
~280–450
Yandex Cloud
gpu-standard-v3
(T4)
T4
16 ГБ
~80–120
VK Cloud
GPU-A100
A100
80 ГБ
~300–500
Selectel
RTX 4090
RTX
4090
24 ГБ
~100–150
SberCloud
AI Server
A100
80 ГБ
~350–500
AWS (p3.2xlarge)
V100
V100
16 ГБ
~$3 (~270 руб.)
Google Cloud (a2highgpu)
A100
A100
40–80
ГБ
~$3–7 (~270–630
руб.)
Цены сильно зависят от региона и провайдера. Проверяйте
актуальные тарифы на сайтах провайдеров и приводите ссылки.
6.6 Сводная таблица формул задания
Формула
RPS =
𝑁 × 𝑅day
𝑇active × 3600 × 𝑘peak
Назначение
Расчёт запросов в секунду
VRAMmin ≈ 𝑊 × 2 × 1.2
Минимальный объём VRAM для LLM
RPS × 𝑇inf
𝑁GPU = ⌈
⌉ × 𝑘reserve
𝑈GPU
Число GPU-инстансов
Costyear = 𝑃hour × 8760 + 𝐶storage + 𝐶traffic
Годовая стоимость аренды
RPSserver = 𝑁devices × 𝐹report
Нагрузка на сервер от парка Edge-устройств
𝑉day = 𝑁devices × 𝑆event × 𝐹report × 86400
Суточный объём телеметрии