Задание по моделированию инфраструктуры ИИсервиса Описание задания Необходимо выбрать один кейс из предоставленного списка. Далее выполнить 3 части задания: (1) концепт технического решения, (2) расчёт нагрузки на инфраструктуру, (3) подбор железа или облачного решения. Если выбранный кейс относится к категории Edge AI, обязательно выполняется дополнительный блок с топологической схемой. Раздел 1. Список кейсов Таблица кейсов партнёров Ниже представлены все доступные кейсы с классификацией типа нагрузки. Выберите один кейс и в опросе проводимом в курсе, чтобы исключить дублирование внутри группы. № Название кейса Тип нагрузки Категория 1 Сервис по распознаванию текста Тяжёлая мультимодальная (GPU) – большой объём VRAM Cloud GPU 2 Информационный агент для студентов Смешанная (CPU/RAM/GPU) Ассистент юриста Умеренная (GPU/CPU) – зависит от LLM LLM/Agent Умеренная (GPU/CPU) – зависит от LLM LLM/Agent 3 4 Сервис консультаций по господдержке ИТ-компаний ЧО LLM/Agent 5 Сервис консультаций по господдержке предпринимателей ЧО Умеренная (GPU/CPU) – зависит от LLM LLM/Agent Сервис консультаций по господдержке сельхозпроизводителей Умеренная (GPU/CPU) – зависит от LLM LLM/Agent Распознавание граффити на памятниках Интенсивная (GPU) – высокая VRAM и тензорные ядра 9 Рекомендательная система по хоккейной статистике Аналитическая (CPU/RAM) – многоядерные процессоры 10 Распознавание оружия и поз стрельбы Интенсивная (GPU) – высокая VRAM и тензорные ядра Обнаружение происшествий Интенсивная (GPU) – высокая VRAM и тензорные ядра 6 8 11 13 Computer Vision Analytics Computer Vision Computer Vision ИИ-диагностика физического развития детей и молодёжи Интенсивная (GPU) – высокая VRAM и тензорные ядра ИИ-диагностика развития речи Мультимодальная (GPU/CPU) – NLP + аудио Audio/NLP ИИ-диагностика социальноэмоционального развития Мультимодальная (GPU/CPU) – NLP + аудио Audio/NLP Мультибиометрическая платформа NeuroABIS Интенсивная (GPU) – высокая VRAM и тензорные ядра 27 Кросс-платформенный инсталлятор для FaceSDK Граничные вычисления (Edge AI) – NPU, ARM Edge AI 28 AI-агенты для end-to-end MLOps процессов Edge/оптимизированная – TPU/NPU/Edge GPU Edge AI 31 Инвариантные дескрипторы для распознавания отпечатков пальцев Edge/оптимизированная – TPU/NPU/Edge GPU Edge AI 32 Отечественные нейровычислительные устройства Edge AI Граничные вычисления (Edge AI) – NPU, ARM Edge AI 14 15 16 Computer Vision Computer Vision 33 Распознавание событий в видеопотоке (Vision-Language модели) Экстремальная (гибридный кластер GPU+CPU+СХД) 34 Веб-инструмент аннотации изображений с приоритизацией Edge/оптимизированная – TPU/NPU/Edge GPU Edge AI 50 Работа с базой данных Смешанная (CPU/RAM/GPU) Data 51 Генерация инструкций по видео Тяжёлая мультимодальная (GPU) – A100/H100 Cloud GPU 52 Генерация инструкций по технической документации Тяжёлая мультимодальная (GPU) – A100/H100 Cloud GPU 53 Генерация инструкций по данным пользователей Тяжёлая мультимодальная (GPU) – A100/H100 Cloud GPU 56 Прогнозирование эффективности КПТ при депрессии Аналитическая (CPU/RAM) – in-memory Analytics 58 Прогнозирование стоимости медицинской страховки Аналитическая (CPU/RAM) – in-memory Analytics 59 Определение типа банковской транзакции Аналитическая (CPU/RAM) – in-memory Analytics 60 Коррекция расхода кориолисового расходомера (газожидкостный поток) Потоковая (CPU/RAM) – быстрый I/O, низкая задержка Streaming Коррекция плотности кориолисового расходомера (трёхфазный поток) Потоковая (CPU/RAM) – быстрый I/O, низкая задержка Streaming 62 Диагностика подшипников (гибридная CNN-MLP) Аналитика реального времени (CPU/RAM/GPU) 63 Диагностика подшипников по температурным данным Потоковая (CPU/RAM) – быстрый I/O Streaming Раннее обнаружение перегрева подшипника по тренду температуры Потоковая (CPU/RAM) – быстрый I/O Streaming Оценка устойчивости модели диагностики Потоковая (CPU/RAM) – быстрый I/O Streaming 61 64 65 Cloud GPU Edge AI 67 Транскрибация контрольного мероприятия инспектором Смешанная (GPU) – аудиоинференс Audio/NLP 71 Распознавание персональных документов Тяжёлая мультимодальная (GPU) Cloud GPU 84 Транскрибация и подготовка стенограмм онлайн Смешанная (GPU) – аудиоинференс Audio/NLP Онлайн-аналитика взаимодействия с гражданами (голос + текст) Мультимодальная (GPU/CPU) – NLP + аудио Audio/NLP Голосовой робот-помощник на базе ИИ Смешанная (GPU) – аудиоинференс Audio/NLP Игры для развития речи с модулем NeoMe Смешанная (GPU) – аудиоинференс Audio/NLP Функция голосового управления Смешанная (GPU) – аудиоинференс Audio/NLP 85 93 111 113 Edge AI кейсы (отмечены ): 27, 28, 31, 32, 34, 62 — при выборе этих кейсов обязательно выполняется Дополнительный блок E. Раздел 2. Требования к заданию Часть 1 – Концепт решения 1.1 Постановка задачи и выбор подхода Опишите выбранный кейс в формате технического брифа: • Проблема: что именно решает система, для кого она предназначена, каков ожидаемый бизнес-результат. • Тип задачи ИИ: классификация / детекция / генерация / регрессия / транскрибация / рекомендация и т.д. • Режим работы: онлайн-инференс (запрос → ответ в реальном времени), пакетная обработка (batch), потоковая обработка (stream) или гибрид. Пример (кейс №3 «Ассистент юриста»): задача — RAG-система поверх корпуса юридических документов. Тип задачи: генерация текста с retrieval. Режим: онлайн-инференс с задержкой ≤ 3 с на запрос. 1.2 Технологический стек Составьте таблицу выбранных технологий по слоям: Слой Технология / Инструмент Обоснование выбора Модель ИИ — — Фреймворк инференса — — API / бэкенд — — База данных — — Очередь задач (если нужна) — — Мониторинг — — Для каждого элемента — краткое обоснование: почему именно эта технология, а не альтернативы. 1.3 Архитектурная схема Нарисуйте блок-схему системы (допустим ASCII-арт, draw.io или любой редактор диаграмм). Обязательные компоненты на схеме: • Пользователь / клиент • API Gateway или балансировщик • Сервис инференса • Хранилище данных (БД, векторная БД, объектное хранилище — по потребности) • Модуль мониторинга 1.4 Оценка сложности и характера нагрузки Заполните таблицу оценки: Параметр Значение Комментарий Тип нагрузки (CPU / GPU / Mixed) — — Преобладающий ресурс (VRAM / RAM / I/O) — — Требование к задержке (latency) — мс или с Допустим ли batch-режим? Да / Нет — Потребность в постоянном GPU? Да / Нет — Сложность системы (1–5) — 1 = простой скрипт, 5 = распределённый кластер Часть 2 — Расчёт нагрузки Цель раздела — получить конкретные цифры потребности в ресурсах для трёх масштабов: малого, среднего и большого. Студент сам задаёт численные предположения и обосновывает их. 2.1 Определение масштаба (сформулируйте самостоятельно) Задайте три сценария в зависимости от смысла вашего кейса: Масштаб Пример для веб-сервиса Пример для IoT/Edge Малый 100 активных пользователей/сутки 10 устройств Средний 10 000 активных пользователей/сутки 100 устройств Большой 500 000 активных пользователей/сутки 1 000 устройств Обоснуйте выбранные числа: на какую реальную аудиторию рассчитан сервис? Данные можно взять из открытой статистики или задокументированных аналогов. Обратите внимание на то, что числа даны для примера. Для вашего кейса числа будут отличаться. 2.2 Расчёт RPS (запросов в секунду) Для облачных и серверных сервисов используйте формулу: RPS = 𝑁users × 𝑅day 𝑇active × 3600 × 𝑘peak где: 𝑁users — число активных пользователей в сутки, 𝑅day — среднее число запросов от одного пользователя в сутки, 𝑇active — число часов активной нагрузки в сутки (обычно 8–12 часов), 𝑘peak — коэффициент пиковой нагрузки (рекомендуется 0,2–0,3, т.е. 20– 30% нагрузки приходится на пиковый час). Пример расчёта (кейс №3 «Ассистент юриста», средняя нагрузка, 10 000 пользователей/сутки): RPS = 10 000 × 5 50 000 ≈ ≈ 6.9 ≈ 7 RPS 8 × 3600 × 0.25 7 200 2.3 Расчёт потребности в VRAM / RAM Для GPU-сервисов (LLM, Computer Vision): VRAMmin = VRAMmodel + VRAMbatch = 𝑊 × 𝑃 + 𝐵 × 𝑆 × 𝐿 × 𝐻 × 𝑃 где: 𝑊 — число параметров модели (млрд), 𝑃 — байт на параметр (FP16 = 2 байт, INT8 = 1 байт, FP32 = 4 байт), 𝐵 — размер батча, 𝑆 — длина контекста в токенах, 𝐿 — число слоёв трансформера, 𝐻 — размерность скрытого состояния. Упрощённое правило (достаточно для данного задания): VRAMmin ≈ 𝑊params × 2 байт × 1.2 (коэффициент 1.2 — накладные расходы на KV-кэш и активации) Пример: LLM 7B параметров в FP16: VRAMmin ≈ 7 × 109 × 2 × 1.2 ≈ 16.8 ГБ Для CPU/RAM-сервисов (аналитика, потоковая обработка): RAMservice = RAMmodel + RAMdata\_buffer + RAMOS + RAMreserve 2.4 Расчёт числа GPU-инстансов RPS × 𝑇inf 𝑁GPU = ⌈ ⌉ × 𝑘reserve 𝑈GPU где: 𝑇inf — время обработки одного запроса на одном GPU (секунды), 𝑈GPU — целевая утилизация GPU (рекомендуется 0.65–0.75), 𝑘reserve — коэффициент резерва отказоустойчивости (1.5 для N+1). Пример: RPS = 7, 𝑇inf = 3 с, 𝑈GPU = 0.7: 𝑁GPU = ⌈ 7×3 ⌉ × 1.5 = ⌈30⌉ × 1.5 ≈ 45 → округлить вверх 0.7 Примечание: при малой нагрузке (RPS < 1) возможен один GPU-сервер с холодным резервом или serverless-инференс. 2.5 Сводная таблица нагрузки Заполните для всех трёх масштабов: Параметр Малый Средний Большой Активных пользователей / устройств в сутки — — — RPS (средний) — — — RPS (пиковый) — — — VRAM / RAM на сервис (ГБ) — — — Число GPU-инстансов — — — Объём хранилища (ТБ) — — — Сетевой трафик (ГБ/сутки) — — — Часть 3 — Подбор железа или облачного решения 3.1 Требования к выбору Подбор выполняется для среднего масштаба из Части 2. Допустимы два варианта: • Вариант A: собственный физический сервер (on-premise). • Вариант B: аренда облачного сервера / GPU-инстанса (допустимы: Yandex Cloud, VK Cloud, Selectel, SberCloud, международные AWS / GCP / Azure). Если у кейса нет жёстких требований к конфиденциальности данных — рекомендуется сравнить оба варианта и обосновать выбор. 3.2 Вариант A — Собственный сервер Заполните спецификацию: Компонент Выбранная модель Характеристики Количество CPU — ядра / частота — RAM — ГБ, тип — GPU (если нужен) — VRAM / TDP — Системный диск — SSD NVMe, ГБ — Хранилище данных — HDD/SSD, ТБ — Сетевой адаптер — Гбит/с — Сервер (шасси) — форм-фактор — Укажите примерную стоимость конфигурации (в рублях) и обоснуйте, почему выбранные характеристики соответствуют рассчитанной нагрузке. Можно ссылаться на Яндекс.Маркет, DNS, Regard и другие магазины. 3.3 Вариант B — Облачный сервер Выберите конкретный облачный провайдер и инстанс. Заполните: Параметр Значение Провайдер — Тип инстанса / тариф — CPU (vCPU) — RAM (ГБ) — GPU (тип / VRAM) — Дисковое хранилище — Сеть / трафик — Стоимость в час (руб.) — Стоимость за 1 год (руб.) — Формула расчёта годовой стоимости: Costyear = 𝑃hour × 24 × 365 + 𝐶storage + 𝐶traffic где: 𝑃hour — почасовая ставка инстанса, 𝐶storage — стоимость хранилища в год, 𝐶traffic — стоимость исходящего трафика в год. Обязательно приведите ссылку на страницу тарификации выбранного провайдера. 3.4 Схема развёртывания Нарисуйте упрощённую схему развёртывания для среднего масштаба: какие сервисы на каком узле работают, как настроена балансировка, где хранятся данные. Раздел 3. Дополнительный блок E — Edge AI кейсы Этот блок обязателен для кейсов: 27, 28, 31, 32, 34, 62. Для остальных кейсов — по желанию. E.1 Что такое Edge AI в контексте кейса Опишите, почему данный кейс требует обработки на граничном устройстве, а не в облаке. Укажите: • Требования к задержке (latency), при которых облако неприемлемо. • Наличие или отсутствие постоянного интернета у устройства. • Требования к конфиденциальности (данные не должны покидать устройство). • Ограничения по питанию (бортовое питание, батарейное). E.2 Выбор Edge-платформы Выберите платформу для инференса модели на устройстве. Заполните сравнительную таблицу: Платформа CPU / NPU RAM (ГБ) TDP (Вт) Поддержка фреймворков Стоимость ($) NVIDIA Jetson Nano Cortex-A57 + 128ядерный GPU 4 5–10 TensorRT, ONNX ~100 NVIDIA Jetson Orin NX Cortex-A78AE + Ampere GPU 8–16 10–25 TensorRT, PyTorch ~300–500 Raspberry Pi 5 + Hailo-8 ARM Cortex-A76 + NPU 26 TOPS 4–8 5–15 ONNX, TFLite ~100–150 STM32 + XCUBE-AI Cortex-M7 (MCU) 1–2 МБ <1 TFLite Micro < 10 Coral Dev Board (TPU) Cortex-A53 + Edge TPU 1 2–5 TFLite ~100 Собственная платформа — — — — — Выберите одну платформу и обоснуйте выбор. Укажите, какую оптимизацию модели потребуется применить (квантизация INT8, прунинг, дистилляция). E.3 Схема объединения устройств с центральным сервером Нарисуйте топологию с обязательными компонентами: Приведенная схема только для примера, в вашем случае можно использовать схематический рисунок. Схема должна включать: 1. Центральный сервер с компонентами: API управления, брокер сообщений (MQTT / gRPC / HTTP/2), хранилище моделей, оркестратор задач. 2. Edge-устройства с компонентами: модуль инференса, heartbeatагент, локальный буфер данных. 3. Протоколы связи между уровнями: укажите MQTT, REST, gRPC или собственный протокол. 4. Канал доставки (LAN, Wi-Fi, 4G/5G, LoRa — в зависимости от кейса). E.4 Расчёт нагрузки парка устройств Для Edge-кейсов "пользователь" — это само устройство. Рассчитайте нагрузку на центральный сервер: RPSserver = 𝑁devices × 𝐹report где 𝐹report — частота отправки данных одним устройством (запросов/сек). Дополнительно оцените: • Объём телеметрии в сутки: 𝑉day = 𝑁devices × 𝑆event × 𝐹report × 86400 (байт). • Нагрузку OTA-обновления: пропускная способность канала при одновременном обновлении 𝑘% парка. E.5 Центральный сервер для Edge-системы Подберите конфигурацию центрального сервера по методологии Части 3. Учтите, что центральный сервер для Edge-системы выполняет: • Агрегацию телеметрии от всех устройств (высокий I/O). • Управление версиями моделей и их доставку (объектное хранилище). • Мониторинг и алёрты по состоянию устройств. • Опционально — дообучение/переобучение модели на накопленных данных (требует GPU). Раздел 4. Оформление отчёта Структура отчёта Отчёт оформляется в виде технического документа со следующей структурой: 1. Титульный лист — название кейса, ФИО, группа, дата. 2. Введение — описание кейса, цель работы (1 страница). 3. Часть 1. Концепт решения — описание, схема, оценка сложности. 4. Часть 2. Расчёт нагрузки — все формулы, вычисления, сводная таблица. 5. Часть 3. Выбор железа / облака — спецификации, ценовой расчёт, схема развёртывания. 6. Блок E (при наличии) — топологическая схема, расчёт нагрузки на парк, конфигурация сервера. 7. Заключение — выводы об обоснованности выбранной конфигурации (0,5 страницы). Требования к оформлению • Все формулы подписаны, обозначения переменных объяснены. • Все числа в таблицах имеют единицы измерения. • Схемы — читаемые, с подписями компонентов. • Ссылки на источники цен и технических характеристик обязательны. • Объём: 10–25 страниц без учёта титульного листа и схем. Раздел 5. Возможные вопросы Q: Как выбрать размер модели, если в кейсе не указано? A: Выберите наименьшую модель, которая достаточно хорошо решает задачу. Для RAG-ассистентов — 7B модели достаточно в большинстве случаев. Для детекции объектов в реальном времени — YOLOv8-n или YOLOv8-s. Обоснуйте выбор в тексте. Q: Что делать, если нагрузка оказалась очень маленькой (RPS < 0.1)? A: При RPS < 0.1 (например, 1 запрос в 10 секунд) целесообразно рассмотреть serverless-инференс (AWS Lambda + GPU, Yandex Cloud Serverless) или дежурный режим с «холодным стартом». Опишите этот вариант. Q: Нужно ли учитывать базу данных в расчёте нагрузки? A: Да. Для кейсов с векторными базами данных (RAG, рекомендательные системы) укажите объём хранилища и потребность в RAM для индекса. Правило: векторная БД с 1 млн векторов размерностью 768 требует примерно 3–6 ГБ RAM. Q: Можно ли использовать только облако без on-premise? A: Да. Если кейс не накладывает требований к хранению данных внутри периметра, облачный вариант предпочтителен для малых и средних нагрузок. Обоснуйте выбор. Q: Какой коэффициент пиковой нагрузки 𝑘peak выбрать? A: Для потребительских сервисов (утро–вечер) — 0.2–0.3. Для B2B-систем с равномерной нагрузкой — 0.5–0.7. Для систем безопасности (видеонаблюдение, датчики) — возможен пик при событии: используйте 0.1– 0.15 для фоновой нагрузки и укажите пиковый сценарий отдельно. Раздел 6. Справочные данные 6.1 Характеристики распространённых GPU GPU VRAM (ГБ) TFlops (FP16) TDP (Вт) Формфактор NVIDIA A100 SXM 80 312 400 SXM NVIDIA H100 SXM 80 989 700 SXM NVIDIA RTX 4090 24 165 450 PCIe NVIDIA RTX 4080 16 97 320 PCIe NVIDIA RTX 3090 24 71 350 PCIe NVIDIA A10 24 125 150 PCIe NVIDIA T4 16 65 70 PCIe NVIDIA L4 24 121 72 PCIe AMD Instinct MI300X 192 1307 750 OAM 6.2 Характеристики распространённых LLM-моделей Модель Параметры (млрд) VRAM FP16 (ГБ) VRAM INT8 (ГБ) Задержка (с/запрос, A100) Qwen-2.57B 7 ~16 ~8 1–3 Llama-3-8B 8 ~18 ~9 1–3 Llama-370B 70 ~140 ~70 5–15 Mistral-7B 7 ~16 ~8 1–3 Gemma-227B 27 ~54 ~27 3–8 GPT-4 (API) n/a n/a n/a 3–20 (зависит от провайдера) 6.3 Характеристики Computer Vision-моделей Модель Задача Задержка (мс, GPU) Задержка (мс, CPU) Размер (МБ) YOLOv8-n Детекция 2–5 50–100 6 YOLOv8-l Детекция 10–20 200–400 83 YOLOv9-e Детекция 15–30 500+ 192 ResNet-50 Классификация 3–7 30–80 98 ViT-B/16 Классификация 8–15 100–300 330 Whisperbase ASR 50–200 (аудио 30 с) 500–2000 145 Whisperlarge ASR 200–800 (аудио 30 с) 3000+ 1550 6.4 Edge AI платформы Платформа AI- RAM TDP Стоимость 4 ГБ 5–10 ~$100 7–15 ~$250 10– ~$400– производительность NVIDIA Jetson 472 GFLOPS Nano Вт NVIDIA Jetson 40 TOPS Orin Nano 4–8 ГБ NVIDIA Jetson 70–100 TOPS Orin NX Вт 8–16 ГБ NVIDIA Jetson 275 TOPS 25 Вт 32 ГБ AGX Orin Raspberry Pi 5 26 TOPS (NPU) 4–8 ГБ Google Coral Rockchip RK3588 15– ~$900 60 Вт + Hailo-8 Dev Board 500 4 TOPS (Edge 5–15 Вт 1 ГБ TPU) ~$100– 150 2–5 ~$100 5–10 ~$80–120 Вт 6 TOPS (NPU) 8–16 ГБ Вт 6.5 Ориентировочные цены на облачные GPU-серверы (2025–2026) Провайдер Инстанс GPU VRAM Стоимость (руб./час) Yandex Cloud gpu-standard-v3 A100 80G 80 ГБ ~280–450 Yandex Cloud gpu-standard-v3 (T4) T4 16 ГБ ~80–120 VK Cloud GPU-A100 A100 80 ГБ ~300–500 Selectel RTX 4090 RTX 4090 24 ГБ ~100–150 SberCloud AI Server A100 80 ГБ ~350–500 AWS (p3.2xlarge) V100 V100 16 ГБ ~$3 (~270 руб.) Google Cloud (a2highgpu) A100 A100 40–80 ГБ ~$3–7 (~270–630 руб.) Цены сильно зависят от региона и провайдера. Проверяйте актуальные тарифы на сайтах провайдеров и приводите ссылки. 6.6 Сводная таблица формул задания Формула RPS = 𝑁 × 𝑅day 𝑇active × 3600 × 𝑘peak Назначение Расчёт запросов в секунду VRAMmin ≈ 𝑊 × 2 × 1.2 Минимальный объём VRAM для LLM RPS × 𝑇inf 𝑁GPU = ⌈ ⌉ × 𝑘reserve 𝑈GPU Число GPU-инстансов Costyear = 𝑃hour × 8760 + 𝐶storage + 𝐶traffic Годовая стоимость аренды RPSserver = 𝑁devices × 𝐹report Нагрузка на сервер от парка Edge-устройств 𝑉day = 𝑁devices × 𝑆event × 𝐹report × 86400 Суточный объём телеметрии