Эксперт GlowByte рассказал о ключевых факторах выбора, эксплуатации и экономической оценке инфраструктуры для ИИ-моделей

Эксперт GlowByte рассказал о ключевых факторах выбора, эксплуатации
и экономической оценке инфраструктуры для ИИ-моделей

Директор практики AI/ML GlowByte Александр Ефимов принял участие в аналитическом обзоре издательства “Открытые системы”. Он ответил на вопросы редакции по теме “Цифровая инфраструктура”.

В первой части обзора говорится об основных критериях выбора способа размещения инфраструктуры для развертывания моделей искусственного интеллекта в организациях.

Александр Ефимов рекомендует отталкиваться от бизнес-логики и советует рассматривать четыре ключевых фактора: «Первый и главный — это данные: если есть регуляторные ограничения, то вопрос об ином, кроме локального, развертывании часто даже не обсуждается. Простой пример: для подготовки резюме внутренней встречи, на которой могут обсуждаться конфиденциальные вопросы, необходимо загрузить в ИИ-модель запись этой встречи, и если модель находится вне локального периметра организации, то потенциально есть риск утечки данных. Второй — это нагрузка на видеокарты: если ИИ-модель работает в режиме 24/7 и нагрузка на нее стабильна, то уже через полтора-два года капитальные затраты на собственный сервер станут ниже стоимости облачной аренды. В качестве компромиссного варианта можно рассмотреть набирающую популярность услугу аренды сервера, который можно разместить в локальном ЦОД. Третий и четвертый — это наличие экспертизы и зависимость от провайдера. Снизить зависимость поможет использование нескольких разных облачных провайдеров, оно позволит балансировать резкие изменения их тарифов. Чтобы содержать собственную инфраструктуру, нужно иметь команду сильных инженеров DevOps/MLOps и администраторов, поскольку их отсутствие будет ключевым риском».

Во второй части обзора рассматриваются факторы, которые полезно оценить и проанализировать, приступая к эксплуатации и сопровождению ИИ-модели, в первую очередь размещенной локально.

Эксперт GlowByte обратил внимание на четыре ключевых аспекта: «Во-первых, на мониторинг: критически важно контролировать температуру GPU — отмечены неединичные случаи выхода из строя видеокарт из-за перегрева. Также рекомендую следить за метриками самих моделей, в частности, временем отклика, скоростью ответа, очередью запросов к моделям и т.д. — эти показатели помогут вовремя выявить рост нагрузки и расширить инфраструктуру, а заодно проанализировать, насколько разумно используются модели для конкретных задач. По моим наблюдениям, для многих задач достаточно вполне скромных квантованных моделей. Второй аспект — безопасность. Угрозы ИБ при локальном размещении модели исходят изнутри, а последствия утечки данных могут быть еще серьезнее, так как модель обучена на реальных данных. Предотвратить их поможет настройка Guardrails — легковесных моделей-классификаторов, проверяющих ответы основной LLM на предмет раскрытия секретов и следования корпоративным правилам, чтобы, например, кто-нибудь из сотрудников не извлек через промпт коммерческую тайну или персональные данные коллег и не слил их в общий чат. Третий аспект — внедрение LLMOps-практик. LLMOps — это, по сути, автоматизированный фреймворк, обеспечивающий непрерывный мониторинг качества ответов и контроль галлюцинаций моделей, фиксацию в системном журнале всех запросов к модели, фильтрацию нежелательной или конфиденциальной информации, стандартизацию процессов разработки и эксплуатации агентов и приложений. В конечном итоге внедрение LLMOps позволит реализовать в компании фабрику разработки агентов и приложений. И четвертый аспект — резервное копирование конфигураций. Поскольку локальная конфигурация зачастую используется для задач интеллектуального поиска по коллекции внутренних документов или дообучения моделей на специфичных данных, то в первую очередь следует обеспечить резервное копирование векторной базы данных и весов дообученных моделей — именно они уникальны и являются вашей интеллектуальной собственностью, остальное можно всегда скачать заново».

В третьей части обзора компании рассуждают об аспектах, которые необходимо учитывать при подготовке и анализе экономической оценки внедрения и эксплуатации ИИ-моделей в организациях.

Александр Ефимов отметил: «Прежде чем считать деньги, нужно понять, что мы считаем, какие именно задачи будем решать с помощью ИИ-модели, какую выгоду и экономический эффект принесет решение задачи для компании. Как правило, компании с помощью LLM-моделей решают не одну задачу, а несколько. Более того, одна задача обычно не окупает все затраты на локальную инфраструктуру, а уже сегодня компании все меньше и меньше готовы к длительным экспериментам — им нужна отдача от технологий. На длительном горизонте времени, скажем, от двух лет капитальные затраты на собственный сервер становятся экономически выгоднее бесконечной облачной аренды. Чтобы решение о локальной ИИ-модели было обоснованным, переведите все затраты в ключевую метрику модели — стоимость за токен. Это позволит напрямую сравнивать локальную инфраструктуру с облачными API, ведь у облачных моделей цена также привязана к токенам. Посчитайте и сравните TCO на один год, на три-пять лет. Это даст вам полную картину долгосрочных затрат и обоснованный выбор в пользу облака с низким CAPEX и высоким OPEX, или, наоборот, локальной инфраструктуры с высоким CAPEX и низким OPEX. В конечном счете выбор варианта реализации зависит от бизнес-кейса и политики безопасности в компании».