«Лига Ставок» совместно с ИТ-партнером GlowByte разработала платформу для решения задач аналитики, отчетности, математического моделирования и бизнес-планирования. Команда проекта построила корпоративное хранилище данных размером 35 Тб, которое работает круглосуточно и стабильно обеспечивает бизнес необходимыми расчетами.
С помощью новых инструментов удалось увеличить скорость доступа к данным, обеспечить автоматический контроль их качества и при этом оптимизировать ресурсы на поддержку инфраструктуры. Полный цикл обновления всех слоев хранилища для критичных таблиц занимает менее часа, а генерация витрины «Ставки и Операции» осуществляется раз в 2 часа круглые сутки. Благодаря новому решению стабильность работы DWH повысилась с 20% в 2021 г. до 99,9% в 2025 г.
Старое хранилище было построено на MS SQL, при этом какая-либо документация по нему отсутствовала, вследствие чего не было понимания, на основании каких критериев оно было реализовано. Из-за нехватки места и вычислительных мощностей система не позволяла решать ключевые задачи. В частности, не было возможности рассчитывать целевые витрины на требуемом частом регламенте, разрабатывать и подключать новый функционал.
Данные отличались низким качеством: не было витрин данных, единой архитектуры, модулей качества, актуальности и мониторинга данных. В то же время из-за функционировавшего параллельно кубового хранилища информация зачастую дублировалась, а из-за отсутствия единого каталога витрин сотрудники компании не знали, какие данные в целом есть в DWH, где они находятся и как связаны между собой.
Внутри команд не был выстроен процесс планирования, отсутствовали регламенты и требования на разработку (Code review, Code Style и проч.).
Отсутствие строгой модели сырого, детального слоя и слоя витрин, а также единых правил и подходов к разработке новых опций увеличивало риск появления ошибок в разработке и «узких мест», а также разрастания неоптимального функционала.
Проведя глубокий анализ инфраструктуры и работы прежнего решения, были определены ключевые направления для цифровой трансформации бизнеса: человеческие ресурсы (расширение команд, обучение, консалтинг), процессы (проведение аудита, разработка документации, налаживание внутренней и внешней коммуникации), инфраструктура и архитектура (от решения строить новое хранилище данных до выбора вендора, партнера-интегратора, разработки архитектуры и построения концепт-модели с последующим стартом разработки целевой платформы).
Новое хранилище развернуто в Yandex Cloud и построено преимущественно на открытых технологиях: в качестве СУБД используется массивно-параллельная система Greenplum, для управления механизмами которой был выбран сервис Yandex Managed Service for Greenplum, оркестрация данных осуществляется с помощью Apache Airflow. Модель детального слоя и витрин реализована на Data Vault 2.0. Трансформацию данных на всех слоях хранилища обеспечивает универсальный самописный фреймворк SSF (self-service metadata based framework), написанный на pgPL/SQL и Python.
SSF позволяет быстро подключать новые интеграции, внося изменения только в метаданные, с высокой долей автоматики использовать новый функционал в детальном слое и слое витрин. Кроме того, он содержит модуль реконсиляции сырого слоя, а также контроля качества данных в детальном слое и слое витрин и обеспечивает автоматическое обновление дерева процессов в оркестраторе.
Для автоматизации процесса сверки данных всех слоев DWH был специально разработан модуль качества данных (Data Quality, DQ).
Архитектура хранилища позволяет выводить функционал на любой регламент и гарантирует отсутствие потери данных при инкрементальной загрузке. При этом реализованное решение удобно поддерживать благодаря использованию управляемых сервисов.