«Лига Ставок» совместно с GlowByte построила новое КХД в Yandex Cloud
Благодаря решению стабильность работы DWH повысилась с 20% в 2021 г. до 99,9% в 2025 г., что обеспечило бизнес необходимыми расчетными показателями.
«Лига Ставок» совместно с ИТ-партнером GlowByte разработала платформу для решения задач аналитики, отчетности, математического моделирования и бизнес-планирования. Команда проекта построила корпоративное хранилище данных размером 35 Тб, которое работает круглосуточно и стабильно обеспечивает бизнес необходимыми расчетами. 

С помощью новых инструментов удалось увеличить скорость доступа к данным, обеспечить автоматический контроль их качества и при этом оптимизировать ресурсы на поддержку инфраструктуры. Полный цикл обновления всех слоев хранилища для критичных таблиц занимает менее часа, а генерация витрины «Ставки и Операции» осуществляется раз в 2 часа круглые сутки. Благодаря новому решению стабильность работы DWH повысилась с 20% в 2021 г. до 99,9% в 2025 г.

Старое хранилище было построено на MS SQL, при этом какая-либо документация по нему отсутствовала, вследствие чего не было понимания, на основании каких критериев оно было реализовано. Из-за нехватки места и вычислительных мощностей система не позволяла решать ключевые задачи. В частности, не было возможности рассчитывать целевые витрины на требуемом частом регламенте, разрабатывать и подключать новый функционал. 

Данные отличались низким качеством: не было витрин данных, единой архитектуры, модулей качества, актуальности и мониторинга данных. В то же время из-за функционировавшего параллельно кубового хранилища информация зачастую дублировалась, а из-за отсутствия единого каталога витрин сотрудники компании не знали, какие данные в целом есть в DWH, где они находятся и как связаны между собой. 

Внутри команд не был выстроен процесс планирования, отсутствовали регламенты и требования на разработку (Code review, Code Style и проч.).

Отсутствие строгой модели сырого, детального слоя и слоя витрин, а также единых правил и подходов к разработке новых опций увеличивало риск появления ошибок в разработке и «узких мест», а также разрастания неоптимального функционала. 

Проведя глубокий анализ инфраструктуры и работы прежнего решения, были определены ключевые направления для цифровой трансформации бизнеса: человеческие ресурсы (расширение команд, обучение, консалтинг), процессы (проведение аудита, разработка документации, налаживание внутренней и внешней коммуникации), инфраструктура и архитектура (от решения строить новое хранилище данных до выбора вендора, партнера-интегратора, разработки архитектуры и построения концепт-модели с последующим стартом разработки целевой платформы).

Новое хранилище развернуто в Yandex Cloud и построено преимущественно на открытых технологиях: в качестве СУБД используется массивно-параллельная система Greenplum, для управления механизмами которой был выбран сервис Yandex Managed Service for Greenplum, оркестрация данных осуществляется с помощью Apache Airflow. Модель детального слоя и витрин реализована на Data Vault 2.0. Трансформацию данных на всех слоях хранилища обеспечивает универсальный самописный фреймворк SSF (self-service metadata based framework), написанный на pgPL/SQL и Python.

SSF позволяет быстро подключать новые интеграции, внося изменения только в метаданные, с высокой долей автоматики использовать новый функционал в детальном слое и слое витрин. Кроме того, он содержит модуль реконсиляции сырого слоя, а также контроля качества данных в детальном слое и слое витрин и обеспечивает автоматическое обновление дерева процессов в оркестраторе.

Для автоматизации процесса сверки данных всех слоев DWH был специально разработан модуль качества данных (Data Quality, DQ).

Архитектура хранилища позволяет выводить функционал на любой регламент и гарантирует отсутствие потери данных при инкрементальной загрузке. При этом реализованное решение удобно поддерживать благодаря использованию управляемых сервисов.
В основе нашего с «Лигой Ставок» решения лежит гибкий и мощный инструмент Greenplum, надежность работы которого подкреплена сервисами Yandex, а также специальными самописными решениями от GlowByte. В рамках проекта для эффективности работы платформы мы реализовали два инструмента — фреймворк SSF и модуль сверки DQ. Первое — SSF — позволяет существенно ускорить разработку ETL/ELT-пайплайнов всех слоев DWH, а модуль сверки — автоматизировать процесс сверки данных всех слоев хранилища. Благодаря проекту была решена стратегическая задача по созданию целевой аналитической платформы, которая открывает возможности для реализации новых инициатив и извлечения дополнительной прибыли из данных.
Владимир Шакялис, архитектор, GlowByte.
Вместе с GlowByte мы проделали огромную работу, результатом которой стало современное высокопроизводительное отказоустойчивое хранилище. При этом нам удалось оптимизировать вычислительные ресурсы. Новая платформа качественно улучшила процессы построения аналитики, сбора информации из разных источников и систем, сократив сроки подготовки отчетов и повысив точность результатов. Дата-сайентисты получили надежный источник данных для построения моделей, а бизнес-аналитики — инструменты для предиктивного анализа данных и надежный источник для построения BI-отчетности, благодаря которому можно с большей уверенностью выстраивать долгосрочную стратегию развития. При этом рассчитанные метрики удобно выгружать во вешние системы. Ключевыми факторами успеха считаю слаженную работу совместной команды экспертов «Лиги Ставок» и GlowByte.
Дмитрий Дорофеев, руководитель отдела хранилища данных, «Лига Ставок».