Корпоративные хранилища данных
В компаниях растёт число управленческих отчётов и другой внутренней документации.

Сложность состоит в том, что данные поступают из разных источников и в разных видах (пользовательские отчеты), информации много, а работать с ней нужно оперативно, не перегружая при этом базу даже при одновременном доступе множества пользователей из разных отделов компании.

Хранилище данных — решение
Правильно организованное хранилище данных превращает информационный хаос в четкую систему, с которой удобно и просто работать каждому пользователю.
Хранилище собирает, обрабатывает и анализирует большие объемы данных. Оно помогает совершать быстрый поиск по базе. Хорошее хранилище данных приспособлено для работы большого количества пользователей — система выдерживает нагрузку одновременного доступа, доступен анализ данных разных уровней детализации, можно использовать шаблонные отчёты или создавать собственные. И все это надежно, удобно и безопасно.

В портфеле компании — хранилища данных объемом в десятки и сотни терабайт, системы отчетности, обслуживающие тысячи корпоративных пользователей. При работе с банками и телекоммуникационными компаниями мы использовали уникальные для всей Восточной Европы проекты хранилищ данных.
Высоконагруженные хранилища данных
В рамках работы с хранилищами больших данных, GlowByte Consulting использует Teradata, EMC GreenPlum, Oracle Exadata, SAP HANA, IBM Netteza, HP Vertica. Исходя из специфики задания и пожеланий заказчика мы выбираем один из этих инструментов.
В области больших данных мы ориентируемся на два основных инструмента — Hadoop Implementations и Big Data Analytics & Real Time Big Data Analytics. Мы также рекомендуем обратить внимание на смежные продукты, которые могут существенно умножить эффект от внедрения. Это технологии Teradata, Pivotal Greenplum Database (Pivotal HD), IBM Netezza (IBM PureData), Oracle Exadata (Oracle BigData Connector); сбор и обработка неструктурированных текстовых данных (Text Mining); текстовая аналитика для этих данных; построение комплексных хранилищ данных; реализация приближенных к реальному времени аналитических систем.
Характеристики и отличия популярных платформ
У каждой из платформ есть особенности.

EMC GreenPlum поставляется в двух вариантах — и как программно-аппаратный комплекс, и как дистрибутив, который можно внедрить, используя свое оборудование. В EMC GreenPlum внедрены возможности построчного, поколоночного хранения, а также алгоритмической компрессии. Greenplum HD тесно интегрирован с Hadoop.
IBM Netteza (IBM PureData) поставляется только программно-аппаратным комплексом. В платформу внедрены единственные в своем роде ускорители базы данных, устройства на основе программируемых матриц для усечения и проекции данных на уровне дисков. В IBM Netteza используется постоянное эффективное сжатие данных. По опыту нашей работы с этой платформой, данные сжимаются в среднем в 4 раза. Используя IBM PureData можно построить систему на основе техники MapReduce.

Teradata также поставляется только комплексом — аппаратная и программная часть в одном целом. Teradata использует словарное и алгоритмическое сжатие, в отдельных версиях присутствуют ускорители для сжатия данных. Преимущества платформы - гибкая физическая модель данных, интеграция с Hadoop на уровне приложений и тесная интеграцию с Cloudera Hadoop.