2.8.1 Принципы и основные компоненты хранилища данных

iDevice ikoon 2.8.1 Принципы и основные компоненты хранилища данных

Несмотря на тот факт, что теория реляционных баз данных (RAB) определяет то, что только единая база данных должна хранить все данные организации, для существования многих баз данных есть множество причин. Так во многих организациях имеется много баз данных, и они содержат много различной информации.

Точные соотношения между данными уже определены на этапе планирования единой базы данных (например, связи между покупателем и счетом, между счетом и оплатой и так далее). С этой стороны имеются в этой области некоторые ограничения из-за существования различных баз данных, некоторые из них сохранены для поддержки старых приложений (определяемых как унаследованные (legacy)), другие просто для разделения различных видов деятельности (например, для отделения деятельности по анализу рынка от планирования ресурсов фирмы) и некоторые основываются на различных технологиях (например, новостные системах хранения, основывающиеся на поисковиках текста, не всегда могут быть интегрированы с реляционной базой данных, которая содержит данные компании).

Поскольку данные могут быть в «перекрестной мгле» (можно определить связи между ними), а изучая их, можно обнаружить интересную скрытую информацию. Как отмечалось в разделе 2.3, процесс интеграции данных, приходящих из нескольких источников, и последующая за этим фаза анализа получили названия организации информационных хранилищ (data warehousing) и интеллектуального анализа данных («добыча данных»).

Возможности «хранилища данных» («data warehouse» - DW) проистекают не только из результатов объединения данных различных источников, но и из данных, добавляемых в течение очень долгого периода времени. Это приносит также преимущества и ограничения: преимуществом является возможность, позволяющая обнаружить динамику длительного периода времени и повторяющиеся сезонные изменения, ограничением является неспособность управлять «переменными» данными, такие как статус платежа.

Среда хранилища данных предназначена облегчать анализ неизменяющихся данных, которые поступают из различных источников, логически и физически трансформированные, обновленные и собранные за длительный период времени, обработанные в соответствии с потребностями анализа рынка, выводимые в виде простых данных и сводной информации, что позволяет проводить их быстрый анализ.

Системы хранилищ данных (warehousing systems - DWS) - DWS часто создаются как реляционная база данных со специальными свойствами:

  • База данных хранилища данных отличается от тех баз данных, чьи данные получают и часто размещают на разных серверах. Это проявляется сразу, ибо база данных DWS интегрирует данные, поступающие из других баз данных, а также руководствуется соображениями производительности. Если данные находятся в разных базах данных и машинах, тогда DWS и база данных компании не влияют друг на друга: операции анализа, осуществляемых DWS, не увеличивают нагрузку на информационную систему компании, и наоборот.
  • Хотя DWS использует реляционную базу данных, она не использует никаких нормальных форм (см. следующие параграфы), создавая для упрощения анализа гораздо более расширенные таблицы.

DWS обычно включает в себя следующие компоненты:

  • Рабочие инструменты для доступа к негомогенным (неоднородным) источникам данных, чьи данные используют на фазе заполнения хранилища данных.
  • Процесс «заполнения», который берет данные из гомогенных источников и подготавливает их к виду, пригодному для размещения в базе данных.
  • База данных с описанными выше особенностями, которая содержит данные.
  • Различные процессы анализа, с помощью которых информация берется из базы данных.
  • Некоторые процессы интеллектуального анализа данных (извлечение информации [из данных], процессы добычи данных, data mining processes), которые предоставляют взятие детальной информации в соответствии с логическими путями, которые также сами могут быть довольно сложными из-за процедур предыдущего анализа.

Исполнительный процесс DWS, который регулярно объединяет взятую из различных источников информацию, особенно важен. Этот процесс включает в себя ряд шагов:

Процесс обратный нормализиции, чьей целью является сбор большого архива, начиная с более структурированной информации. Например, архивы клиентов и платежей можно соединить в один архив и показать данные каждого клиента вместе с произведенной оплатой. Это идет вразрез с теорией реляционных баз данных, на основе которой создаются базы данных, но в то же время он подготавливает данные для более простого осуществления анализа.

  • Удаление переменных (изменяемых) элементов с целью уменьшения «шума», который может усложнять последующий анализ. Переменные элементы - это такие фрагменты информации, которые меняются со временем. Статус выплаты счета является переменным элементом, который в течение определенного времени имеет значение «нет» и через некоторое определенное время изменяется в значение «да». Перевод оплаты счета не является переменным элементом, ибо, будучи один раз оплаченным, он сохраняется такой как есть.
  • Обработка (очистка, scrubbing) - устранение ошибок, которые вытекают из неполных данных, орфографических ошибок имен, неправильного расположения букв или цифр, лингвистических изменений, которые могут вызвать проблемы на этапе анализа данных.
  • Номенклатурная обработка для того, чтобы избежать повторения одной и той же информации, которая приходит из разных источников и отмечается иначе.
  • Для того чтобы гарантировать нормализацию типов, информация, которая приходит из разных источников, должна быть в том же формате.
  • Управление «нулевыми» значениями. В базах данных нулевому значению (null) соответствует отсутствие информации. С помощью нулевого значения можно правильно обойти это при вводе.
  • Создание сводных данных для ускорения последующего анализа.

Дополнительная литература: Эрик Итер (Erik Iter) - теория и практика хранилищ данных.

http://www.cs.tlu.ee/osakond/opilaste_tood/bakalaureuse_ja_diplomitood/2004_kevad/Erik_Iter/Erik_Iter_Diplomi_Too.pdf