Вопрос 40. Хранилища данных. Хранилища данных на базе реляционной модели
В основе OLAP-систем лежат не БД, а хранилище данных – предметно-ориентированный, интегрированный и неизменяемый во времени объем данных, предназначенный для поддержки принятия решений.
Термин ‘предметно-ориентированный’ означает, что в хранилище находятся данные по субъектам и объектам предметн области, но нет данных об операциях, характерных для нее. Т.обр. в хранилище нах данные для процесса принятия решений.
Термин ‘интегрированные’озн, что в общем случае данные в хранилище поступают из разных источников и могут иметь разный формат, поэтому необходимо создать интегрированный источник для обобщенного и согласованного представления данных. Привязка ко времени означ, что данные должны характеризоваться конкретной датой или периодом, т.к. хранилище содержит данные, собранные в теч длительного периода времени.
Термин ‘неизменяемый’озн, что данные в хранилище не могут обновляться и удаляться, а могут только пополняться, т.к. они исторические.
Сравнительная характеристика OLAP-систем и хранилища данных:
OLAP-системы Хранилища
- содержат текущие данные
- повторяющийся способ обработки данных
- высокая эффективность обработки транзакций
- предназнач для обработки транзакций
- для принятия повседневных решений
- большое кол-во пользователей - содержат историч данные
-нерегламентированный способ обработки
- средняя и низкая интенсивность обработки трансакций
- предназнач для проведения анализа
- для принятия стратегических решений
- небольшое кол-во пользователей
Реляционные хранилища данных (РХД).
Различают факты и размерности. В нашем примере фактом является объем продаж.
Схемы хранилищ бывают: 1. звезда - центральной является таблица фактов, с которой связаны все таблицы измерений. Т.обр, информация о каждом измерении располагается в отдельной таблице, что упрощает их просмотр, а саму схему делает логически прозрачной и понятной пользователю
2. снежинка - информация об одном измерении может храниться в нескольких связанных таблицах. То есть если хотя бы одна из таблиц измерений имеет одну или несколько связанных с ней других таблиц измерений
3. смешаная
Основные преимущества РХД следующие:
практически неограниченный объем хранимых данных;
поскольку реляционные СУБД лежат в основе построения многих систем оперативной обработки (OLTP), которые обычно являются главными источниками данных для ХД, использование реляционной модели позволяет упростить процедуру загрузки и интеграции данных в хранилище;
при добавлении новых измерений данных нет необходимости выполнять сложную физическую реорганизацию хранилища, в отличие, например, от многомерных ХД;
обеспечиваются высокий уровень защиты данных и широкие возможности разграничения прав доступа.
Т.обр, выбор РХД целесообразен в след случаях:
• Значителен объем хранимых данных (многомерные ХД становятся неэффектив).
• Иерархия измерений несложная (др словами, немного агрегированных данных).
• Требуется частое изменение размерности данных. При использовании реляционной модели можно ограничиться добавлением новых таблиц, а для многомерной модели придется выполнять сложную перестройку физической структуры хранилища.
В основе OLAP-систем лежат не БД, а хранилище данных – предметно-ориентированный, интегрированный и неизменяемый во времени объем данных, предназначенный для поддержки принятия решений.
Термин ‘предметно-ориентированный’ означает, что в хранилище находятся данные по субъектам и объектам предметн области, но нет данных об операциях, характерных для нее. Т.обр. в хранилище нах данные для процесса принятия решений.
Термин ‘интегрированные’озн, что в общем случае данные в хранилище поступают из разных источников и могут иметь разный формат, поэтому необходимо создать интегрированный источник для обобщенного и согласованного представления данных. Привязка ко времени означ, что данные должны характеризоваться конкретной датой или периодом, т.к. хранилище содержит данные, собранные в теч длительного периода времени.
Термин ‘неизменяемый’озн, что данные в хранилище не могут обновляться и удаляться, а могут только пополняться, т.к. они исторические.
Сравнительная характеристика OLAP-систем и хранилища данных:
OLAP-системы Хранилища
- содержат текущие данные
- повторяющийся способ обработки данных
- высокая эффективность обработки транзакций
- предназнач для обработки транзакций
- для принятия повседневных решений
- большое кол-во пользователей - содержат историч данные
-нерегламентированный способ обработки
- средняя и низкая интенсивность обработки трансакций
- предназнач для проведения анализа
- для принятия стратегических решений
- небольшое кол-во пользователей
Реляционные хранилища данных (РХД).
Различают факты и размерности. В нашем примере фактом является объем продаж.
Схемы хранилищ бывают: 1. звезда - центральной является таблица фактов, с которой связаны все таблицы измерений. Т.обр, информация о каждом измерении располагается в отдельной таблице, что упрощает их просмотр, а саму схему делает логически прозрачной и понятной пользователю
2. снежинка - информация об одном измерении может храниться в нескольких связанных таблицах. То есть если хотя бы одна из таблиц измерений имеет одну или несколько связанных с ней других таблиц измерений
3. смешаная
Основные преимущества РХД следующие:
практически неограниченный объем хранимых данных;
поскольку реляционные СУБД лежат в основе построения многих систем оперативной обработки (OLTP), которые обычно являются главными источниками данных для ХД, использование реляционной модели позволяет упростить процедуру загрузки и интеграции данных в хранилище;
при добавлении новых измерений данных нет необходимости выполнять сложную физическую реорганизацию хранилища, в отличие, например, от многомерных ХД;
обеспечиваются высокий уровень защиты данных и широкие возможности разграничения прав доступа.
Т.обр, выбор РХД целесообразен в след случаях:
• Значителен объем хранимых данных (многомерные ХД становятся неэффектив).
• Иерархия измерений несложная (др словами, немного агрегированных данных).
• Требуется частое изменение размерности данных. При использовании реляционной модели можно ограничиться добавлением новых таблиц, а для многомерной модели придется выполнять сложную перестройку физической структуры хранилища.