Основні підходи до архітектури сховищ даних

Як відомо, Сховища даних – це порівняно нове технологічне рішення, яке стало широко використовуватися тільки на початку 90-х років 20-го століття, після того як Білл Інмон (Bill Inmon), нині отримав загальне визнання як "батько концепції Сховища даних", опублікував свою першу книгу з цієї теми (WH Inmon, Building the Data Warehouse, QED / Wiley, 1991). Хоча окремі елементи цієї концепції і їх технічне втілення існували і раніше (по суті справи, з 70-х років минулого століття), тільки до кінця 80-х років була в повній мірі усвідомлена необхідність інтеграції корпоративної інформації та належного управління нею, а також з'явилися технічні можливості для створення відповідних систем, спочатку названих "сховищами інформації" (information warehouse) (Devlin, BA and Murphy, PT An Architecture for a Business and Information System. IBM Systems Journal. Volume 27, No. 1, 1988), а потім, з виходом книги Інмона, які отримали свою нинішню назву Сховищ даних.

На сьогоднішній день існує два основних підходи до архітектури сховищ даних. Це так звана корпоративна інформаційна фабрика (Corporate Information Factory, скор. CIF) Білла Інмона і Сховище даних з архітектурою шини (Data Warehouse Bus, скор. BUS) Ральфа Кимболла (Ralph Kimball). Розглянемо кожен із них докладніше.

Corporate Information Factory


На рис. 1 представлений підхід, який використовується в сховища даних з архітектурою CIF.

Нормализованное Сховище даних з просторовими вітринами підсумкових даних (CIF).

Колись цей підхід був відомий під назвою корпоративного Сховища даних (enterprise data warehouse, скор. EDW). Робота такого Сховища починається зі скоординованого добування даних із джерел. Після цього завантажується реляційна база данних1 з третьої нормальної формой2, що містить атомарні дані. Вийшло нормалізоване Сховище використовується для того, щоб наповнити інформацією додаткові репозиторії презентаційних даних, тобто даних, підготовлених для аналізу. Ці репозиторії, зокрема, включають спеціалізовані Сховища для вивчення та "видобутку" даних (Data Mining), а також вітрини даних.

При такому сценарії кінцеві вітрини даних створюються для обслуговування бізнес-відділів або для реалізації бізнес-функцій і використовують просторову модель3 для структурування сумарних даних. Атомарні дані залишаються доступними через нормалізоване Сховище даних. Очевидно, що структура атомарних і сумарних даних при такому підході істотно різниться.

В якості відмітних характеристик підходу Білла Інмона до архітектури сховищ даних можна назвати наступні.


  1. Використання реляційної моделі організації атомарних даних і просторової – для організації сумарних даних.
  2. Використання ітеративного або "спірального" підходу при створенні великих сховищ даних, тобто "Будівництво" Сховища не відразу, а частинами. Це дозволяє при необхідності вносити зміни в невеликі блоки даних або програмних кодів і позбавляє від необхідності перепрограмувати значні обсяги даних у Сховище. Те ж саме можна сказати і про потенційних помилки: вони також будуть локалізовані в межах порівняно невеликого масиву без ризику зіпсувати все Сховище.
  3. Використання третьої нормальної форми для організації атомарних даних, що забезпечує високу ступінь детальності інтегрованих даних і, відповідно, надає корпораціям широкі можливості для маніпулювання ними і зміни формату і способу представлення даних у міру необхідності.
  4. Сховище даних – це проект корпоративного масштабу, що охоплює всі відділи та обслуговуючий потреби всіх користувачів корпорації.
  5. Сховище даних – це не механічна колекція вітрин даних, а фізично цілісний об'єкт.

Data Warehouse Bus

Просторове Сховище даних

У цій моделі первинні дані перетворяться в інформацію, придатну для використання, на етапі підготовки даних. При цьому обов'язково приймаються до уваги вимоги до швидкості обробки інформації і якості даних. Як і в моделі Білла Інмона, підготовка даних починається зі скоординованого добування даних із джерел. Ряд операцій відбувається централізовано, наприклад, підтримка і зберігання загальних довідкових даних, інші дії можуть бути розподіленими.

Область подання просторово структурована, при цьому вона може бути централізованою або розподіленою. Просторова модель Сховища даних містить ту ж атомарну інформацію, що й нормалізована модель (див. підхід Білла Інмона), але інформація структурована по-іншому, щоб полегшити її використання й виконання запитів. Ця модель включає як атомарні дані, так і узагальнюючу інформацію (Агрегати у зв'язаних таблицях або багатомірних кубах) відповідно до вимог продуктивності або просторового розподілу даних. Запити в процесі виконання звертаються до усе більш низькому рівню деталізації без додаткового перепрограмування з боку користувачів або розроблювачів застосування.

На відміну від підходу Білла Інмона, просторові моделі будуються для обслуговування бізнес-процесів (які, у свою чергу, пов'язані з бізнес-показниками або бізнес-подіями), а не бізнес-відділів. Наприклад, дані про замовлення, які повинні бути доступні для загальнокорпоративного використання, вносяться в просторове Сховище даних тільки один раз, на відміну від CIF-підходу, в якому їх довелося б тричі копіювати у вітрини даних відділів маркетингу, продажів і фінансів. Після того, як у Сховище з'являється інформація про основні бізнес-процеси, консолідовані просторові моделі можуть видавати їх перехресні характеристики. Матриця корпоративного Сховища даних з архітектурою шини виявляє й підсилює зв'язок між показниками бізнес-процесів (фактами) і описовими атрибутами (Вимірами).

Підсумовуючи все вищесказане, можна відзначити типові риси підходу Ральфа Кимболла.


  1. Використання просторової моделі організації даних з архітектурою "зірка" (star scheme).
  2. Використання дворівневої архітектури, яка включає стадію підготовки даних, недоступну для кінцевих користувачів, і Сховище даних з архітектурою шини як таке. До складу останнього входять кілька вітрин атомарних даних, кілька вітрин агрегованих даних та персональна вітрина даних, але воно не містить одного фізично цілісного або централізованого Сховища даних.
  3. Сховище даних з архітектурою шини має такими характеристиками:

    • воно просторове;
    • воно включає як дані про транзакції, так і сумарні дані;
    • воно включає вітрини даних, присвячені тільки однієї предметної області або що мають тільки одну таблицю фактів (fact table);
    • воно може містити безліч вітрин даних в межах однієї бази даних.

  4. Сховище даних не є єдиним фізичним репозиторієм (на відміну від підходу Білла Інмона). Це "віртуальне" Сховище. Це колекція вітрин даних, кожна з яких має архітектуру типу "зірка".

У наступній статті ми більш детально розглянемо подібності та відмінності цих двох підходів.

Схожі статті:


Сподобалася стаття? Ви можете залишити відгук або підписатися на RSS , щоб автоматично отримувати інформацію про нові статтях.

Коментарів поки що немає.

Ваш отзыв

Поділ на параграфи відбувається автоматично, адреса електронної пошти ніколи не буде опублікований, допустимий HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

*

*