Схожість і відмінності двох підходів до архітектури сховищ даних, Інші СУБД, Бази даних, статті

Ця стаття продовжує розгляд двох принципових підходів до архітектури сховищ даних, розпочате в попередньому матеріалі рубрики. На цей раз ми більш детально зупинимося на схожості і відмінності двох архітектур.

Загальне


Перш за все, і той і інший підхід спрямовані на створення одного об’єкту – корпоративного Сховища даних. Відповідно, єдність кінцевого об’єкта означає спільність вимог, яким повинен задовольняти будь-який підхід для досягнення шуканого кінцевого результату, а це, в свою чергу, вказує на те, що і в самій архітектурі повинні бути спільні риси.

Перше основне вимога пов’язана з тим, що для прийняття і здійснення важливих рішень, які варіюють від проблем виживання бізнесу до збільшення прибутку, всі корпорації потребують програмному засобі для зберігання, аналізу та інтерпретації даних, які вони накопичують. Для досягнення своїх цілей корпорації повинні повною мірою використовувати можливості первинних даних, що, в свою чергу, вимагає відповідних операційних систем і систем зворотного зв’язку.

Саме для цього створюються Сховища даних, і обидва архітектурних підходу в повній мірі відповідають названим вимогам.

Друга вимога – це вимога точності та своєчасності даних. Кожен користувач повинен мати можливість доступу до будь-яких даних у відповідності зі своїми конкретними вимогами, і цей доступ повинен здійснюватися за допомогою легко зрозумілих і простих способів побудови запитів.

Як Сховище даних з архітектурою шини (BUS), так і корпоративна інформаційна фабрика (CIF) цілком задовольняють і другої групи вимог.

У технічному відношенні обидва архітектора Сховищ даних визнають необхідність наявності в Сховище як атомарних, так і сумарних даних, а також те, що дані обох категорій повинні бути доступні користувачам для аналізу.

Відмінності


Перше істотна відмінність між цими архітектурами – різні підходи до побудови баз даних, що складають основу Сховища. Якщо Ральф Кімболл (Ralph Kimball) використовує просторову організацію баз даних (dimensional data bases) c так званої архітектурою “зірка” як на стадії підготовки, так і презентації даних, то Білл Інмон (Bill Inmon) комбінує два підходи. В його моделі атомарні дані організовані в реляційні бази і знаходяться в нормалізованому Сховище даних, причому сумарні дані доступні для використання через спеціалізовані Сховища, засоби data mining і OLAP; що ж стосується залежних вітрин даних, то тільки вони організовані за допомогою просторових моделей, як і у Ральфа Кимболла.

Таким чином, по суті справи архітектури відрізняються тільки способами поводження з атомарними даними: їх просторовою організацією у Кимболла і нормалізованої – у Інмона.

Друга принципова відмінність цих двох підходів, частково випливає з першого, – питання фізичної організації Сховища. Якщо у Інмона Сховище даних – це фізично цілісний реально існуючий об’єкт, то Сховище Кимболла – скоріше “віртуальний” об’єкт. Це колекція вітрин даних, які можуть бути просторово роз’єднаними.

Цими двома основними відмінностями в цілому і вичерпується принципова різниця між тією і іншою моделлю.

Переваги та недоліки


Закономірно виникає питання: так чия ж модель краще? Очевидно, що він не має однозначної відповіді. В цілому обидва ці підходи сходяться в головному – в необхідності сучасних засобів управління інформаційними потоками для прийняття своєчасних і обгрунтованих рішень при веденні бізнесу і, відповідно, в необхідності створення відповідних структур для зберігання даних, їх координації та інтеграції. Вибір того чи іншого технічного рішення визначається потребами бізнесу і його конкретними особливостями.

Переваги та недоліки кожного з підходів безпосередньо випливають з їхніх архітектурних рішень. Вважається, що просторова організація з архітектурою “зірка” полегшує доступ до даних і вимагає менше часу на виконання запитів, а також спрощує роботу з атомарними даними. З іншого боку, прихильники підходу Білла Інмона критикують цю схему за відсутність необхідної гнучкості і вразливість структури, вважаючи, що в просторово організовані атомарні дані важче вносити необхідні зміни.

Реляційна схема організації атомарних даних уповільнює доступ до даних і вимагає більше часу для виконання запитів в силу різної організації атомарних і сумарних даних. Але, з іншого боку, ця схема надає широкі можливості для маніпулювання атомарними даними та зміни їх формату та способу подання в міру необхідності.

Підводячи підсумок, можна сказати, що, незважаючи на здаються глибокі відмінності між двома підходами до архітектури сховищ даних, це відмінності в основному технічного плану, а в цілому Сховища обох типів виявляються досить схожими за своїми функціями і завданнями, які можна вирішувати з їх допомогою.

Гібридний підхід


Деякі організації використовують так званий гібридний підхід, намагаючись поєднати те краще, що є в обох методах. Як видно з рис. 1, гібридне Сховище даних поєднує розглянуті в попередній статті моделі (див. рис. 1 і 2 в статті “Основні підходи до архітектури сховищ даних”). Воно включає нормалізоване Сховище CIF і просторове Сховище атомарних і сумарних даних на основі архітектури шини Кимболла.

Рис. 1. Гібрид нормалізованого та просторового Сховищ даних.

Варто підкреслити, що якщо остаточне подання даних прийнятно для використання, то такий підхід можна вважати життєздатним. Але подвійна робота з підготовки та зберігання атомарних даних супроводжується суттєвими додатковими витратами і затримками. Тому, ймовірно, варто витратити інвестиції в ресурси і технології на те, щоб відповідним чином подати додаткові ключові показники продуктивності для бізнесу.

Безумовно, якщо в організації спочатку було створено нормалізоване Сховище даних, а потім виникла необхідність у розвитку можливостей представлення даних, щоб продемонструвати їх цінність, то гібридний підхід допоможе вигідно використовувати вже зроблені інвестиції.

Публікації



  1. Марджі Росс (Margy Ross) і Ральф Кімболл (Ralph Kimball). “Різні думки” (Differences of Opinion).
  2. Кетерін Дрюек (Katherine Drewek). “Сховища даних: підхід Ральфа Кимболла” (Data Warehouse: Ralph Kimball”s Vision).
  3. Кетерін Дрюек (Katherine Drewek). “Сховища даних: підхід Білла Інмона” (Data Warehouse: Bill Inmon”s Vision).
  4. Кетерін Дрюек (Katherine Drewek). “Сховища даних: схожість і відмінності підходів Білла Інмона і Ральфа Кимболла” (Data Warehousing: Similarities and Differences of Inmon and Kimball).
  5. Кетерін Дрюек (Katherine Drewek). “Сховища даних: реляційні і багатомірні дані” (Data Warehousing: Relational vs. Multi-Dimensional Data).
  6. Кетерін Дрюек (Katherine Drewek). “Сховища даних: завершення дебатів” (Data Warehousing: Our Great Debate Wraps Up).

Схожі статті:


Сподобалася стаття? Ви можете залишити відгук або підписатися на RSS , щоб автоматично отримувати інформацію про нові статтях.

Коментарів поки що немає.

Ваш отзыв

Поділ на параграфи відбувається автоматично, адреса електронної пошти ніколи не буде опублікований, допустимий HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

*

*