Проектування сховищ даних за допомогою ERwin

Сховища даних (Data Warehouse) представляють собою спеціалізовані бази даних, призначені для зберігання даних, які рідко змінюються, але на основі яких часто вимагається виконання складних запитів. Зазвичай вони орієнтовані на виконання аналітичних запитів, які забезпечують підтримку прийняття рішень для керівників і менеджерів. Сховища даних дозволяють розвантажити промислові бази даних, і тим самим дозволяють користувачам більш ефективно і швидко знаходити необхідну інформацію. Як правило, сховища даних оперують з величезними обсягами інформації, що пред'являє до їх проектування і реалізації підвищені вимоги. Вибір в якості платформи сховища даних такої високопродуктивної РСУБД дозволяє істотно підвищити загальну ефективність створюваної інформаційної системи. У цьому випадку ERwin (CASE-засіб фірми PLATINUM Technology inc.) Стає незамінним інструментом, оскільки з одного боку ефективно підтримує на фізичному рівні проектування об'єктів РСУБД, з іншого боку має спеціалізовані засоби моделювання сховищ даних. Нижче розглядаються основні можливості ERwin з проектування сховищ даних.

До проектування сховищ даних звичайно пред'являються наступні вимоги:


Ці вимоги істотно відрізняють структуру реляційних СУБД і сховищ даних. Нормалізація даних в реляційних СУБД призводить до створення безлічі пов'язаних між собою таблиць. У результаті, виконання складних запитів неминуче призводить до об'єднання багатьох таблиць, що істотно збільшує час відгуку. Проектування сховища даних передбачає створення денормалізованной структури даних (допускається надмірність даних і можливість виникнення аномалій при маніпулюванні даними), орієнтованої в першу чергу на високу продуктивність при виконанні аналітичних запитів. Нормалізація робить модель сховища занадто складною, ускладнює її розуміння і погіршує ефективність виконання запиту.

Для ефективного проектування сховищ даних ERwin використовує розмірну (Dimensional) модель. Dimensional – методологія проектування, спеціально призначена для розробки сховищ даних. ERwin підтримує методологію розмірного моделювання завдяки використанню спеціальної нотації для фізичної моделі – Dimensional. Найбільш простий спосіб перейти до нотації Dimensional – при створенні нової моделі (меню File / New) у діалозі ERwin Teamplate Selection вибрати із списку пропонованих шаблонів DIMENSION. У шаблоні DIMENSION зроблені всі необхідні для підтримки нотації розмірного моделювання налаштування, які, втім, можна встановити вручну.

Моделювання Dimensional схоже з моделюванням зв'язків і сутностей для реляційної моделі, але відрізняється цілями. Реляційна модель акцентується на цілісності та ефективності введення даних. Розмірна (Dimensional) модель орієнтована в першу чергу на виконання складних запитів до БД.

У розмірному моделюванні прийнятий стандарт моделі, званий схемою зірка (star schema), яка забезпечує високу швидкість виконання запиту за допомогою денормализация і розділення даних. Неможливо створити універсальну денормалізованную структуру даних, що забезпечує високу продуктивність при виконанні будь-якого аналітичного запиту. Тому схема зірка будується так, щоб забезпечити найвищу продуктивність при виконанні одного найважливішого запиту, або для групи схожих запитів.

Схема зірка зазвичай містить одну велику таблицю, звану таблицею факту (fact table), поміщену в центр, і оточуючі її менші таблиці, звані таблицями розмірності (dimensional table), з'єднаними c таблицею факту у вигляді зірки радіальними зв'язками. У цих зв'язках таблиці розмірності є батьківськими, таблиця факту-дочірньою. Схема зірка може мати також консольні таблиці (outrigger table), приєднані до таблиці розмірності. Консольні таблиці є батьківськими, таблиці розмірності – дочірніми.

У розмірній моделі, ERwin позначає іконкою роль таблиці у схемі зірка:








Рис. 4. Діалог Data Warehouse Source Editor.

Імена таблиць і колонок джерел даних можуть бути імпортовані як з баз даних (зворотне проектування), так і з інших моделей ERwin. Кожному джерела може бути задане ім'я та визначення.

У редакторі Column Editor необхідно внести інформацію про використання джерел даних для кожної колонки таблиць сховища даних, а так само додаткову інформацію про способи, режимах і періодичності перенесення даних з джерела у сховищі даних.

Схожі статті:


Сподобалася стаття? Ви можете залишити відгук або підписатися на RSS , щоб автоматично отримувати інформацію про нові статтях.

Коментарів поки що немає.

Ваш отзыв

Поділ на параграфи відбувається автоматично, адреса електронної пошти ніколи не буде опублікований, допустимий HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

*

*