Методологія Sybase для Створення сховищ і вітрин даних

Сховища даних і підтримка прийняття рішень


В останні роки різко зріс інтерес до технологій сховищ даних (СД), що не без підстав пов'язують з підвищенням вимог менеджерів по поліпшенню процесів підтримки прийняття рішень (DSS). Компанії постійно шукають нові ніші на ринку і шукають нові підходи, щоб зберегти найбільш своїх найбільш вигідних клієнтів в обстановці неухильного зниження цін. Умови функціонування підприємств все ускладнюються, що ускладнює вироблення стратегії поведінки і глибинне розуміння процесів конкуренції. Інвестиції в аналітичні системи проводяться з метою більш оперативного виявлення і швидкого (швидше за конкурентів) використання нових можливостей, тільки позначилися на ринку.


Головна мета створення (ХД) полягає в тому, щоб зробити всі значущі для управління бізнесом дані доступними в стандартизованої формі, придатними для моделювання, аналізу та отримання необхідних звітів. ХД можна назвати оптимально організованою базою даних, що забезпечує максимально швидкий доступ до інформації, необхідної для прийняття рішень. Таким чином, реальна (і вельми відчутна) користь від ХД настає при його експлуатації в процесі аналізу ситуації і прийняття рішення.


Відповідно до досліджень корпорації Meta Group, зроблених ще в 1996 році, ХД даних в тій чи іншій формі намагаються створювати близько 90% компаній, що входять список Fortune 1000. Згідно з тими ж дослідженнями, середній проект створення корпоративного ХД даних обходився замовнику в 3 млн. дол і тривав 24 місяці. Ще більше пригнічує те, що за даними консалтингової групи Earl Hadden & Assosiates, що спеціалізується на дослідженнях в області ХД, до 80% з уже реалізованих проектів не можуть вирішити всіх поставлених перед ними завдань, а 40% з їх числа можуть вважатися повністю проваленими.


Етапи створення ХД з точки зору бізнес-процесів


У загальних рисах, процес створення ХД складається з наступних основних етапів – проектування і завантаження даних. Проектувальники, тісно взаємодіючи з бізнес-аналітиками, окреслюють коло бізнес-понять, процесів і об'єктів, прийнятих в конкретній організації, формалізують і описують потоки даних. Проектується структура сховища, заповнення сховища даними і починається робота аналітиків.


У реальному житті процесу створення сховища даних найчастіше передує розробка прототипу – невеликий системи, покликаної продемонструвати нові можливості, щоб, спробувавши систему в роботі, зробити висновки про необхідність продовження подальшої розробки.


Така система, яка називається далі вітриною даних (ВД) – це невелике сховище, що забезпечує потреби однієї з підрозділів компанії, або одного з напрямків бізнесу. ВД не вимагає, хоча і не виключає, наявність корпоративного ХД, що охоплює відразу всі аспекти її життєдіяльності організації. Як правило, вона доступна обмеженому колу аналітиків, для роботи яких вона й створювалася. Вартість розробки такий ВД набагато нижче, ніж корпоративного ХД, а результат її впровадження може окупитися багато швидше. Паралельно зі створенням ВД, може йти процес проектування корпоративного ХД.


Тут важливо підкреслити таку принципову відмінність DSS на основі ХД від інтегрованої системи управління підприємством, як наявність метаданих. Вони зберігаються в централізовано керованому репозитарії, і містять інформацію про структуру даних ХД (або ВД); структурах даних, що імпортуються з інших джерел; про самих джерелах; методах завантаження та агрегування даних.


Для успішного впровадження, ВД повинні відразу створюватися в рамках єдиної корпоративної архітектури, для вирішення завдань, пов'язаних з підтримкою цілісності, обміну, перетворення і переміщення даних усередині всієї корпоративної інфраструктури. Можна виділити чотири ключові вимоги до корпоративної архітектурі вітрин даних:



Комплексний підхід Sybase до створення ХД і ВД


В даний час компанія Sybase вважається одним з лідерів технології сховищ даних (СД) – за даними різних дослідницьких звітів, вона утримує майже третина цього ринку. Хоча число виробників Програми для створення та експлуатації ХД давно перевищило другий десяток, підхід Sybase до цього процесу становить особливий інтерес через наявність повної лінії власних продуктів, що реалізують всі його етапи. Це як мінімум гарантує хорошу інтеграцію їх один з одним, що істотно підвищує надійність роботи ХД (яке, як відомо, для даних систем вважається характеристикою найбільшого пріоритету).


Більш того, Sybase стала практично єдиною компанією, що випустила інтегрований комплект базових програмних продуктів для ХД під назвою Warehouse Studio для вирішення всіх завдань, пов'язаних з їх створенням, управлінням і розвитком. Серед цих продуктів – високопродуктивні оптимізовані сервера для зберігання і управління бізнес-інформації, сполучна Програми для доступу до розподілених джерел даних, популярні засоби розробки для побудови кращих систем підтримки прийняття рішень.


Корпоративна архітектура ХД компанії Sybase являє собою інтегрований набір програмних продуктів Sybase і її партнерів, що дозволяють швидко створювати масштабовані програми для DSS в рамках єдиної архітектури, здатної зберегти цілісність і несуперечність даних, а також забезпечити свій розвиток ХД в майбутньому.


Компонентна адаптивна архітектура


Компонентна адаптивна архітектура Sybase (ImpactNOW) забезпечує найбільш широкі можливості з повторного використання стандартних компонентів, причому всіх основних форматів об'єктів – ActiveX, JavaBeans, CORBA. Крім того, вона дозволяє використовувати їх на будь-який рівні: клієнта, сервера баз даних, проміжного шару. Це забезпечує швидку розробку додатків, їх високу продуктивність, розширюваність і надійність.


Методологія SAFE / DW


Методологія SAFE / DW пропонує ряд підходів, що дозволяють прискорити процес побудови ХД. Зокрема, в рамках дослідницької стадії проекту вона вимагає визначити бізнес-цілі, інформаційні запити, визначити критичні для успіху фактори, розробити попередню бізнес-модель. У рамках створення бізнес-моделі потрібно ідентифікувати потоки даних, виявити відносну цінність даних, змакетованих потоки даних у логічну структуру об'єктів.


PowerDesigner – сімейство продуктів для проектування корпоративних ВД


PowerDesigner (колишня назва S-Designor) базовий продукт Sybase для проектування корпоративних інформаційних. Різні модулі PowerDesigner, інтегровані між собою і об'єднані системою груповий розробки MetaWorks, дозволяють створювати функціональні діаграми потоків даних в нотації різних методологій, створювати концептуальні та фізичні інформаційні моделі, виробляти створення інформаційних моделей на основі вже наявних баз даних (зворотне проектування), створювати додатки для ряду популярних засобів розробки.


PowerDesigner WarehouseArchitect – спеціальний модуль для проектування сховищ даних, що дозволяє проектувати багатовимірні інформаційні моделі, моделі типу "зірка" і підтримує генерацію баз даних як для Sybase IQ, так і для інших СУБД. WarehouseArchitect підтримує всі рівні ХД з точки зору моделювання даних, метаданих та імпорту даних, а також містить інтерфейси для підключення аналітичних інструментів третіх фірм, які є невід'ємною частиною сховищ даних.


Основні можливості WarehouseArchitect:



Багатовимірне моделювання є методом, що допомагає проектувальнику баз даних будувати інформаційні структури, що задовольняють запитам, що висуваються кінцеві користувачі. Мета просторового моделювання полягає в тому, щоб надати сховищ даних і інструментів управління запитами коректне визначення БД, яка сама може бути подана для предметно-орієнтованого моделювання інформації. Для цього, інформація може бути перевизначена і представлена кінцевим користувачам різними способами, з різних точок зору. WarehouseArchitect дозволяє при багатовимірному моделюванні використовувати графічні об'єкти, які можуть утримуватися і управлятися словником PowerDesigner MetaWorks:


Sybase Adaptive Server IQ


Згідно з дослідженнями Meta Group, близько половини всіх запитів користувачів сховищ даних становлять незаплановані запити. Коли користувачі ІВ отримують результати аналітичного запиту, то у них, у багатьох випадках, виникають додаткові питання щодо отриманої інформації.


Sybase Adaptive Server IQ представляє собою спеціалізовану СУБД для DSS. Орієнтований на стандартні багатопроцесорні (SMP) платформи, вона забезпечує підвищення продуктивність при обробці запитів в 10-100 разів, у порівнянні з традиційними реляційними СУБД, стискає розмір бази даних, а також дозволяє істотно скоротити витрати на впровадження і експлуатацію.


Ключовими технологіями в Sybase IQ є вертикальне зберігання даних (по стовпцях, а не за записами) і використання технології обробки запитів Bit-Wise. Вертикальне зберігання даних дозволяє запитам використовувати тільки необхідні поля або стовпці (набори полів), значно скорочуючи кількість операцій введення / виводу при типовому запиті. Кроком вперед у порівнянні з традиційними алгоритмами індексування, типу B-дерев та індексів побітового відображення (bit-map), є технологія індексування Bit-Wise, яка дозволяє представити всі дані у вигляді особливих бінарних структур, доступ до яких, а також операції групування, підсумовування і порівняння виробляються з високою швидкістю. Набір спеціалізованих алгоритмів індексації дозволяє оптимізувати продуктивність обробки запитів для довільних типів даних з будь-якою потужністю (потужність – показник кількості однакових значень в одній колонці. Чим більше різних значень, тим більше потужність стовпця. Прикладом, високопотужних даних є монотонно зростаючий унікальний стовпець ID.


На відміну від алгоритмів побітового відображення даних, які відомі багато років, в Sybase IQ при обробці запиту можуть застосовуватися одночасно кілька індексів. У традиційній реляційної СУБД (навіть з використанням індексів з побітовим відображенням) обробка запиту обмежена рамками одного індексу, після якого зазвичай слідує часткове сканування таблиці. У Sybase IQ сканування таблиці виключається. Немає принципової необхідності і у великих таблицях для зберігання агрегованих даних, які часто використовуються в традиційних паралельних або багатовимірних СУБД. Будь-які необхідні агрегати можуть бути отримані в реальному часі. Тому до ВД має сенс зберігати детальні дані, надаючи користувачам великі можливості щодо отримання необхідної їм інформації.


Sybase IQ побудований на базі відкритої архітектури Sybase Open Client / Open Server, тому він є повністю сумісним з широким набором популярних продуктів для аналітичних запитів, таких як Cognos Impromptu, Powerplay, Business Objects, Brio Query і багатьма іншими інструментами через інтерфейси Sybase Open Client або ODBC, підтримуючи стандартна мова запитів SQL.


На відміну від багатьох інших СУБД, Sybase IQ працює з однаковим швидкодією на інформаційних схемах "зірка", плоских таблицях або на нормалізованих БД, в залежності від того, яка інформаційна модель більш придатна для конкретної галузі діяльності. У силу того, що Sybase IQ забезпечує автоматичне налаштування, грунтуючись на характеристиках даних, немає необхідності в складних моделях або постійних налаштуваннях таблиць для нових запитів. Це особливо важливо при ітеративному проектуванні та впровадженні. Крім того, існують можливість паралельної завантаження і послідовного оновлення даних. У результаті, ХД або ВД на основі Sybase IQ може бути створена у вельми стислі терміни.


У традиційній РСУБД, індекси та агрегати значною мірою збільшують розмір сховища даних. Згідно з дослідженнями Sentry Market Research, проведеним у 1996 році, сховища даних на 65% -75% заповнені агрегованими значенням, індексами та іншими додатковими структурами, які суттєво збільшують розмір бази даних у порівнянні з вихідними даними. Так, наприклад, система з 50 Гбайт вихідних даних перетвориться на кілька вітрин даних, кожне з яких з обсягом даних в кілька сотень гігабайт, що спричинить за собою значні додаткові витрати і складнощі в адмініструванні. Розмір стиснутої бази даних в Sybase IQ буде займати від 50% до 100% від розміру "чистих" даних, що дає значну економію.


У випадках, коли відсутня необхідність в унікальних якостях Sybase IQ, його місце замінює СУБД Sybase Adaptive Server Enterprise, визнана однією з найбільш високопродуктивних у своєму класі. Для настільних і мобільних ВД можна навіть використовувати "портативну" СУБД Sybase Adaptive Server Anywhere, яка може бути інстальована навіть на кишеньковому ПК типу Palm Pilot.


Сімейство продуктів EnterpriseCONNECT


Будь-яка корпоративна інформаційна система вимагає підтримки ВД в актуальному стані. Для деяких додатків досить щомісячних оновлень даних, для інших потрібно щоденні оновлення, або оновлення за подією. Принциповим моментом тут є забезпечення цілісності оновлень. Крім того, важливо забезпечити можливість використання стандартних програм для "очищення" і необхідних перетворень даних між різними вітринами даних. Таким чином, необхідна архітектура переміщення даних, яка б дозволяла переміщати великий об'єм даних із дотриманням транзакційної цілісності, забезпечуючи при цьому надійний стійку роботу розподіленої системи, а також даючи можливість організувати доступ до різних джерел даних у рамках однієї вітрини даних або всього корпоративного сховища даних.


Сімейство програмних продуктів EnterpriseCONNECT є одним з найбільш відомих наборів технологій для управління рухом даних в розподілених і різнорідних середовищах.


Першим кроком в технології ХД є забезпечення доступу до оперативних і архівними даними. За допомогою сервера Sybase OmniCONNECT і набору модулів доступу для нього забезпечується одночасний доступ і витяг даних з 25 різних джерел, включаючи DB2, IMS, VSAM, Teradata і AS/400. Цікавою особливістю тут є те, що для користувача вся робота відбувається в єдиній логічної БД.


Після вилучення оперативних даних, вони повинні бути доставлені в конкретні ВД. У рамках технології ХД цей процес називається "захоплення змінених даних". Сімейство програмних продуктів Sybase Replication Server дозволяє організувати переміщення даних як з архівних систем на мейнфреймах, так і з систем в архітектурі клієнт / сервер до ВД. Важливо відзначити, що при цьому підтримується тиражування даних з різнорідних джерел, таких як DB2, IMS, IDMS, Oracle, Sybase і Lotus Notes. Використовуючи відкритий інтерфейс до Replication Server, існує можливість підтримки реплікації з довільних джерел даних. Застосування технології SQL Remote, що забезпечує тиражування даних по електронній пошті, дозволяє організувати обмін даними на рівні всього підприємства, починаючи з мейнфреймів і закінчуючи ПК-блокнотами. В основі технології тиражування даних Sybase лежить ідея читання завершених транзакцій з журналу транзакцій, що дозволяє мінімізувати навантаження на працюючу систему. Після цього транзакції потрапляють в Replication Server, який може знаходитися на окремій машині і працювати під відмінною від СУБД-джерела операційною системою. У разі якщо лінія зв'язку недоступна, транзакції зберігаються в черзі. При появі зв'язку, тиражування автоматично відновлюється, причому гарантується цілісна доставка транзакцій в сховище або вітрину даних, при цьому тиражування даних проводиться асинхронно. Replication Server підтримує як інкрементальне тиражування даних, так і тиражування даних за подією. Таким чином, при необхідності, можна організувати безперервне передачу завершених транзакцій з оперативної бази даних в сховищі даних.


У багатьох випадках корисно мати кілька вітрин даних з однаковими схемами баз даних, що вимагає симетричного тиражування даних. Однак в інших випадках вітрини даних будуть обмінюватися елементами даних, що відрізняються за структурою.


Replication Server підтримує модель "підписки" на дані. Після того, як Replication Server отримав дані, на які він підписаний, існує можливість програмування довільної логіки для модифікації і перетворення цих даних. Тому схема бази даних – приймача може бути повністю ідентична базі даних – джерела, може злегка відрізнятися, або може бути зовсім інший.


Крім того, існує можливість маршрутизації потоків транзакцій між кількома Replication Server. Велика кількість ХД і ВД використовує власні програми перетворення даних. В інших системах використовуються програмні продукти Carleton, Prism, Informatica або інших постачальників. Replication Server дозволяє підключати довільні програм перетворення даних, забезпечуючи тим самим закінчене рішення для переміщення і "очищення" даних. У рамках партнерської програми Sybase Warehouse WORKS, в якій беруть участь понад 70 компаній, Sybase розширює рамки своєї технології продуктами третіх фірм для перетворення, отримання, проектування та управління даними в сховищах даних. Зокрема, програмні інструменти Carleton PASSPORT дозволяють автоматизувати процес проектування, перетворення і отримання даних з мейнфремов. На виході виходить файл, готовий для завантаження в Sybase IQ. Набір програмних продуктів Informatica PowerMart, побудовані в архітектурі клієнт / сервер, дозволяють проектувати, перетворювати і оновлювати дані з реляційних СУБД. Технологія PowerMart може бути інтегрована безпосередньо в Replication Server, використовуючи при цьому динамічне перетворення даних.


Крім того, збір даних можливий і більш простими способами: через ODBC-інтерфейс, шляхом вилучення їх з текстових файлів і деяких структурованих файлів (наприклад, файлів формату dBASE).


PowerStage – інструмент завантаження даних в ХД


У процесі завантаження даних в ХД вирішуються три взаємопов'язані завдання: збір даних, їх очищення, агрегування. Збір даних складається в організації передачі даних із зовнішніх джерел у ХД. Очищення даних – Це процес модифікації даних по ходу заповнення ХД, який складається з таких послідовних етапів:



Компанія Sybase пропонує свій продукт PowerStage (розроблений на базі ПО DataStage компанії VMARK), що спрощує витяг, очищення, трансформацію та його узагальнення даних. Він спеціально оптимізовано для роботи з Sybase IQ.


Dynamic OLAP – нова архітектура для DSS


Dynamic OLAP – це нова архітектура для DSS, запропонована Sybase Inc. Вона базується на контролі з боку кінцевого користувача процесів побудови і поділу аналітичних моделей у масштабованої середовищі ХД. Dynamic OLAP об'єднує гнучкість і простоту "табличного" походу з масштабованістю РСУБД. На відміну від традиційного підходу OLAP, що вимагає декількох місяців для реалізації, Dynamic OLAP забезпечує побудова складних аналітичних систем в лічені дні. Для реалізації Dynamic OLAP компанія Sybase пропонує PowerDimensions, просторове середовище бізнес-моделювання. Остання містить розвинені аналітичні функції: фінансового, статистичного, логічного аналізу, розрахунку часових рядів та інші математичні відносини, які є невід'ємними атрибутами при побудові аналітичної моделі.


PowerDimensions – це фактично аналітичний підхід, народжений з катастрофічного скорочення часу, відпущеного на прийняття рішення. Єдино можливий вихід – дати аналітикам контроль над процесом моделювання. Поєднання такого контролю з боку аналітика з контролем інформаційного підрозділу за ХД, заснованим на інших технологічних рішеннях Sybase, забезпечує збереження цілісності інформації, але не за рахунок продуктивності кінцевого користувача. Сервер PowerDimensions може легко інтегрується в існуючу інфраструктуру і показує в поєднанні з Sybase IQ рекордну в галузі продуктивність.

Таблиця 1. Матриця технологій Sybase для створення ХД і ВД




























Категорія Технологія Sybase
Проектування, розробка  PowerDesigner – інтегрований набір засобів проектування; 
Збір даних  Сімейство програмних технологій Sybase EnterpriseCONNECT, в тому числі Replication Server, Replication Agents, OmniCONNECT; 
Завантаження даних в сховищі   PowerStage – Автоматизація вибірки, очищення, трансформації даних з різнорідних оперативних БД;
Adaptive Server Enterprise – СУБД масштабу підприємства;
Adaptive Server Anywhere – CУБД масштабу департаменту
 
Вітрини даних   Adaptive Server IQ – Оптимізована СУБД для сховищ і вітрин даних;
Аналіз даних, побудова моделі бізнесу   PowerDimensions – Просторова середу моделювання моделі бізнесу;
Адміністрування, управління мета даними   Warehouse Control Center, Carleton Passport, Informatica PowerMart, Intellidex MetaCenter, Prism Warehouse Manager та інші;  
Методологія   SAFE/DW, Навчальні курси з технологій сховищ даних і вітрин даних;

Швидке створення ХД для Windows NT


Не варто думати, що ХД можна побудувати тільки на дорогій Unix-платформі. Для спрощеного старту проекту Sybase розробила інтегрований пакет програм QuickStart DataMart for Windows NT, заснований на Sybase IQ 11.5. QuickStart DataMart містить всі програмні компоненти, необхідні для побудови закінчених вітрин даних, включаючи засоби проектування, трансформації та переміщення даних, БД, інструменти аналізу і адміністрування. Версія QuickStart DataMart для Windows NT включає PowerStage, спрощує отримання, очищення і трансформацію даних саме в середовищі Windows NT. За оцінками Sybase, за допомогою нього можна розробити ХД протягом лише трьох місяців.


Пакет QuickStart ReportMart for Windows NT, призначений для побудови вітрин даних, що містять дані працюючих систем OLTP, для побудови складних аналітичних запитів і звітів. Він містить Sybase IQ 11.5, а також Replication Agent і Replication Server.


Впровадження ВД у корпорації MCI


До теперішнього часу ХД і ВД на базі технологій Sybase впроваджені в десятках організацій: MCI, Chase Manhattan, American Airlines, AT & T Wireless Services та ін


В якості досить наочний приклад можна розглянути реалізації архітектури ВД Sybase у американської телекомунікаційної корпорації MCI, клієнти якої щодня генерують мільйони транзакцій. Завдання полягала в тому, щоб використовувати цю інформацію за допомогою численних прикладних систем для створення нових послуг, аналізу цінової політики, стратегічного і тактичного планування і телемаркетингових служби, орієнтуючись при цьому на різні групи користувачів (наприклад, фізичні особи, невеликі компанії або великі корпорації).


В ідеалі, для вирішення такого завдання підходить централізоване сховище даних. Проте, в реальності, в умовах, коли різні підрозділи компанії швидко створюють і розвивають власні програми, така система була б неефективною. На сьогоднішній день в MCI працює як мінімум три самостійних ВД, обсяг однієї з яких більше 100 гігабайт. Ними керує Sybase SQL Server 11 (це стара назва СУБД Adaptive Server Enterprise) у поєднанні з Sybase IQ на платформі SPARCsever 2000, при цьому вихідні дані зберігаються на мейнфреймах. В даний час ці ВД активно використовуються в службі телемаркетингу, відділі планування і підрозділі обслуговування клієнтів. Після їх впровадження термін виконання аналітичних процесів скоротився з декількох тижнів до декількох годин.


Крім того, в MCI існує проект створення великого централізованого ХД для обробки транзакцій, яке буде використовуватись в тому числі і для забезпечення "загальної" інформацією ВД. З причини того, що кожна ВД має різний набір завдань і вимог, вона спроектована індивідуально і використовує власні зовнішні джерела даних. Ці ВД були впроваджені значно швидше і обійшлися набагато дешевше, ніж створення централізованого ХД.


У Росії можливість впровадження ХД на базі Sybase IQ розглядає Транспортна Клірингова палата, яка виконує функції координації та проведення розрахунків за авіаперевезення (в її роботі беруть участь більше 200 перевізників з СНД). Основне завдання цього проекту – прогноз, виявлення тенденцій та вироблення рекомендацій щодо поліпшення обслуговування пасажирів.

Схожі статті:


Сподобалася стаття? Ви можете залишити відгук або підписатися на RSS , щоб автоматично отримувати інформацію про нові статтях.

Трекбек і пінги

трекбеків / пінгів ще немає.

Відгуки

Стаття має неохайний вигляд та викликає відчуття неповаги автора до читача: 1)оформлення табл.;2)якщо використовується скорочення DSS,то потрібно надати англійску розшифровку цієї абревіатури;3)якщо надається скорочення СД, то чому в подальшому використовується скорочення ХД(хранилище данных);4)відсутня дата написання статті, тому неможливо оцінити її актуальність:5)визначення вітрини даних не узагальненим, на що в статті не вказується:6)якщо продукт розрахований на експлуатацію на Windows NT (не вказана можливіть використання в подальших серверних ОС),то навіщо застарілу інформацію пропонувати читачу;7) якщо “компанія Sybase вважається одним з лідерів технології сховищ даних”, то потрібно надати порівняльну таблицю щодо наданих можливостей Sybase та іншими виробниками, зокрема, Oracle. Без порівняння твердження виглядає зухвалим.

Ваш отзыв

Поділ на параграфи відбувається автоматично, адреса електронної пошти ніколи не буде опублікований, допустимий HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

*

*