Методологія Sybase для створення сховищ і вітрин даних, Комерція, Різне, статті

Сховища даних і підтримка прийняття рішень


В останні роки різко зріс інтерес до технологій сховищ даних (СД), що не без підстав пов’язують з підвищенням вимог менеджерів щодо поліпшення процесів підтримки прийняття рішень (DSS). Компанії постійно шукають нові ніші на ринку і шукають нові підходи, щоб зберегти найбільш своїх найбільш вигідних клієнтів в обстановці неухильного зниження цін. Умови функціонування підприємств все ускладнюються, що ускладнює вироблення стратегії поведінки і глибинне розуміння процесів конкуренції. Інвестиції в аналітичні системи виробляються з метою більш оперативного виявлення і швидкого (швидше за конкурентів) використання нових можливостей, тільки позначилися на ринку.


Головна мета створення (ХД) полягає в тому, щоб зробити всі значущі для управління бізнесом дані доступними в стандартизованої формі, придатними для моделювання, аналізу та отримання необхідних звітів. ХД можна назвати оптимально організованою базою даних, що забезпечує максимально швидкий доступ до інформації, необхідної при прийнятті рішень. Таким чином, реальна (і вельми відчутна) користь від ХД настає при його експлуатації в процесі аналізу ситуації і прийняття рішення.


Відповідно до досліджень корпорації Meta Group, зроблених ще в 1996 році, ХД даних в тій чи іншій формі намагаються створювати близько 90% компаній, що входять список Fortune 1000. Згідно з тими ж дослідженнями, середній проект створення корпоративного ХД даних обходився замовникові в 3 млн. дол і тривав 24 місяці. Ще більш пригнічує те, що за даними консалтингової групи Earl Hadden & Assosiates, що спеціалізується на дослідженнях в області ХД, до 80% з уже реалізованих проектів не можуть вирішити всіх поставлених перед ними завдань, а 40% з їх числа можуть вважатися повністю проваленими.


Етапи створення ХД з точки зору бізнес-процесів


У загальних рисах, процес створення ХД складається з наступних основних етапів – проектування і завантаження даних. Проектувальники, тісно взаємодіючи з бізнес-аналітиками, окреслюють коло бізнес-понять, процесів і об’єктів, прийнятих в конкретній організації, формалізують і описують потоки даних. Проектується структура сховища, заповнення сховища даними і починається робота аналітиків.


У реальному житті процесу створення сховища даних часто передує розробка прототипу – невеликий системи, покликаної продемонструвати нові можливості, щоб, спробувавши систему в роботі, зробити висновки про необхідність продовження подальшої розробки.


Така система, звана далі вітриною даних (ВД) – це невелика сховище, що забезпечує потреби одного з підрозділів компанії, або одного з напрямків бізнесу. ВД не вимагає, хоча і не виключає, наявність корпоративного ХД, що охоплює відразу всі аспекти її життєдіяльності організації. Як правило, вона доступна обмеженому колу аналітиків, для роботи яких вона і створювалася. Вартість розробки такий ВД набагато нижче, ніж корпоративного ХД, а результат її впровадження може окупитися багато швидше. Паралельно зі створенням ВД, може йти процес проектування корпоративного ХД.


Тут важливо підкреслити таке принципове відміну DSS на основі ХД від інтегрованої системи управління підприємством, як наявність метаданих. Вони зберігаються в централізовано керованому репозитарії, і містять інформацію про структуру даних ХД (або ВД); структурах даних, імпортованих з інших джерел; про самих джерелах; методах завантаження і агрегування даних.


Для успішного впровадження, ВД повинні відразу створюватися в рамках єдиної корпоративної архітектури, для вирішення завдань, пов’язаних з підтриманням цілісності, обміну, перетворення і переміщення даних усередині всій корпоративної інфраструктури. Можна виділити чотири ключові вимоги до корпоративної архітектурі вітрин даних:



Комплексний підхід Sybase до створення ХД та ВД


В даний час компанія Sybase вважається одним з лідерів технології сховищ даних (СД) – за даними різних дослідницьких звітів, вона утримує майже третину цього ринку. Хоча число виробників Програми для створення та експлуатації ХД давно перевищила другий десяток, підхід Sybase до цього процесу становить особливий інтерес через наявність повної лінії власних продуктів, що реалізують всі його етапи. Це як мінімум гарантує хорошу інтеграцію їх один з одним, що суттєво підвищує надійність роботи ХД (яке, як відомо, для даних систем вважається характеристикою найбільшого пріоритету).


Більш того, Sybase стала практично єдиною компанією, яка випустила інтегрований комплект базових програмних продуктів для ХД під назвою Warehouse Studio для вирішення всіх завдань, пов’язаних з їх створенням, управлінням і розвитком. Серед цих продуктів – високопродуктивні оптимізовані сервера для зберігання і управління бізнес-інформації, сполучна ПО для доступу до розподілених джерел даних, популярні засоби розробки для побудови кращих систем підтримки прийняття рішень.


Корпоративна архітектура ХД компанії Sybase представляє собою інтегрований набір програмних продуктів Sybase та її партнерів, що дозволяють швидко створювати масштабовані додатки для DSS в рамках єдиної архітектури, здатної зберегти цілісність і несуперечність даних, а також забезпечити свій розвиток ХД в будущем.


Компонентна адаптивна архітектура


Компонентна адаптивна архітектура Sybase (ImpactNOW) забезпечує найбільш широкі можливості по повторному використанню стандартних компонент, причому всіх основних форматів об’єктів – ActiveX, JavaBeans, CORBA. Крім того, вона дозволяє використовувати їх на будь рівні: клієнта, сервера баз даних, проміжного шару. Це забезпечує швидку розробку додатків, їх високу продуктивність, розширюваність і надійність.


Методологія SAFE / DW


Методологія SAFE / DW пропонує ряд підходів, що дозволяють прискорити процес побудови ХД. Зокрема, в рамках дослідницької стадії проекту вона вимагає визначити бізнес-цілі, інформаційні запити, визначити критичні для успіху фактори, розробити попередню бізнес-модель. В рамках створення бізнес-моделі потрібно ідентифікувати потоки даних, виявити відносну цінність даних, змакетованих потоки даних в логічну структуру об’єктів.


PowerDesigner – сімейство продуктів для проектування корпоративних ВД


PowerDesigner (колишня назва S-Designor) базовий продукт Sybase для проектування корпоративних інформаційних. Різні модулі PowerDesigner, інтегровані між собою і об’єднані системою групової розробки MetaWorks, дозволяють створювати функціональні діаграми потоків даних в нотації різних методологій, створювати концептуальні і фізичні інформаційні моделі, виробляти створення інформаційних моделей на основі вже наявних баз даних (зворотне проектування), створювати додатки для ряду популярних засобів розробки.


PowerDesigner WarehouseArchitect – спеціальний модуль для проектування сховищ даних, що дозволяє проектувати багатовимірні інформаційні моделі, моделі типу “зірка” і підтримує генерацію баз даних як для Sybase IQ, так і для інших СУБД. WarehouseArchitect підтримує всі рівні ХД з точки зору моделювання даних, метаданих та імпорту даних, а також містить інтерфейси для підключення аналітичних інструментів третіх фірм, які є невід’ємною частиною сховищ даних.


Основні можливості WarehouseArchitect:



Багатовимірне моделювання є методом, що допомагає проектувальнику баз даних будувати інформаційні структури, що задовольняють запитам, що висуваються кінцевими користувачами. Мета просторового моделювання полягає в тому, щоб надати сховищ даних і інструментів управління запитами коректне визначення БД, яка сама може бути представлено для предметно-орієнтованого моделювання інформації. Для цього, інформація може бути перевизначена і представлена ​​кінцевим користувачам різними способами, з різних точок зору. WarehouseArchitect дозволяє при багатомірному моделюванні використовувати графічні об’єкти, які можуть утримуватися і управлятися словником PowerDesigner MetaWorks:


Sybase Adaptive Server IQ


Згідно з дослідженнями Meta Group, близько половини всіх запитів користувачів сховищ даних складають незаплановані запити. Коли користувачі ІС отримують результати аналітичного запиту, то у них, у багатьох випадках, виникають додаткові запитання по отриманої інформації.


Sybase Adaptive Server IQ представляє собою спеціалізовану СУБД для DSS. Орієнтований на стандартні багатопроцесорні (SMP) платформи, вона забезпечує підвищення продуктивність при обробці запитів в 10-100 разів, у порівнянні з традиційними реляційними СУБД, стискає розмір бази даних, а також дозволяє істотно скоротити витрати на впровадження і експлуатацію.


Ключовими технологіями в Sybase IQ є вертикальне зберігання даних (по стовпцях, а не за записами) і використання технології обробки запитів Bit-Wise. Вертикальне зберігання даних дозволяє запитам використовувати тільки необхідні поля або стовпці (набори полів), значно скорочуючи кількість операцій введення / виводу при типовому для користувача запиті. Кроком вперед у порівнянні з традиційними алгоритмами індексування, типу B-дерев та індексів побітового відображення (bit-map), є технологія індексування Bit-Wise, яка дозволяє представити всі дані у вигляді особливих бінарних структур, доступ до яких, а також операції групування, підсумовування і порівняння виробляються з високою швидкістю. Набір спеціалізованих алгоритмів індексації дозволяє оптимізувати продуктивність обробки запитів для довільних типів даних з будь-якою потужністю (потужність – показник кількості однакових значень в одній колонці. Чим більше різних значень, то більше потужність стовпця. Прикладом, високопотужних даних є монотонно зростаючий унікальний стовпець ID.


На відміну від алгоритмів побітового відображення даних, які відомі багато років, в Sybase IQ при обробці запиту можуть застосовуватися одночасно кілька індексів. У традиційній реляційної СУБД (навіть з використанням індексів з побітовим відображенням) обробка запиту обмежена рамками одного індексу, після якого зазвичай слід часткове сканування таблиці. В Sybase IQ сканування таблиці виключається. Немає принципової необхідності і у великих таблицях для зберігання агрегованих даних, які часто використовуються в традиційних паралельних або багатовимірних СУБД. Будь-які необхідні агрегати можуть бути отримані в реальному часі. Тому в ВД має сенс зберігати детальні дані, надаючи користувачам великі можливості щодо отримання необхідної їм інформації.


Sybase IQ побудований на базі відкритої архітектури Sybase Open Client / Open Server, тому він є повністю сумісним з широким набором популярних продуктів для аналітичних запитів, таких як Cognos Impromptu, Powerplay, Business Objects, Brio Query і багатьма іншими інструментами через інтерфейси Sybase Open Client або ODBC, підтримуючи стандартний мову запитів SQL.


На відміну від багатьох інших СУБД, Sybase IQ працює з однаковим швидкодією на інформаційних схемах “зірка”, плоских таблицях або на нормалізованих БД, в залежності від того, яка інформаційна модель більш придатна для конкретної галузі діяльності. В силу того, що Sybase IQ забезпечує автоматичну настройку, грунтуючись на характеристиках даних, немає необхідності в складних моделях або постійних настройках таблиць для нових запитів. Це особливо важливо при ітеративному проектуванні та впровадженні. Крім того, існують можливість паралельної завантаження і послідовного поновлення даних. В результаті, ХД або ВД на основі Sybase IQ може бути створена у вельми стислі терміни.


У традиційній РСУБД, індекси та агрегати в значній мірі збільшують розмір сховища даних. Згідно з дослідженнями Sentry Market Research, проведеним в 1996 році, сховища даних на 65% -75% заповнені агрегованими значенням, індексами та іншими додатковими структурами, які суттєво збільшують розмір бази даних у порівнянні з вихідними даними. Так, наприклад, система з 50 Гбайт вихідних даних перетвориться на кілька вітрин даних, кожне з яких з обсягом даних в кілька сотень гігабайт, що спричинить за собою значні додаткові витрати і складнощі в адмініструванні. Розмір стислій бази даних в Sybase IQ буде займати від 50% до 100% від розміру “чистих” даних, що дає значну економію.


У випадках, коли відсутня необхідність в унікальних якостях Sybase IQ, його місце замінює СУБД Sybase Adaptive Server Enterprise, визнана однією з найбільш високопродуктивних в своєму класі. Для настільних і мобільних ВД можна навіть використовувати “портативну” СУБД Sybase Adaptive Server Anywhere, яка може бути інстальована навіть на кишеньковому ПК типу Palm Pilot.


Сімейство продуктів EnterpriseCONNECT


Будь корпоративна інформаційна система вимагає підтримки ВД в актуальному стані. Для деяких додатків досить щомісячних оновлень даних, для інших потрібно щоденні поновлення, або поновлення за подією. Принциповим моментом тут є забезпечення цілісності оновлень. Крім того, важливо забезпечити можливість використання стандартних програм для “очистки” і необхідних перетворень даних між різними вітринами даних. Таким чином, необхідна архітектура переміщення даних, яка б дозволяла переміщати великий обсяг даних з дотриманням транзакційної цілісність, забезпечуючи при цьому надійний стійку роботу розподіленої системи, а також даючи можливість організувати доступ до різних джерел даних в рамках однієї вітрини даних або всього корпоративного сховища даних.


Сімейство програмних продуктів EnterpriseCONNECT є одним з найбільш відомих наборів технологій для управління рухом даних в розподілених і різнорідних середовищах.


Першим кроком в технології ХД є забезпечення доступу до оперативних і архівних даних. За допомогою сервера Sybase OmniCONNECT і набору модулів доступу для нього забезпечується одночасний доступ і витяг даних з 25 різних джерел, включаючи DB2, IMS, VSAM, Teradata і AS/400. Цікавою особливістю тут є те, що для користувача вся робота відбувається в єдиній логічній БД.


Після вилучення оперативних даних, вони повинні бути доставлені в конкретні ВД. В рамках технології ХД цей процес називається “захоплення змінених даних”. Сімейство програмних продуктів Sybase Replication Server дозволяє організувати переміщення даних як з архівних систем на мейнфреймах, так і з систем в архітектурі клієнт / сервер в ВД. Важливо зазначити, що при цьому підтримується тиражування даних з різнорідних джерел, таких як DB2, IMS, IDMS, Oracle, Sybase і Lotus Notes. Використовуючи відкритий інтерфейс до Replication Server, існує можливість підтримки реплікації з довільних джерел даних. Застосування технології SQL Remote, що забезпечує тиражування даних по електронній пошті, дозволяє організувати обмін даними на рівні всього підприємства, починаючи з мейнфреймів і закінчуючи ПК-блокнотами. В основі технології тиражування даних Sybase лежить ідея читання завершених транзакцій з журналу транзакцій, що дозволяє мінімізувати навантаження на працюючу систему. Після цього транзакції потрапляють в Replication Server, який може знаходитися на окремій машині і працювати під відмінною від СУБД-джерела операційною системою. У разі якщо лінія зв’язку недоступна, транзакції зберігаються в черзі. При появі зв’язку, тиражування автоматично відновлюється, причому гарантується цілісна доставка транзакцій в сховище або вітрину даних, при цьому тиражування даних проводиться асинхронно. Replication Server підтримує як інкрементального тиражування даних, так і тиражування даних по події. Таким чином, при необхідності, можна організувати безперервне передачу завершених транзакцій з оперативної бази даних в сховищі даних.


У багатьох випадках корисно мати кілька вітрин даних з однаковими схемами баз даних, що вимагає симетричного тиражування даних. Однак в інших випадках вітрини даних будуть обмінюватися елементами даних, що відрізняються за структурою.


Replication Server підтримує модель “підписки” на дані. Після того, як Replication Server отримав дані, на які він підписаний, існує можливість програмування довільної логіки для модифікації і перетворення цих даних. Тому схема бази даних – приймача може бути повністю ідентична базі даних – джерела, може злегка відрізнятися, або може бути зовсім інший.


Крім того, існує можливість маршрутизації потоків транзакцій між кількома Replication Server. Велике число ХД і ВД використовує власні програми перетворення даних. В інших системах використовуються програмні продукти Carleton, Prism, Informatica або інших постачальників. Replication Server дозволяє підключати довільні програм перетворення даних, забезпечуючи тим самим закінчене рішення для переміщення і “очищення” даних. В рамках партнерської програми Sybase Warehouse WORKS, в якій беруть участь понад 70 компаній, Sybase розширює рамки своєї технології продуктами третіх фірм для перетворення, отримання, проектування та управління даними в сховищах даних. Зокрема, програмні інструменти Carleton PASSPORT дозволяють автоматизувати процес проектування, перетворення і отримання даних з мейнфремов. На виході виходить файл, готова для завантаження в Sybase IQ. Набір програмних продуктів Informatica PowerMart, побудовані в архітектурі клієнт / сервер, дозволяють проектувати, перетворювати і оновлювати дані з реляційних СУБД. Технологія PowerMart може бути інтегрована безпосередньо в Replication Server, використовуючи при цьому динамічне перетворення даних.


Крім того, збір даних можливий і більш простими способами: через ODBC-інтерфейс, шляхом вилучення їх з текстових файлів і деяких структурованих файлів (наприклад, файлів формату dBASE).


PowerStage – інструмент завантаження даних в ХД


В процесі завантаження даних в ХД вирішуються три взаємопов’язані завдання: збір даних, їх очищення, агрегування. Збір даних полягає в організації передачі даних із зовнішніх джерел у ХД. Очищення даних – Це процес модифікації даних по ходу заповнення ХД, який складається з наступних послідовних етапів:



Компанія Sybase пропонує свій продукт PowerStage (розроблений на базі ПО DataStage компанії VMARK), що спрощує вилучення, очищення, трансформацію та агрегування даних. Він спеціально оптимізовано для роботи з Sybase IQ.


Dynamic OLAP – нова архітектура для DSS


Dynamic OLAP – це нова архітектура для DSS, запропонована Sybase Inc. Вона базується на контролі з боку кінцевого користувача процесів побудови та поділу аналітичних моделей в масштабованої середовищі ХД. Dynamic OLAP об’єднує гнучкість і простоту “табличного” походу з масштабованістю РСУБД. На відміну від традиційного підходу OLAP, що вимагає кількох місяців для реалізації, Dynamic OLAP забезпечує побудова складних аналітичних систем в лічені дні. Для реалізації Dynamic OLAP компанія Sybase пропонує PowerDimensions, просторову середу бізнес-моделювання. Остання містить розвинені аналітичні функції: фінансового, статистичного, логічного аналізу, розрахунку часових рядів та інші математичні відносини, які є невід’ємними атрибутами при побудові аналітичної моделі.


PowerDimensions – це фактично аналітичний підхід, народжений з катастрофічного скорочення часу, відпущеного на прийняття рішення. Єдино можливий вихід – дати аналітикам контроль над процесом моделювання. Поєднання такого контролю з боку аналітика з контролем інформаційного підрозділу за ХД, заснованим на інших технологічних рішеннях Sybase, забезпечує збереження цілісності інформації, але не за рахунок продуктивності кінцевого користувача. Сервер PowerDimensions може легко інтегрується в існуючу інфраструктуру і показує в поєднанні з Sybase IQ рекордну в галузі продуктивність.


Таблиця 1. Матриця технологій Sybase для створення ХД та ВД




























Категорія Технологія Sybase
Проектування, розробка  PowerDesigner – інтегрований набір засобів проектування; 
Збір даних  Сімейство програмних технологій Sybase EnterpriseCONNECT, в тому числі Replication Server, Replication Agents, OmniCONNECT; 
Завантаження даних в сховищі   PowerStage – Автоматизація вибірки, очищення, трансформації даних з різнорідних оперативних БД;
Adaptive Server Enterprise – СУБД масштабу підприємства;
Adaptive Server Anywhere – CУБД масштабу департаменту
 
Вітрини даних   Adaptive Server IQ – Оптимізована СУБД для сховищ і вітрин даних;
Аналіз даних, побудова моделі бізнесу   PowerDimensions – Просторова середу моделювання моделі бізнесу;
Адміністрування, управління мета даними   Warehouse Control Center, Carleton Passport, Informatica PowerMart, Intellidex MetaCenter, Prism Warehouse Manager та інші;  
Методологія   SAFE/DW, Навчальні курси за технологіями сховищ даних і вітрин даних;

Швидке створення ХД для Windows NT


Не варто думати, що ХД можна побудувати тільки на дорогої Unix-платформі. Для спрощеного старту проекту Sybase розробила інтегрований пакет програм QuickStart DataMart for Windows NT, заснований на Sybase IQ 11.5. QuickStart DataMart містить всі програмні компоненти, необхідні для побудови закінчених вітрин даних, включаючи засоби проектування, трансформації та переміщення даних, БД, інструменти аналізу і адміністрування. Версія QuickStart DataMart для Windows NT містить PowerStage, що спрощує вилучення, очищення і трансформацію даних саме в середовищі Windows NT. За оцінками Sybase, за допомогою нього можна розробити ХД протягом всього трьох місяців.


Пакет QuickStart ReportMart for Windows NT, призначений для побудови вітрин даних, що містять дані працюючих систем OLTP, для побудови складних аналітичних запитів і звітів. Він містить Sybase IQ 11.5, а також Replication Agent і Replication Server.


Впровадження ВД в корпорації MCI


До теперішнього часу ХД і ВД на базі технологій Sybase впроваджені в десятках організацій: MCI, Chase Manhattan, American Airlines, AT & T Wireless Services і ін


В якості досить наочний приклад можна розглянути реалізації архітектури ВД Sybase в американській телекомунікаційній корпорації MCI, клієнти якої щодня генерують мільйони транзакцій. Завдання полягала в тому, щоб використовувати цю інформацію за допомогою численних прикладних систем для створення нових послуг, аналізу цінової політики, стратегічного і тактичного планування та телемаркетингові служби, орієнтуючись при цьому на різні групи користувачів (наприклад, фізичні обличчя, невеликі компанії або великі корпорації).


В ідеалі, для вирішення такого завдання підходить централізоване сховище даних. Однак, в реальності, в умовах, коли різні підрозділи компанії швидко створюють і розвивають власні програми, така система була б неефективною. На сьогоднішній день в MCI працює як мінімум три самостійних ВД, обсяг однієї з яких понад 100 гігабайт. Ними керує Sybase SQL Server 11 (це стара назва СУБД Adaptive Server Enterprise) в поєднанні з Sybase IQ на платформі SPARCsever 2000 при цьому вихідні дані зберігаються на мейнфрейми. В даний час ці ВД активно використовуються в службі телемаркетингу, відділі планування та підрозділі обслуговування клієнтів. Після їх впровадження термін виконання аналітичних процесів скоротився з кількох тижнів до кількох годин.


Крім того, в MCI існує проект створення великого централізованого ХД для обробки транзакцій, яке буде використовуватися, в тому числі й для забезпечення “загальної” інформацією ВД. З причини того, що кожна ВД має різний набір завдань і вимог, вона спроектована індивідуально і використовує власні зовнішні джерела даних. Ці ВД були впроваджені значно швидше і обійшлися набагато дешевше, ніж створення централізованого ХД.


В Росії можливість впровадження ХД на базі Sybase IQ розглядає Транспортна Клірингова Палата, що виконує функції координації і проведення розрахунків за авіаперевезення (в її роботі беруть участь більше 200 перевізників з СНД). Основне завдання цього проекту – прогноз, виявлення тенденцій та вироблення рекомендацій щодо поліпшення обслуговування пасажирів.

Схожі статті:


Сподобалася стаття? Ви можете залишити відгук або підписатися на RSS , щоб автоматично отримувати інформацію про нові статтях.

Коментарів поки що немає.

Ваш отзыв

Поділ на параграфи відбувається автоматично, адреса електронної пошти ніколи не буде опублікований, допустимий HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

*

*