SQL Server 2005 приростає бізнес-аналітикою

До початку нинішнього сторіччя ПЗ корпорації Microsoft на ринку бізнес-аналітики (Business Intelligence, BI) в основному було представлено клієнтськими офісними додатками, в першу чергу електронними таблицями Excel. Правда, в кінці 1990-х рр.. компанія вирішила створити спеціалізований OLAP-клієнт – Data Analyzer, але далі першої версії він, здається, розвитку не отримав, і акцент потім був зроблений на тому ж Excel. В останні три-чотири роки кількість клієнтських BI-додатків поповнилося програмами MapPoint (геоінформаційна система) і Visio (візуалізація структурованих даних).

Однак з випуском на зламі століть нової версії MS SQL Server 2000 компанія Microsoft приступила до формування на базі цієї СУБД власних серверних BI-технологій корпоративного рівня. BI-комплекс поповнювався поетапно, за чотири роки після випуску самої СУБД в його складі з'явилися також служби Analysis Services (служби OLAP для створення попередньо побудованих кубів для швидкого інтерактивного аналізу), Data Transformation Services (інструменти для вилучення, перетворення і завантаження даних між операційними системами і системами бізнес-аналізу), Accelerator for BI (система швидкої розробки для побудови та розширення аналітичних додатків) і Reporting Services (управління звітами).

У листопаді минулого року корпорація випустила MS SQL Server 2005, у якому комплекс BI-засобів називається одним з трьох ключових нововведень цієї системи (поряд з розвитком власне ядра СУБД і засобів розробки). Саме в цьому продукті серверна платформа бізнес-аналітики Microsoft ухвалила в общем-то закінчений вигляд комплексного вирішення масштабу підприємства.

Інтегрована платформа управління даними


SQL Server 2005 являє собою високопродуктивну масштабовану багатофункціональну платформу, яка побудована навколо ядра, що забезпечує роботу реляційної бази даних, і включає велику кількість сервісів. У цілому система тісно інтегрована з усім комплексом ПЗ Microsoft (рис. 1), а сама СУБД і ряд її сервісів, у свою чергу, є ключовими компонентами, що забезпечують роботу багатьох продуктів Microsoft.

Рис. 1. Платформа управління даними SQL Server 2005

SQL Server 2005 містить наступні основні компоненти:


Засоби бізнес-аналітики


Комплекс засобів інтелектуальної обробки даних – Integration Services, Analysis Services OLAP, Analysis Services Data Mining і Reporting Services, що міститься в SQL Server 2005, – значно змінений і покращений в порівнянні з версією 2000. Крім того, в SQL Server 2005 додані два нових компоненти: SQL Server Management Studio і SQL Server Business Intelligence Development Studio, які на ранніх етапах бета-тестування були відомі під назвами SQL Server Workbench і BI Workbench.

Для рішення BI-завдань в SQL Server 2000 використовувалося кілька автономних інструментів, що мали несхожі інтерфейси і не повністю відповідають сучасним стандартам розробки ПЗ. Тому у версії 2005 вони замінені на два нові інструменти, побудованим на базі інтегрованого середовища Visual Studio 2005 IDE.

Пакету BI Development Studio (мал. 2) відводиться основна роль у створенні BI-рішень, він повністю реалізує функціональність Analysis Manager 2000, додаючи до неї можливості завантаження та перетворення інформації, управління звітами і здобування знань. У його середовищі можна створювати й інші проекти Visual Studio (з використанням Visual C #, Visual Basic NET і т. д.), що дозволить розробникам створювати дійсно наскрізні програми.

Рис. 2. Управління аналітичними службами в середовищі SQL Server 2005 Business Intelligence Development Studio

Візуальний інструмент управління базами даних SQL Server Management Studio поєднав функціональність Enterprise Manager, Query Analyzer, Analysis Manager і деяких засобів адміністрування, що були у версії 2000, додавши нові можливості Reporting Services, Notification Services, XML і SQL Server 2005 Mobile Edition. Підвищення продуктивності, масштабованості та доступності досягається за допомогою таких нових технологій, як Snapshot Isolation, Database Mirroring, Database Snapshots, Service Broker. Для зберігання конфіденційної інформації застосовуються засоби шифрування баз даних.

Загалом-то всі основні компоненти BI-платформи Microsoft в тому чи іншому вигляді з'явилися ще в складі SQL Server 2000. Хронологічно самим останнім з них став набір служб управління звітами – це сталося на початку 2004 р. (опис версії 2000 см. в PC Week / RE, № 7 / 2004, с. 35). Фактично вже тоді він створювався з прицілом на версію SQL Server 2005 і тому в новому варіанті в цілому зазнав найменші зміни, в основному стосуються більш високої інтеграції з іншими BI-службами, розширення можливостей користувачів і підвищення інтерактивності. Крім того, потрібно підкреслити, що Reporting Services мають більш високий рівень автономності в порівнянні з іншими компонентами СУБД: ці служби можуть працювати з даними з різних джерел, включаючи інтерфейси ODBC і OLE DB, і таким чином бути сумісними практично з будь-який ІТ-архітектурою, а також бесшовно вбудовуватися в додатки. Саме тому MS SQL Server Reporting Services часто поширюється і застосовується як окремий продукт.

Власне аналітичні сервіси SQL Server 2005 представлені двома основними доповнюють один одного функціональними частинами – On-Line Analytical Processing (OLAP) і Data Mining. Основні нововведення OLAP-сервісів ми вже розглядали на прикладі бета-версії продукту (див. PC Week / RE, № 30/2004, с. 22). Тому тепер більш докладно розповімо тільки про двох інших BI-компонентах СУБД.

Сервіси інтеграції


Integration Services хоча і є наступником DTS (Data Transformation Services) в SQL Server 2000, все ж цілком можуть вважатися нововведенням в SQL Server 2005. Integration Services були повністю перероблені в порівнянні з DTS, щоб стати реальною ETL-платформою підприємства (Extract, Transformation, and Loading – вилучення, перетворення і завантаження даних).

Архітектура Integration Services поєднує в собі як орієнтований на операції механізм потоку задач (task-flow), так і масштабований і продуктивний механізм потоку даних (data-flow). Таке поєднання потоків завдань і потоків даних дозволяє ефективно використовувати Integration Services в проектах з традиційними системами ETL і в проектах зі створення сховищ даних, а також в більш складних проектах, наприклад з впровадження центрів даних.

Ядром Integration Services є конвеєр перетворення даних, що використовує буферну архітектуру, яка забезпечує високу продуктивність при маніпуляції наборами даних шляхом завантаження їх у пам'ять. Такий підхід дозволяє всі кроки перетворення даних у ETL-системах робити як одну операцію, тобто без проміжних результатів. У цьому полягає істотна відмінність Integration Services від традиційних засобів ETL, які дуже часто створюють проміжні результати майже на кожному кроці процесу заповнення сховища або інтеграції даних.

У Integration Services всі типи даних (структуровані, неструктуровані, XML і т. д.) наводяться до табличного (тобто складається із стовпців і рядків) виду безпосередньо шляхом завантаження в буфери. При цьому операції, застосовні до табличного поданням інформації, можуть бути задіяні на будь-якому кроці конвеєра обробки даних.

У цілому така архітектура дозволяє використовувати Integration Services у багатьох проектах з інтеграції даних, починаючи від традиційних ETL-систем для сховищ даних і закінчуючи нетрадиційними технологіями інтеграції інформації, і при цьому забезпечувати можливість роботи не тільки з великими наборами даних, але і зі складними їх потоками. Служби інтеграції можуть витягувати (а також вивантажувати) дані з різних джерел, включаючи OLE DB, керовані джерела (ADO.NET), ODBC, плоскі файли, Excel і XML, за допомогою спеціального набору компонентів, які називаються адаптерами (adapters).

Крім цих основних перетворень для сховищ даних є підтримка таких розширених сховищ, як Slowly Changing Dimensions (SCD – рідко обновлювані розмірності). Майстер SCD допоможе користувачам визначити, які вимірювання є рідко оновлюваними, і на основі цієї інформації створить повністю готовий до використання потік даних з декількома перетвореннями, що реалізують завантаження повільно змінюються вимірювань.

Однією з ключових особливостей Integration Services є їх здатність інтегрувати не тільки дані, але і методи обробки цих даних. Такий підхід дозволяє включити в нього кошти очищення інформації, засновані на методах нечіткої логіки (fuzzy logic). У поєднанні з технологією Data Mining у процесі передачі інформації можна виявити аномальні дані, а також автоматично виправити їх і замінити на кращі значення.

Видобуток даних


SQL Server 2005 Data Mining представляють собою технологію інтелектуальної обробки даних, яка допомагає створювати складні аналітичні моделі та інтегрувати їх у бізнес-процеси (див. таблицю). Вони поставляються з найпопулярнішими алгоритмами видобутку даних, склад яких може бути розширений за рахунок вбудовування алгоритмів незалежних розробників.

Рис. 3. Основні завдання бізнесу, які вирішуються методами видобутку даних

Дерева прийняття рішень (Decision Trees) часто є початковою точкою дослідження даних. Цей алгоритм класифікації добре працює для прогнозування і дискретних, і безперервних атрибутів. Коли алгоритм будує модель, він враховує, як кожен вхідний атрибут у наборі даних впливає на результат прогнозованого атрибута.

Алгоритм Naïve Bayes швидко будує моделі видобутку даних, які можуть використовуватися для класифікації та прогнозування. Він розраховує ймовірність, з якою кожне можливе стан вхідного атрибуту призводить до кожного Станом прогнозованого атрибута. Алгоритм підтримує тільки дискретні атрибути і вважає, що всі вхідні атрибути впливають на прогнозований атрибут незалежно один від одного.

Кластеризація (Clustering) використовує ітеративний процес для угруповання рядків з набору даних в кластери, які містять рядки з однаковими характеристиками. Метод застосовується для пошуку взаємозв'язків і виконання прогнозів.

Пошук асоціацій (Association) заснований на алгоритмі a priori і забезпечує ефективний метод знаходження кореляцій у великих наборах даних. Алгоритм, наприклад, дозволяє рухатися в циклі по транзакціях в базі даних для пошуку товарів, які з найбільшою ймовірністю з'являться разом у транзакціями одного покупця. Він в основному використовується для аналізу набору товарів, що придбаваються (market basket analysis).

Послідовна кластеризація (Sequence Clustering) поєднує аналіз послідовності операцій з кластеризацією для дослідження даних і прогнозування. У такій моделі чутлива до послідовності виникнення подій. Алгоритм може застосовуватися для аналізу маршруту переміщення користувача по сторінках при аналізі трафіку Web-сайту, а також для визначення того, які сторінки сайту більше за все пов'язані з продажем будь-якого товару та які наступні сторінки сайту будуть відвідані (прогноз).

Тимчасові ряди (Time Series) створюють моделі, які можуть використовуватися для прогнозування однієї або декількох постійно змінюються змінних, наприклад ціни акції. Алгоритм прогнозування грунтується виключно на трендах, отриманих з навчальних даних при створенні моделі. Він використовує методику AutoRegression Trees, дуже простий у застосуванні і генерує моделі з високою точністю прогнозування.

Нейронна мережа (Neural Net), Як і алгоритми дерев прийняття рішень і Naïve Bayes, в основному використовується для дослідження даних, класифікації та прогнозування. Це методика штучного інтелекту, яка досліджує всі можливі взаємозв'язки між даними. Оскільки цей алгоритм досліджує дані ретельніше інших, він є самим повільним з трьох алгоритмів класифікації.

Що чекає попереду


Використовуючи SQL Server 2005 в якості серверної BI-платформи, Microsoft має намір істотно підвищити і роль у цьому напрямку своїх офісних продуктів, на які покладається в основному завдання доставки необхідної бізнес-інформації до конкретних робочих місць. Саме ці функції будуть предметом розвитку нової версії MS Office 12, вона повинна з'явитися на ринку до кінця поточного року. Ключова ж роль у справі інтеграції клієнтських робочих місць з SQL Server 2005 відводиться Excel і SharePoint.

У Excel 12 будуть посилені засоби взаємодії між електронними таблицями та зовнішніми джерелами даних, а також покращувані можливості деталізованого аналізу вихідних даних: модернізовані засоби сортування та фільтрації інформації, включено розширений склад методів візуалізації даних, реалізовані більш широкі можливості узагальненого аналізу за допомогою засобів PivotTables і PivotCharts. Найбільш цікавим нововведенням має стати створення серверного варіанту функціоналу Excel під назвою Excel Services, доступ до якого може бути отриманий через Web-браузер.

На продукти і технології SharePoint покладаються функції реалізації порталу для доступу до всіх BI-даними, у тому числі службам SQL Server Reporting Services і Excel Services. Нове покоління SharePoint буде будуватися на більш широкому застосуванні персональної настройки призначеного для користувача інтерфейсу за допомогою технології DashBoards (приладова панель управління) без необхідності написання коду.

Але Office 12 – це ще тільки плани. А ось більш конкретним кроком у напрямку розвитку бізнес-засобів є випуск минулої осені нового серверного рішення в складі офісного сімейства – Microsoft Office Business Scorecard Manager (MOBSM) 2005 (рис. 4).

Рис. 4. Business Scorecard Manager 2005 поповнив арсенал засобів бізнес-аналізу Microsoft

Цей продукт дозволяє особам, які приймають рішення, краще оцінювати ефективність роботи своїх інформаційних та ділових систем з точки зору загального бізнесу компанії, використовуючи методи таблиці кадрів (scorecards, отримання послідовних "знімків" стану системи) та аналізу ключових параметрів продуктивності (KPI, key performance indicators).

Додаткова інформація



Схожі статті:


Сподобалася стаття? Ви можете залишити відгук або підписатися на RSS , щоб автоматично отримувати інформацію про нові статтях.

Коментарів поки що немає.

Ваш отзыв

Поділ на параграфи відбувається автоматично, адреса електронної пошти ніколи не буде опублікований, допустимий HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

*

*