Засоби Data Mining у Microsoft SQL Server 2000

Термін Data Mining, що перекладається зазвичай як вилучення даних, або інтелектуальний аналіз, останнім часом зустрічається часто. Це пов'язано в першу чергу із зростаючим інтересом до даної теми з боку підприємств малого і середнього бізнесу, а не лише вузького кола фахівців, як це було кілька років тому.

За час своєї роботи більшість підприємств встигли накопичити великі обсяги даних і тепер прагнуть отримати з цих даних зберігаються там "приховані знання". До числа таких знань можна віднести відповіді на питання, які зазвичай ставлять менеджери й аналітики: "Які товари найчастіше продаються разом?", "Наскільки виростуть продажу при зниженні ціни на n відсотків?" і т. п. Відповіді на ці питання і покликані дати програми Data Mining.

Проте в реаліях російського ринку підприємство часто не має можливості придбати окремий додаток цього типу. По-перше, ціни на такі додатки "кусаються" – вони можуть доходити до декількох тисяч доларів, в залежності від класу програми та його функціональних можливостей. По-друге, потрібно також витратити кошти на навчання персоналу роботі з новим інструментом. Все це в поєднанні з природним недовірою до нових розробок відлякує потенційних клієнтів Data Mining. Зрозуміло, багато хто волів би використовувати один додаток, який поєднувало б всі функції, пов'язані зі зберіганням, обробкою і видобутком даних (навіщо платити за три засоби, коли можна використовувати одне?). Що ж, вихід є. Таким універсальним засобом є добре знайомий більшості підприємств пакет Microsoft SQL Server.

СУБД Microsoft SQL Server (а точніше, що входить до її складу інструментарій Analysis Services) обзавелася власними засобами видобутку даних тільки в 2000 р., в рамках реалізованої корпорацією Microsoft стратегії BIA (Business Internet Analysis – аналітика електронної комерції), мета якої – надання компаніям, що займаються електронною комерцією, можливості збору і аналізу даних про поведінку клієнтів інтерактивних магазинів. Зрозуміло, що настільки вузька спеціалізація різко обмежує функціональність і області застосування засобів SQL Server як засобу добування даних. Тим не менш, як ми переконаємося пізніше, можливостей пакету цілком достатньо для рядового підприємства дрібного чи середнього бізнесу. Але про все по порядку.

З можливостей, що надаються SQL Server 2000, перш за все перерахуємо наступні:

Процес побудови моделі реалізований в Analysis Services у вигляді майстра, що дозволяє крок за кроком задати параметри моделі і виконати її обробку, що, на думку розробників, спрощує проведення аналізу.

Вибір джерела даних

Перший крок у побудові моделі – вибір джерела даних для аналізу. Підтримуються два типи джерел даних: багатовимірні, використовувані в рамках технології OLAP (правда, поки як OLAP-джерела можна використовувати тільки сам модуль Analysis Services), і більш звичні – реляційні. Наявність першого варіанту дає набагато більшу свободу вибору для аналізу, адже далеко не кожне підприємство має власне багатовимірне сховище даних.

Після вибору джерела можна приступати безпосередньо до формування структури моделі. Для цього потрібно визначити таблицю (або вимір, у разі багатовимірного джерела), що містить аналізовані дані, а також вибрати одне з полів таблиці (або показник багатомірного куба), яка буде знаходитися в фокусі дослідження. Наприклад, якщо вам потрібно оцінити ризик кредиту для певних клієнтів банку, то величину цього ризику можна вибрати в якості предмета дослідження. Вихідними даними для дослідження в такому випадку можуть виступати дані про клієнта – вік, річний дохід, наявність автомобіля, місце проживання і т. п. Власне кажучи, вибір вихідних даних і предмета аналізу – процес творчий, так що якщо не вдалося одержати необхідні оцінки відразу, то спробуйте змінити структуру моделі, ввівши в неї додаткові атрибути. Можливо, це дозволить оцінити ситуацію з іншої точки зору.

Вибір алгоритму аналізу

Наступний важливий крок – вибір одного з двох алгоритмів аналізу даних. Як вже говорилося вище, Analysis Services підтримує два алгоритми – Microsoft Decision Trees і Microsoft Clustering. Оскільки області застосування та результати роботи кожного з них можуть сильно відрізнятися, на цьому кроці має сенс зупинитися докладніше.

Алгоритм Microsoft Decision Trees заснований на відомому методі побудови дерев рішень. У його рамках значення кожного з досліджуваних атрибутів класифікується на основі значень інших атрибутів, з використанням правил виду "якщо – То ". Результат роботи такого алгоритму – деревоподібна структура, кожен вузол якої представляє собою якесь питання. Щоб вирішити, до якого класу віднести деякий об'єкт або ситуацію, потрібно відповісти на питання, що стоять у вузлах цього дерева, починаючи з його кореня (найбільш близький аналог такої структури – дерево видів у біології). Головна перевага цього алгоритму – наочність і простота використання. Однак область застосування "деревного" методу обмежена в основному завданнями класифікації (такими, як наведений вище приклад з кредитними ризиками).

Другий алгоритм, Microsoft Clustering, Використовує інший, не менш відомий метод пошуку логічних закономірностей – метод "найближчого сусіда". У процесі роботи алгоритму вихідні дані об'єднуються в групи (кластери) на основі аналогічних або схожих значень атрибутів. Отримані набори даних аналізуються, що дозволяє виявити приховані закономірності або побудувати імовірнісний прогноз. Даний алгоритм дозволяє провести більш глибокий аналіз даних, ніж дерево рішень, але і він має свої обмеження. Його переважно застосовувати для наборів даних зі схожими атрибутами, значення яких належать певному інтервалу (наприклад, вік, річний дохід і т. п.). Однак у випадку нетипових, що випадають із загального ряду значень атрибутів алгоритм може давати невірну оцінку.

Вибір правильного алгоритму залежить від класу завдання, яку потрібно вирішити, а також від складу вихідних даних. Завдання класифікації неоднорідних даних краще вирішувати за допомогою алгоритму дерев рішень, а завдання прогнозування чи виявлення неявних закономірностей – за допомогою методу кластеризації. Який би алгоритм ви не вибрали, на цьому побудова моделі закінчено, і можна переходити до наступного процесу – Тренуванні моделі.

Тренування побудованої моделі – це не що інше, як процес обробки вихідних даних відповідно до обраного алгоритму. Цей процес може зайняти тривалий час, особливо при великих обсягах даних. Після закінчення тренування вихідні дані більше вам не знадобляться. У результаті тренування модель буде заповнена статистичними даними, які можуть бути представлені як у графічному, так і в цифровому вигляді.

Відображення результатів

Для відображення результатів аналізу використовуються вбудовані засоби Analysis Services. При цьому варіанти відображення різні для кожного з алгоритмів. Як приклад нижче наведено результати роботи алгоритму Microsoft Decision Trees.

Схема на рис. 2 показує всі гілки побудованого дерева рішень. Більш темним кольором виділені гілки, відповідні найбільшої ймовірності (числом попадань), а більш світлим – найменшою. У даному прикладі гілок у дерева небагато, проте в деяких випадках їх число може досягати декількох сотень. Виділена частина дерева відображається в режимі детального перегляду (рис. 3).

Будь-яку частину дерева рішень можна виділити для детального перегляду, але при цьому не можна переглядати більше двох рівнів одночасно. На збільшеної частини дерева можна бачити значення, дані кожному з вузлів у процесі роботи алгоритму. Як і в режимі перегляду всього дерева цілком, колір вузла тут сигналізує про кількість влучень вихідних даних у цю гілку. Вибір певного вузла дерева дозволяє переглянути статистичну інформацію про даний вузол в числовому вигляді. Ця інформація включає в себе значення вузла дерева, кількість значень вихідних даних, що потрапили в дану гілку, і ймовірність попадання (Рис. 4).

Отже, ми бачимо, що засоби вилучення даних в SQL Server 2000 Analysis Services надають досить багатий набір функціональних можливостей для аналітиків та менеджерів підприємств. До того ж даний інструментарій відрізняється простотою у використанні і невисокою ціною, і, думається, він зможе знайти своїх користувачів в середовищі російських компаній.


Схожі статті:


Сподобалася стаття? Ви можете залишити відгук або підписатися на RSS , щоб автоматично отримувати інформацію про нові статтях.

Коментарів поки що немає.

Ваш отзыв

Поділ на параграфи відбувається автоматично, адреса електронної пошти ніколи не буде опублікований, допустимий HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

*

*