Редагування Data Mining моделей, Комерція, Різне, статті

Data Mining – Сучасна технологія аналізу інформації з метою знаходження в накопичених даних раніше невідомих, нетривіальних і практично корисних знань, необхідних для прийняття оптимальних рішень в різних областях людської діяльності.


Microsoft SQL Server 2005 надає інтегровану середу для створення моделей Data Mining і роботи з ними. В курсі описані чотири сценарії (адресна розсилка, прогнозування, аналіз купівельної корзини та аналіз послідовності покупок) для демонстрації методів використання алгоритмів Data Mining, а також супутнього інструментарію, що входить до складу SQL Server Analysis Services 2005.


Засоби аналізу даних OLAP і Data Mining об’єднані у дві середовища розробки: Business Intelligence Development Studio і SQL Server Management Studio. У Business Intelligence Development Studio можна створювати від’єднані від сервера проекти. В цьому випадку готовий проект можна завантажити на сервер, але ніщо не заважає працювати з проектом, що працюють з сервером безпосередньо.


Всі засоби для керування моделями Data Mining доступні в редакторі моделей. З його допомогою можна створювати, переглядати, порівнювати різні моделі, а також створювати на їх базі прогнози.


Після створення моделі можна провести її аналіз на предмет виявлення цікавих для нас шаблонів (патернів) і правил. В залежності від застосовуваного алгоритму в середовищі розробки використовується різні уявлення переглядається моделі.


Оскільки часто проект містить декілька моделей Data Mining, попередньо створених на основі наших припущень, то виникає завдання визначення найбільш адекватної з них. Для вирішення цього завдання в редакторі присутня засіб порівняння моделей Mining Accuracy Chart. З використанням цього інструменту можна передбачити точність моделі і вибрати кращу з них.


Для створення прогнозів використовується мова Data Mining Extensions (DMX), Який є розширенням SQL і містить команди для створення, зміни та здійснення прогнозів на підставі різних моделей. Створення таких прогнозів може бути складним завданням, тому в редакторі присутній інструмент під назвою Prediction Query Builder, яких представляє собою візуальний засіб створення DMX-запитів.


Крім інструментарію для роботи з моделями, не менш значимими є і способи створення моделей. Ключовим моментом створення моделі є вибір алгоритму виявлення даних. SQL Server 2005 Analysis Services включає в себе наступні дев’ять алгоритмів:



Використовуючи комбінацію цих алгоритмів можна створювати рішення для більшої частини зустрічаються завдань з виявлення прихованих закономірностей у великих обсягах даних.


Найбільш важливі кроки створення моделі Data Mining складаються в отриманні, об’єднанні, очищення та передобробці даних для подальшого використання алгоритмом. До складу SQL Server 2005 входять засоби перетворення даних – SQL Server Integration Services (SSIS), які дозволяють об’єднувати, очищати, перевіряти і проводити попередню обробку даних.


Для демонстрації можливостей SQL Server ми будемо використовувати демо-проект AdventureWorksDW. Ця база включена в поставку SQL Server 2005 і спроектована належним чином для роботи з OLAP і моделями Data Mining. Щоб ця база була доступна слід вибрати опцію установки цього проекту під час інсталяції SQL Server.

Проект AdventureWorksDW описує роботу виробника велосипедів – компанії “Adventure Works Cycles”. Компанія займається виробництвом і реалізацією велосипедів з металевих і композиційних матеріалів на території Північної Америки, Європи та Азії. Головне виробництво, яке має в своєму розпорядженні 500 співробітниками, знаходиться в місті Bothell, штат Вашингтон. Кілька регіональних офісів знаходяться безпосередньо на території ринків збуту.


Компанія реалізує продукцію оптом для спеціалізованих магазинів і в роздріб через інтернет. Для вирішення демонстраційних завдань ми будемо використовувати в базі AdventureWorksDW дані про інтернет продажах, оскільки вони містять дані, добре підходять для аналізу.


База даних


У базі інтернет продажів містяться відомості про 9242 клієнтів, які живуть в 6 країнах, що відносяться до трьох регіонах:


  • Серверна Америка (83%)
  • Європа (12%)
  • Австралія (7%)

    Дані відносяться до періоду з 2002 по 2004 роки. Вся продукція класифікована за категоріями, моделям і товарам.


    Середа розробки – Business Intelligence Development Studio


    Середа розробки “Business Intelligence Development Studio” представляє собою інтегроване середовище розробки для створення проектів аналізу даних (business intelligence) і включає в себе безліч інструментів. Вона дозволяє працювати з моделями в відключеному від сервера режимі, а потім розгортати оновлений проект на сервері.


    Можна відзначити наступні переваги роботи в єдиному середовищі:



    • Середа є потужним засобом управління проектами
    • Ви можете об’єднувати декілька проектів в одне рішення (solution) і використовувати для них загальне уявлення.
    • Повна інтеграція з системою зберігання вихідного коду дозволяє зручно організовувати спільну роботу над проектом.

    Проект Analysis Services є центральним у вирішенні business intelligence. Проект включає в себе моделі Data Mining і куби OLAP, а також допоміжні об’єкти наповнення аналітичної бази даних. З студії можна створювати проекти аналізу даних і розгортати їх на безлічі серверів.


    При роботі з раніше створеним проектом, який вже знаходиться на сервері, можна працювати з ним безпосередньо.


    Середа управління – SQL Server Management Studio


    Середа SQL Server Management Studio є оболонкою для безлічі адміністративних функцій для управління компонентами SQL Server. Ця середа відрізняється від Business Intelligence Development Studio в першу чергу тим, що зміни зберігаються на сервер в реальному часі.


    Після попереднього очищення і передобробки даних велика частина всіх подальших дій по створенню моделі виконується в середовищі Business Intelligence Development Studio. У ній виконуються дії по створення та перевірки моделей, а також итеративное тестування для виявлення найбільш адекватної моделі. Після отримання потрібної моделі її можна розгорнути на сервері. Після цього фокус зміщується з розробки на підтримку і використання моделі для чого підходить SQL Server Management Studio. З її допомогою можна адмініструвати базу даних і виконувати перегляд і створення прогнозів аналогічно тому, як це виконується в середовищі Business Intelligence Development Studio


    Сервіси інтеграції – Integration Services


    Integration Services (сервіси інтеграції, SSIS) включають в себе засоби отримання (Extract), перетворення (Transform) і завантаження (Load) (ETL) даних з різних джерел. Вони використовуються для деяких дуже важливих завдань в проектах вилучення даних, таких як вилучення, об’єднання, очищення та попередня обробка даних, що передують створенню моделі. У проектах вилучення даних і в процесі настройки моделей зазвичай необхідно проводити неодноразову предобработку та очищення даних. За допомогою SSIS можна об’єднати завдання передобробки даних в єдиний пакет.


    Середа SSIS містить візуальний редактор, за допомогою якого зручно створювати і налагоджувати пакети перетворення даних. З нього можна завантажити пакети на сервер і налаштувати планувальник для їх виконання. Це зручно використовувати, наприклад, для автоматичної передобробки нових даних, що надходять.

  • Алгоритми Data Mining

    Зміст

    Алгоритми Data Mining є основою для створення моделей. Набір алгоритмів Data Mining, що входять в SQL Server 2005, дозволяють виробляти різні види аналізу даних.



  • Дерево рішень – Microsoft Decision Trees


    Алгоритм “Дерево рішень” призначений для вирішення завдань класифікації і регресії і добре підходить для прогнозування. В алгоритмі Microsoft Decision Trees використовуються як дискретні, так і безперервні атрибути.


    У процесі побудови моделі алгоритм итеративно обчислює ступінь впливу кожного вхідного атрибута моделі на значення вихідного атрибута і використовує атрибут, що впливає на вихідну змінну найбільшою ступеня для розбиття вузла дерева рішень. Вузол верхнього рівня описує розподіл значень вихідного атрибута по всій сукупності даних. Кожен наступний вузол описується розподілом вихідної атрибута при дотриманні умов на вхідні атрибути, відповідні цьому вузлу. Модель продовжує рости до тих пір, поки розбиття вузла на наступні вузли збільшує ймовірність того, що вихідний атрибут буде приймати якесь певне значення в порівнянні з усіма іншими значеннями, тобто розбивка збільшує якість прогнозу. Алгоритм здійснює пошук атрибутів та їх значень, розбиття по яким дозволяє з більшою ймовірністю правильно передбачити значення вихідного атрибута.


    Кластеризація – Microsoft Clustering


    Алгоритм кластеризації використовує ітеративний метод групування записів набору даних в кластери, які мають подібні характеристики. Використовуючи розбиття на кластери можна виявити в досліджуваному масиві даних такі зв’язки, які неможливо виявити простим переглядом цих даних. Крім того, за допомогою алгоритмів кластеризації можна здійснювати прогнозування. Наприклад, об’єднати в групу людей, які живуть в одному районі, водять одну марку машин, мають подібні переваги в їжі і купують один тип продукції. Таке об’єднання і є кластер. Інший кластер може включати в себе людей, які відвідують один ресторан, що мають один рівень доходу і їздять двічі на рік у відпустку в інші країни. Оцінюючи розподіл даних у цих кластерах, можна краще зрозуміти взаємозв’язок різних характеристик досліджуваних об’єктів, а також як ці взаємозв’язки впливають на значення прогнозованого атрибута.


    У Microsoft Analysis Services 2005 для кластеризації використовується модифікації алгоритмів максимізації очікування (Expectation Maximization) і K-найближчих сусідів (K-Means).


    У першому випадку кожен кластер характеризується своєю функцією розподілу атрибутів вхідних даних, які обчислюються в ході ітеративного процесу. В процесі виконання алгоритму итеративно максимізується функція правдоподібності на просторі параметрів функцій розподілу для кожного кластера. При цьому передбачається, що безперервні атрибути мають спільне багатовимірне нормальний розподіл, а дискретні – Спільне дискретне розподіл.


    У другому випадку итеративно мінімізується сума квадратів відстаней (в різних метриках) від кожного елемента даних до центру відповідного кластера.


    Наївний алгоритм Байеса – Microsoft Na? Ve Bayes


    Наївний алгоритм Байеса призначений для вирішення задач класифікації та прогнозування. У процесі його реалізації обчислюються ймовірності станів вхідних атрибутів для кожного стану вихідного атрибута. Ці значення використовуються для обчислення ймовірності того, що вихідний атрибут приймає те чи інше стан при заданих значеннях вхідних атрибутів. Алгоритм приймає тільки дискретні або Дискретизований атрибути моделі, а також виходить з припущення про стохастичною незалежності вхідних атрибутів (“наївність” алгоритму якраз обумовлена ​​цими припущеннями). Алгоритм Microsoft Na? Ve Bayes являє собою просту модель для аналізу даних, яку можна розглядати як засіб первісного розвідувального аналізу. Внаслідок того, що більшість необхідної для побудови моделі інформації обчислюється в процесі обробки відповідного куба, результати алгоритму Байеса повертаються дуже швидко. Це служить ще одним перевагою використання алгоритму в якості оптимального розвідувального механізму для класифікації та прогнозування.


    Тимчасові ряди – Microsoft Time Series


    Алгоритм Microsoft Time Series створює моделі, призначені для прогнозування значень безперервних змінних за часом і використанням як OLAP, так і реляційних джерел даних. Наприклад, можна використовувати цей алгоритм для прогнозування обсягу продажів і прибутку по історичних даних у розрізі регіонів продажів.


    Алгоритм дозволяє здійснювати прогнозування з кількох безперервним змінним. Часовий ряд повинен характеризуватися тимчасової характеристикою по якій здійснюється прогноз, а також може містити довільний набір інших характеристик, що розділяє ряд на декілька (наприклад, регіон, продавця і т.д.).


    Алгоритм Microsoft Time Series може аналізувати і використовувати кореляції між різними прогнозованими характеристиками. В цьому випадку результат прогнозування буде залежати не тільки від історичних значень тієї ж змінної, але і значень інших прогнозованих змінних. Наприклад, продаж в певному магазині можуть залежати від минулих продажів в іншому магазині.


    Алгоритм Microsoft Time Series є різновидом алгоритмів ART (Autoregressive Trees – дерева авторегресії). В процесі реалізації алгоритму будується дерево рішень, листю якого відповідають функції лінійної регресії.


    Асоціативні правила – Microsoft Association


    Алгоритм Microsoft Association призначений в першу чергу для аналізу купівельних кошиків. Аналізується кожна пара атрибут = значення (наприклад продукт = велосипед) як значення якоїсь логічної змінної. Алгоритм сканує транзакції в базі даних для визначення “частих” наборів таких пар. Набір вважається “частим” якщо його support (підтримка, тобто число транзакцій, в які входить даний набір) перевищує певний поріг. Наприклад, частим набором може бути {Пол = “чоловічий”, Сімейний статус = “одружений”, Вік = “30-35”}. Кожен набір має розмір, наприклад, в цьому випадку, він становить 3.


    Часто транзакції описуються вкладеними таблицями, наприклад, рядками замовлення продажу в замовленні. У цьому випадку ключ вкладеної таблиці служить назвою атрибута, а факт його наявності – значенням. Наприклад {Товар (“Велосипед”) = existing, Товар (“Велосипедна кепка”) = existing}.


    Алгоритм Microsoft Association крім виявлення частих набір призначений для виявлення правил виду A, B => C, якi характеризуються ймовірністю виконання (confidence), де {A, B}, {C} часті набори. Символ “=>” Означає, що поява набору C в транзакції можна передбачити з факту появи наборів A і B. Наприклад, {Фотокамера = exisiting, Батарейки = existing} => {Фотоплівка = existing}. Поріг значення ймовірності дотримання правила є параметром моделі, що визначає факт розгляду кожного правила.


    Асоціативні правила використовуються для оптимізації крос-продажів, цільових рекламних кампаній, визначення політики знижок, в оптимізації розміщення товарів на товарних полицях в супермаркетах і т.д.


    Кластеризація послідовностей дій – Microsoft Sequence Clustering


    Алгоритм Microsoft Sequence Clustering аналізує послідовності-яких фактів, що представляють собою тимчасові послідовності дискретних змінних. Зазвичай такі послідовності атрибутів розглядаються як походження подій в певному порядку (наприклад, порядок перегляду сторінок сайту). Алгоритм призначений для прогнозування настання наступних подій на підставі вже здійсненого переходу між станами.


    Алгоритм Microsoft Sequence Clustering є гібридом алгоритму послідовностей дій та алгоритмом кластеризації. В процесі реалізації алгоритму виконується угрупування послідовності переходів в типові кластера, що характеризуються паттернами переходів. Кожен з цих кластерів аналізується з точки зору розподілу ймовірності переходів окремо. Типовим сценарієм використання для цього алгоритму є завдання аналізу клієнтів web-порталу. У web-порталу є набір пов’язаних доменів, таких як новини, погода, фінанси, пошта, спорт і т.д. Кожен web-відвідувач характеризується послідовністю “Кліків” – переходів в рамках кожного з цих доменів. Алгоритм Microsoft Sequence Clustering може згрупувати цих web-відвідувачів в більш-менш однорідні групи на підставі їх паттернов навігації по порталу. Ці групи можуть бути візуалізовані, забезпечуючи подання шаблонів використання порталу кожною групою відвідувачів.


    В алгоритмі використовується алгоритм Expectation Maximization для виявлення кластерів, а також Марківські процеси першого порядку для моделювання переходів між станами (подіями).


    Нейронні мережі – Microsoft Neural Network


    Алгоритм Microsoft Neural Network призначений для створення моделей класифікації і регресії шляхом конструювання багатошарової нейронної мережі перцептронів. Як і у випадку алгоритму дерева рішень, для кожного стану вихідного атрибута алгоритм обчислює розподіл ймовірності вхідних атрибутів. Обробляється повний набір записів, при цьому итеративно порівнюються передбачені значення класифікатора з відомим значенням. Помилки класифікації на першій ітерації подаються на вхід мережі для зміни параметрів на наступній ітерації і т.д. Згодом, отримані ймовірності використовуються для прогнозування значення вихідного атрибута на підставі значень вхідних атрибутів. Одне з найбільш значних відмінностей між цим алгоритмом і алгоритмом дерева рішень полягає в тому, що процес навчання полягає в оптимізації параметрів мережі для мінімізації помилки класифікації, в той час як алгоритм дерева рішень здійснює розбиття вузлів для максимізації інформації (мінімізації ентропії). Алгоритм підтримує як безперервні і дискретні типи атрибутів.


    Лінійна регресія – Microsoft Linear Regression


    Алгоритм Microsoft Linear Regression являє собою алгоритм регресії є окремим випадком алгоритму Microsoft Decision Trees, що отримується в разі заборони на розбиття вузлів у дереві рішень. Формула регресії визначена на всьому обсязі даних, тобто на кореневому вузлі дерева. Алгоритм призначений для прогнозування безперервних атрибутів.


    Логістична регресія – Microsoft Logistic Regression


    Алгоритм Microsoft Logistic Regression являє собою алгоритм регресії є окремим випадком алгоритму Microsoft Neural Network, що отримується в разі видалення прихованого шару нейромережі. Алгоритм підтримує прогнозування значень як безперервних, так і дискретних атрибутів.



  • Зміст

    В ході даного курсу ви будете працювати в середовищі розробки Business Intelligence Development Studio (рис.1).


    рис. 1 Business Intelligence Studio

    Крус розділене на три частини: підготовка бази даних SQL Server, підготовка бази даних Analysis Services і побудова і робота з моделями Data Mining.


    Підготовка бази даних SQL Server


    База даних AdventureWorksDW, яка використовується в цьому оглядовому курсі, встановлюється разом з SQL Server (за замовчуванням ця опція відключена) і вже містить уявлення (views), які будуть використані для створення моделей.


    В доповнення до них необхідно буде імпортувати в базу даних таблицю prospective customers (у вигляді плоского файлу). Один із сценаріїв, який ми розглянемо, аналізує цільові розсилки з використанням будівника запитів для прогнозів.


    Імпорт таблиці Prospective Customers


    Ви будете використовувати таблицю prospective customer в сценарії цільової рассилкідля перевірки якості прогнозування моделі. Ви можете завантажити цю таблицю з сайту Betaplace (www.Betaplace.com). Спочатку необхідно імпортувати плоский файл в базу даних AdventureWorksDW і назвати колонки цієї таблиці так само як і в поданні, слугує джерелом даних для цільової розсилки.


    У додатку А міститься сценарій імпорту даних і перейменування колонок. Завантажте плоский файл на ваш локальний диск. Запустіть SQL Management Studio і відкрийте вікно нового запиту до сервера БД AdventureWorksDW. Скопіюйте SQL-запити з програми A в вікно запитів. Змініть значення змінної @ data_path так, щоб вона містила шлях до файлу “Prospect.csv”. Виконайте запит.


    Буде створена таблиця Prospects, Яка буде містити ту ж структуру стовпців, як і уявлення vTargetedmail, за винятком таких стовпців:



    • Age
    • Bike Buyer
    • Region

    Так само, ключі клієнтів (CustomerKey, CustomerAlternateKey) замінені на ключі перспективних клієнтів (ProspectKey, ProspectAlternateKey).


    Підготовка бази даних Analysis Services


    Перш ніж ви почнете створювати і працювати з моделями Data Mining, ви повинні виконати наступні дії:



    1. Створити новий проект Analysis Services.

      1. Створити нове джерело даних (data source).
      2. Створити нове подання даних (data source view).

    Створення проекту Analysis Services


    Кожен проект Analysis Services визначає схему об’єктів для єдиної бази даних Analysis Services, яка описується моделями Data Mining, OLAP-кубами та додатковими об’єктами.



    1. Відкрийте Business Intelligence Development Studio.
    2. Виберете New і Project з меню File.
    3. Виберете проект Analysis Services як тип нового проекту і назвіть його AdventureWorks.
    4. Натисніть Ok.

    Новий проект відкриється в Business Intelligence Development Studio.


    Створення джерела даних


    Джерело даних – це дані про з’єднання із зовнішнім джерелом даних, які зберігаються в проекті і в базі даних Analysis Services. У джерелі даних зберігається інформація про ім’я сервера, бази даних, де зберігається інформація, яка використовується в проекті, а так само інші властивості з’єднання.



    1. Правою кнопкою миші клацніть по вузлу Data Source вашого рішення і виберете New Data Source.
    2. На першій сторінці майстра виберете Next.
    3. Клацніть New щоб додати з’єднання до бази даних AdventureWorksDW.
    4. У діалоговому вікні Connection Manager виберете провайдер даних Microsoft OLE DB Provider for SQL Server, Ім’я сервера – AdventureWorksDW, введіть дані про користувача, під обліковим записом якого проводитиметься з’єднання.
    5. Клацніть OK.
    6. Клацніть Next.

    За замовчуванням джерело даних буде названо Adventure Works DW. Клацніть Finish


    Нове джерело даних Adventure Works DW з’явиться в папці джерел даних в дереві рішення.


    Створення подання даних


    Подання даних (Data Source View) забезпечує рівень абстракції для джерела даних, дозволяючи вам міняти структуру вихідних даних для зручності вашого проекту. Використовуючи представлення даних, ви можете вибрати тільки відносяться до вашого проекту таблиці та подання, визначити зв’язки між таблицями, додати обчислювані поля, а також іменовані запити без необхідності вносити модифікації у вихідні дані.



    1. У дереві рішення клацніть правою кнопкою миші на Data Source View і виберете New Data Source View.
    2. На першій сторінці клацніть Next.
    3. Виберете джерело даних Adventure Works DW, Який ви створили на минулому кроці у вікні Relational data sources. Натисніть Next.
    4. Якщо ви хочете створити нове джерело даних, натисніть New Data Source.
    5. Виберете таблиці зі списку натисніть на праву стрілку для включення їх до подання даних:

      • Prospect
      • vAssocSeqLineItems
      • vAssocSeqOrders
      • vTargetMail
      • vTimeSeries

    6. Натисніть Next.
    7. За замовчуванням подання даних буде названо Adventure Works DW. Натисніть Finish.

    Відкриється вікно подання даних як показано на рис. 2. Далі можна робити зміни в уявленні джерела даних.


    Рис. 2 Вікно перегляду моделі бази Adventure Works DW

    Редагування подання джерела даних


    Використовуючи редактор подання джерела даних (Data Source View Editor), ви можете вносити зміни в уявлення даних. Наприклад, ви можете перейменувати об’єкт, якщо його нова назва буде більше підходити до моделі. При цьому оригінальна назва не зміниться, але з’явиться можливість звертатися до об’єкта через нове більш зручне ім’я.


    Для створення сценаріїв аналізу ринкової корзини або кластеризації послідовностей необхідно створити нове з’єднання багато-до-одного між vAssocSeqOrders і vAssocSeqLineItems. Використовуючи цей зв’язок можна зробити vAssocSeqLineItems вкладеної таблицею по відношенню до vAssocSeqOrders, що необхідно для створення моделі.



    1. У вікні перегляду вибрати поле OrderNumber з таблиці vAssocSeqLineItems
    2. Перенести обрану колонку в таблицю vAssocSeqOrders і помістити її на колонку OrderNumber

    Нова зв’язок багато-до-одного між vAssocSeqOrders і vAssocSeqLineItems создадна.



  • Редактор Data Mining (показаний на малюнку 4) містить всі інструменти і засоби відображення для побудови і роботи з моделями Data Mining. Додаткова інформація за редактору доступна в розділі “Using the Data Mining Tools “в SQL Server Books Online.


     
    Рисунок 4 Редактор Data Mining

    Протягом цього керівництва ви будете працювати з такими сценаріями:



    • Цільова відправлення листів (Targeted mailing)
    • Прогнозування (Forecasting)
    • Ринкова кошик (Market basket)
    • Кластеризація послідовностей (Sequence clustering)

    У сценарії Цільова відправлення листів ви будете займатися побудовою моделей, порівнянням їх очікуваних можливостей (за допомогою вікна Mining Accuracy Chart), а також створенням прогнозів з використанням Prediction Query Builder.


  • Відділ маркетингу компанії Adventure Works зацікавлений у збільшенні продажів за допомогою проведення поштового кампанії, націленої на певних покупців. Досліджуючи їх характеристики, вони хочуть виявити деякий шаблон, який можна застосовувати до потенційних клієнтів, який міг би згодом використовуватися для визначення найбільш імовірних покупців.

    Крім того, відділ маркетингу має намір виявити логічні групи серед вже існуючих в їх базі даних клієнтів. Наприклад, група може містити покупців, об’єднаних за демографічною ознакою, володіють схожим набором покупок.


    Adventure Works має списком як колишніх, так і потенційних клієнтів.


    У процесі вирішення цього завдання, відділу маркетингу потрібно виконати наступні дії:



    Для виконання цього сценарію вам буде потрібно використовувати Microsoft Na? Ve Bayes, Microsoft Decision Trees, і Microsoft Clustering алгоритми. Сценарій містить в собі 5 завдань:


    Перший крок полягає у створенні нової структури Data mining моделі за допомогою Mining Model Wizard. При цьому також створюється початкова модель, заснована на алгоритмі Microsoft Decision Trees.
    Для того щоб створити структуру моделі:

    1. У Solution Explorer клацніть правою кнопкою миші на Mining Models, Виберіть New Mining Model. Відкриється Mining Model Wizard.
    2. Натисніть Next на сторінці привітання.
    3. Виберіть From existing relational database or data warehouse, Потім Next.
    4. У розділі Which data mining technique do you want to use? виберіть Microsoft Decision Trees. Ви створите кілька моделей, що спираються на цю початкову структуру, в основі якої лежить алгоритм Microsoft Decision Trees.
    5. Натисніть Next. За умовчанням як джерела даних тут обрано Adventure Works DW.
    6. Натисніть Next.
    7. Помітьте прапором Case таблицю vTargetMail, Потім натисніть Next.
    8. Помітьте прапором Key стовпець CustomerKey. Якщо у вихідній таблиці присутній ключове поле, Mining Model Wizard автоматично вибере його як ключового для моделі.
    9. Помітьте прапором Input і Predictable стовпець BikeBuyer. В результаті стовпець стає доступним для прогнозування в нових наборах даних. Після того як ви позначаєте стовпець подібним чином, стає доступною кнопка Suggest. Натискання на цю кнопку викликає діалогове вікно зі списком найбільш пов’язаних з даним полем стовпців, розташованих в порядку кореляції з прогнозованим. Стовпці зі значенням більше 0.05 автоматично додаються в модель. Якщо ви згодні з пропонованим варіантом, натисніть кнопку OK або визначте потрібні поля вручну.
    10. Помітьте прапором Input стовпці, перераховані в таблиці.



























    Age YearlyIncome Region
    CommuteDistance HouseOwnerFlag TotalChildren
    EnglishEducation LastName
    EnglishOccupation MaritalStatus
    FirstName NumberCarsOwned
    Gender NumberChildrenAtHome


    Ви можете вибрати декілька стовпців, утримуючи клавішу SHIFT.



    1. Натисніть Next.
    2. В поле Specify Columns “Content and Data Type натисніть Detect. При цьому автоматично визначається, чи містять стовпці з чисельними даними дискретні, або неперервні значення. Наприклад, стовпець може містити інформацію про заробітну плату з безпосередніми значеннями сум (безперервні значення) або в ньому можуть міститися цілі числа, що відповідають певним діапазонам значень (1 = <$ 25,000; 2 = від $ 25,000 до $ 50000 і так далі), тобто дискретні значення.
    3. В поле Structure Name введіть Targeted Mailing та натисніть Finish
    4. Натисніть Finish. При цьому відкриється редактор Data mining, що відображає структуру Targeted Mailing, яку ви тільки що створили, див. Рисунок 5.


    Рисунок 5 Сторінка структури Targeted Mailing
    Початкова Data Mining структура містить єдину модель, засновану на Microsoft Decision Trees. У цій частині ви, за допомогою сторінки Mining Models редактора визначте дві додаткові моделі: моделі Microsoft Na? Ve Bayes і Microsoft Clustering.
    Щоб створити модель Microsoft Clustering


    1. Натисніть на закладку Mining Models.
    2. Клацніть правою кнопкою по Targeted Mailing і виберіть New Mining Model.
    3. В поле Model Name введіть TM_Clustering.
    4. В поле Alogithm Name виберіть Microsoft Clustering.
    5. Натисніть OK.

    Нова модель з’явиться на сторінці Mining Models. Модель Microsoft Clustering дозволяє групувати і прогнозувати безперервні і дискретні атрибути. Ви можете змінити використовувані стовпці і властивості для нової моделі.


    Установка стовпця як Predict (прогнозованого) не робить ніякого ефекту на етапі навчання моделі; але дозволяє вам вказати цей стовпець в запиті на прогнозування PREDICTION JOIN. При створенні кластерів алгоритм ігнорує стовпці, помічені як PredictOnly. Статистика для PredictOnly стовпців в кластерної моделі визначається на фінальному кроці, після того як операція кластеризації завершена. Це має сенс, якщо ви хочете бачити розподіл атрибута по кластерам, створеним на підставі інших атрибутів і дозволяє виявити більш глибокі взаємозв’язки.


    Щоб створити модель Microsoft Na? Ve Bayes

    1. Клацніть правою кнопкою по Targeted Mailing і виберіть New Mining Model.
    2. В поле Model Name введіть TM_NaiveBayes.
    3. В поле Algorithm Name виберіть Microsoft Na? Ve Bayes. Після чого з’явиться діалогове вікно з текстом, що пояснює, що алгоритм Microsoft Na? Ve Bayes не підтримує роботу з стовпцями Age, Geography Key і Yearly Income, що містять безперервні значення, і вони будуть проігноровані.
    4. Натисніть Yes.
    5. Натисніть OK.
    6. Після чого, нова модель з’явиться на сторінці Mining Models. Хоча ви можете змінювати використовувані стовпці і властивості для всіх моделей на цій сторінці, в даному випадку залиште все без змін.

    Обробка Data Mining моделей

    Тепер, після того як структура і параметри моделей визначені, ви можете здійснити розгортання та обробку моделей.
    Для того щоб розгорнути проект і обробити моделі


    Для обробки data mining моделей

    Читати 2 частина

    Схожі статті:


    Сподобалася стаття? Ви можете залишити відгук або підписатися на RSS , щоб автоматично отримувати інформацію про нові статтях.

    Коментарів поки що немає.

    Ваш отзыв

    Поділ на параграфи відбувається автоматично, адреса електронної пошти ніколи не буде опублікований, допустимий HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

    *

    *