Процес розкриття даних – ЧАСТИНА 2

• Ordered Визначає порядок навчальних даних, однак без призначення важливості значень, використовуваних для упорядкування Наприклад, якщо значення 5 і 10 використовуються для впорядкування двох рядків, то 10 буде слідувати за 5, але це не означає, що 10 удвічі краще 5

• Cyclical Аналогічний типу Ordered, однак повторюється в циклі, подібно днях тижня або місяцях року

■ Completing the Wizard На цій сторінці задається імя всієї структури розкриття та першої моделі розкриття у цій структурі Встановіть прапорець Allow Drill Thru, щоб активізувати пряму перевірку навчальних станів в уявленнях розкриття даних

Після завершення роботи майстра буде створена нова структура розкриття з однією моделлю ця структура буде відкрита в конструкторі розкриття даних Data Mining Designer Початкове уявлення конструктора дозволяє додавати в структуру нові стовпці і видаляти з неї непотрібні, а також змінювати параметри стовпців, такі як тип вмісту або метод дискретизації

Подання Mining Models

Подання Mining Models конструктора розкриття даних дозволяє конфігурувати різні алгоритми розкриття на основі даних, представлених в структурі розкриття Для того щоб додати нові моделі, виконайте наступні дії (рис 441)

1 Клацніть правою кнопкою миші на панелі матриці структури / моделі і виберіть у контекстному меню пункт New Mining Model

2 Присвойте моделі імя

3 Виберіть використовуваний алгоритм

Залежно від визначення структури можуть виявитися доступними не всі алгоритми Наприклад, алгоритм послідовної кластеризації Sequence Clustering вимагає наявності стовпця з типом Key Sequence, а алгоритм часових рядів Time Series – стовпця з типом Key Time До того ж не всі алгоритми використовують стовпці однаково – наприклад, деякі алгоритми ігнорують безперервні стовпці (в даному випадку подумайте про використання дискретизації в таких стовпцях)

Кожна модель розкриття має властивості і параметри алгоритмів Виділіть модель (стовпець) для перегляду та зміни властивостей, загальних для всіх алгоритмів, на панелі Properties, в тому числі Name, Description і AllowDrilThru Клацніть правою кнопкою миші на моделі, виберіть у контекстному меню пункт Set Algorithm Parameters і змініть параметри алгоритму, задані за замовчуванням

Рис 441 Додавання нової моделі в існуючу структуру

Коли визначення структури та моделі будуть створені, структура повинна бути розгорнута на сервері призначення для обробки і навчання моделі Процес розгортання моделі складається з двох частин На першому етапі (побудови) визначення структури (або змін до неї) відправляється на цільовий сервер аналізу На панелі висновку можна відстежувати хід побудови На другому етапі (обробки) сервер служби аналізу виконує запити до навчальних даними і навчає модель

Перед першим розгортанням проекту слід визначити сервер призначення Для цього клацніть правою кнопкою миші на проекті в Solution Explorer, що містить структуру розкриття, і виберіть у контекстному меню пункт Properties Перейдіть до вкладки Deployment і введіть відповідне імя сервера, одночасно коригуючи імя бази даних призначення (за замовчуванням імя створюваної бази даних служби аналізу збігається з імям проекту)

Розгорніть структуру, вибравши пункт Process або Process Mining Structure and All Models або в меню Mining Model, або в контекстному меню Після обробки конструктор переключиться в уявлення Mining Model Viewer, в якому доступно кілька режимів відображення, що залежать від того, які моделі включені в структуру Специфічні для алгоритму подання допоможуть зрозуміти правила і взаємозвязку, розкриваються моделлю (докладніше про це – у розділі Алгоритми)

Оцінка моделі

Оцінка навченої моделі дозволяє визначити, яка з моделей виконує прогнозування більш достовірно, і вирішити, чи прийнятна дана точність для розглянутої задачі Подання діаграми точності розкриття забезпечить вас засобами виконання такої оцінки

Діаграми, що відображаються в даному поданні, включаються після надання даних у вкладці Column Mapping Насамперед переконайтеся, що оцінювана структура розкриття виділена в лівій таблиці Клацніть на кнопці Select Case Table в правій таблиці і виберіть таблицю або навчальних, або тестових даних Обєднання між обраної таблицею і структурою розкриття будуть встановлені автоматично, якщо імена стовпців збігаються інакше їх відображення доведеться конфігурувати вручну методом перетягування Перевірте, чи всі неключові стовпці структури розкриття беруть участь в обєднаннях

Після того як джерело даних визначено, перейдіть до вкладки Lift Chart і виберіть у списку Chart Туре тип діаграми Lift Chart (рис 442) Так як дані джерела (як навчального, так і тестового) містять прогнозовані стовпці, лінійний графік дозволить порівняти прогноз кожної з моделей з фактичним виходом Графік відображається щодо осей% Correct та% Population, тому, коли перевіряється 50% популяції, досконала модель повинна коректно прогнозувати рівно 50% даних На графік автоматично додаються дві допоміжні лінії: Ideal Model, відповідна найкращим із можливих показників, і Random Guess, що показує, як часто випадково вибрані значення виявляються коректними

Puc 442 Вкладка Lift Chart

Корисно спочатку подивитися на графік, створюваний навчальними даними, і тільки потім використовувати тестові дані Добре спроектована модель з адекватними даними буде формувати лінії, близькі до ідеальної моделі, з відносно однаковими показниками для обох наборів даних Серед найбільш поширених проблем можна виділити наступні

■ Моделі, що добре зарекомендували себе на навчальних даних і не настільки добре на тестових, були погано навчені Можливі наступні варіанти

• Невипадкове поділ даних на навчальні та тестові Якщо використаний метод розділення даних був заснований на імовірнісних алгоритмах, то знову виконайте поділ, щоб отримати інші набори даних, і повторіть процес навчання

• Вхідні стовпці занадто специфічні для деякого стану (ідентифікаторів, імен і тп) Скорегуйте структуру розкриття для ігнорування елементів, що містять значення, які зустрічаються в навчальних наборах даних і не зустрічаються в тестових або експлуатаційних наборах даних

• У навчальному наборі даних міститься дуже мало рядків (станів) для створення точної характеристики популяції Щоб отримати кращі результати, пошукайте додаткові джерела даних Якщо такі недоступні, кращі результати можна отримати, обмеживши число особливих станів, розглянутих алгоритмом (наприклад, можна збільшити значення параметра MINIMUM_SUPPORT)

■ Якщо всі моделі більш близькі до лінії випадкової вибірки, ніж до лінії ідеальної моделі, значить, вхідні дані погано корелюють з прогнозованими значеннями

Діаграма вигоди (profit chart) є розширенням лінійного графіка (lift chart) і допоможе в обчисленні максимальної віддачі від маркетингової кампанії по відношенню до затрачених зусиль Клацніть на кнопці Settings і встановіть кількість проекцій (фіксоване і в розрахунку на вартість кожного стану), а також очікуваний вихід від успішно ідентифікованого стану, потім у списку типів діаграм виберіть Profit Chart На результуючому графіку відобразиться вигода по відношенню до задіяному відсотку популяції Таким чином, ви будете мати уявлення про те, яку частину популяції включати в спроби, або максимізуючи вигоду, або знаходячи точку перелому

Найпростіше уявлення точності моделі пропонується у вкладці Classification Matrix, в якій для кожної моделі створюється окрема таблиця з прогнозованими вихідними значеннями в лівому стовпчику і фактичними значеннями в першому рядку, аналогічно прикладу, показаному в табл 441 Як ми бачимо, наведена як приклад модель правильно пророкує червоний колір в 95 випадках і неправильно пророкує синій в 37 випадках

Таблиця 441 Приклад матриці класифікації

Прогноз

Червоний (Факт)

Синій (Факт)

Червоний

95

21

Синій

37

104

У наведеному описі оцінки моделі, що використовує засоби служби аналізу та утиліти Bros, ми сфокусували увагу на прогнозуванні дискретних значень При прогнозуванні безперервних значень матриця класифікації недоступна, і лінійний графік пропонує дещо відмінне порівняння фактичних і прогнозованих значень До того ж деякі алгоритми, такі як часових рядів, взагалі не підтримують діаграми точності розкриття

Незалежно від складу коштів, доступних в середовищі розробки, важливо виконати оцінку навченої моделі, використовуючи тестовий набір даних, спеціально зарезервований для цієї мети Після цього виконуйте корекцію визначень даних і моделі доти, поки результати не задовольнить вимогам, що висуваються виробничої завданням

Джерело: Нільсен, Пол Microsoft SQL Server 2005 Біблія користувача : Пер з англ – М: ООО ІД Вільямс , 2008 – 1232 с : Ил – Парал тит англ

Схожі статті:


Сподобалася стаття? Ви можете залишити відгук або підписатися на RSS , щоб автоматично отримувати інформацію про нові статтях.

Коментарів поки що немає.

Ваш отзыв

Поділ на параграфи відбувається автоматично, адреса електронної пошти ніколи не буде опублікований, допустимий HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

*

*