Тестування точності Data Mining-моделей, Комерція, Різне, статті

Тепер моделі оброблені і досліджені. Але наскільки добре вони пророкують ситуацію? Чи працює яка-небудь з моделей краще, ніж інші?


Використовуючи сторінку Mining Accuracy Chart, ви можете вирахувати, як добре кожна з моделей пророкує результат і порівняти їх між собою. Цей метод порівняння також іноді називається діаграмою зростання (Lift chart). На сторінці The Mining Accuracy Chart використовує дані, відокремлені від першоджерела, що дозволяє порівнювати прогнози з відомими результатами. Потім результати сортуються і відображаються на графіку разом з ідеальною моделлю, показуючи, наскільки добре кожна модель робить прогноз. Графік ідеальної моделі відповідає теоретичної моделі, пророкує результат з 100% точністю.


Діаграма зростання є важливим інструментом, оскільки вона допомагає розрізняти моделі практично ідентичні за структурою, показуючи, яка робить кращий прогноз. Подібним чином, з її розгляду можна зробити висновок про те, які типи алгоритмів роблять кращі передбачення в даній ситуації. Для більш детальної інформації по використанню Mining Accuracy Chart, зверніться до розділу “Comparing Data Mining Models with the Lift Chart “в SQL Server Books Online.


Сторінка Mining Accuracy Chart показана на малюнку 16.


 
Малюнок 16 Сторінка Mining Accuracy Chart.
Для того щоб створити нову діаграму виконайте наступні кроки:


  1. Зв’яжіть стовпці моделі з відповідними стовпцями у вхідних даних.
  2. Встановіть фільтр на вхідні дані.
  3. Виберіть порівнювані моделі, а також поля для яких робиться прогнозування та їх значення.

Примітка: Для використання mining accuracy chart моделі повинні бути оброблені.
Відображення вхідних стовпців

На першому кроці необхідно пов’язати стовпці, що використовуються в моделі зі стовпцями у вхідних даних. У тому випадку, якщо імена стовпців збігаються, зв’язку створяться автоматично.


Щоб співвіднести вхідні стовпці зі структурою моделі:

  1. В поле Select Input Table (s) виберіть Select case table.
    Відкриється діалогове вікно вибору таблиці, де ви можете вибрати таблицю, яка містить дані, які ви хочете використовувати для прогнозування та визначення точності моделей.
    У цьому керівництві використовуються ті ж дані, що і для обробки моделей.
  2. У діалоговому вікні Select table, розкрийте базу AdventureWorks і виберіть джерело даних Adventure Works DW.
  3. Натисніть vTargetMail.
    Стовпці data mining структури автоматично будуть відповідати стовпцях з тими ж іменами таблиці з вихідними даними, як показано на малюнку 17.


 
Рисунок 17 Пов’язані стовпці.

Запит на прогноз генерується для кожної моделі Mining Structure на підставі пов’язаних стовпців. Ви можете видалити зв’язок, вибравши лінію, що зв’язує поля в Mining Structure і Select Input Table (s) і натиснувши DELETE. Також ви можете створити зв’язок вручну, вибравши стовпець в Select Input Table (s) і перетягнувши його на відповідний стовпець в Mining Structure.


Фільтрація вхідних стовпців

Для установки фільтрів на вхідні дані ви можете використовувати таблицю Filter the input data used to generate the lift chart. Ви можете перетягнути стовпчики з Select Input Table (s) на таблицю з результатами або вибрати значення в випадаючих списках. Наприклад, якщо необхідно враховувати тільки ті рядки в стовпці Income, де його значення більше х, виберіть Income в поле Field, а в поле Criteria / Argument введіть >x.


Для виконання даної вправи вам не потрібно фільтрувати дані.


Вибір моделей, прогнозованих полів і їх значень

Наступний крок полягає у виборі моделей, які ви хочете включити в розгляд, і прогнозованого поля, за яким вони будуть порівнюватися. За замовчуванням, вибрані всі моделі.


Ви можете створювати два типи діаграм. Якщо вказано значення прогнозованого атрибута, ви побачите графік кшталт того, що зображений на малюнку 18, з якого видно яка з моделей показує кращий результат (Lift chart). У тому випадку, якщо значення не вказано, то діаграма відобразить точність моделі (див. малюнок 19).


Щоб показати діаграму lift chart:

  1. Для кожної моделі в поле Predictable Column Name виберіть Bike Buyer.
  2. Для кожної моделі в поле Predict Value виберіть 1.

Щоб показати діаграму точності моделей:

Якщо встановлений прапор Synchronize Prediction Columns and Values, прогнозований стовпець синхронізується для кожної моделі в структурі Data Mining.


Примітка: Список стовпців моделі Predictable Column Name, обмежений полями з типом Predict і Predict Only, що містять дискретні або Дискретизований дані.

У деяких більш складних випадках, вам може знадобитися створити діаграму зростання для двох моделей аналізу, але в яких значення прогнозованого атрибута беруться з різних стовпців структури Data Mining. Якщо вимкнути прапор Synchronize Prediction Columns and Values, можна вибрати будь-який доступний прогнозований стовпець і значення. Результати відображаються разом, незалежно від того як вони отримані.


Діаграма зростання

Клацніть на закладку Lift Chart щоб переглянути діаграму зростання. При виконанні цієї дії на сервері виконується запит на прогнозування. Отримані результати прогнозу порівнюються з відомими значеннями і сортуються по ймовірності, після чого відображаються на графіці. Для більш детальної інформації щодо використання діаграми, зверніться до розділу “Lift Chart” в SQL Server Books Online.


За умови зазначеного значення прогнозованого стовпця, діаграма зростання має вид показаний на малюнку 18.


 
Рисунок 18 Зріст для кожної моделі в порівнянні з ідеальною моделлю.

Якщо значення прогнозованого атрибута не було вказано, діаграма зростання показує точність прогнозів моделей (див. малюнок 19).


 
Рисунок 19 Точність кожної моделі в порівнянні з ідеальною моделлю.
 
Читати 4 частина

Схожі статті:


Сподобалася стаття? Ви можете залишити відгук або підписатися на RSS , щоб автоматично отримувати інформацію про нові статтях.

Коментарів поки що немає.

Ваш отзыв

Поділ на параграфи відбувається автоматично, адреса електронної пошти ніколи не буде опублікований, допустимий HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

*

*