Байєсовський класифікатор і регресійна модель в ORTD: практичний приклад, Інші СУБД, Бази даних, статті

Антон Шмаков,
старший консультант відділу бізнес-аналізу та сховищ даних
Консалтингова група “Борлас” (Москва)
Джерело: Oracle Magazine – Російське видання

 

Введення

Oracle Real Time Decisions (ORTD) – спеціальний інструмент від компанії Oracle, призначений для автоматизації прийняття рішень в режимі реального часу (раніше про цей продукт була опублікована стаття “Глибинний аналіз даних в режимі реального часу: Oracle Real Time Decisions”). Він дозволяє будувати складні прогностичні моделі, спираючись на аналіз історичних і оперативних даних. Крім потужного аналітичного движка, ORTD надає бізнес-користувачам і розробникам повну інфраструктуру як для побудови моделей, так і для їх повсякденного виконання.

У статті “Рішення” ростуть “на деревах” (Decisions Grow on Trees, by Ron Hardman) описується конкретний тип класифікації даних, званий дерева рішень. Цей метод був не так давно реалізований в продукті Oracle Data Miner (ODM). Результати його роботи легко сприймаються візуально і можуть бути легко пояснені в бізнес-термінах.

У цій статті ми хотіли б познайомити читачів з ORTD на практичному рівні. У ній описується весь шлях від установки і настройки ORTD і до створення проекту і отримання практичних результатів. В якості бізнес завдання пропонується взяти приклад з уже згадуваної статті “Рішення” ростуть “на деревах”. Слід зазначити, що в Real Time Decisions реалізовані байєсівської класифікатор і регресійна модель, дерева рішень в ньому не реалізовані. Ми побудуємо невеликий тестовий проект в ORTD, метою якого буде продемонструвати роботу в ORTD і порівняти результати роботи байєсівського класифікатора в Real Time Decisions, з деревами рішень в ODM.

Постановка завдання

Розглянемо бізнес ситуацію. Виробник пропонує два продукти, А і B. Щодо них є дуже мізерна інформація, а саме тип продукту (PRODUCT), версія продукту (VERSION), час його останньої модифікації (LAST_UPGRADE_YEAR) та відкликання покупців (FEEDBACK). Виробник хоче, по-перше, дізнатися як пов’язані відгуки покупців з характеристиками продукту і, по-друге, побудувати модель для прогнозування майбутніх відгуків. У згадуваної статті автор будує модель класифікації на основі дерев рішень в Oracle Data Miner. Ми ж спробуємо побудувати Байєсовські модель в Oracle Real Time Decisions, c допомогою якої ми зможемо проаналізувати вхідні дані.

Як почати працювати в ORTD


I. Установка Oracle Real Time Decisions


  1. Завантажити дистрибутив Oracle Real Time Decisions з сайту Oracle
  2. Розархівувати (Unzip) його, знайти файл rtd_2.2_OC4J_win.zip і розархівувати його в папку, яка буде RTD_HOME (наприклад: С: OracleRTD)
  3. Підключитися до SQL * Plus під SYSDBA і виконати наступні команди.
    SQL>create user rtd identified by rtd;
    SQL>grant resource,connect to rtd;

  4. Встановити схему з метаданими в rtd. Перейти в папку RTD_HOME / scripts і запустити SDDBTool.cmd
  5. Ввести інформацію і натиснути кнопку Next


  6. Скріншот 41

    Аналогічним чином, ми подивитися результати по атрибутам VERSION і PRODUCT.

    В результаті виходять такі найбільш стійкі кластери

    NEGATIVE:
    LAST_UPGRADE_YEAR: 1999, 2001, 2002
    VERSION: 1,2
    PRODUCT: A
    POSITIVE:
    LAST_UPGRADE_YEAR: 2005, 2006, 2003, 2004
    VERSION: 3
    PRODUCT: B

    Таким чином, ми отримали наступні результати: основне розщеплення або розгалуження здійснює по атрибуту LAST_UPGRADE_YEAR, якщо він менше 2003 року, то відгук негативний, інакше він позитивний. При цьому якщо враховувати атрибути VERSION і PRODUCT в аналізі, то виходить, що негативний відгук отримують продукт A з версіями 1 і 2, а позитивний B з версіями 3.


Висновок


Якщо подивитися на результати, які були отримані в статті “Рішення” ростуть “на деревах” (Decisions Grow on Trees, by Ron Hardman) з отриманими нами, то видно, що вони збігаються. Відмінності лише в максимальній достовірності класифікації та поданні самих результатів. В Data Mining Option була отримана точність передбачення на рівні 90%. В Real Time Decisions максимальна точність була 83%. Пов’язано це з тим, що в Real Time Decisions використовувався байєсівської класифікатор, а в Oracle Data Mining дерева рішень, які в даному випадку виявилися краще. З точки зору графічної інтерпретації результатів, в Oracle Data Miner вони були представлені у вигляді ієрархічної угруповання ознак та їх значень (дерева рішень). В Real Time Decisions вони ж були представлені у вигляді упорядкованих списків корельованих ознак та їх значень. Кожен варіант подання інформації має свої переваги і недоліки.

На даному прикладі очевидними стають відмінності в застосуванні Oracle Data Mining і Real Time Decisions. В Data Mining можна легко і швидко здійснити складний і глибокий аналіз на рівні бази даних, причому достовірність класифікації буде вище. З іншого боку Real Time Decisions дозволяє сроить менш глибокий аналіз, але в режимі реального часу. У нашому випадку в якості он-лайн системи, яка генера події виступав спеціальний інструмент LoadGen, але з тим же успіхом можна підключити і будь бізнес додаток. Real Time Decisions в реальному часі буде перераховувати модель і будувати закономірності між ознаками.

Схожі статті:


Сподобалася стаття? Ви можете залишити відгук або підписатися на RSS , щоб автоматично отримувати інформацію про нові статтях.

Коментарів поки що немає.

Ваш отзыв

Поділ на параграфи відбувається автоматично, адреса електронної пошти ніколи не буде опублікований, допустимий HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

*

*