РОЗРОБКА ДАНИХ ДЛЯ СИСТЕМ ПРИЙНЯТТЯ РІШЕНЬ

Розробку даних можна охарактеризувати як дослідницький аналіз даних Мета такої розробки – пошук цікавих залежностей серед даних, які згодом можуть використовуватися для вироблення стратегії ділової активності або для виявлення незвичайної поведінки, наприклад, раптового зростання інтенсивності використання якоїсь кредитної картки (а це може означати, що вона вкрадена) У інструментах розробки даних використовуються статистичні методи, що застосовуються до великих обсягів збережених даних, що і дозволяє знайти цікаві для користувача закономірності

13 Зокрема, не слід випускати з уваги наступне зауваження Часто доводиться чути, що таблиці є плоскими (Тобто двовимірними), а реальні дані – багатовимірними, і тому відносини не підходять для використання як основи OLAP Але прихильники цих доводів допускають плутанину між таблицями і відносинами Як було показано в розділі 6, таблиці являють собою просто зображення відносин, а не відносини як такі І хоча вірно, що ці зображення двовимірні, стосовно відносин це не вірно, оскільки відносини є п-мірними, де п – Ступінь відношення Точніше, кожен кортеж у відношенні з п атрибутами являє собою крапку в n-вимірному просторі, а ставлення в цілому є безліччю таких точок

Примітка Слово великі тут потрібно виділити особливо Бази для розробки даних часто надзвичайно великі, тому дуже важливо, щоб застосовувані алгоритми забезпечували масштабованість

Розглянемо НЕ дуже велику таблицю з даними про збут SALES, показану на рис 225, в якій містяться дані, що стосуються певних ділових угод в системі роздрібного сбита14 На основі цих даних потрібно виконати аналіз набору споживчих товарів, де під набором споживчих товарів розуміється перелік товарів, придбаних під час однієї угоди Завдяки такому аналізу можна визначити, наприклад, що споживач, який купує взуття, ймовірно, купує і шкарпетки в складі однієї і тієї ж операції Ця залежність між взуттям (shoes) та шкарпетками (Socks) являє собою приклад правила звязку Воно може бути виражене (трохи неформально) таким чином

FORALL  tx   (   Shoes  ∈    tx =&gt  Socks  6   tx   )

Тут Shoes ∈ tx – антецедент, або умова правила, Socks e tx – результат, або

наслідок правила, а змінна tx приймає свої значення серед усіх торговельних угод

Рис 225 Таблиця продажів SALES

Введемо деякі додаткові терміни Безліч всіх торгових операцій в даному прикладі називають сукупністю Будь-яке дане правило звязку має рівень підтримки і рівень достовірності, або довірчий рівень Підтримка – це процентна частка сукупності, в якій задовольняється правило звязку Достовірність – Це відношення обсягу сукупності, в якій задовольняється правило звязку, до обсягу сукупності, в якій задовольняється умова (Зазначимо, що умова і слідство не обовязково повинні ставитися до одного товару вони можуть ставитися до будь-якої кількості різних товарів) Розглянемо, наприклад, таке правило, що стосується залежності покупки краватки (Tie) від покупки шкарпеток (Socks)

14 Відзначимо, що ключем цієї таблиці є {ТХ #, PRODUCT}, дані в таблиці задовольняють функціональним залежностям ТХ # – »CUST # і ТХ # -> TIMESTAMP, а значить, вона не приведена до нормальної форми Бойса-Кодда (БКНФ) версія таблиці, в якій стовпець PRODUCT містив би значення у вигляді відносини (з використанням стовпця тх # в якості ключа), могла б знаходитися в БКНФ і краще б підходила для виконання даних досліджень (хоча, можливо, менше підходила б для інших видів дослідження)

FORALL   tx   (   Socks                                        tx  =&gt  Tie  ∈   tx   )

За умовами прикладу, представленого на рис 225, сукупність складає 4 угоди, підтримка дорівнює 50%, а достовірність-66,67%

Більш загальні правила звязки можуть бути досліджені за допомогою відповідних результатів агрегування розглянутих даних Наприклад, після групування за замовникам можна перевірити допустимість такого правила: Якщо замовник купує

взуття, то, ймовірно, він також купує шкарпетки, хоча не обовязково під час тієї ж торгової угоди .

Можуть бути визначені й інші види правил Наприклад, правило Залежно слідстваможе використовуватися для визначення закономірностей здійснення покупок протягом деякого часу (Якщо замовник купив взуття сьогодні, то він, ймовірно, купить шкарпетки протягом пяти днів) Правило класифікаціїможе використовуватися для прийняття рішення щодо задоволення заявки на отримання товару в кредит (Якщо дохід замовника перевищує 75 тис дол на рік, то, ймовірно, ризик неплатежу буде невеликий) і тд Подібно правилам звязків, правила залежності слідства і правила класифікації також мають рівні підтримки і достовірності

Розробка даних являє собою величезну самостійну тему [222], тому очевидно, що розглянути її досить докладно в цій книзі неможливо Ми обмежимося коротким описом ймовірного застосування методів розробки даних до розширеної версії бази даних постачальників і деталей Насамперед, за відсутності інших джерел інформації можна використовувати логічний висновок за допомогою нейронної мережі для класифікації постачальників за їх спеціалізації, наприклад, по кріпильних деталей і деталей двигуна, а пророкування значень (Value prediction) – для прогнозування того, якими постачальниками і які деталі найбільш ймовірно будуть поставлятися Потім можна використовувати демографічну кластеризацию, тобто розбивку на групи, щоб звязати витрати на поставки з географічним розташуванням і тим самим закріпити постачальників за регіонами поставки Після цього можна застосувати дослідження звязків, щоб визначити ті деталі, які отримані разом, в одній поставці За допомогою послідовного виявлення закономірностей можна визначити, що постачання кріпильних деталей зазвичай йдуть за поставками деталей двигуна, а шляхом виявлення аналогічнихчасових послідовностей відкрити, що є сезонні зміни обсягів поставок певних деталей (деякі з таких змін відбуваються восени, а інші-навесні)

Джерело: Дейт К Дж, Введення в системи баз даних, 8-е видання: Пер з англ – М: Видавничий дім «Вільямс», 2005 – 1328 с: Ил – Парал тит англ

Схожі статті:


Сподобалася стаття? Ви можете залишити відгук або підписатися на RSS , щоб автоматично отримувати інформацію про нові статтях.

Коментарів поки що немає.

Ваш отзыв

Поділ на параграфи відбувається автоматично, адреса електронної пошти ніколи не буде опублікований, допустимий HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

*

*