Процес розкриття даних – ЧАСТИНА 1

Традиційний процес розкриття даних виглядає наступним чином Модель розкриття даних навчається на тестових наборах даних, для яких відомий результат Після цього налаштована модель використовується для отримання результатів на основі нових даних по мірі їх надходження Використання розкриття даних вимагає виконання кількох дій, тільки деякі з яких безпосередньо повязані зі службою аналізу

■ Вивчення предметної області і даних Визначення питань, відповіді на які необхідно отримати, і даних, необхідних для формування цієї відповіді Дані повинні бути доречні для розвязуваної задачі і мати прийнятну точність Тільки в цьому випадку можна чекати правдоподібні відповіді на поставлені питання

■ Підготовка даних Залежно від конкретної ситуації підготовка даних до розкриття може бути простою, а може довести до знемоги У цьому процесі бажано врахувати деякі моменти

• Слід уникати рядків з низькою якістю даних Поняття якості даних специфічно для кожної предметної області, але воно зазвичай передбачає достатній обсяг вибірок і відсутність значень, що виходять за прийнятний діапазон (тобто описують неможливі або вкрай малоймовірні ситуації)

• Слід максимально очистити дані, тобто усунути дублювання, некоректні та неузгоджені значення, масштабування, форматування і тп

• Служба аналізу приймає одну первинну таблицю вибору і, можливо, одну або кілька дочірніх вкладених таблиць Якщо джерело даних розподілений по безлічі таблиць, потрібно виконати денормализация за допомогою уявлень чи попередньої обробки

• Нерівномірні тимчасові ряди можуть тільки виграти від застосування згладжування

• У процесі моделювання можуть виявитися корисними керовані атрибути Зазвичай вони являють собою або значення, обчислені на основі інших атрибутів (наприклад, Прибуток = Дохід-Витрати), або дискретні діапазони значень (наприклад, Високий дохід, Низький дохід і тп)

Деякі типи підготовки даних можна виконати в поданні джерела даних служби аналізу за допомогою іменованих запитів і іменованих обчислень Коли таке можливо, настійно рекомендується уникати переробки наборів даних, якщо зміни стають необхідними

На закінчення необхідно розбити підготовлені дані на два безлічі: набір даних навчання, призначений для настроювання моделі, і набір даних тестування, який буде використаний для оцінки точності моделі Перетворення Row Sampling і Percentage Sampling (див главу 42) служби інтеграції можна використовувати для розділення наборів даних випадковим чином Зазвичай для тестування відбирається 10-20% рядків

Моделювання Моделі в службі аналізу створюються за допомогою попереднього визначення структури розкриття даних, в якій визначені таблиці, що беруть участь в якості входу Після цього в структуру додаються моделі розкриття даних (різні алгоритми) І нарешті, всі моделі в структурі проходять процес навчання з використанням навчальних даних

■ Оцінка Оцінка точності і корисності моделей-кандидатів Цей процес спрощується за рахунок використання діаграми Mining Accuracy Chart служби аналізу Для отримання оцінки точності моделі та порівняння її з потребами виробництва використовують тестовий набір даних

■ Розгортання Інтеграція запитів прогнозування в додатки

Більш детальний опис процесу розкриття даних можна знайти на сайті

wwwcrisp-dmorg

Незважаючи на те що описаний процес типовий для завдань розкриття даних, він не охоплює всі можливі ситуації Іноді дослідження набору даних самодостатньо, і забезпечує краще розуміння даних та їх взаємозвязків Процес в даному циклі зводиться до повторення дій підготовки, моделювання та оцінки На іншому кінці спектру знаходиться ситуація, коли для виконання завдання з додатком достатньо створювати і навчати модель, а потім виконувати до неї запит, наприклад, для виявлення значень в наборі даних, не властивих основному потоку Незалежно від ситуації, розуміння типового процесу допоможе вам у створенні адаптації, відповідною для конкретного завдання

Моделювання в службі аналізу

Для створення структури розкриття даних відкрийте проект служби аналізу в утиліті Business Intelligence Development Studio (далі BEDS) Після розгортання проект створить базу даних служби аналізу на сервері призначення

Починається процес моделювання з вказівки службі аналізу, де розміщені дані для навчання і тестування

■ Визначте джерела даних, що посилаються на дані, які будуть використані в моделюванні

■ Створіть представлення джерел даних, які включають усі навчальні таблиці Якщо використовуються вкладені таблиці, то джерело даних повинен відображати взаємозвязки між станами і вкладеними таблицями

Додаткова Про створення та управлінні джерелами даних та їх уявленнями см в розділі 43

інформація

Майстер розкриття даних

Майстер розкриття даних (Data Mining Wizard) проводить користувача через процес визначення нової структури розкриття даних і першої моделі в цій структурі Для запуску

майстра клацніть правою кнопкою миші на вузлі Mining Structure в Solution Explorer і виберіть у контекстному меню пункт New Mining Model Майстер розкриття даних містить кілька послідовних сторінок

■ Select Definition Method На цій сторінці можна вибрати або реляційні дані, або куб навчальних даних У даному випадку виберіть реляційні дані (Відмінності між структурами розкриття, заснованими на реляційних даних і на кубах OLAP, описані в розділі Інтеграція OLAP.)

■ Select Data Mining Technique Виберіть алгоритм, який буде використовуватися в першої моделі розкриття створюваної структури (Найбільш поширені алгоритми описані в розділі Алгоритми’.)

■ Specify Table Types Виберіть таблицю станів, що містить навчальні дані, і всі повязані вкладені таблиці Вкладені таблиці завжди повязані з таблицею станів відносинами один до багатьох. Як приклад можна привести список замовлень, використовуваний як таблиці станів, та асоційовані рядка замовлень під вкладеної таблиці

■ Specify the Training Data Розбийте стовпці на категорії, згідно їх використанню в структурі розкриття Якщо який-небудь стовпець не включено ні в одну з категорій, то він виключається зі структури Доступні категорії наведені нижче

• Key Виберіть стовпці, які унікально ідентифікують рядки даних навчання За замовчуванням первинний ключ відображається в поданні джерела даних із позначкою ключа

• Predictable Ідентифікуйте всі стовпці моделі, які повинні прогнозуватися

• Input Помітьте всі стовпці, які будуть використані в прогнозуванні, – як правило, до їх складу входять і самі прогнозовані стовпці Кнопка Suggest може допомогти в процесі вибору, якщо прогнозовані стовпці були обрані і перераховані за важливістю, заснованої на вибірці навчальних даних Однак намагайтеся уникати тих даних, які з малою ймовірністю можуть повторюватися в експлуатаційних даних Наприклад, ідентифікатор клієнта, його імя або адресу можуть бути досить ефективними на етапі навчання моделі, проте як тільки модель буде побудована для пошуку конкретних ідентифікаторів або адрес, малоймовірно, що нові вводяться клієнти небудь будуть збігатися за даними атрибутам І навпаки, значення статі та професії, найімовірніше все, будуть часто повторюватися в записах про нових клієнтів

■ Specify Columns Content and Data Type Перегляньте і скоректуйте при необхідності типи даних (Boolean, Date, Double, Long, Text), перевірте і виправте типи вмісту У цьому процесі може допомогти клацання на кнопці Detect для обчислення безперервних числових даних на основі дискретних Доступні типи вмісту наведені нижче

• Key Містить значення, яке або поодинці, або в сукупності з іншими ключами унікально ідентифікує рядок у навчальній таблиці

• Key Sequence Виступає в якості ключа і визначає порядок рядків у таблиці Використовується для впорядкування рядків в алгоритмі послідовної кластеризації

• Key Time Виступає в якості ключа і визначає порядок рядків у таблиці на підставі тимчасової осі Використовується для впорядкування рядків у алгоритмі часових рядів

• Continuous Безперервні числові дані, часто є результатом деяких обчислень або вимірювань, такі як вік, ціна або висота

• Discrete Дані, які можна представити у вигляді списку значень, такі як модель, професія або метод доставки

• Discretized Служба аналізу перетворює безперервні дані в набір дискретних діапазонів (наприклад, діапазони віку 1 рік-10 років, 11-20 років, 21 рік-30 років і тд) При виборі цього типу вмісту після завершення роботи майстра слід встановити ще деякі параметри стовпця Відкрийте структуру розкриття виберіть стовпець, а потім встановіть параметри, що визначають характер дискретизації: DiseretizationBucketCount (кількість діапазонів дискретизації) і DiscretizationMethod (метод дискретизації)

Джерело: Нільсен, Пол Microsoft SQL Server 2005 Біблія користувача : Пер з англ – М: ООО ІД Вільямс , 2008 – 1232 с : Ил – Парал тит англ

Схожі статті:


Сподобалася стаття? Ви можете залишити відгук або підписатися на RSS , щоб автоматично отримувати інформацію про нові статтях.

Коментарів поки що немає.

Ваш отзыв

Поділ на параграфи відбувається автоматично, адреса електронної пошти ніколи не буде опублікований, допустимий HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

*

*