Практикум з Data mining

Навчання сучасним методам аналізу даних неможливо без застосування спеціалізованих програмних засобів та виконання практичних завдань, але чи можливе створення такого лабораторного практикуму без використання комерційного ПЗ? Освітній проект кафедри аналізу даних і штучного інтелекту ГУ-ВШЕ покликаний відповісти на це питання.

Дмитро Ігнатов

Потрібно передбачити факт викрадення, і, як видно в цьому випадку, без попереднього шкалювання впоратися із завданням складно. Якщо вирішувати цю задачу за допомогою ДСМ-методу (метод названий на честь англійського філософа Джона Стюарта Мілля і заснований на навчанні гіпотезам по позитивним і негативним прикладам явища за допомогою операції подібності), то можна отримати кілька гіпотез на користь позитивної (викрадають) і негативною (не викрадають) класифікації об'єктів. Позитивні: {червоний, спортивний}, {жовтий, Японія, немає пошкоджень} і {спортивний, Японія}. Негативні: {жовтий, США} і {червоний, джип, Японія, є ушкодження}. Згідно знайденим гіпотезам приклади 8, 9 і 10 класифікуються відповідно негативно, позитивно і невизначено. Подібні завдання студент вирішує, виконуючи обчислення вручну під час здачі допуску до лабораторної роботи.

Різні методи мають свої особливості, наприклад, ДСМ-метод будує прогнози дуже обережно, що робить його корисним, наприклад, в задачах прогнозування токсичності речовин – менше помилка віднесення отруйних речовин до нетоксичних. Завдання для обчислень за допомогою програмних систем проводяться на більш великих наборах даних: коли зрозуміла суть методу, дуже важливо навчити аналітиків вмінню інтерпретувати результати, серед яких може виявитися не так багато нових нетривіальних знань.

Пропонувати набори даних більших розмірів, що містять кілька мільйонів об'єктів або ознак, не входить у завдання курсу, тому що для успішного оволодіння методами зниження розмірності і відбору релевантних ("Цікавих") об'єктів або ознак достатньо дослідження масивів розмірами порядку 1 тис. об'єктів на 100 ознак.


Схожі статті:


Сподобалася стаття? Ви можете залишити відгук або підписатися на RSS , щоб автоматично отримувати інформацію про нові статтях.

Коментарів поки що немає.

Ваш отзыв

Поділ на параграфи відбувається автоматично, адреса електронної пошти ніколи не буде опублікований, допустимий HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

*

*