Практикум з Data mining, Інші СУБД, Бази даних, статті

Навчання сучасним методам аналізу даних неможливо без застосування спеціалізованих програмних засобів та виконання практичних завдань, але чи можливе створення такого лабораторного практикуму без використання комерційного ПЗ? Освітній проект кафедри аналізу даних і штучного інтелекту ГУ-ВШЕ покликаний відповісти на це питання.

Дмитро Ігнатов

Фахівець, не тільки володіє теоретичними знаннями, але і вміє вирішувати різні завдання аналізу за допомогою спеціалізованого програмного забезпечення, більш затребуваний, тому курс, розроблений на кафедрі аналізу даних і штучного інтелекту, перш за все орієнтований на практичне застосування сучасних методів розробки (видобутку) даних на реальних масивах, причому з допомогою вільно поширюваних програмних інструментів. До уваги були прийняті численні прохання з боку колег і студентів факультету бізнес-інформатики та відділення прикладної математики, і в курс були включені лекції та практичні заняття з сучасним аналітичним пакетам.

Практикум можна поповнювати; наприклад, в майбутньому в нього планується включити лабораторні роботи, пов'язані зі спеціальними видами даних: категоризація текстів, аналіз Графова структур і т.п. Частина лабораторних робіт практикуму підготовлена ​​науково-навчальної групою "Рекомендаційні інтернет-сервіси та інтелектуальний аналіз даних" факультету бізнес-інформатики ГУ-ВШЕ.


Методика навчання

Кваліфікований аналітик повинен вміти самостійно провести необхідну роботу з даними, визначити тип задачі (класифікація, кластеризація, прогнозування, пошук залежностей і т.п.), вирішити її адекватно обраним методом з оптимально певними параметрами, оцінити результати, зробити змістовні висновки та інтерпретувати. Крім навчання таких фахівців практикум повинен сприяти формуванню культури оформлення аналітичних звітів та освоєння пошукового і проблемно-орієнтованого підходу до вирішення завдань аналізу даних.

Студент вивчає необхідний теоретичний мінімум, викладений в описі роботи, відповідає на питання для перевірки готовності до виконання лабораторної роботи, отримує дані, використовує програмне забезпечення, вибирає потрібну модель і метод, намагається вирішити задачу. Результати роботи методу можуть бути як задовільними, наприклад метод успішно вирішує задачу прогнозування для 92% тестової вибірки, або ні, наприклад коли кількість правильних прогнозів низько – 28%. Виникає питання, чому завдання не вирішена. Причиною низької якості прогнозів можуть бути: неправильна специфікація моделі, шуми і помилки в даних, неадекватний вибір методу аналізу даних і / або його параметрів, некоректний спосіб оцінки якості прогнозів і т.п. Як і у випадку з науковими гіпотезами, необхідно піддавати сумніву правильність дій аналітика на кожному з етапів роботи і пропонувати кроки щодо поліпшення схеми аналізу даних. Принципи, що лежать в основі наукових гіпотез, як не можна краще узгоджуються з поняттям схеми аналізу даних: перевірюваність, максимальна спільність, предсказательная сила і простота.

Важливим аспектом навчання аналізу даних є формування вміння інтерпретувати отримані результати, наприклад пояснювати причинно-наслідкові зв'язки на основі знайдених закономірностей (пошук асоціативних правил). Слід також відзначити диференційований характер такого підходу до навчання, так як студент в рамках лабораторної роботи вирішує завдання індивідуально, відповідаючи на питання викладача по конкретній темі роботи.

При такій побудові курсу усувається розрив між знанням теорії методу і його використанням на реальних даних. Від викладача вимагається контролювати виконання студентами лабораторних робіт практикуму, перевіряти знання студентів після вивчення матеріалу теоретичного мінімуму, перевіряти підсумкові звіти, консультувати студента. Для повноцінного проведення практикуму викладач повинен бути знайомий з вживаними програмними системами і володіти математичними моделями й алгоритмами, що лежать в основі методів аналізу даних цього курсу.

Передбачувана кількість годин курсу розраховується виходячи з обраного для проведення числа лабораторних робіт. Приблизно 2-4 академічних години відводиться на виконання однієї лабораторної роботи і стільки ж на захист всіх робіт. Оптимальна кількість студентів в комп'ютерному класі – 15-20 осіб на одного викладача.

У навчальному плані бакалаврату четвертого курсу на 2010/11 навчальний рік відділення прикладної математики та інформатики курс називається "Системи розробки даних і машинного навчання", на нього відводиться 22 лекційних години і 24 години практичних занять, а в якості форм контролю вказана одна контрольна робота і залік за підсумками практикуму.

Перед виконанням лабораторної роботи студент відповідає на питання і виконує завдання для допуску до практикуму (прості модельні розрахунки, вироблені вручну). Тут оцінюється рівень розуміння студентом обраної моделі або методу, правильність зроблених вручну розрахунків для навчального прикладу. Після виконання роботи оцінюється дотримання формальних вимог до звіту, правильність виконання роботи (Обробка даних, специфікація моделі, оцінка якості результатів і т.п.), вірність і значимість висновків, прийнятність запропонованої інтерпретації результатів. Далі викладач перевіряє знання студентів за матеріалами наданих ними звітів з урахуванням зауважень і помилок, виявлених раніше.

Студенти отримують як завдання одну зі списку лабораторних робіт, текст цієї роботи в електронному вигляді або на паперовому носії. Далі, дотримуючись інструкції з виконання лабораторної роботи, студент відповідає на запитання теоретичного мінімуму та для запропонованого набору даних проводить дослідження по кроках, фіксуючи результати в електронній формі звіту.


Зміст курсу та програмні системи аналізу даних

Лабораторні роботи проводяться за такими темами:



  1. Дослідження об'єктно-ознакових даних за допомогою програмних засобів аналізу формальних понять.
  2. Пошук асоціативних правил і частих (замкнутих) множин ознак.
  3. Дерева рішень.
  4. Завдання кластеризації:
    4.1. ієрархічна кластеризація;
    4.2. метод k-середніх;
    4.3. спектральна кластеризація.
  5. Неточні безлічі (Rough Sets).
  6. ДСМ-метод в системі QuDA.
  7. Наївна Байєсова класифікація (Naï ve Bayes Classifier).
  8. Методи OLAP.

З одного боку, все це найбільш затребувані на практиці методи, а з іншого – cреди них є алгебраїчні методи, які встигли завоювати популярність у наукових колах для вирішення задач розробки даних і машинного навчання, але ще не так добре відомі пересічним аналітикам.

Питання для допуску до лабораторної роботи можуть включати додаткові завдання у вигляді модельних навчальних розрахунків, виконуваних вручну для наборів даних розмірами сім-десять об'єктів на п'ять-шість ознак для різних предметних областей (видача кредиту, пророцтво викрадення автомобіля, визначення їстівності грибів, вибір партнера для знайомства і т.п.). Такий підхід дозволяє залучити й сконцентрувати увагу учня на суті методу і розібрати його роботу в подробицях.

Як інструменти дослідження передбачається використовувати вільне ПЗ для видобутку даних (data mining) і машинного навчання. Дійсно, використання тільки промислового програмного забезпечення не дозволяє зробити курс доступним для вивчення протягом одного-двох навчальних модулів – цьому перешкоджає складність установки і настройки програмного забезпечення (Microsoft SQL Server, Oracle Data Miner і т.д.). Крім того, складність промислових технологій для обробки великих обсягів даних може приховати суть досліджуваних методів аналізу даних. Комерційні аналітичні пакети часто містять зайву функціональність, так як орієнтовані на використання статистичних методів (Statistica, Stata, SPSS тощо), а даний курс зосереджений на методах data mining і машинного навчання. Безкоштовно поширювані програмні системи для аналізу даних дозволяють уникнути зазначених складнощів – зазвичай вони створюються вченими-практиками в провідних лабораторіях і тому часто володіють найбільш актуальною на сьогоднішній день функціональністю.

У лабораторних роботах курсу використовуються наступні відкриті програмні системи: Weka 3 – Data Mining Software in Java (розроблена командою фахівців Університету Вайкато, Нова Зеландія); Orange – Data Mining Fruitful & Fun (пакет створений лабораторією штучного інтелекту Університету Любляни, Словенія); QuDA – Data Miner Discovery Environment (розроблена в технічному Університеті міста Дармштадта, Німеччина); Coron System – платформа видобутку даних (розроблена колегами з групи Orpailleur в лабораторії LORIA Університету Нансі, Франція); Concept Explorer – один з основних інструментів аналізу формальних понять (розроблений в Технічному університеті Дармштадта, Німеччина); RSES2 – Rough Set Exploration System (розроблена в Інституті математики Університету Варшави, Польща). Кожна програмна система використовується як мінімум в одній лабораторній роботі, а всі перераховані кошти можуть працювати під управлінням більшості сучасних ОС.

Інша проблема для такого курсу – брак реальних даних, тому пропонується використовувати репозиторії, сформовані науковим співтовариством, зокрема UCI Machine Learning Repository, створений для потреб дослідників у галузі машинного навчання в Каліфорнійському університеті Ірвіна і містить 190 наборів даних з різних галузей фізики, техніки, біології, медицини, соціології, бізнесу та ін Інший тип репозиторіїв характерний для змагань в рамках конференцій з аналізу даних, наприклад, Frequent Itemset Mining Implementations Repository, в якому крім даних містяться вихідні коди алгоритмів. Збережені в них набори даних отримані при вирішенні реальних задач, багато з яких представляють собою актуальну науково-практичну проблему – вчені застосовують ці набори даних для доведення якості та придатності запропонованих ними нових методів аналізу даних.

Усі програми, а також набори даних і тексти лабораторних робіт доступні в електронному вигляді, у тому числі на сайті факультету. Можливість виконувати практикум поза аудиторних умов робить його придатним для самостійної роботи в рамках тих курсів, де аудиторне число годин обмежено або немає можливості використовувати комп'ютерне обладнання.


Попередні вимоги до знань, умінь і навичок студентів

Студенти повинні володіти основними поняттями з курсу дискретної математики: безліч, відображення, бінарне відношення, властивості бінарних відносин, частковий порядок, діаграма часткового порядку, функція, числення висловлювань і предикатів першого порядку, граф і алгоритм. Знання з курсу лінійної алгебри включають обчислення з матрицями, знаходження власних чисел і власних векторів, рішення матричних рівнянь. Знання з курсу теорії ймовірностей припускають попереднє знайомство студентів з поняттям ймовірності, алгеброю подій, незалежності подій і теоремою Байєса. Додатковою вимогою є знайомство з поняттям інформаційної ентропії Шеннона.

***

Незважаючи на появу навчальної літератури з методів машинного навчання і видобутку даних, пропонований лабораторний практикум унікальний на російському освітньому ринку в силу відкритості використовуваного ПЗ, наданого провідними міжнародними науково-дослідними колективами, і орієнтацією саме на вироблення умінь щодо його застосування в навчальних і реальних завданнях.

Дмитро Ігнатов (dignatov@hse.ru) – Викладач кафедри аналізу даних і штучного інтелекту, ГУ-ВШЕ (Москва).


Знання, вміння і навички

Основні знання, необхідні для вільного виконання практикуму, отримані студентом в рамках лекцій відповідних курсів, проте для кожної лабораторної роботи наводиться необхідний теоретичний мінімум. У перелік основних знань, активно використовуються в курсі, входять:


Студенти повинні володіти навичками установки та налаштування вільного ПЗ для аналізу даних (Concept Explorer, Coron, Orange, Weka, QuDA, RSES2 і т.д.); завантаження навчальних і дослідницьких наборів даних з відкритих репозиторіїв, наприклад UCI і FIMI тощо; роботи з наборами даних та програмним забезпеченням. Особлива увага приділяється таким аспектам, як: уміння вибрати метод аналізу даних відповідно з поставленою метою, характером завдання і даних; розуміння математичних моделей, що лежать в основі методів, описаних в базових термінах теорії множин, упорядкованих структур, прикладної алгебри та тощо; здатність студента сформулювати і виконати прості модельні розрахунки, що пояснюють суть конкретного методу; написання навчальних (аналітичних) звітів, що представляють собою міні-дослідження по застосування конкретної моделі, методу та даних, з результатами експериментів, проміжними звітами і висновками (фактично протокол виконання лабораторної роботи); пошукові вміння, спрямовані на дослідження актуальної проблеми або завдання, які активно обговорюються науковим співтовариством; читання додаткової наукової та навчальної літератури, в тому числі англійською мовою, вивчення нового ПО (не описаного в текстах практикуму); вміння правильно інтерпретувати отримані результати.


Приклад розрахункового завдання для завдання класифікації: угоняемості автомобілів

Потрібно передбачити факт викрадення, і, як видно в цьому випадку, без попереднього шкалювання впоратися із завданням складно. Якщо вирішувати цю задачу за допомогою ДСМ-методу (метод названий на честь англійського філософа Джона Стюарта Мілля і заснований на навчанні гіпотезам по позитивним і негативним прикладам явища з допомогою операції подібності), то можна отримати кілька гіпотез на користь позитивної (викрадають) і негативною (не викрадають) класифікації об'єктів. Позитивні: {червоний, спортивний}, {жовтий, Японія, немає пошкоджень} і {спортивний, Японія}. Негативні: {жовтий, США} і {червоний, джип, Японія, є пошкодження}. Відповідно до знайдених гіпотезам приклади 8, 9 і 10 класифікуються відповідно негативно, позитивно і невизначено. Такі завдання студент вирішує, виконуючи обчислення вручну під час здачі допуску до лабораторної роботи.

Різні методи мають своїми особливостями, наприклад, ДСМ-метод будує прогнози дуже обережно, що робить його корисним, наприклад, в задачах прогнозування токсичності речовин – менше помилка віднесення отруйних речовин до нетоксичним. Завдання для обчислень за допомогою програмних систем проводяться на більших наборах даних: коли зрозуміла суть методу, дуже важливо навчити аналітиків вмінню інтерпретувати результати, серед яких може виявитися не так багато нових нетривіальних знань.

Пропонувати набори даних більших розмірів, що містять кілька мільйонів об'єктів або ознак, не входить у завдання курсу, тому що для успішного оволодіння методами зниження розмірності і відбору релевантних ("Цікавих") об'єктів або ознак достатньо дослідження масивів розмірами порядку 1 тис. об'єктів на 100 ознак.


Схожі статті:


Сподобалася стаття? Ви можете залишити відгук або підписатися на RSS , щоб автоматично отримувати інформацію про нові статтях.

Коментарів поки що немає.

Ваш отзыв

Поділ на параграфи відбувається автоматично, адреса електронної пошти ніколи не буде опублікований, допустимий HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

*

*