Зіставлення полів моделі і полів набору даних

Щоб виконати скоринг активного набору даних, цей набір даних повинен містити поля (змінні), які відповідають всім предикторам в моделі Якщо модель, крім того, містить поля розщеплення, то набір даних також повинен містити поля, які відповідають всім полям розщеплення в моделі

n За замовчуванням будь-які поля в активному наборі даних, які мають ті ж імена і типи, що й поля в моделі, зіставляються автоматично

n Використовуйте список, що розкривається для зіставлення полів у наборі даних і моделі Для зіставлення полів необхідно, щоб тип даних для кожного поля був одним і тим же як в моделі, так і в наборі даних

n Не можна продовжити роботу Конструктора скорингу для активного набору даних, якщо все предиктори (а також поля розщеплення, якщо вони є) в моделі не зіставлені з полям у активному наборі даних

Малюнок 15-2

Конструктор скорингу: Зіставлення полів моделі

Поля набору даних Цей список, що розкривається містить імена всіх полів в активному наборі даних Поля, які не збігаються за типом даних з відповідним полем в моделі, не можуть бути обрані

Поля моделі Це поля, використані в моделі

Скоринг даних з використанням прогнозних моделей

Роль Може бути виведена одна з перерахованих нижче ролей:

n Предиктор Це поле використано в моделі в якості предиктора Тобто значення

предикторів використовуються для передбачення значень цільової змінної

n Розщеплення Значення полів розщеплення використовуються, щоб задати підгрупи, до кожної з яких скоринг застосовується окремо від інших підгруп Для кожної унікальної комбінації значень полів розщеплення формується окрема підгрупа (Примітка: розщеплення допускаються тільки для деяких моделей)

n ID запису Ідентифікатор запису (спостереження)

Мера Шкала вимірювань для моделі, як вона задана в моделі Для моделей, в яких шкала вимірювань може впливати на значення скорингу, використовується шкала вимірювань, як вона задана в моделі, а не як вона задана в активному наборі даних За додатковою інформацією про тип шкали вимірювань звертайтеся до Шкала вимірювання змінної

Тип Тип даних, як він заданий в моделі Тип даних в активному наборі даних повинен відповідати типу даних в моделі Тип даних може бути одним з наступних:

n Текстовий Поля з текстовим типом даних в активному наборі даних зіставляються з полями з текстовим типом даних в моделі

n Числовий Числові поля з форматами виводу, відмінними від форматів дат і часу,

в активному наборі даних зіставляються з полями з числовим типом даних в

моделі Це включає формати F (числовий), Долар, Точка, Кома, E (наукова запис), а також будь-який користувацький грошовий формат Поля з форматами Wkday (день тижня) і Month (місяць року) також вважаються числовими, а не датами Для деяких типів моделей поля дат і часу в активному наборі даних також вважаються порівнянними з полями з числовим типом даних в моделі

n Дата Числові поля з форматами виводу, які включає дату, але не час, в

активному наборі даних зіставляються з полями з типом дат в моделі Це включає

Date (dd-mm-yyyy), Adate (mm / dd / yyyy), Edate (ddmmyyyy), Sdate (yyyy / mm / dd) і

Jdate (dddyyyy)

n Час Числові поля з форматами виводу, які включає час, але не дату, в активному наборі даних зіставляються з полями з типом даних часу в моделі Це включає Time (hh: mm: ss) і Dtime (dd hh:mm:ss)

n Мітка дати / часу Числові поля з форматом виводу, який включає як дату, так і час, в активному наборі даних зіставляються з полями з цим типом даних в моделі Це відповідає формату Datetime (dd-mm-yyyy hh: mm: ss) в активному наборі даних

Примітка: Крім імені поля і його типу, необхідно упевнитися в тому, що реальні значення даних в наборі даних, для якого виконується скоринг, записані так само, як і значення даних в наборі даних, використаному для побудови моделі Наприклад, якщо модель була побудована з використанням поля Income, В якому дохід розбитий на чотири категорії, а поле IncomeCategory в активному наборі даних має шість різних категорій доходу, то ці поля не відповідають один одному й отриманим значенням скорингу довіряти не можна

Пропущені значення

Ця група параметрів управляє обробкою пропущених значень, виявлених в процесі скорингу в предікторних змінних, заданих в моделі Обробка пропущених значень в контексті скорингу означає наступне:

n Предиктор не містить значення Для числових полів (змінних) це означає системне пропущене значення Для текстових полів це означає нульову рядок

n Значення було визначено як користувальницьке пропущене в моделі для даного предиктора Значення, визначені як користувальницькі припущення в активному наборі даних, але не в моделі, що не інтерпретуються як пропущені значення в процесі скорингу

n Предиктор є категоріальним і це значення не є одним із значень категорій, визначених у моделі

Використовувати заміну значенійДелается спроба заміни значення при виявленні пропущених значень в процесі скорингу Метод підбору значення для заміни пропущеного залежить від типу прогностичної моделі

n Моделі лінійної регресії і дискримінантного аналізу Для незалежних

змінних в моделях лінійної регресії і дискримінантного аналізу, якщо був

обраний варіант заміни пропущених значень середнім значенням при побудові та збереженні моделі, то це середнє значення використовується замість пропущених значень при скоринг Якщо середньо значення недоступно, то результатом буде системне пропущене значення

n Моделі дерев рішень У моделях CHAID і Вичерпний CHAID

використовується найбільший вузол-син у разі відсутності значення розщеплює змінної Найбільший вузол-син – це вузол, що містить найбільшу підвибірки серед вузлів-синів при використанні навчальної вибірки У моделях C & RT і QUEST в першу чергу використовуються змінні-сурогати (Розщеплення за сурогатним змінним – це розщеплення, максимально близьке до розщеплення, яке забезпечують вихідні предиктори) якщо сурогатні розщеплення не задані чи сурогатні змінні містять пропущені значення, то використовується найбільший вузол-син

n Моделі логістичної регресії Відносно коваріат в моделях логістичної

регресії, якщо середнє значення предіктора було включено в збережену модель,

то це середнє значення використовується для заміни пропущених значень під час скорингу Якщо предиктор є категоріальним (наприклад, фактором в моделі логістичної регресії) або якщо середнє значення недоступно, то результатом буде системне пропущене значення

Використовувати системні припущення При скоринг спостереження з пропущеним значенням в якості результату скорингу повертається системно пропущене значення

Джерело: Керівництво користувача за базовою системою Statistics 20

Схожі статті:


Сподобалася стаття? Ви можете залишити відгук або підписатися на RSS , щоб автоматично отримувати інформацію про нові статтях.

Коментарів поки що немає.

Ваш отзыв

Поділ на параграфи відбувається автоматично, адреса електронної пошти ніколи не буде опублікований, допустимий HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

*

*