Пошук дубльованих спостережень

Причини появи дублюються спостережень можуть бути різними:

n Помилки введення даних, коли одне і те ж спостереження випадково було введено більше одного разу

n Один і той же первинний ідентифікаційний номер у декількох спостережень, але різні вторинні ідентифікаційні номери, як наприклад у спостережень, що відносяться до членів однієї сімї

n Кілька спостережень відносяться до одного обєкту спостереження, але значення змінних, окрім тієї, за якою цей обєкт був ідентифікований, відрізняються, наприклад, покупки, здійснені людиною або організацією в різні періоди часу

Процедура дозволяє виявити дублі майже у всіх можливих випадках і надає можливість керувати процесом автоматичного розділення спостережень на унікальні і дублюються

Щоб виявити дублюються спостереження:

E Виберіть у меню:

Дані> ..

E Виберіть одну або кілька (ключових) змінних, за якими буде вестися пошук дубльованих спостережень

E Виберіть один або кілька параметрів у групі Створити змінні

Додатково Ви можете:

E Вибрати одну або кілька змінних для сортування спостережень всередині груп, що задаються змінними, за якими ведеться пошук дубльованих спостережень Порядок сортування, заданий цими змінними, визначає першого і останнє спостереження в кожній групі Якщо сортування дубльованих спостережень не задане, використовується порядок спостережень у вихідному файлі

E дублюються спостереження можна відфільтровувати автоматично, щоб не включати їх в звіти, діаграми і розрахунки статистик

Підготовка даних

Малюнок 7-14

Діалогове вікно

Пошук дублюючих спостережень по: Спостереження вважаються дублюючими, якщо їх значення збігаються по всім обраним змінним Якщо Ви хочете виявити тільки ті спостереження, які збігаються на 100%, виберіть всі змінні

Сортування всередині груп дубльованих спостережень по: Спостереження автоматично сортуються по змінним, за якими ведеться пошук дубльованих спостережень Ви можете вибрати змінні для додаткової сортування Ці змінні будуть визначати порядок спостережень у кожній групі дубльованих спостережень

n Для будь-якої змінної сортування можна вибрати сортування в порядку зростання або в порядку убування

n Якщо вибрати кілька змінних сортування, спостереження упорядковано за значеннями кожної змінної всередині категорій, що задаються значеннями попередньої змінної у списку сортуючих Наприклад, якщо вибрати дата в якості першої змінної для сортування та кількість в якості другої змінної сортування, то спостереження будуть відсортовані за кількістю всередині кожної дати

n Для зміни порядку змінних сортування використовуйте кнопки у вигляді стрілок вгору і вниз праворуч від списку

n Порядок сортування визначає перший і останнє спостереження в кожній групі співпадаючих спостережень, що, в свою чергу, визначає значення необовязковою індикаторної змінної унікальних спостережень Наприклад, якщо Ви хочете відфільтрувати (видалити) всі спостереження в кожній групі, крім останніх, можна відсортувати спостереження в порядку зростання по змінній дата, в результаті чого останні по датою спостереження будуть останніми в групі

Індикатор унікальних спостережень Створюється змінна, що приймає значення 1 для

унікальних спостережень і значення 0 для неунікальний спостережень у кожній групі

n Унікальним може бути першим або останнім спостереження в кожній групі дубльованих (співпадаючих) спостережень, які визначаються порядком сортування всередині груп Якщо не задати змінні для сортування, порядок спостережень у кожній групі визначається вихідним порядком спостережень у файлі

n Ви можете використовувати індикаторну змінну в якості фільтрує змінної для виключення дубльованих спостережень зі звітів і аналізу без видалення цих спостережень з файлу даних

Лічильник дубльованих спостережень у кожній групі Створюється змінна з послідовним номером від 1 до n для спостережень у кожній групі дубльованих спостережень Послідовність визначається поточним порядком спостережень у кожній групі, який може відповідати вихідному порядку спостережень у файлі або задаватися змінними сортування

Перемістити дублюються спостереження у верхню частину файлу даних Файл даних сортується таким чином, що всі групи дубльованих спостережень виявляються у верхній частині файлу, що полегшує перегляд дубльованих спостережень в Редакторі даних

Висновок частот для створених змінних Частотні таблиці з частотами для кожної створеної змінної Наприклад, для змінної-індикатора унікальних спостережень в таблиці наводиться число спостережень, що мають значення 0 в цій змінній,

що показує кількість дублів, і число спостережень, що мають значення 1 в цій змінній, що відповідає кількості унікальних спостережень

Пропущені значення У числових змінних системні пропущені значення обробляються аналогічно іншим значенням – спостереження з пропущеними значеннями у змінній, за якою ведеться пошук дубльованих спостережень, розглядаються як дублюються з цієї змінної У текстових змінних спостереження, в яких пропущені значення змінної, по якій ведеться пошук дубльованих спостережень, розглядаються як дублюються з цієї змінної

Джерело: Керівництво користувача за базовою системою Statistics 20

Схожі статті:


Сподобалася стаття? Ви можете залишити відгук або підписатися на RSS , щоб автоматично отримувати інформацію про нові статтях.

Коментарів поки що немає.

Ваш отзыв

Поділ на параграфи відбувається автоматично, адреса електронної пошти ніколи не буде опублікований, допустимий HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

*

*