Пошук дубльованих спостережень
Причини появи дублюються спостережень можуть бути різними:
n Помилки введення даних, коли одне і те ж спостереження випадково було введено більше одного разу
n Один і той же первинний ідентифікаційний номер у декількох спостережень, але різні вторинні ідентифікаційні номери, як наприклад у спостережень, що відносяться до членів однієї сімї
n Кілька спостережень відносяться до одного обєкту спостереження, але значення змінних, окрім тієї, за якою цей обєкт був ідентифікований, відрізняються, наприклад, покупки, здійснені людиною або організацією в різні періоди часу
Процедура дозволяє виявити дублі майже у всіх можливих випадках і надає можливість керувати процесом автоматичного розділення спостережень на унікальні і дублюються
Щоб виявити дублюються спостереження:
E Виберіть у меню:
Дані> ..
E Виберіть одну або кілька (ключових) змінних, за якими буде вестися пошук дубльованих спостережень
E Виберіть один або кілька параметрів у групі Створити змінні
Додатково Ви можете:
E Вибрати одну або кілька змінних для сортування спостережень всередині груп, що задаються змінними, за якими ведеться пошук дубльованих спостережень Порядок сортування, заданий цими змінними, визначає першого і останнє спостереження в кожній групі Якщо сортування дубльованих спостережень не задане, використовується порядок спостережень у вихідному файлі
E дублюються спостереження можна відфільтровувати автоматично, щоб не включати їх в звіти, діаграми і розрахунки статистик
Підготовка даних
Малюнок 7-14
Діалогове вікно
Пошук дублюючих спостережень по: Спостереження вважаються дублюючими, якщо їх значення збігаються по всім обраним змінним Якщо Ви хочете виявити тільки ті спостереження, які збігаються на 100%, виберіть всі змінні
Сортування всередині груп дубльованих спостережень по: Спостереження автоматично сортуються по змінним, за якими ведеться пошук дубльованих спостережень Ви можете вибрати змінні для додаткової сортування Ці змінні будуть визначати порядок спостережень у кожній групі дубльованих спостережень
n Для будь-якої змінної сортування можна вибрати сортування в порядку зростання або в порядку убування
n Якщо вибрати кілька змінних сортування, спостереження упорядковано за значеннями кожної змінної всередині категорій, що задаються значеннями попередньої змінної у списку сортуючих Наприклад, якщо вибрати дата в якості першої змінної для сортування та кількість в якості другої змінної сортування, то спостереження будуть відсортовані за кількістю всередині кожної дати
n Для зміни порядку змінних сортування використовуйте кнопки у вигляді стрілок вгору і вниз праворуч від списку
n Порядок сортування визначає перший і останнє спостереження в кожній групі співпадаючих спостережень, що, в свою чергу, визначає значення необовязковою індикаторної змінної унікальних спостережень Наприклад, якщо Ви хочете відфільтрувати (видалити) всі спостереження в кожній групі, крім останніх, можна відсортувати спостереження в порядку зростання по змінній дата, в результаті чого останні по датою спостереження будуть останніми в групі
Індикатор унікальних спостережень Створюється змінна, що приймає значення 1 для
унікальних спостережень і значення 0 для неунікальний спостережень у кожній групі
n Унікальним може бути першим або останнім спостереження в кожній групі дубльованих (співпадаючих) спостережень, які визначаються порядком сортування всередині груп Якщо не задати змінні для сортування, порядок спостережень у кожній групі визначається вихідним порядком спостережень у файлі
n Ви можете використовувати індикаторну змінну в якості фільтрує змінної для виключення дубльованих спостережень зі звітів і аналізу без видалення цих спостережень з файлу даних
Лічильник дубльованих спостережень у кожній групі Створюється змінна з послідовним номером від 1 до n для спостережень у кожній групі дубльованих спостережень Послідовність визначається поточним порядком спостережень у кожній групі, який може відповідати вихідному порядку спостережень у файлі або задаватися змінними сортування
Перемістити дублюються спостереження у верхню частину файлу даних Файл даних сортується таким чином, що всі групи дубльованих спостережень виявляються у верхній частині файлу, що полегшує перегляд дубльованих спостережень в Редакторі даних
Висновок частот для створених змінних Частотні таблиці з частотами для кожної створеної змінної Наприклад, для змінної-індикатора унікальних спостережень в таблиці наводиться число спостережень, що мають значення 0 в цій змінній,
що показує кількість дублів, і число спостережень, що мають значення 1 в цій змінній, що відповідає кількості унікальних спостережень
Пропущені значення У числових змінних системні пропущені значення обробляються аналогічно іншим значенням – спостереження з пропущеними значеннями у змінній, за якою ведеться пошук дубльованих спостережень, розглядаються як дублюються з цієї змінної У текстових змінних спостереження, в яких пропущені значення змінної, по якій ведеться пошук дубльованих спостережень, розглядаються як дублюються з цієї змінної
Джерело: Керівництво користувача за базовою системою Statistics 20
Схожі статті:
- JavaScript (0)
- Трохи про PHP. (0)
- Випадають меню за допомогою CSS (0)
- Зовнішні критерії релевантності (0)
- Cookies в PHP. (0)
- Звітність IBM Rational ClearCase. Частина 2 (0)
- Використання СOM в середовищі Delphi (0)
Сподобалася стаття? Ви можете залишити відгук або підписатися на RSS , щоб автоматично отримувати інформацію про нові статтях.
Коментарів поки що немає.
Ваш отзыв
Поділ на параграфи відбувається автоматично, адреса електронної пошти ніколи не буде опублікований, допустимий HTML:
<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>