- Постановка проблеми в тесті Манна-Вітні U
- Якісні змінні порівняно з кількісними змінними
- Звичайний випадок
- Випадок з ненормальною тенденцією
- Парні чи непарні зразки
- Характеристика тесту Манна Вітні У
- Форма Манна - Вітні
- Кроки для застосування тесту
- Приклад практичного застосування
- - Крок 1
- - Крок 2
- Область А
- Область Б
- Крок 3
- Крок 4
- Критерії порівняння
- Онлайн-калькулятори для тесту Манна - Вітні У
- Список літератури
Тест Манна - Вітні U застосовується для порівняння двох незалежних вибірок, коли вони мають мало даних або не дотримуються нормального розподілу. Таким чином, це вважається непараметричним тестом, на відміну від його аналога, тестом Стьюдента, який застосовується, коли вибірка є достатньо великою і дотримується нормального розподілу.
Френк Вілкоксон запропонував його вперше в 1945 році для зразків однакових розмірів, але через два роки його поширили на випадок зразків різного розміру Генрі Манн та Д.Р. Вітні.
Малюнок 1. Тест Манна-Вітні U застосовується для порівняння незалежних вибірок. Джерело: Pixabay.
Тест часто застосовується для перевірки наявності співвідношення між якісною та кількісною змінною.
Показовий приклад - взяти набір гіпертоніків та витягнути дві групи, від яких щоденно фіксуються дані про артеріальний тиск протягом одного місяця.
Лікування А. застосовується до однієї групи, а лікування до іншої. Тут артеріальний тиск є кількісною змінною, а тип лікування - якісним.
Ми хочемо знати, чи є середня, а не середня, вимірюваних значень статистично однаковою чи різною, щоб встановити, чи є різниця між обома методами лікування. Для отримання відповіді застосовується статистика Вілкоксона або тест Манна - Вітні U.
Постановка проблеми в тесті Манна-Вітні U
Інший приклад, у якому можна застосувати тест, є наступним:
Припустимо, ви хочете знати, чи суттєво відрізняється споживання безалкогольних напоїв у двох регіонах країни.
Один з них називається регіоном А, а інший регіоном B. Ведеться облік літрів, що споживаються щотижня у двох зразках: один з 10 осіб для регіону А та ще 5 чоловік для регіону Б.
Дані такі:
-Регіон А : 16, 11, 14, 21, 18, 34, 22, 7, 12, 12
-Регіон В : 12,14, 11, 30, 10
Виникає наступне питання:
Якісні змінні порівняно з кількісними змінними
-Якісна змінна X : Регіон
-Кількісна змінна Y : споживання безалкогольних напоїв
Якщо кількість споживаних літрів однакова в обох регіонах, то робиться висновок про те, що між двома змінними немає залежності. Спосіб це можна порівняти середній або середній тренд для двох регіонів.
Звичайний випадок
Якщо дані відповідають нормальному розподілу, пропонуються дві гіпотези: нульовий H0 та альтернативний H1 шляхом порівняння між засобами:
- H0 : різниці між середніми двома областями немає.
- Н1 : засоби обох регіонів різні.
Випадок з ненормальною тенденцією
Навпаки, якщо дані не відповідають нормальному розподілу або вибірка просто занадто мала, щоб їх знати, замість того, щоб порівнювати середнє значення, буде порівнюватися медіана двох регіонів.
- H0 : різниці між медіаною двох регіонів немає.
- Н1 : медіани обох регіонів різні.
Якщо медіани збігаються, то нульова гіпотеза виконується: немає споживання між споживанням безалкогольних напоїв та регіоном.
І якщо трапиться протилежне, альтернативна гіпотеза вірна: існує споживання між споживанням та регіоном.
Саме для цих випадків вказано тест Манна - Вітні U.
Парні чи непарні зразки
Наступним важливим питанням у вирішенні питання про те, чи слід застосовувати тест Манна Уітні U, є чи однакова кількість даних в обох вибірках, що означає, що вони нарівні.
Якщо два зразки спарені, застосовується оригінальна версія Вілкоксона. Але якщо ні, як у прикладі, то застосовується модифікований тест Вілкоксона, який є саме тестом Манна Вітні U.
Характеристика тесту Манна Вітні У
Тест Манна - Вітні U - непараметричний тест, застосовний до зразків, які не відповідають нормальному розподілу або мають мало даних. Він має такі характеристики:
1.- Порівняйте медіани
2.- Він працює на упорядкованих діапазонах
3.- Вона менш потужна, тобто сила - це ймовірність відкидання нульової гіпотези, коли вона насправді помилкова.
Враховуючи ці характеристики, тест Манна - Вітні U застосовується, коли:
-Дані незалежні
-Не слідкують за нормальним розподілом
-Нулява гіпотеза H0 приймається, якщо медіани двох зразків збігаються: Ma = Mb
-Альтернативна гіпотеза H1 приймається, якщо медіани двох зразків відрізняються: Ma ≠ Mb
Форма Манна - Вітні
Змінна U - це контрастна статистика, що використовується в тесті Манна - Вітні і визначається наступним чином:
Це означає, що U - найменше зі значень між Ua та Ub, застосованих до кожної групи. У нашому прикладі це було б для кожного регіону: A або B.
Змінні Ua та Ub визначаються та обчислюються за такою формулою:
Ua = Na Nb + Na (Na +1) / 2 - Ra
Ub = Na Nb + Nb (Nb +1) / 2 - Rb
Тут значення Na і Nb - це розміри зразків, що відповідають регіонам A і B відповідно, і, зі свого боку, Ra і Rb - це рангові суми, які ми визначимо нижче.
Кроки для застосування тесту
1.- Упорядкуйте значення двох зразків.
2.- Призначте ранг замовлення до кожного значення.
3.- Виправте існуючі зв’язки в даних (повторні значення).
4.- Обчисліть Ra = Сума рангів вибірки А.
5.- Знайти Rb = сума рангів вибірки B.
6.- Визначте значення Ua та Ub за формулами, наведеними в попередньому розділі.
7.- Порівняйте Ua і Ub, і менший з двох присвоюється експериментальній статистиці U (тобто даним), яка порівнюється з теоретичною або нормальною U статистикою.
Приклад практичного застосування
Тепер ми застосуємо вищезазначене до проблеми безалкогольних напоїв, піднятої раніше:
Область А: 16, 11, 14, 21, 18, 34, 22, 7, 12, 12
Область Б: 12,14, 11, 30, 10
Залежно від того, чи є засоби обох зразків статистично однаковими чи різними, нульова гіпотеза приймається чи відхиляється: між змінними Y та X немає зв’язку, тобто споживання безалкогольних напоїв не залежить від регіону:
H0: Ma = Mb
H1: Ma ≠ Мб
Малюнок 2. Дані про споживання безалкогольних напоїв у регіонах А та В. Джерело: Ф. Сапата.
- Крок 1
Ми переходимо до упорядкування даних спільно для двох зразків, упорядковуючи значення від найнижчого до найвищого:
Зауважте, що значення 11 з’являється 2 рази (один раз у кожному зразку). Спочатку він має позиції або діапазони 3 і 4, але щоб не переоцінювати чи недооцінювати те чи інше, середнє значення вибирається як діапазон, тобто 3,5.
Аналогічним чином ми переходимо до значення 12, яке повторюється три рази з діапазонами 5, 6 і 7.
Ну, значенню 12 присвоюється середній діапазон 6 = (5 + 6 + 7) / 3. І те саме для значення 14, яке має лігатуру (з'являється в обох зразках) у позиціях 8 і 9, їй присвоюється середній діапазон 8,5 = (8 + 9) / 2.
- Крок 2
Далі дані для регіону A і B знову відокремлюються, але тепер їх відповідні діапазони призначені в іншому рядку:
Область А
Область Б
Діапазони Ra і Rb отримують із сум елементів другого ряду для кожного випадку або області.
Крок 3
Відповідні значення Ua та Ub обчислюються:
Ua = 10 × 5 + 10 (10 + 1) / 2 - 86 = 19
Ub = 10 × 5 + 5 (5 + 1) / 2 -34 = 31
Експериментальне значення U = min (19, 31) = 19
Крок 4
Передбачається, що теоретичне U слід за нормальним розподілом N з параметрами, заданими виключно за розміром зразків:
N ((na⋅nb) / 2, √)
Для порівняння змінної U, отриманої експериментально, з теоретичною U необхідно внести зміну змінної. Переходимо від експериментальної змінної U до її стандартизованого значення, яке будемо називати Z, щоб можна було порівняти порівняння зі стандартизованим нормальним розподілом.
Зміна змінної полягає в наступному:
Z = (U - na.nb / 2) / √
Слід зазначити, що для зміни змінної використовували параметри теоретичного розподілу для U. Тоді нова змінна Z, яка є гібридом між теоретичним U та експериментальним U, протиставляється стандартизованому нормальному розподілу N (0,1 ).
Критерії порівняння
Якщо Z ≤ Zα ⇒, то нульова гіпотеза H0 прийнята
Якщо Z> Zα ⇒ відкидає нульову гіпотезу H0
Стандартизовані критичні значення Zα залежать від необхідного рівня впевненості, наприклад, для рівня довіри α = 0,95 = 95%, що є найбільш звичайним, отримують критичне значення Zα = 1,96.
Для наведених тут даних:
Z = (U - na nb / 2) / √ = -0,73
Що нижче критичного значення 1,96.
Отже, остаточний висновок полягає в тому, що нульова гіпотеза H0 прийнята:
Онлайн-калькулятори для тесту Манна - Вітні У
Існують конкретні програми для статистичних розрахунків, включаючи SPSS та MINITAB, але ці програми платні, і їх використання не завжди є простим. Це пов’язано з тим, що вони надають стільки варіантів, що їх використання практично зарезервоване для експертів зі статистики.
На щастя, існує ряд дуже точних, безкоштовних та простих у користуванні онлайн-програм, які дозволяють запустити тест Манна-Вітні U серед інших.
Ці програми:
-Соціальна наукова статистика (socscistatistics.com), яка має як тест Манна-Вітні U, так і тест Вілкоксона у випадку збалансованих або парних зразків.
-AI терапія статистики (ai-therapy.com), яка має кілька звичних тестів описової статистики.
-Статистичний у використанні (physics.csbsju.edu/stats), один із найстаріших, тому його інтерфейс може виглядати датованим, хоча все-таки це дуже ефективна безкоштовна програма.
Список літератури
- Дітріхсон. Кількісні методи: ранговий тест. Відновлено з: bookdown.org
- Marín J P. Посібник з SPSS: Аналіз та процедури в непараметричних тестах. Відновлено з: halweb.uc3m.es
- USAL MOOC. Непараметричні тести: Mann-Whitney U. Відновлено з: youtube.com
- Вікіпедія. Тест Манна-Вітні. Відновлено з: es.wikipedia.com
- XLSTAT. Центр допомоги. Манн - навчальний посібник Вітні в Excel. Відновлено: help.xlsat.com