- Важливість гомоскедастичності
- Гомоседастичність порівняно з гетеросцедастичністю
- Тести на гомоскедастичність
- Стандартизовані змінні
- Не графічні тести гомоскедастичності
- Список літератури
Гомоскедастичність в прогнозуючої статистичної моделі має місце , якщо все групи даних одного або декількох спостережень, дисперсії (або незалежного) модель з відносно пояснюють змінних залишаються постійними.
Модель регресії може бути гомоскедастичною чи ні, і в цьому випадку ми говоримо про гетероседастичність.
Малюнок 1. П'ять наборів даних та регресія набору набору. Дисперсія щодо прогнозованого значення однакова у кожної групи. (upav-biblioteca.org)
Модель статистичної регресії декількох незалежних змінних називається гомоседастичною, лише якщо дисперсія похибки прогнозованої змінної (або стандартне відхилення залежної змінної) залишається рівномірною для різних груп значень пояснювальних чи незалежних змінних.
У п'яти групах даних на рисунку 1 розраховано дисперсію в кожній групі відносно значення, оціненого регресією, виявившись однаковим у кожній групі. Далі передбачається, що дані відповідають нормальному розподілу.
На графічному рівні це означає, що точки однаково розкидані або розсіяні навколо значення, передбаченого регулюванням регресії, і що регресійна модель має ту саму помилку та дійсність для діапазону пояснювальної змінної.
Важливість гомоскедастичності
Щоб проілюструвати важливість гомоскедастичності в прогностичній статистиці, необхідно протиставити протилежне явище - гетероскедастичність.
Гомоседастичність порівняно з гетеросцедастичністю
У випадку з фігурою 1, в якій є гомоскедастичність, правда, що:
Var ((y1-Y1); X1) ≈ Var ((y2-Y2); X2) ≈ …… Var ((y4-Y4); X4)
Якщо Var ((yi-Yi); Xi) являє собою дисперсію, пара (xi, yi) представляє дані з групи i, тоді як Yi - значення, передбачене регресією для середнього значення Xi групи. Варіантність n даних із групи i обчислюється так:
Var ((yi-Yi); Xi) = ∑j (yij - Yi) ^ 2 / n
Навпаки, коли виникає гетероскедастичність, модель регресії може бути недійсною для всієї області, в якій вона була розрахована. На малюнку 2 показаний приклад такої ситуації.
Малюнок 2. Група даних, що демонструють гетероскедастичність. (Власна розробка)
На малюнку 2 представлені три групи даних і придатність набору з використанням лінійної регресії. Слід зазначити, що дані у другій та третій групах більш розсіяні, ніж у першій групі. Графік на малюнку 2 також показує середнє значення кожної групи та її смугу помилок ± σ, при σ стандартному відхиленні кожної групи даних. Слід пам’ятати, що стандартне відхилення σ - квадратний корінь дисперсії.
Зрозуміло, що у випадку гетероседастичності помилка оцінки регресії змінюється в діапазоні значень пояснювальної чи незалежної змінної, а в інтервалах, де ця помилка дуже велика, прогноз регресії є недостовірним або не застосовується.
У регресійній моделі помилки або залишки (і -Y) повинні розподілятися з однаковою дисперсією (σ ^ 2) протягом інтервалу значень незалежної змінної. Саме з цієї причини хороша модель регресії (лінійна чи нелінійна) повинна пройти тест на гомоскедастичність.
Тести на гомоскедастичність
Бали, показані на рисунку 3, відповідають даним дослідження, яке шукає співвідношення між цінами (у доларах) будинків як функції від розміру чи площі в квадратних метрах.
Перша модель, яку потрібно протестувати, - це лінійна регресія. Перш за все, зазначається, що коефіцієнт визначення R ^ 2 пристосування досить високий (91%), тому можна вважати, що придатність задовільна.
Однак дві графіки можна чітко відрізнити від графіка коригування. Один з них, той, що знаходиться праворуч, укладений в овал, виконує гомоскедастичність, тоді як область зліва не має гомоскедастичності.
Це означає, що прогнозування регресійної моделі є адекватним і надійним в межах від 1800 м ^ 2 до 4800 м ^ 2, але дуже неадекватне за межами цієї області. У гетероседастичній зоні помилка не тільки дуже велика, але й дані, здається, слідують за іншою тенденцією, ніж та, запропонована лінійною регресійною моделлю.
Рисунок 3. Ціни на житло проти площі та прогнозована модель за лінійною регресією, що демонструє зони гомоскедастичності та гетероседастичності. (Власна розробка)
Графік розсіювання даних є найпростішим і візуальним тестом на їх гомоскедастичність, однак у випадках, коли це не так очевидно, як у прикладі, показаному на рисунку 3, необхідно вдатися до графіків із допоміжними змінними.
Стандартизовані змінні
Для того, щоб відокремити області, де виконується гомоскедастичність і де її немає, вводяться стандартизовані змінні ZRes і ZPred:
ZRes = Abs (y - Y) / σ
ZPred = Y / σ
Слід зазначити, що ці змінні залежать від застосованої регресійної моделі, оскільки Y - значення прогнозу регресії. Нижче наведено графік розсіювання ZRes проти ZPred для того ж прикладу:
Малюнок 4. Слід зазначити, що в зоні гомоседастичності ZRes залишається рівномірним і невеликим в області прогнозування (Власна розробка).
На графіку на рисунку 4 із стандартизованими змінними область, де залишкова помилка невелика і рівномірна, чітко відокремлена від області, де її немає. У першій зоні гомоскедастичність виконується, в той час як в області, де залишкова помилка сильно мінлива і велика, гетероскедастичність виконується.
Регулювання регресії застосовується до тієї ж групи даних на рисунку 3, в цьому випадку коригування нелінійне, оскільки використовувана модель включає потенційну функцію. Результат показаний на наступному малюнку:
Малюнок 5. Нові зони гомоскедастичності та гетеросцедастичності в даних, що відповідають характеристикам нелінійної регресійної моделі. (Власна розробка).
На графіку малюнка 5 слід чітко зазначити гомоскедастичну та гетеросептичну ділянки. Слід також зазначити, що ці зони були змінені відносно тих, що сформувалися в лінійній моделі підгонки.
На графіку малюнка 5 видно, що навіть коли є досить високий коефіцієнт визначення пристосування (93,5%), модель не є адекватною для всього інтервалу пояснювальної змінної, оскільки дані для значень більше 2000 м ^ 2 присутні гетероскедастичність.
Не графічні тести гомоскедастичності
Один з не графічних тестів, який найчастіше використовується для перевірки того, дотримується гомоскедастичність чи ні, - це тест Брейша-Язичника.
Не всі подробиці цього тесту будуть наведені в цій статті, але його основні характеристики та етапи його орієнтовно окреслені:
- Регресійна модель застосовується до n даних, а дисперсія цих же обчислюється щодо значення, оціненого за моделлю σ ^ 2 = ∑j (yj - Y) ^ 2 / n.
- Визначена нова змінна ε = ((yj - Y) ^ 2) / (σ ^ 2)
- Та ж модель регресії застосовується до нової змінної та обчислюються її нові параметри регресії.
- Визначається критичне значення квадрата Chi (χ ^ 2), що становить половину суми квадратів нових залишків у змінній ε.
- Таблиця розподілу квадрата Chi використовується з урахуванням рівня значущості (зазвичай 5%) та кількості ступенів свободи (# змінних регресії мінус одиниця) на осі таблиці, щоб отримати значення дошка.
- Критичне значення, отримане на кроці 3, порівнюється зі значенням, знайденим у таблиці (χ ^ 2).
- Якщо критичне значення нижче, ніж у таблиці, ми маємо нульову гіпотезу: є гомоскедастичність
- Якщо критичне значення вище, ніж у таблиці, ми маємо альтернативну гіпотезу: немає гомоскедастичності.
Більшість пакетів статистичних програм, таких як: SPSS, MiniTab, R, Python Pandas, SAS, StatGraphic та деякі інші, містять тест на гомоскедастичність Бреуша-Язичника. Ще один тест для перевірки рівномірності дисперсії - тест Левене.
Список літератури
- Box, Hunter & Hunter. (1988) Статистика для дослідників. Я змінив редакторів.
- Джонстон, Дж. (1989). Методи економетрики, Вікенс -Вісе редактори.
- Мурільо та Гонсалес (2000). Посібник з економетрики. Університет Лас-Пальмас-де-Гран-Канарія. Відновлено з: ulpgc.es.
- Вікіпедія. Гомоседастичність. Відновлено з: es.wikipedia.com
- Вікіпедія. Гомоседастичність. Відновлено з: en.wikipedia.com