- Як обчислити коефіцієнт визначення?
- Ілюстративний випадок
- Інтерпретація
- Приклади
- - Приклад 1
- Рішення
- - Приклад 2
- Рішення
- - Приклад 3
- Рішення
- Підходить порівняння
- Висновки
- Список літератури
Коефіцієнт детермінації є число в діапазоні від 0 до 1 , яке представляє собою частину точок (X, Y) , які слідують за лінією регресії підгонки набору даних з двома змінними.
Він також відомий як корисність придатності і позначається R 2 . Для його обчислення приймається коефіцієнт між дисперсією даних Ŷi, оціненою за допомогою регресійної моделі, та дисперсією даних Yi, що відповідають кожному Xi даних.
R 2 = Sŷ / Sy
Рисунок 1. Коефіцієнт кореляції для чотирьох пар даних. Джерело: Ф. Сапата.
Якщо 100% даних знаходяться на лінії регресійної функції, то коефіцієнт визначення буде дорівнює 1.
Навпаки, якщо для набору даних та певної функції коригування коефіцієнт R 2 виявляється рівним 0,5, то можна сказати, що коригування на 50% задовільне або добре.
Аналогічно, коли модель регресії дає значення R 2 нижче 0,5, це вказує на те, що обрана функція регулювання не задовільно адаптується до даних, тому необхідно шукати іншу функцію коригування.
І коли коваріація або коефіцієнт кореляції має тенденцію до нуля, то змінні X і Y в даних не пов'язані, і тому R 2 також буде прагнути до нуля.
Як обчислити коефіцієнт визначення?
У попередньому розділі було сказано, що коефіцієнт визначення обчислюється шляхом знаходження коефіцієнта між дисперсіями:
-Оцінюється за регресійною функцією змінної Y
-Ці змінна Yi, що відповідає кожній із змінної Xi з N пар даних.
Математично сказано, це виглядає приблизно так:
R 2 = Sŷ / Sy
З цієї формули випливає, що R 2 являє собою частку дисперсії, пояснену регресійною моделлю. Як варіант, R 2 можна обчислити, використовуючи наступну формулу, повністю еквівалентну попередній:
R 2 = 1 - (Sε / Sy)
Де Sε являє собою дисперсію залишків εi = Ŷi - Yi, а Sy - дисперсія набору значень Yi даних. Для визначення Ŷi застосовується функція регресії, що означає підтвердити, що Ŷi = f (Xi).
Дисперсія набору даних Yi, з i від 1 до N, обчислюється таким чином:
Sy =
А потім дійте аналогічним чином для Sŷ або Sε.
Ілюстративний випадок
Для того, щоб показати деталі того, як проводиться обчислення коефіцієнта визначення, ми візьмемо наступний набір із чотирьох пар даних:
(X, Y): {(1, 1); (2. 3); (3, 6) і (4, 7)}.
Для цього набору даних пропонується лінійна регресія, яка отримується методом найменших квадратів:
f (x) = 2,1 x - 1
Застосовуючи цю функцію регулювання, виходять крутні моменти:
(X, Ŷ): {(1, 1.1); (2, 3.2); (3, 5.3) та (4, 7.4)}.
Тоді обчислюємо середнє арифметичне для X і Y:
Варіантність Sy
Sy = / (4-1) =
= = 7,583
Варіантність Sŷ
Sŷ = / (4-1) =
= = 7,35
Коефіцієнт визначення R 2
R 2 = Sŷ / Sy = 7,35 / 7,58 = 0,97
Інтерпретація
Коефіцієнт визначення для ілюстративного випадку, розглянутого в попередньому сегменті, виявився 0,98. Іншими словами, лінійне регулювання через функцію:
f (x) = 2.1x - 1
Це 98% надійно в поясненні даних, з якими вони були отримані методом найменших квадратів.
Крім коефіцієнта визначення, існує коефіцієнт лінійної кореляції або також відомий як коефіцієнт Пірсона. Цей коефіцієнт, позначений як r, обчислюється наступним співвідношенням:
r = Sxy / (Sx Sy)
Тут чисельник являє собою коваріацію між змінними X і Y, тоді як знаменник є добутком стандартного відхилення для змінної X та стандартного відхилення для змінної Y.
Коефіцієнт Пірсона може приймати значення від -1 до +1. Коли цей коефіцієнт має тенденцію до +1, існує пряма лінійна кореляція між X і Y. Якщо натомість він має тенденцію до -1, існує лінійна кореляція, але коли X зростає, Y зменшується. Нарешті, це близько до 0, немає кореляції між двома змінними.
Слід зазначити, що коефіцієнт визначення збігається з квадратом коефіцієнта Пірсона лише тоді, коли перший був обчислений на основі лінійного пристосування, але ця рівність не є дійсною для інших нелінійних припадків.
Приклади
- Приклад 1
Група старшокласників поставила за мету визначити емпіричний закон періоду маятника як функцію його довжини. Для досягнення цієї мети вони проводять ряд вимірювань, в яких вимірюють час коливання маятника для різної довжини, отримуючи такі значення:
Довжина (м) | Період (и) |
---|---|
0,1 | 0,6 |
0,4 | 1,31 |
0,7 | 1,78 |
один | 1.93 |
1.3 | 2.19 |
1.6 | 2.66 |
1.9 | 2,77 |
3 | 3,62 |
Попрошується зробити графік розсіяння даних і виконати лінійну підгонку через регресію. Також покажіть рівняння регресії та його коефіцієнт визначення.
Рішення
Малюнок 2. Графік рішення для вправи 1. Джерело: Ф. Сапата.
Можна спостерігати досить високий коефіцієнт детермінації (95%), тому можна вважати, що лінійне прилягання є оптимальним. Однак якщо точки дивитись разом, вони, як правило, мають тенденцію до вигину вниз. Ця деталь не передбачається в лінійній моделі.
- Приклад 2
Для тих же даних у Прикладі 1 зробіть графік розкидання даних. З цього приводу, на відміну від прикладу 1, потрібна корекція регресії з використанням потенційної функції.
Малюнок 3. Графік рішення для вправи 2. Джерело: Ф. Сапата.
Показати також функцію придатності та її коефіцієнт визначення R 2 .
Рішення
Потенційна функція має вигляд f (x) = Ax B , де A і B - константи, які визначаються методом найменших квадратів.
Попередній малюнок показує потенційну функцію та її параметри, а також коефіцієнт визначення з дуже високим значенням 99%. Зауважте, що дані слідують за кривизною лінії тренду.
- Приклад 3
Використовуючи ті самі дані з Прикладу 1 та Прикладу 2, виконайте підгонку поліномів другого ступеня. Покажіть графік, підходящий многочлен і відповідний коефіцієнт визначення R 2 .
Рішення
Малюнок 4. Графік рішення для вправи 3. Джерело: Ф. Сапата.
За допомогою полінома другого ступеня ви можете побачити лінію тренду, яка добре відповідає кривизні даних. Також коефіцієнт визначення вище лінійного пристосування і нижче потенційного прилягання.
Підходить порівняння
З трьох показаних пристосувань, найвищим коефіцієнтом визначення є потенційне прилягання (приклад 2).
Потенційне прилягання збігається з фізичною теорією маятника, яка, як відомо, встановлює, що період маятника пропорційний квадратному кореню його довжини, при цьому константа пропорційності дорівнює 2π / √g, де g - прискорення сили тяжіння.
Цей тип придатності потенціалу має не тільки найвищий коефіцієнт детермінації, але показник і константа пропорційності відповідають фізичній моделі.
Висновки
-Корекція регресії визначає параметри функції, яка спрямована на пояснення даних за допомогою методу найменших квадратів. Цей метод складається з мінімізації суми квадратичної різниці між коригувальним значенням Y та значенням Yi даних для значень Xi даних. Це визначає параметри функції настройки.
-Як ми бачили, найпоширенішою функцією регулювання є лінія, але вона не єдина, оскільки коригування також можуть бути поліноміальними, потенційними, експоненціальними, логарифмічними та іншими.
-У будь-якому випадку коефіцієнт визначення залежить від даних та типу коригування і є вказівкою на користь застосованого коригування.
-Зрештою, коефіцієнт визначення вказує на відсоток загальної мінливості між значенням Y даних щодо Ŷ значення коригування для заданого X.
Список літератури
- Гонсалес С. Загальна статистика. Відновлено з: tarwi.lamolina.edu.pe
- IACS. Арагонський інститут наук про здоров'я. Відновлено з: ics-aragon.com
- Салазар К. та Кастільо С. Основні принципи статистики. (2018). Відновлено з: dspace.uce.edu.ec
- Суперпроф. Коефіцієнт визначення. Відновлено з: superprof.es
- USAC. Посібник з описової статистики. (2011 р.). Відновлено з: statistics.ingenieria.usac.edu.gt.
- Вікіпедія. Коефіцієнт визначення. Відновлено з: es.wikipedia.com.