- Як обчислити коефіцієнт кореляції?
- Коваріація та дисперсія
- Ілюстративний випадок
- Коваріація Sxy
- Стандартне відхилення Sx
- Стандартне відхилення Sy
- Коефіцієнт кореляції r
- Інтерпретація
- Лінійна регресія
- Приклад
- Список літератури
Коефіцієнт кореляції в статистиці - це показник, який вимірює тенденцію двох кількісних змінних X і Y до лінійної або пропорційної залежності між ними.
Як правило, пари змінних X і Y - це дві характеристики однієї сукупності. Наприклад, X може бути зріст людини, а Y - його вага.
Рисунок 1. Коефіцієнт кореляції для чотирьох пар даних (X, Y). Джерело: Ф. Сапата.
У цьому випадку коефіцієнт кореляції вказуватиме на те, чи існує тенденція до пропорційного співвідношення між висотою та вагою в даній популяції.
Коефіцієнт лінійної кореляції Пірсона позначається з малої літери r, а його мінімальні та максимальні значення - -1 та +1 відповідно.
Значення r = +1 вказувало б на те, що безліч пар (X, Y) ідеально вирівняні і що, коли X зростає, Y буде рости в тій же пропорції. З іншого боку, якби сталося, що r = -1, набір пар також був би ідеально вирівняний, але в цьому випадку, коли X збільшується, Y зменшується на ту ж пропорцію.
Малюнок 2. Різні значення коефіцієнта лінійної кореляції. Джерело: Wikimedia Commons.
З іншого боку, значення r = 0 вказувало б на відсутність лінійної кореляції між змінними X і Y. У той час як значення r = +0.8 означало б, що пари (X, Y) мають тенденцію кластеризуватися на одній стороні і інший певної лінії.
Формула для обчислення коефіцієнта кореляції r така:
Як обчислити коефіцієнт кореляції?
Коефіцієнт лінійної кореляції - це статистична величина, яка вбудовується в наукові калькулятори, більшість електронних таблиць та статистичні програми.
Однак зручно знати, як застосовується формула, яка визначає її, і для цього буде показаний детальний розрахунок, проведений на невеликому наборі даних.
І як було сказано в попередньому розділі, коефіцієнт кореляції - це коваріація Sxy, поділена на добуток стандартного відхилення Sx для змінних X і Sy для змінної Y.
Коваріація та дисперсія
Коваріаційний Sxy:
Sxy = / (N-1)
Де сума йде від 1 до N пар даних (Xi, Yi).
Зі свого боку, стандартне відхилення для змінної X - квадратний корінь дисперсії набору даних Xi, з i від 1 до N:
Sx = √
Аналогічно, стандартне відхилення для змінної Y - квадратний корінь дисперсії набору даних Yi, з i від 1 до N:
Sy = √
Ілюстративний випадок
Щоб детально показати, як обчислити коефіцієнт кореляції, ми візьмемо наступний набір із чотирьох пар даних
(X, Y): {(1, 1); (2. 3); (3, 6) і (4, 7)}.
Спочатку обчислюємо середнє арифметичне для X та Y так:
Потім обчислюються решта параметрів:
Коваріація Sxy
Sxy = / (4-1)
Sxy = / (3) = 10,5 / 3 = 3,5
Стандартне відхилення Sx
Sx = √ = √ = 1,29
Стандартне відхилення Sy
Sx = √ =
√ = 2,75
Коефіцієнт кореляції r
r = 3,5 / (1,29 * 2,75) = 0,98
Інтерпретація
У наборі даних попереднього випадку спостерігається сильна лінійна кореляція між змінними X та Y, що виявляється як у графіку розсіювання (показано на рисунку 1), так і в коефіцієнті кореляції, який дав a значення досить близьке до єдності.
Наскільки коефіцієнт кореляції ближче до 1 або до -1, тим більше сенсу має підходити дані до рядка, що є результатом лінійної регресії.
Лінійна регресія
Лінійна лінійна регресія отримана методом найменших квадратів. в яких параметри лінії регресії отримують від мінімізації суми квадрата різниці між оцінним значенням Y та Yi даних N.
З іншого боку, параметрами a і b лінії регресії y = a + bx, отриманими методом найменших квадратів, є:
* b = Sxy / (Sx 2 ) для схилу
* a =
Нагадаємо, що Sxy - коваріація, визначена вище, а Sx 2 - дисперсія або квадрат стандартного відхилення, визначений вище.
Приклад
Коефіцієнт кореляції використовується для визначення наявності лінійної кореляції між двома змінними. Він застосовується, коли змінні, що вивчаються, кількісні, і, крім того, передбачається, що вони відповідають нормальному розподілу типу.
Нижче ми маємо наочний приклад: міра ступеня ожиріння - це показник маси тіла, який отримують діленням ваги людини в кілограмах на висоту людини в квадраті на одиниці квадратних метрів.
Ви хочете знати, чи існує сильна кореляція між показником маси тіла та концентрацією холестерину ЛПВЩ у крові, вимірюється в мілімолях на літр. Для цього було проведено дослідження з 533 людьми, яке узагальнено на наступному графіку, в якому кожна точка представляє дані однієї людини.
Малюнок 3. Вивчення ІМТ та холестерину ЛПВЩ у 533 пацієнтів. Джерело: Арагонський інститут наук про здоров'я (IACS).
Ретельне спостереження за графіком показує, що існує певна лінійна тенденція (не дуже помітна) між концентрацією холестерину ЛПВЩ та індексом маси тіла. Кількісна міра цієї тенденції - коефіцієнт кореляції, який у даному випадку виявився r = -0,276.
Список літератури
- Гонсалес С. Загальна статистика. Відновлено з: tarwi.lamolina.edu.pe
- IACS. Арагонський інститут наук про здоров'я. Відновлено з: ics-aragon.com
- Салазар К. та Кастільо С. Основні принципи статистики. (2018). Відновлено з: dspace.uce.edu.ec
- Суперпроф. Коефіцієнт кореляції. Відновлено з: superprof.es
- USAC. Посібник з описової статистики. (2011 р.). Відновлено з: statistics.ingenieria.usac.edu.gt
- Вікіпедія. Коефіцієнт кореляції Пірсона Відновлено з: es.wikipedia.com.