Правило Sturges є критерієм для визначення числа класів або діапазонів , які необхідні для побудови набору статистичних даних. Це правило було проголошено в 1926 році німецьким математиком Гербертом Стерджесом.
Штурже запропонував простий метод, заснований на кількості вибірок x, який дозволив би нам знайти кількість класів та їх ширину діапазону. Правило Стерджеса широко використовується, особливо в області статистики, спеціально для побудови частотних гістограм.
Пояснення
Правило Стерджеса - це емпіричний метод, широко застосовуваний в описовій статистиці для визначення кількості класів, які повинні існувати в частотній гістограмі, щоб класифікувати набір даних, що представляють вибірку або сукупність.
В основному це правило визначає ширину графічних контейнерів, частотних гістограм.
Для встановлення свого правила Герберт Стерджес вважав ідеальну частотну діаграму, що складається з K інтервалів, де i-й інтервал містить певну кількість вибірок (i = 0, … k - 1), представлених у вигляді:
Ця кількість зразків задається кількістю способів, якими можна витягти підмножину набору; тобто біноміальним коефіцієнтом, вираженим так:
Для спрощення виразу він застосував властивості логарифмів до обох частин рівняння:
Таким чином, Стерджес встановив, що оптимальна кількість інтервалів k задається виразом:
Він також може бути виражений як:
У цьому виразі:
- k - кількість класів.
- N - загальна кількість спостережень у вибірці.
- Log - це загальний логарифм основи 10.
Наприклад, для побудови частотної гістограми, яка виражає випадкову вибірку висоти 142 дітей, кількість інтервалів або класів, які буде мати розподіл, це:
k = 1 + 3.322 * log 10 (N)
k = 1 + 3,322 * журнал (142)
k = 1 + 3.322 * 2.1523
k = 8,14 ≈ 8
Таким чином, розподіл буде проходити через 8 інтервалів.
Кількість інтервалів завжди повинна бути представлена цілими числами. У випадках, коли значення десяткове, слід наблизити до найближчого цілого числа.
Програми
Правило Штуржеса застосовується головним чином у статистиці, оскільки воно дозволяє здійснювати розподіл частоти за допомогою обчислення кількості класів (k), а також довжини кожного з них, також відомих як амплітуда.
Амплітуда - різниця верхньої та нижньої межі класу, поділена на кількість класів, і виражається:
Існує багато правил, які дозволяють здійснити розподіл частоти. Однак правило Стурджеса зазвичай застосовується, оскільки воно наближає до кількості класів, яка, як правило, становить від 5 до 15.
Таким чином, він розглядає значення, яке адекватно представляє вибірку чи сукупність; тобто наближення не представляє крайніх групувань, а також не працює з надмірною кількістю класів, які не дають змоги узагальнити вибірку.
Приклад
Необхідно скласти частотну гістограму відповідно до наведених даних, які відповідають віку, отриманому під час опитування чоловіків, які займаються фізичними вправами у місцевому тренажерному залі.
Для визначення інтервалів необхідно знати розмір вибірки або кількість спостережень; в цьому випадку їх 30.
Тоді діє правило Стерджеса:
k = 1 + 3.322 * log 10 (N)
k = 1 + 3,322 * журнал (30)
k = 1 + 3.322 * 1.4771
k = 5,90 ≈ 6 інтервалів.
З числа інтервалів можна обчислити амплітуду, яку вони матимуть; тобто ширина кожного бара, представлена в гістограмі частоти:
Нижня межа вважається найменшим значенням даних, а верхня межа - найбільшим значенням. Різниця між верхньою та нижньою межами називається діапазоном або діапазоном змінної (R).
З таблиці ми маємо, що верхня межа - 46, а нижня - 13; таким чином, амплітуда кожного класу буде:
Інтервали будуть складатися з верхньої та нижньої межі. Для визначення цих інтервалів ми почнемо з підрахунку від нижньої межі, додаючи до цього амплітуду, визначену правилом (6), таким чином:
Потім обчислюється абсолютна частота, щоб визначити кількість чоловіків, що відповідають кожному інтервалу; у цьому випадку це:
- Інтервал 1: 13 - 18 = 9
- Інтервал 2: 19 - 24 = 9
- Інтервал 3: 25 - 30 = 5
- Інтервал 4: 31 - 36 = 2
- Інтервал 5: 37 - 42 = 2
- Інтервал 6: 43 - 48 = 3
При додаванні абсолютної частоти кожного класу це повинно дорівнювати загальній кількості вибірки; у цьому випадку 30.
Згодом обчислюється відносна частота кожного інтервалу, ділить його абсолютну частоту на загальну кількість спостережень:
- Інтервал 1: fi = 9 ÷ 30 = 0.30
- Інтервал 2: fi = 9 ÷ 30 = 0.30
- Інтервал 3: fi = 5 ÷ 30 = 0,1666
- Інтервал 4: fi = 2 ÷ 30 = 0,0666
- Інтервал 5: fi = 2 ÷ 30 = 0,0666
- Інтервал 4: fi = 3 ÷ 30 = 0,10
Потім ви можете скласти таблицю, яка відображає дані, а також діаграму з відносної частоти відносно отриманих інтервалів, як це видно на наступних зображеннях:
Таким чином, правило Sturges дозволяє визначити кількість класів або інтервалів, на які можна поділити вибірку, щоб узагальнити вибірку даних шляхом опрацювання таблиць і графіків.
Список літератури
- Альфонсо Уркіа, MV (2013). Моделювання та моделювання дискретних подій. UNED,.
- Альтман Наомі, МК (2015). "Проста лінійна регресія." Природні методи.
- Antúnez, RJ (2014). Статистика в освіті. Цифровий блок.
- Фокс, Дж. (1997.). Прикладний регресійний аналіз, лінійні моделі та споріднені методи. Публікації SAGE
- Умберто Llinás Solano, CR (2005). Описова статистика та розподіл ймовірностей. Північний університет.
- Пантелеева, О. В. (2005). Основи ймовірності та статистика.
- О. Куель, МО (2001). Дизайн експериментів: статистичні принципи проектування та аналізу досліджень. Редактори Thomson.