- Переваги і недоліки
- Недоліки дальності як міра дисперсності
- Міжквартильний асортимент, квартілі та приклад, що працював
- - Розрахунок квартилів
- Перший квартал
- Другий квартал або медіана
- Третій квартал
- Працював приклад
- Рішення для
- Рішення b
- Розв’язання c
- Список літератури
Діапазон , діапазон або амплітуди, в статистиці, різниця (віднімання) між максимальним значенням і мінімальним значенням набору даних з зразка або популяції. Якщо діапазон представлений буквою R, а дані представлені x, то формула діапазону проста:
R = x max - x min
Де x max - максимальне значення даних, а x min - мінімальне.
Рисунок 1. Діапазон даних, що відповідають населенню Кадіса за останні два століття. Джерело: Wikimedia Commons.
Концепція дуже корисна як простий показник дисперсії для швидкого оцінювання мінливості даних, оскільки вона вказує на продовження або тривалість інтервалу, де вони знайдені.
Наприклад, припустимо, що в університеті вимірюється зріст групи з 25 студентів-першокурсників-чоловіків в університеті. Найвищий учень у групі - 1,93 м, а найкоротший - 1,67 м. Це крайні значення вибіркових даних, тому їх шлях:
R = 1,93 - 1,67 м = 0,26 м або 26 див.
Висота учнів цієї групи розподіляється за цим діапазоном.
Переваги і недоліки
Як ми говорили раніше, діапазон - це міра поширення даних. Невеликий діапазон вказує на те, що дані більш-менш близькі, а розкид низький. З іншого боку, більший діапазон свідчить про те, що дані є більш розповсюдженими.
Переваги обчислення діапазону очевидні: знайти його дуже легко і швидко, оскільки це проста різниця.
Він також має ті самі одиниці, що і дані, з якими він працює, і концепцію дуже легко інтерпретувати для будь-якого спостерігача.
У прикладі висоти студентів-інженерів, якби діапазон становив 5 см, ми б сказали, що всі студенти приблизно однакового розміру. Але з діапазоном 26 см ми відразу припускаємо, що в зразку є учні всіх проміжних висот. Чи завжди це припущення правильне?
Недоліки дальності як міра дисперсності
Якщо ми уважно подивимось, то, можливо, у нашому зразку з 25 студентів-інженерів лише один з них вимірює 1,93, а решта 24 мають висоту, близьку до 1,67 м.
І все ж дальність залишається такою ж, хоча цілком можливе протилежне: висота більшості становить близько 1,90 м, а лише одна - 1,67 м.
У будь-якому випадку розподіл даних зовсім інший.
Недоліки діапазону як міри розповсюдження полягають у тому, що він використовує лише крайні значення та ігнорує всі інші. Оскільки більша частина інформації втрачається, ви не знаєте, як розподіляються вибіркові дані.
Ще однією важливою характеристикою є те, що діапазон зразка ніколи не зменшується. Якщо ми додамо більше інформації, тобто розглянемо більше даних, діапазон збільшується або залишається таким же.
І в будь-якому випадку він корисний лише при роботі з невеликими зразками, його єдине використання як міра дисперсності у великих зразках не рекомендується.
Що потрібно зробити, це доповнити його обчисленням інших мір диспергування, які враховують інформацію, надану сумарними даними: міжквартильний діапазон, дисперсія, стандартне відхилення та коефіцієнт зміни.
Міжквартильний асортимент, квартілі та приклад, що працював
Ми зрозуміли, що слабкість діапазону як міри дисперсії полягає в тому, що він використовує лише крайні значення розподілу даних, опускаючи інші.
Щоб уникнути цієї незручності, використовуються квартілі: три значення, відомі як міри позиції.
Вони поширюють негруповані дані на чотири частини (іншими широко застосовуваними мірами позиції є децили та відсотки). Це його характеристики:
-Перший чверть Q 1 - це значення таких даних, що 25% усіх них менше Q 1 .
-Другий квартал Q 2 є медіаною розподілу, що означає, що половина (50%) даних менша за це значення.
-Зрештою, третій квартал Q 3 вказує, що 75% даних менше, ніж Q 3 .
Тоді міжквартильний діапазон або міжквартильний діапазон визначається як різниця між третім кварталом Q 3 і першим кватилем Q 1 даних:
Міжквартильний діапазон = R Q = Q 3 - Q 1
Таким чином, на значення діапазону R Q не так впливають екстремальні значення. З цієї причини доцільно використовувати його при роботі з перекошеними розподілами, такими як описані вище дуже високі або дуже короткі студенти.
- Розрахунок квартилів
Існує кілька способів їх обчислення, тут ми запропонуємо один, але в будь-якому випадку необхідно знати номер замовлення "N o ", яке місце займає відповідний квартал у розподілі.
Тобто, якщо, наприклад, термін, що відповідає Q 1, є другим, третім чи четвертим і так далі розподілу.
Перший квартал
N або (Q 1 ) = (N + 1) / 4
Другий квартал або медіана
N або (Q 2 ) = (N + 1) / 2
Третій квартал
N або (Q 3 ) = 3 (N + 1) / 4
Де N - кількість даних.
Медіана - це значення, яке знаходиться прямо в середині розподілу. Якщо кількість даних непарне, немає проблеми в їх знаходженні, але якщо це парне, то два центральних значення усереднюються, щоб стати єдиними.
Після підрахунку номера замовлення виконується одне з цих трьох правил:
-Якщо не буде десяткових знаків, шукаються дані, вказані в дистрибутиві, і це буде шуканий четверть.
-Коли номер замовлення знаходиться на півдорозі між двома, тоді дані, позначені цілою частиною, усереднюються із наступними даними, а результат - відповідним четвером.
-У будь-якому іншому випадку воно округляється до найближчого цілого числа, і це буде позиція четвертилу.
Працював приклад
За шкалою від 0 до 20 група з 16 студентів з математики I на середньотерміновому іспиті отримала такі бали (бали):
16, 10, 12, 8, 9, 15, 18, 20, 9, 11, 1, 13, 17, 9, 10, 14
Знайти:
а) Діапазон або діапазон даних.
б) Значення квартілів Q 1 і Q 3
в) Міжквартильний діапазон.
Малюнок 2. Чи мають бали на цьому тесті з математики стільки варіабельності? Джерело: Pixabay.
Рішення для
Перше, що потрібно зробити для пошуку маршруту - це замовлення даних у порядку збільшення чи зменшення. Наприклад, для збільшення порядку у вас є:
1, 8, 9, 9, 9, 10, 10, 11, 12, 13, 14, 15, 16, 17, 18, 20
Використовуючи формулу, подану на початку: R = x max - x min
R = 20 - 1 бал = 19 балів.
За результатами, ці рейтинги мають велику дисперсію.
Рішення b
N = 16
N або (Q 1 ) = (N + 1) / 4 = (16 + 1) / 4 = 17/4 = 4,25
Це число з десятковими знаками, ціла частина якого дорівнює 4. Потім переходимо до розподілу, шукаємо дані, які займають четверте місце, і його значення усереднюється з значенням п’ятої позиції. Оскільки їх обох 9, в середньому також 9 і так:
Q 1 = 9
Тепер ми повторимо процедуру пошуку Q 3 :
N або (Q 3 ) = 3 (N + 1) / 4 = 3 (16 +1) / 4 = 12,75
Знову це десятковий знак, але оскільки він не знаходиться на половині шляху, він округляється до 13. Квартил, що шукається, займає тринадцяте місце і становить:
Q 3 = 16
Розв’язання c
R Q = Q 3 - Q 1 = 16 - 9 = 7 балів.
Що, як ми бачимо, набагато менше, ніж діапазон даних, обчислений у розділі а), оскільки мінімальний бал становив 1 бал, значення набагато далі від решти.
Список літератури
- Беренсон, М. 1985. Статистика для менеджменту та економіки. Interamericana SA
- Canavos, G. 1988. Імовірність та статистика: Застосування та методи. McGraw Hill.
- Devore, J. 2012. Імовірність та статистика для інженерії та науки. 8-й. Видання. Візьміть на себе.
- Приклади квартилів. Відновлено з: matematicas10.net.
- Левін, Р. 1988. Статистика для адміністраторів. 2-й. Видання. Prentice Hall.
- Walpole, R. 2007. Вірогідність та статистика для інженерії та наук. Пірсон.