- Приклади
- Класифікація категоріальних змінних
- Номінальні категорії
- Звичайний категоричний
- Бінарні категорії
- Статистика з категоричними змінними
- Графічне подання категоричних змінних
- Розв’язані вправи
- Вправа 1
- Приклад 2
- Приклад 3
- Список літератури
Категоріальна змінна є один використовується в статистиці , щоб призначити нечислове або якісну характеристику або властивість якого - або об'єкта, окремої людини, суб'єкта, стану або процедури. Можна визначити всі види категоричних змінних відповідно до кожної потреби.
Прикладами категоричних змінних є: колір, стать, група крові, сімейний стан, вид матеріалу, форма платежу або тип банківського рахунку, і вони використовуються багато щодня.
Малюнок 1: Колір - категоріальна змінна. Джерело: pixabay
Вищезазначені є змінними, але можливі їх значення є якісними, тобто якісними або характеристичними, а не числовими. Наприклад, можливі значення для змінної статі: самець, h embra.
Коли ця змінна зберігається в комп'ютерній програмі, її можна оголосити як текстову змінну, і єдиними прийнятими значеннями будуть ті, які вже названі: Male, Female.
Однак той самий змінний стать може бути оголошений і збережений як ціле число, якщо чоловікові присвоєно 1, а жіночому присвоєно значення 2. Саме тому категоричні змінні іноді називають переліченим типом.
Основна характеристика категоріальних змінних полягає в тому, що на відміну від інших змінних, таких як безперервні та дискретні змінні, не можна робити арифметичні з ними. Однак статистику можна зробити з ними, як буде видно далі.
Приклади
Зверніть увагу на наступні приклади категоричних змінних та їх можливих значень:
- Group_Sanguíneo, Діапазон значень: A, B, AB, O
- Civil_Status, Категоріальні цінності: неодружений (A), одружений (B), вдівський (C), розлучений (D).
- Tipo_de_Material, категорії або значення: 1 = дерево, 2 = метал, 3 = пластик
-Форма_Податки, Цінні папери або категорії: (1) Готівка, (2) Дебет, (3) Переказ, (4) Кредит
У попередніх прикладах число було пов'язано з кожною категорією абсолютно довільно.
Тоді можна вважати, що ця довільна числова асоціація робить її еквівалентною дискретній кількісній змінній, але це не так, оскільки арифметичні операції з цими числами не можуть бути виконані.
Для ілюстрації ідеї в змінній Form_of_Payment операція суми не має сенсу:
(1) Готівка + (2) Дебет ніколи не дорівнює (3) Переказ
Класифікація категоріальних змінних
Рейтинг ґрунтується на тому, чи є у них неявна ієрархія чи чи кількість можливих результатів більше двох-двох.
Категорична змінна, що має лише один можливий результат, не є змінною, це категорична константа.
Номінальні категорії
Коли вони не можуть бути представлені номером або мають будь-який порядок. Наприклад, змінна: Type_of_Material, має номінальні значення (дерево, метал, пластик), вони не мають ієрархії чи порядку, навіть коли кожному відповіді або категорії присвоюється довільне число.
Звичайний категоричний
Змінна: Academic_performance
Номінальні значення: високий, середній, низький
Хоча значення цієї змінної не є числовими, вони мають неявний порядок або ієрархію.
Бінарні категорії
Це номінальні змінні з двома можливими відповідями, наприклад:
-Змінний: Відповідь
-Номінальні значення: Правда, помилково
Зауважимо, що змінна Response не має неявної ієрархії та має лише два можливі результати, тому вона є бінарною категоріальною змінною.
Деякі автори називають цей тип бінарною змінною, і не вважають, що він належить до категоріальних змінних, які обмежені тими, що мають більше трьох можливих категорій.
Статистика з категоричними змінними
Статистику можна проводити за допомогою категоричних змінних, незважаючи на те, що вони не є числовими чи кількісними змінними. Наприклад, щоб знати тенденцію або найбільш вірогідне значення категоріальної змінної, приймається режим.
Режим - в цьому випадку найбільш повторений результат або значення категоріальної змінної. Для категоричних змінних неможливо обчислити ні середнє, ні медіанне.
Середнє значення не може бути обчислене, оскільки ви не можете робити арифметичні з категоричними змінними. Також не є медіаною, оскільки кількісні чи категоріальні змінні не мають порядку чи ієрархії, тому визначити центральне значення неможливо.
Графічне подання категоричних змінних
Враховуючи певну категоричну змінну, можна знайти частоту або кількість разів, з якими результат цієї змінної повторюється. Якщо це робиться для кожного результату, то можна скласти графік частоти проти кожної категорії або результату.
Ось кілька прикладів того, як категоричні змінні можуть бути представлені графічно.
Розв’язані вправи
Вправа 1
Компанія має дані про 170 працівників. Одна з змінних, що є в цих записах, є: Estado_Civil. Ця змінна має чотири категорії або можливі значення:
Неодружений (A), одружений (B), вдівський (C), розлучений (D).
Хоча це нечислова змінна, можна знати, скільки загальних записів знаходиться у певній категорії та бути представленими у вигляді гістограми, як показано на наступному малюнку:
Малюнок 2. Представлення результатів категоріальної змінної. Джерело: саморобний
Приклад 2
Взуттєвий магазин відстежує його продажі. Серед змінних, які керують їх записами, є колір взуття для кожної моделі. Змінна:
Color_Shoe_Model_AW3
Він категоричного типу і має п'ять категорій або можливих значень. Для кожної категорії цієї змінної кількість продажів підсумовується і встановлюється відсоток від них. Результати представлені на графіку наступного малюнка:
Малюнок 3. Категорична змінна Колір _Шов. У цій змінній режимі є Білий. Джерело: саморобний.
Тоді можна сказати, що в моді взуття AW3, яка продається в моді, найчастіше продається Біла, а за нею уважно слідує Чорна.
Можна також сказати, що з вірогідністю 70% наступним взуттям, яке продається цієї моделі, буде Біле або Чорне.
Ця інформація може бути корисною для магазину при розміщенні нових замовлень, або навіть може застосовувати знижки на найменш продані кольори через надлишок товарних запасів.
Приклад 3
Для певної сукупності донорів крові ви хочете представити кількість людей, які належать до певної групи крові. Графічний спосіб візуалізації результатів - за допомогою піктограми, яка знаходиться внизу таблиці.
Перший стовпець представляє змінну group_sanguíneo та її можливі результати або категорії. Другий стовпчик має представлення у знакових чи зображувальних формах кількості людей у кожній категорії. У нашому прикладі в якості піктограми використовується червона крапелька, кожна з яких по 10 чоловік.
Малюнок 4. Піктограма. Джерело: саморобний
Список літератури
- Академія хана. Аналіз категоричних даних. Відновлено з: khanacademy.org
- Формули Всесвіту. Якісна змінна. Відновлено з: univesoformulas.com
- Мінітаб. Які є категоричними, дискретними та безперервними змінними. Відновлено з: support.minitab.com
- Підручник Excel. Характеристика змінних. Відновлено з: help.xlslat.com.
- Вікіпедія. Статистична змінна. Відновлено з wikipedia.com
- Вікіпедія. Категорична змінна. Відновлено з wikipedia.com
- Вікіпедія. Категорична змінна. Відновлено з wikipedia.com