Як читати таблицю регресії

Що таке регресія?

Регресія є одним з найважливіших і найчастіше використовуваних процесів аналізу даних. Простіше кажучи, це статистичний метод, який пояснює силу взаємозв'язку між залежною змінною та однією або декількома незалежними змінними.

Залежною змінною може бути змінна або поле, яке ви намагаєтеся передбачити чи зрозуміти. Незалежною змінною можуть бути поля або точки даних, які, на вашу думку, можуть вплинути на залежну змінну.

При цьому він відповідає на кілька важливих питань -

  • Які змінні значення?
  • Наскільки ці змінні мають значення?
  • Наскільки ми впевнені в цих змінних?

Візьмемо приклад ...

Щоб краще пояснити цифри в таблиці регресії, я вважав, що було б корисно скористатися зразком набору даних і пройтись по цифрах та їх важливості.

Я використовую невеликий набір даних, який містить оцінку GRE (тест, який студенти приймають, щоб розглянути його для вступу до шкіл Град, США), оцінки 500 студентів та їх шанс на вступ до університету.

Оскільки chance of admittanceзалежить від GRE score, chance of admittanceє залежною змінною і GRE scoreє незалежною змінною.

Лінія регресії

Проведення прямої лінії, яка найкраще описує взаємозв'язок між GRE балами студентів та їх шансами на вступ, дає нам лінійну лінію регресії . Це відомо як лінія тренду в різних інструментах BI. Основна ідея нанесення цієї лінії полягає в мінімізації відстані між точками даних у даній координаті x та координаті y, через яку проходить лінія регресії.

Лінія регресу полегшує нам уявлення стосунків. Він базується на математичному рівнянні, яке пов'язує x-коефіцієнт та y-перетин.

Y-перетин - це точка, в якій лінія перетинає вісь y при x = 0. Це також значення, яке модель прийме або передбачить, коли x дорівнює 0.

Коефіцієнти забезпечують вплив або вагу змінної щодо всієї моделі. Іншими словами, він забезпечує величину зміни залежною змінної для одиничної зміни незалежної змінної.

Розрахунок рівняння лінії регресії

Для того, щоб дізнатись у-переріз моделі, ми продовжуємо лінію регресії досить далеко, доки вона не перетинатиме вісь y при x = 0. Це наш у-перехват і становить близько -2,5. Число може насправді не мати сенсу для набору даних, над яким ми працюємо, але метою є лише відображення обчислення y-перехоплення.

Коефіцієнт для цієї моделі буде просто нахилом лінії регресії і може бути розрахований шляхом отримання зміни допуску над зміною балів GRE.

У наведеному вище прикладі коефіцієнт буде просто таким

m = (y2-y1) / (x2-x1)

І в цьому випадку це було б близько 0,01.

Формула y = m * x + b допомагає нам розрахувати математичне рівняння нашої лінії регресії. Підставляючи значення для перетину y та нахилу, отримані нами від продовження лінії регресії, ми можемо сформулювати рівняння -

y = 0,01x - 2,48

-2,48 - це більш точне значення y-перехоплення, яке я отримав із таблиці регресії, як показано далі в цій публікації.

Це рівняння дозволяє нам прогнозувати та передбачати шанс прийому студента, коли його / її оцінка GRE відома.

Тепер, коли у нас є основи, давайте перейдемо до читання та інтерпретації таблиці регресії.

Читання таблиці регресії

Таблицю регресії можна приблизно розділити на три компоненти -

  • Аналіз дисперсії (ANOVA): забезпечує аналіз дисперсії в моделі, як випливає з назви.
  • регресійна статистика: надає числову інформацію про варіацію та про те, наскільки добре модель пояснює варіацію для даних даних / спостережень.
  • залишковий вихід: забезпечує значення, передбачене моделлю, та різницю між фактичним спостережуваним значенням залежної змінної та його передбачуваним значенням за допомогою регресійної моделі для кожної точки даних.

Аналіз дисперсії (ANOVA)

Ступінь свободи (df)

Регресія df - це кількість незалежних змінних у нашій регресійній моделі. Оскільки ми розглядаємо лише оцінки GRE у цьому прикладі, це 1.

Залишковий df - це загальна кількість спостережень (рядків) набору даних, що віднімається за кількістю оцінюваних змінних. У цьому прикладі оцінюються як коефіцієнт GRE, так і константа.

Залишковий df = 500 - 2 = 498

Загальний df - це сума регресії та залишкового ступеня свободи, яка дорівнює розміру набору даних мінус 1.

Сума квадратів (СС)

Регресія SS - це сукупна зміна залежної змінної, яка пояснюється регресійною моделлю. Це сума квадрата різниці між передбачуваним значенням і середнім значенням усіх точок даних.

∑ (ŷ - ӯ) ²

З таблиці ANOVA регресія SS становить 6,5, а загальна SS 9,9, що означає, що модель регресії пояснює приблизно 6,5 / 9,9 (близько 65%) усіх змінностей у наборі даних.

Залишковий SS - це загальна зміна залежної змінної, яка залишається незрозумілою за допомогою регресійної моделі. Його також називають сумою помилок квадратів і є сумою квадрата різниці між фактичним та передбачуваним значенням усіх точок даних.

∑ (у - ŷ) ²

З таблиці ANOVA залишковий СС становить приблизно 3,4. Загалом, чим менша похибка, тим краща модель регресії пояснює зміну набору даних, і тому ми, як правило, хочемо мінімізувати цю помилку.

Загальна СС - це сума як регресії, так і залишкової СС або на скільки змінюватиметься шанс прийому, якщо оцінки GRE НЕ враховуються.

Середньоквадратичні помилки (MS) - це середнє значення суми квадратів або суми квадратів, поділених на ступінь свободи як для регресії, так і для залишків.

Регресія MS = ∑ (ŷ - ӯ) ² / Рег. dfЗалишковий MS = ∑ (y - ŷ) ² / Res. df

F - використовується для перевірки гіпотези про те, що нахил незалежної змінної дорівнює нулю. Математично це також можна обчислити як

F = MS регресії / залишковий MS

Це в іншому випадку обчислюється шляхом порівняння F-статистики з розподілом F з регресією df у градусах чисельника та залишковим df у градусах знаменника.

Значимість F - це не що інше, як р-значення для нульової гіпотези про те, що коефіцієнт незалежної змінної дорівнює нулю, і, як і для будь-якого p-значення, низьке p-значення вказує на те, що існує суттєва залежність між залежними та незалежними змінними.

Стандартна помилка - забезпечує розрахункове стандартне відхилення розподілу коефіцієнтів. Це сума, на яку коефіцієнт змінюється в різних випадках. Коефіцієнт, набагато більший за стандартну похибку, передбачає ймовірність того, що коефіцієнт не дорівнює 0.

t-Stat - це t-статистика або t-значення тесту, і його значення дорівнює коефіцієнту, поділеному на стандартну похибку.

t-Stat = Коефіцієнти / Стандартна помилка

Знову ж, чим більший коефіцієнт відносно стандартної похибки, тим більший t-Stat і вища ймовірність того, що коефіцієнт відхиляється від 0.

p-значення - t-статистика порівнюється з розподілом t для визначення p-значення. Зазвичай ми розглядаємо лише значення р незалежної змінної, яке забезпечує ймовірність отримання вибірки, максимально наближене до тієї, яка використовується для виведення рівняння регресії, і перевіряємо, чи нахил лінії регресії насправді дорівнює нулю або коефіцієнт близький до отриманий коефіцієнт.

Значення р нижче 0,05 вказує на 95% впевненість у тому, що нахил лінії регресії не дорівнює нулю, а отже, існує суттєва лінійна залежність між залежними та незалежними змінними.

Значення р більше 0,05 вказує на те, що нахил лінії регресії може бути нульовим і що на рівні 95% впевненості немає достатніх доказів існування значної лінійної залежності між залежними та незалежними змінними.

Оскільки значення р незалежної змінної оцінки GRE дуже близьке до 0, ми можемо бути надзвичайно впевнені, що існує значний лінійний зв'язок між оцінками GRE та шансом прийняття.

Нижній та верхній 95% - Оскільки ми в основному використовуємо вибірку даних для оцінки лінії регресії та її коефіцієнтів, вони в основному є наближенням дійсних коефіцієнтів і, в свою чергу, справжньою лінією регресії. Нижня та верхня межі 95% дають 95-й довірчий інтервал нижньої та верхньої меж для кожного коефіцієнта.

Оскільки 95% -ний довірчий інтервал для оцінок GRE дорівнює 0,009 та 0,01, межі не містять нуля, і тому, ми можемо бути впевнені на 95%, що існує значний лінійний зв’язок між оцінками GRE та шансом прийняття.

Зверніть увагу, що рівень довіри 95% широко використовується, але можливий рівень, відмінний від 95%, який можна встановити під час регресійного аналізу.

Статистика регресії

R² (квадрат R) - представляє силу моделі. Він показує величину варіації в залежній змінній, яку пояснює незалежна змінна, і завжди лежить між значеннями 0 і 1. По мірі збільшення R² модель пояснює більше варіацій даних і краще покращує модель при прогнозуванні. Низький R² означатиме, що модель не відповідає даним даних і що незалежна змінна не пояснює відмінності в залежній змінній.

R² = Регресійна сума квадратів / Загальна сума квадратів

Однак квадрат R не може визначити, чи оцінки та прогнози коефіцієнтів є упередженими, саме тому ви повинні оцінити залишкові графіки, які будуть розглянуті далі в цій статті.

R-квадрат також не вказує, чи є модель регресії адекватною. Ви можете мати низьке значення R-квадрата для хорошої моделі або високе значення R-квадрата для моделі, яка не відповідає даним.

R², в даному випадку, становить 65%, що означає, що оцінки GRE можуть пояснити 65% варіації шансів прийняття.

Відкоригований R² - це R², помножений на коефіцієнт коригування. Це використовується під час порівняння різних моделей регресії з різними незалежними змінними. Це число стає в нагоді під час прийняття рішення про правильні незалежні змінні в кількох моделях регресії.

Множинне R - це додатний квадратний корінь з R²

Стандартна помилка - відрізняється від стандартної помилки коефіцієнтів. Це розрахункове стандартне відхилення похибки рівняння регресії і є хорошим показником точності лінії регресії. Це квадратний корінь із залишкових середньоквадратичних помилок.

Ст. Помилка = √ (Res.MS)

Залишковий результат

Залишки - це різниця між фактичним значенням та передбачуваним значенням регресійної моделі, а залишковий вихід - це передбачене значення залежної змінної за допомогою регресійної моделі та залишкове значення для кожної точки даних.

І, як випливає з назви, залишковий графік - це графік розсіювання між залишковим та незалежним змінним, який у цьому випадку є оцінкою GRE кожного студента.

Залишковий графік важливий для виявлення таких речей, як гетероскедастичність , нелінійність та викиди . Процес їх виявлення не обговорюється як частина цієї статті, але той факт, що залишковий графік для нашого прикладу має випадкові розкидані дані, допомагає нам встановити той факт, що зв'язок між змінними в цій моделі є лінійною.

Намір

Метою цієї статті є не побудова діючої моделі регресії, а надання покрокових інструкцій щодо всіх змінних регресії та їх важливості, коли це необхідно, із вибірковим набором даних у таблиці регресії.

Незважаючи на те, що в цій статті наведено пояснення з однією змінною лінійної регресії, як приклад, майте на увазі, що деякі з цих змінних можуть мати більше значення у випадках багато змінних чи інших ситуаціях.

Список літератури

  • Набір даних про вступ до випускників
  • 10 речей про читання таблиці регресії
  • Підвищення кваліфікації з регресійного аналізу