Що таке статистичне значення? Визначено значення P та як його обчислити

Значення P - одне з найбільш широко використовуваних понять у статистичному аналізі. Вони використовуються дослідниками, аналітиками та статистиками для отримання розуміння даних та прийняття обґрунтованих рішень.

Поряд зі статистичною значимістю, вони також є одним із найбільш широко використовуваних та неправильно розуміних понять у статистичному аналізі.

Ця стаття пояснить:

  • як значення Р використовується для виведення статистичної значущості
  • як обчислюються значення Р
  • і як уникнути деяких типових помилок

Підсумок: Перевірка гіпотез

Перевірка гіпотез - це стандартний підхід до отримання уявлення з даних. Він використовується практично в усіх кількісних дисциплінах і має багату історію, що налічує понад сто років.

Звичайний підхід до перевірки гіпотез полягає у визначенні питання з точки зору змінних, які вас цікавлять. Потім ви можете сформувати дві протилежні гіпотези, щоб відповісти на нього.

  • Нульова гіпотеза стверджує , що немає статистично значуща зв'язок між змінними
  • Альтернативна гіпотеза стверджує , що існує статистично значуща зв'язок між змінними

Наприклад, скажімо, ви перевіряєте, чи впливає кофеїн на продуктивність програмування. Вас цікавлять дві змінні - доза кофеїну та продуктивність групи розробників програмного забезпечення.

Нульова гіпотеза буде:

  • "Споживання кофеїну не робить істотного впливу на продуктивність програмування".

Альтернативна гіпотеза буде:

  • "Споживання кофеїну має значний вплив на продуктивність".

Слово "значущий" має тут дуже конкретне значення. Це стосується взаємозв'язку між змінними, що існують завдяки чомусь, що не лише випадковість .

Натомість зв'язок існує (принаймні частково) через "реальні" відмінності або наслідки між змінними.

Наступним кроком є ​​збір деяких даних для перевірки гіпотез. Це може бути зібрано з експерименту чи опитування або з набору даних, до яких ви маєте доступ.

Останній крок - це обчислення статистичних даних тесту з даних. Це єдине число, яке представляє якусь характеристику ваших даних. Прикладами є t-тест, тест Hi-квадрата та тест Kruskal-Wallis - серед багатьох інших.

Який саме розрахувати, буде залежати від питання, яке ви задаєте, структури ваших даних та розподілу ваших даних.

Ось зручна шпаргалка для довідки.

У прикладі кофеїну підходящим тестом може бути t-тест із двома зразками.

Ви отримаєте єдину статистичну статистику з ваших даних. Залишилося лише інтерпретувати цей результат, щоб визначити, підтримує він чи відкидає нульову гіпотезу.

Тут тут відіграють значення значення P.

Наскільки малоймовірна ця статистика?

Згадайте, що ви розрахували статистику тесту, яка представляє деяку характеристику ваших даних. Ви хочете зрозуміти, підтримує він чи відкидає нульову гіпотезу.

Вживаний підхід полягає в припущенні нульової гіпотези істинною. Тобто, припустимо, що між змінними, які вас цікавлять, немає істотних зв’язків.

Потім перегляньте зібрані вами дані. Наскільки ймовірною буде ваша статистика тесту, якщо нульова гіпотеза дійсно відповідає дійсності?

Звернімося до прикладу споживання кофеїну з попередніх часів.

  • Скажімо, що рівні продуктивності були розподілені приблизно рівномірно між розробниками, незалежно від того, пили вони кофеїн чи ні (графік А). Цей результат, швидше за все, відбудеться випадково, якби нульова гіпотеза була істинною.
  • Однак припустимо, що майже всю найвищу продуктивність спостерігали розробники, які вживали кофеїн (графік В). Це більш "екстремальний" результат, і навряд чи це відбудеться випадково, якби нульова гіпотеза була правдивою.

Але наскільки «екстремальним» повинен бути результат, перш ніж він вважатиметься надто малоймовірним для підтримки нульової гіпотези?

Це те, що значення P дозволяє вам оцінити. Він надає числову відповідь на запитання: "якщо нульова гіпотеза відповідає дійсності, яка ймовірність результату цього крайнього чи більш екстремального?"

Значення P - це ймовірності, тому вони завжди між 0 і 1.

  • Високої Р значення вказує на те, що спостережувані результати можуть статися випадково при нульової гіпотези.
  • Низьке значення Р вказує на те, що результати , менш імовірно, відбуваються випадково при нульової гіпотези.

Зазвичай для визначення статистичної значущості вибирають поріг. Цей поріг часто позначають α.

Якщо значення P нижче порогового значення , ваші результати є « статистично значущими ». Це означає, що ви можете відхилити нульову гіпотезу (і прийняти альтернативну гіпотезу).

Не існує універсального порогу, придатного для всіх застосувань. Зазвичай використовується довільний поріг, який відповідає контексту.

Наприклад, у таких галузях, як екологія та еволюція, важко контролювати експериментальні умови, оскільки багато факторів можуть впливати на результат. Також може бути важко зібрати дуже великі розміри вибірки. У цих полях часто використовується поріг 0,05.

В інших контекстах, таких як фізика та техніка, поріг 0,01 або навіть нижче буде більш доречним.

Приклад хі-квадрат

У цьому прикладі є дві (вигадані) змінні: регіон та членство в політичній партії. Він використовує тест Chi-squared, щоб визначити, чи існує взаємозв'язок між регіоном та членством у політичній партії.

Ви можете змінити кількість членів для кожної партії.

  • Нульова гіпотеза: " між регіонами та членством у політичній партії немає суттєвих відносин "
  • Альтернативна гіпотеза: "існує значний зв’язок між регіоном та членством у політичній партії"

Натисніть кнопку "повторити", щоб спробувати різні сценарії.

Поширені помилки та способи їх уникнення

Є кілька помилок, які навіть досвідчені практики часто роблять щодо використання значень Р та перевірки гіпотез. Цей розділ має на меті прояснити їх.

Нульова гіпотеза нецікава - якщо дані хороші, а аналіз зроблений правильно, то це сам по собі дійсний висновок.

Питання стоїть відповідь повинен бути цікавий відповідь - незалежно від результату.

Value Значення P - це ймовірність істинної нульової гіпотези - значення P представляє "ймовірність результатів, якщо нульова гіпотеза відповідає дійсності". Це не те саме, що "ймовірність нульової гіпотези відповідає дійсності, враховуючи результати".

P (Дані | Гіпотеза) ≠ P (Гіпотеза | Дані)

Means Це означає, що низьке значення P говорить вам: "якщо нульова гіпотеза відповідає дійсності, ці результати малоймовірні". Це не говорить вам: "якщо ці результати відповідають дійсності, нульова гіпотеза малоймовірна".

Ви можете використовувати один і той самий поріг значущості для кількох порівнянь - запам’ятайте визначення значення Р. Це ймовірність спостереження певної статистичної статистики випадково.

Якщо ви використовуєте поріг α = 0,05 (або 1-в-20), і ви проводите, скажімо, 20 тестів статистики ... ви можете випадково сподіватися знайти низьке значення Р.

Вам слід використовувати нижчий поріг, якщо ви проводите кілька порівнянь. Існують методи корекції, які дозволять вам розрахувати, наскільки нижчим повинен бути поріг.

Threshold Поріг значущості означає взагалі що-небудь - він абсолютно довільний. 0,05 - це просто умова. Різниця між p = 0,049 і p = 0,051 майже така ж, як між p = 0,039 і p = 0,041.

Це одна з найбільших слабких сторін гіпотези, що перевіряється таким чином. Це змушує вас провести лінію на піску, хоча жодної лінії не можна легко провести.

Тому завжди враховуйте пороги значущості для того, якими вони є - абсолютно довільними.

Статистичне значення означає, що шанс не відіграє жодної ролі - далеко від цього. Часто існує багато причин для даного результату. Одні будуть випадковими, інші менш.

Finding один невипадкова причина не означає , що вона пояснює все відмінності між вашим змінним. Важливо не помиляти статистичну значимість із "величиною ефекту".

Values Значення P - це єдиний спосіб визначити статистичну значимість - існують інші підходи, які іноді є кращими.

Well Окрім класичного тестування гіпотез, враховуйте й інші підходи - наприклад, використання факторів Байєса чи натомість помилковий позитивний ризик.