Чому кореляція не передбачає причинно-наслідкових зв’язків - значення цього загального вислову в статистиці

Можливо, ви пам’ятаєте цю просту мантру зі свого класу статистики:

"Кореляція не передбачає причинно-наслідкових зв'язків".

Тож, можливо, ви думаєте, що знаєте, що означає ця фраза.

Мовляв, якщо ви дуже наполегливо вивчали статистику, отримали хорошу оцінку, а потім потрапили до коледжу, це повинно означати, що ви потрапили до коледжу, тому що ви закінчили клас статистики.

Незважаючи на те, що ця оцінка, поряд з набутими вами навичками, ймовірно, допомогли, ви не можете ігнорувати інші фактори, що відіграють важливу роль - і, ймовірно, не можете стверджувати, що ваша оцінка статистики була причиною вашого прийняття до коледжу.

Перш за все - чому ми помиляємо кореляцію з причинно-наслідковим зв’язком?

Легко подумати, що саме тому, що дві речі здаються пов’язаними, одна має бути причиною іншої. Але це може бути дурним, а часом і небезпечним припущенням.

Наприклад, припустимо, ви намагаєтеся з’ясувати, що робить людей менш сварливими. Ви проводите дослідження, яке показує, що коли люди висипаються щонайменше x годин на ніч, вони менш сварливі.

Але чи врахували ви тут усі фактори? Можливо, вони також почали тренуватися більше, як наслідок того, що вони добре відпочили, і саме це змінило їхні настрої.

Не всі приклади є настільки доброякісними - а деякі зовсім безглузді.

Щоб продемонструвати, наскільки оманливим може бути припущення, що кореляція передбачає причинно-наслідкові зв'язки, погляньте на наступний графік з помилкових кореляцій Тайлера Вігена:

Хоча між цими двома факторами існує сильна кореляція, я сумніваюся, що ви могли б ефективно стверджувати, що одне спричинило інше. Можливо, це буде проблемою для людей спробувати довести.

Ось ще одна перлина з колекції Тайлера:

Подивіться на цю прекрасну кореляцію. Але вам важко буде стверджувати, що просто тому, що хтось з’їв більше сиру, вони, швидше за все, смертельно заплутаються у своїх простирадлах.

Що таке кореляція в статистиці?

Згідно зі словником, кореляція - це взаємний зв’язок або зв’язок між двома або більше речами (або змінними) - особливо такою, яка не очікується лише на основі випадковості.

Давайте використаємо це у реченні: Величезний розмір моїх доморощених помідорів, схоже, корелює з додатковим дощем, який був у нас цього літа.

Зараз я припускаю, що, оскільки дощ пішов трохи більше, ніж зазвичай, мої томатні рослини горіхали і виробляли монстра-помідори.

Але чи це єдиний фактор? Що можна сказати про компост, багатий на поживні речовини, який я використовував у своїх піднятих грядках? А як щодо якості рослин, які я придбав у розпліднику? А як щодо моєї ретельної обрізки та догляду?

Як бачите, хоча існує взаємозв'язок між моїми великими помідорами та нашим дощовим літом, це не обов'язково передбачає причинно-наслідкові зв'язки.

Що таке причинно-наслідковий зв'язок у статистиці?

Час для іншого визначення. Згідно зі словником, причинно-наслідковий зв'язок - це дія чи агентство, що виробляє ефект.

Давайте трохи детальніше. Причинність означає, що існує взаємозв'язок між двома подіями, коли одна подія впливає на іншу. У статистиці, коли значення події - або змінної - зростає або зменшується через іншу подію чи змінну, можна сказати, що існувала причинно-наслідкова зв'язок. A спричинив B.

Як щодо прикладу для цього? Можливо, ви фрілансер журналу, який платить за слово. Чим довше історія (і чим більше слів вона містить), тим більше вам платять.

Отже, існує прямий зв’язок між тим, скільки слів ви пишете і скільки вам платять. Але є і причинно-наслідкові зв’язки (оскільки ви написали більше, вам заплатили більше).

Чому так легко помилитися?

Чому так легко думати, що кореляція передбачає причинно-наслідкові зв’язки? Ну, якщо дві речі здаються пов’язаними, ми схильні пов’язувати їх і вважати, що вони впливають одна на одну. Коли погода холодна, люди проводять все більше часу всередині. Навколо свят торгові центри заповнені. Коли ви приймаєте трохи ібупрофену, ваш головний біль зникає.

Хоча ці обставини, безумовно, пов'язані - а деякі можуть навіть передбачати причинно-наслідкові зв'язки - вони не обов'язково витримують науковий аналіз.

Є кілька причин, через які ми можемо помилково зробити висновок про причинно-наслідкові зв’язки на основі кореляції.

Що таке незрозуміла змінна?

Перш за все, у вас може бути незрозуміла змінна в суміші. Це змінна, яка впливає як на незалежні, так і на залежні змінні у ваших стосунках - і тим заважає вашій здатності визначати природу цих відносин.

Наприклад, якщо нова сім'я переїжджає в околиці, а рівень злочинності зростає, мешканці цього району можуть припустити, що це через цю нову сім'ю. Але що, якщо одночасно поруч відкрився центр ув'язнення? Це більш вірогідна причина збільшення злочинності.

Що таке зворотна причинно-наслідкова зв'язок?

По-друге, ви, можливо, маєте справу із зворотною причиною . Це трапляється, коли замість того, щоб правильно припустити, що A викликає B, ви змішаєте їх і припустите, що B викликає A.

Можливо, важко уявити, як це відбувається, але подумайте, як працюють сонячні панелі. Вони виробляють більше енергії, коли сонце на небі довше.

Але сонце вже не на небі, бо панелі виробляють більше енергії. Панелі виробляють більше енергії, оскільки сонце світить довше.

Що таке збіг обставин?

По-третє, ми не повинні забувати про силу випадковості . Коли трапляються одночасно дві речі, спокусливо побачити причинно-наслідкові зв’язки. Але так само, як той безглуздий графік вище, з аркадами та градусами CS, багато з них просто збіги.

Зрештою - чому нам все одно?

Можливо, ви намагаєтеся з’ясувати, чи певний новий препарат покращує самопочуття пацієнтів. Або ви хотіли б знати, що змушує людей купувати певний товар.

Якою б не була ваша мотивація, часто буває дуже корисно з’ясувати, чи викликає А B, а також як і чому.

Але, як ми вже бачили, це не так просто. Ви повинні контролювати якомога більше факторів, зменшувати ймовірність змішування змінних та збігів та зводити дані до відповідних.

Ми не будемо вникати в глибше філософське питання про те, як ми можемо без сумніву встановити причинно-наслідкові зв’язки. Це в інший раз.

Принаймні зараз ви знаєте, що - хоча дві події або змінні можуть здаватися пов'язаними - це не означає, що одна має прямий причинно-наслідковий вплив на іншу.