Статистичні висновки висновків: Часті лікарі проти байєсівців

Висновок

Статистичний висновок - дуже важлива тема, яка забезпечує сучасні алгоритми машинного навчання та глибокого навчання. Ця стаття допоможе вам ознайомитися з поняттями та математикою, з яких складається умовивід.

Уявіть, що ми хочемо обдурити кількох друзів несправедливою монетою. У нас є 10 монет, і ми хочемо судити, чи не є одна з них несправедливою - тобто вона буде з’являтися як голова частіше, ніж хвости, або навпаки.

Тож беремо кожну монету, кидаємо її купу разів - скажімо 100 - і записуємо результати. Річ у тім, що тепер у нас є підмножина вимірювань з істинним розподілом (вибіркою) для кожної монети. Ми розглянули стан наших великих пальців і дійшли висновку, що збирати більше даних буде дуже нудно.

Поширені параметри справжнього розподілу. Часто ми хочемо зробити висновки щодо справжніх параметрів сукупності з вибірки.

Тож тепер ми хочемо оцінити ймовірність посадки монети на Хедс. Нас цікавить середнє значення вибірки .

На даний момент ви, напевно, думали: "Просто порахуйте кількість голов і розділіть на загальну кількість вже зроблених спроб!" Так, це спосіб знайти несправедливу монету, але як ми могли б придумати цю формулу, якби ми не знали її спочатку?

Висновок лікаря-спеціаліста

Нагадаємо, що підкидання монет найкраще моделюється за допомогою розподілу Бернуллі, тому ми впевнені, що це добре відображає наші дані. Функція маси ймовірності (PMF) для розподілу Бернуллі виглядає так:

x є випадковою величиною, яка представляє спостереження за підкиданням монети (припустимо, 1 для Heads і 0 для Reils), а p - параметр - ймовірність Heads. Ми будемо називати всі можливі параметри як θ і далі . Ця функція відображає, наскільки ймовірним є кожне значення x відповідно до обраного нами закону розподілу.

Коли x дорівнює 1, отримуємо f (1; p) = p, а коли дорівнює нулю f (0; p) = 1-p. Таким чином, розподіл Бернуллі відповідає на запитання: "Наскільки ймовірно, що ми отримаємо голови з монетою, які потраплять на голови з ймовірністю p? '. Власне, це один з найпростіших прикладів дискретного розподілу ймовірностей.

Отже, нас цікавить визначення параметра p за даними. Статистик-частотист, ймовірно, запропонує скористатися процедурою оцінки максимального правдоподібності (MLE). Цей метод використовує підхід до максимізації ймовірності параметрів з урахуванням набору даних D :

Це означає, що ймовірність визначається як імовірність даних, заданих параметрами моделі. Щоб максимізувати цю ймовірність, нам потрібно буде знайти параметри, які допомагають нашій моделі максимально наблизити дані. Чи не схоже це на навчання ? Максимальна ймовірність - це один із методів, що змушує працювати під контролем.

Тепер припустимо, що всі спостереження, які ми робимо, є незалежними. Це означає, що спільна ймовірність у наведеному вище виразі може бути спрощена до продукту за основними правилами ймовірності:

Тепер йде основна частина: як ми максимізуємо функцію ймовірності? Ми закликаємо числення на допомогу, диференціюємо функцію правдоподібності щодо параметрів моделі θ , встановлюємо її в 0 і розв’язуємо рівняння. Існує акуратний фокус, який набагато простіше робить диференціацію - логарифми не змінюють екстремумів функції (мінімальної та максимальної).

Оцінка максимальної ймовірності має величезне значення і майже кожен алгоритм машинного навчання. Це один з найпопулярніших способів сформулювати процес навчання математично.

А тепер давайте застосуємо вивчене та пограємо з нашими монетами. Ми провели n незалежних випробувань Бернуллі, щоб оцінити справедливість нашої монети. Таким чином, усі ймовірності можна помножити, і функція ймовірності виглядатиме так:

Взяти похідну від виразу вище не буде приємно. Отже, нам потрібно знайти вірогідність журналу:

Це виглядає простіше. Переходимо до диференціації

Тут ми розбиваємо похідні, використовуючи стандарт d (f + g) = df + dg. Далі ми висунемо константи назовні та диференціюємо логарифми:

Останній крок може здатися смішним через перевертання знака. Причиною є те, що log (1-p) насправді є складом двох функцій, і тут ми повинні використовувати правило ланцюга:

Вуаля, ми закінчили з імовірністю журналу! Тепер ми близькі до того, щоб знайти статистику максимальної вірогідності для середнього розподілу Бернуллі. Останній крок - розв’язання рівняння:

Помноживши все на p (1-p) і отримавши розширювальні дужки

Скасування умов та перестановка:

Отже, ось висновок нашогоінтуїтивна формула?. У НУ може тепер грати з розподілом Бернуллі і його оцінкою MLE середнього в візуалізації нижче

Вітаємо з новим чудовим вмінням оцінки максимальної вірогідності! Або просто для оновлення наявних знань.

Баєсів висновок

Нагадаємо, що існує інший підхід до ймовірності. Байєсова статистика має свій спосіб зробити імовірнісний висновок. Ми хочемо знайти розподіл ймовірностей параметрів ТЕТА даного зразка - Р (ТЕТА | D) . Але як ми можемо зробити висновок про цю ймовірність? На допомогу приходить теорема Байєса:

  • P (θ) називається попереднім розподілом і включає наші переконання в тому, якими параметрами можуть бути до того, як ми побачимо будь-які дані. Здатність висловлювати попередні переконання є однією з головних відмінностей між максимальною ймовірністю та баєсівським висновком. Однак це також є основним пунктом критики за байєсівський підхід. Як ми заявляємо попередній розподіл, якщо ми нічого не знаємо про проблему, що цікавить? Що робити, якщо ми виберемо поганого пріоритета?
  • P (D | θ) - це ймовірність, ми стикалися з нею при оцінці максимальної ймовірності
  • P (D) називається доказом або граничною вірогідністю

P (D) також називають нормою нормування, оскільки вона гарантує, що отримані нами результати є дійсним розподілом ймовірностей. Якщо ми перепишемо P (D) як

Ми побачимо, що це схоже на чисельник у теоремі Байєса, але підсумовування переходить за всіма можливими параметрами θ . Таким чином ми отримуємо дві речі:

  • Вихідні дані завжди є дійсним розподілом ймовірностей в області [0, 1].
  • Основні труднощі, коли ми намагаємось обчислити P (D), оскільки це вимагає інтегрування або підсумовування за всіма можливими параметрами. Це неможливо в більшості справжніх проблем зі словом.

Але чи робить гранична ймовірність P (D) все байєсівське непрактичним? Відповідь не зовсім. У більшості випадків ми використовуємо один із двох варіантів, щоб позбутися цієї проблеми.

Перший - це якимось чином наблизити P (D) . Цього можна досягти за допомогою різних методів вибірки, таких як важливість вибірки чи вибірки Гіббса, або техніки, званої варіаційним висновком (що, до речі, крута назва?).

Другий - повністю вивести його з рівняння. Розберемо цей підхід більш докладно. Що, якщо ми зосередимось на пошуку однієї найбільш вірогідної комбінації параметрів (це найкраща з можливих)? Ця процедура називається оцінкою максимуму за Posteriori (MAP).

Рівняння вище означає , що ми хочемо знайти θ , для яких вираз в АГД макс приймає максимальне значення - Arg ument з в максимальній вари. Головне, на що слід звернути увагу, це те, що P (D) не залежить від параметрів і може бути виключений з arg max :

Іншими словами, P (D) завжди буде постійним щодо параметрів моделі, а його похідна буде дорівнює 1 .

Цей факт настільки широко використовується, що часто можна побачити теорему Байєса, написану в такій формі:

Провідний знак неповної нескінченності у виразі вище означає "пропорційний" або "дорівнює константі".

Таким чином, ми видалили найбільш обчислювальну частину MAP. Це має сенс, оскільки ми в основному відкинули всі можливі значення параметрів із розподілу ймовірностей і просто відібрали найкраще з найбільш вірогідних.

Зв'язок між MLE та MAP

А тепер розглянемо, що відбувається, коли ми вважаємо пріоритет рівномірним (постійна ймовірність).

Ми вивели постійну C з аргументу max, оскільки це не впливає на результат, як це було з доказами. Це, безумовно, схоже на оцінку максимальної ймовірності! Зрештою, математичний розрив між частотним та байєсівським висновками не такий великий.

Ми також можемо побудувати міст з іншого боку і переглянути оцінку максимальної ймовірності через баєсові окуляри. Зокрема, можна показати, що байєсівські пріори мають тісний зв'язок з умовами регуляризації. Але ця тема заслуговує на інший допис (детальніше див. Це запитання SO та ESLR).

Висновок

Спочатку ці відмінності можуть здатися тонкими, але вони дають початок двом школам статистики. Частотологічний та байєсівський підходи відрізняються не тільки математичним лікуванням, але і філософськими поглядами на основні поняття у статистиці.

Якщо ви берете на себе капелюх Байєса, ви розглядаєте невідоме як розподіл ймовірностей, а дані як невипадкові фіксовані спостереження. Ви включаєте попередні переконання, щоб робити висновки про події, які спостерігаєте.

Як лікар-частоти, ви вважаєте, що існує одне справжнє значення для невідомих, які ми шукаємо, і це випадкові та неповні дані. Спеціаліст випадковим чином відбирає дані з невідомої сукупності та робить висновки про справжні значення невідомих параметрів, використовуючи цю вибірку.

Зрештою, підходи Байєса та Частотерапевта мають свої сильні та слабкі сторони. Кожен має інструменти для вирішення практично будь-якої проблеми, яку може інший. Як і різні мови програмування, їх слід розглядати як інструменти однакової сили, які можуть краще відповідати певній проблемі, а не підходити іншій. Використовуйте їх обох, використовуйте їх з розумом і не впадайте в лють священної війни між двома таборами статистиків!

Щось дізналися? Клацніть на? сказати "спасибі!" і допомогти іншим знайти цю статтю.