9 ключових алгоритмів машинного навчання, пояснених простою англійською мовою

Машинне навчання змінює світ. Google використовує машинне навчання, щоб пропонувати користувачам результати пошуку. Netflix використовує його, щоб рекомендувати фільми для перегляду. Facebook використовує машинне навчання, щоб запропонувати людей, яких ви можете знати.

Машинне навчання ніколи не було важливішим. У той же час зрозуміти машинне навчання важко. Поле повно жаргону. І кількість різних алгоритмів ML зростає з кожним роком.

Ця стаття познайомить вас із основними поняттями в галузі машинного навчання. Більш конкретно, ми обговоримо основні концепції 9 найважливіших сьогодні алгоритмів машинного навчання.

Рекомендаційні системи

Що таке системи рекомендацій?

Системи рекомендацій використовуються для пошуку подібних записів у наборі даних.

Мабуть, найпоширеніший реальний приклад рекомендації існує всередині Netflix. Точніше, служба потокового відео рекомендуватиме запропоновані фільми та телешоу на основі вмісту, який ви вже переглядали.

Іншою системою рекомендацій є функція Facebook "Люди, яких ви можете знати", яка пропонує вам можливих друзів на основі вашого існуючого списку друзів.

Повністю розроблені та розгорнуті системи рекомендацій надзвичайно складні. Вони також дуже ресурсомісткі.

Системи рекомендацій та лінійна алгебра

Повноцінні рекомендаційні системи вимагають глибокого досвіду лінійної алгебри для побудови з нуля.

Через це в цьому розділі можуть бути поняття, яких ви не розумієте, якщо раніше ніколи не вивчали лінійну алгебру.

Однак не хвилюйтеся - бібліотека Python scikit-learn дозволяє дуже легко створювати системи рекомендацій. S0, для побудови реальних систем рекомендацій вам не потрібно багато лінійного фону алгебри.

Як працюють системи рекомендацій?

Існує два основних типи систем рекомендацій:

  • Системи рекомендацій на основі вмісту
  • Системи рекомендацій щодо спільної фільтрації

Системи рекомендацій, орієнтовані на вміст, дають вам рекомендації на основі подібності предметів елементів, які ви вже використовували. Вони поводяться саме так, як ви очікуєте від поведінки системи рекомендацій.

Системи рекомендацій щодо спільної фільтрації дають рекомендації, засновані на знанні взаємодії користувача з предметами. Кажуть інакше, вони використовують мудрість натовпу. (Звідси термін "спільний" у своїй назві.)

У реальному світі системи рекомендацій щодо спільної фільтрації набагато частіше, ніж системи на основі вмісту. Це в першу чергу тому, що вони зазвичай дають кращі результати. Деякі практики також вважають, що системи рекомендацій щодо спільної фільтрації легше зрозуміти.

Системи рекомендацій щодо спільної фільтрації також мають унікальну функцію, якої відсутні системи на основі вмісту. А саме вони мають можливість самостійно вивчати особливості.

Це означає, що вони можуть навіть почати виявляти схожість між предметами на основі атрибутів, які ви навіть не наказали їм враховувати.

У рамках спільної фільтрації є дві підкатегорії:

  • Спільна фільтрація на основі пам'яті
  • Спільна фільтрація на основі моделі

Вам не потрібно знати відмінності між цими двома типами систем спільної фільтрації рекомендацій, щоб досягти успіху в машинному навчанні. Досить визнати, що існує кілька типів.

Підсумок розділу

Ось короткий підсумок того, що ми обговорювали щодо систем рекомендацій у цьому посібнику:

  • Приклади систем рекомендацій у реальному світі
  • Різні типи систем рекомендацій та те, як системи спільної фільтрації використовуються частіше, ніж системи рекомендацій на основі вмісту
  • Зв'язок між рекомендаційними системами та лінійною алгеброю

Лінійна регресія

Лінійна регресія використовується для прогнозування деяких yзначень на основі значення іншого набору xзначень.

Історія лінійної регресії

Лінійна регресія була створена у 1800-х роках Френсісом Гальтоном.

Гальтон був вченим, який вивчав стосунки між батьками та дітьми. Більш конкретно, Гальтон досліджував взаємозв'язок між зростом батьків та зростом їхніх синів.

Першим відкриттям Гальтона було те, що сини, як правило, були приблизно такими ж високими, як їхні батьки. Це не дивно.

Пізніше Гальтон відкрив щось набагато цікавіше. Зріст сина, як правило, наближався до загального середнього зросту всіх людей, ніж до його власного батька .

Гальтон дав цьому явищу назву: регресія . Зокрема, він сказав: "Зріст сина батька має тенденцію до регресу (або зсуву до) середнього (середнього) зросту".

Це призвело до цілого поля статистики та машинного навчання, яке називається регресія.

Математика лінійної регресії

Створюючи модель регресії, все, що ми намагаємось зробити, це провести лінію, яка знаходиться якомога ближче до кожної точки набору даних.

Типовим прикладом цього є "метод найменших квадратів" лінійної регресії, який обчислює лише близькість лінії у напрямку вгору-вниз.

Ось приклад, який допоможе проілюструвати це:

Приклад математичної регресії найменших квадратів

Коли ви створюєте модель регресії, ваш кінцевий продукт - це рівняння, за допомогою якого ви можете передбачити значення y значення x, фактично не знаючи значення y заздалегідь.

Логістична регресія

Логістична регресія подібна до лінійної регресії, за винятком того, що замість обчислення числового yзначення вона оцінює, до якої категорії належить точка даних.

Що таке логістична регресія?

Логістична регресія - це модель машинного навчання, яка використовується для вирішення задач класифікації.

Ось кілька прикладів проблем класифікації машинного навчання:

  • Спам-листи (спам чи не спам?)
  • Позови про страхування автомобіля (списання чи ремонт?)
  • Діагностика захворювання

Кожна із задач класифікації має рівно дві категорії, що робить їх прикладами двійкових задач класифікації .

Логістична регресія добре підходить для вирішення двійкових задач класифікації - ми просто присвоюємо різним категоріям значення 0і 1відповідно.

Навіщо нам потрібна логістична регресія? Оскільки ви не можете використовувати модель лінійної регресії для складання двійкових класифікаційних прогнозів. Це не призвело б до хорошої підгонки, оскільки ви намагаєтесь провести пряму лінію через набір даних лише з двома можливими значеннями.

Це зображення може допомогти вам зрозуміти, чому моделі лінійної регресії погано підходять для задач двійкової класифікації:

Класифікація лінійної регресії

На цьому зображенні y-axisпредставлена ​​ймовірність злоякісної пухлини. І навпаки, значення 1-yпредставляє ймовірність того, що пухлина не є злоякісною. Як бачите, модель лінійної регресії погано спрацьовує цю ймовірність для більшості спостережень у наборі даних.

Ось чому моделі логістичної регресії корисні. Вони мають вигин до своєї лінії, яка найкраще підходить, що робить їх набагато кращими для прогнозування категоричних даних.

Ось приклад, який порівнює модель лінійної регресії з моделлю логістичної регресії з використанням тих самих навчальних даних:

Лінійна регресія проти логістичної регресії

Сигмоїдна функція

Причина, чому модель логістичної регресії має вигин у своїй кривій, полягає в тому, що вона не обчислюється за допомогою лінійного рівняння. Натомість моделі логістичної регресії будуються з використанням Sigmoid-функції (також звана логістичною функцією через її використання в логістичній регресії).

Вам не доведеться запам’ятовувати функцію Sigmoid, щоб досягти успіху в машинному навчанні. З урахуванням сказаного, корисне розуміння його зовнішнього вигляду.

Рівняння показано нижче:

Сигмовидне рівняння

Основна характеристика сигмоїдної функції, яку варто зрозуміти, полягає в наступному: незалежно від того, яке значення ви в неї передаєте, вона завжди буде генерувати результат десь між 0 і 1.

Використання моделей логістичної регресії для прогнозування

Щоб використовувати модель лінійної регресії для прогнозування, зазвичай потрібно вказати точку відсічення. Ця гранична точка зазвичай є 0.5.

Давайте скористаємось нашим прикладом діагностики раку з попереднього зображення, щоб побачити цей принцип на практиці. Якщо модель логістичної регресії виводить значення нижче 0,5, то точка даних класифікується як не злоякісна пухлина. Подібним чином, якщо сигмоїдна функція виводить значення вище 0,5, то пухлина буде класифікована як злоякісна.

Використання матриці плутанини для вимірювання ефективності логістичної регресії

Матриця плутанини може бути використана як інструмент для порівняння справжніх позитивів, справжніх негативів, хибнопозитивних та помилкових негативних результатів у машинному навчанні.

Матриці змішання особливо корисні, коли використовуються для вимірювання ефективності моделей логістичної регресії. Ось приклад того, як ми могли б використовувати матрицю плутанини:

Приклад матриці плутанини

Матриця плутанини корисна для оцінки того, чи є ваша модель особливо слабкою в конкретному квадранті матриці плутанини. Як приклад, він може мати аномально велику кількість помилкових спрацьовувань.

Це також може бути корисним у певних програмах, щоб переконатися, що ваша модель працює добре в особливо небезпечній зоні матриці плутанини.

Наприклад, у цьому прикладі раку ви хочете бути дуже впевненими, що у вашій моделі не дуже високий рівень помилкових негативних негативних наслідків, оскільки це вказує на те, що хтось має злоякісну пухлину, яку ви неправильно класифікували як не злоякісну.

Підсумок розділу

У цьому розділі ви вперше познайомилися з моделями машинного навчання з логістичної регресії.

Ось короткий підсумок того, що ви дізналися про логістичну регресію:

  • Типи класифікаційних задач, які підходять для вирішення за допомогою моделей логістичної регресії
  • Що логістична функція (також звана Sigmoid Function) завжди видає значення від 0 до 1
  • Як використовувати точки відсікання для прогнозування за допомогою моделі машинного навчання логістичної регресії
  • Чому матриці плутанини корисні для вимірювання ефективності моделей логістичної регресії

K-Найближчі сусіди

Алгоритм K-найближчих сусідів може допомогти вам вирішити проблеми класифікації, коли існує більше двох категорій.

Що таке алгоритм K-Найближчі сусіди?

Алгоритм K-найближчих сусідів - це алгоритм класифікації, який базується на простому принципі. Насправді принцип настільки простий, що його найкраще зрозуміти на прикладі.

Уявіть, що у вас були дані про зріст і вагу футболістів та баскетболістів. Алгоритм K-найближчих сусідів може бути використаний для прогнозування, чи є новий спортсмен футболістом чи баскетболістом.

Для цього алгоритм K-найближчих сусідів визначає точки Kданих, які є найближчими до нового спостереження.

Наступне зображення візуалізує це зі значенням K 3:

Візуалізація k найближчих сусідів

На цьому зображенні футболісти позначені як сині точки даних, а баскетболісти позначені як помаранчеві точки. Точка даних, яку ми намагаємося класифікувати, позначена як зелена.

Оскільки більшість (2 з 3) точок даних шаф до нових точок даних є синіми футболістами, то алгоритм K-найближчих сусідів передбачить, що нова точка даних також є футболістом.

Етапи побудови алгоритму K-найближчих сусідів

Загальними кроками побудови алгоритму найближчих сусідів є:

  1. Зберігайте всі дані
  2. Обчисліть евклідову відстань від нової точки даних xдо всіх інших точок набору даних
  3. Відсортуйте точки в наборі даних у порядку збільшення відстані від x
  4. Прогнозуйте використання тієї самої категорії, що і більшість Kнайближчих точок данихx

Важливість K в алгоритмі K-найближчих сусідів

Хоча це може бути не очевидно з самого початку, зміна значення Kв алгоритмі найближчих сусідів K змінить, до якої категорії присвоюється нова точка.

Більш конкретно, наявність дуже низького Kзначення призведе до того, що ваша модель чудово прогнозує ваші навчальні дані та погано передбачає ваші тестові дані. Подібним чином, занадто високе Kзначення зробить вашу модель надмірно складною.

Наступна візуалізація чудово ілюструє це:

Значення K та коефіцієнти помилок

Плюси та мінуси алгоритму K-Найближчі сусіди

На завершення цього вступу до алгоритму найближчих сусідів я хотів коротко обговорити деякі плюси і мінуси використання цієї моделі.

Ось деякі основні переваги алгоритму K-найближчих сусідів:

  • Алгоритм простий і зрозумілий
  • Навчати модель на нових навчальних даних тривіально
  • Він працює з будь-якою кількістю категорій у класіфікаційній задачі
  • Легко додати більше даних до набору даних
  • Модель приймає лише два параметри: Kі метрику відстані, яку ви хотіли б використовувати (як правило, евклідову відстань)

Аналогічно, ось кілька основних недоліків алгоритму:

  • Виготовлення прогнозів вимагає великих обчислювальних витрат, оскільки вам потрібно відсортувати весь набір даних
  • Це погано працює з категоричними особливостями

Підсумок розділу

Ось короткий підсумок того, що ви щойно дізналися про алгоритм k-найближчих сусідів:

  • Приклад класифікаційної задачі (футболісти проти баскетболістів), яку міг би вирішити алгоритм K-найближчих сусідів
  • Як K-найближчі сусіди використовують евклідову відстань сусідніх точок даних, щоб передбачити, до якої категорії належить нова точка даних
  • Чому значення має Kзначення для прогнозування?
  • Плюси та мінуси використання алгоритму K-найближчих сусідів

Дерева прийняття рішень та випадкові ліси

Дерева рішень та випадкові ліси є прикладами деревних методів.

Більш конкретно, дерева рішень - це моделі машинного навчання, які використовуються для прогнозування, прокручуючи кожну функцію в наборі даних, одну за одною. Випадкові ліси - це ансамблі дерев рішень, які використовували випадкові порядки об’єктів у наборах даних.

Що таке методи дерева?

Перш ніж заглибитися в теоретичні основи деревних методів машинного навчання, корисно розпочати з прикладу.

Уявіть, що ви граєте в баскетбол кожного понеділка. Більше того, ви завжди запрошуєте одного і того ж друга прийти пограти з вами.

Іноді друг насправді приходить. Іноді вони цього не роблять.

Рішення щодо приходу чи ні залежить від багатьох факторів, таких як погода, температура, вітер та втома. Ви починаєте помічати ці функції і починаєте відстежувати їх разом із рішенням вашого друга, грати чи ні.

Ви можете використовувати ці дані, щоб передбачити, чи з’явиться ваш друг грати в баскетбол. Одним із методів, яким ви могли б скористатись, є дерево рішень. Ось як могло б виглядати це дерево рішень:

Приклад дерева рішень

Кожне дерево рішень має два типи елементів:

  • Nodes: місця, де дерево розбивається відповідно до значення якогось атрибута
  • Edges: результат розбиття на наступний вузол

Ви можете бачити на зображенні вище , що є вузли для outlook, humidityі windy. Для кожного потенційного значення кожного з цих атрибутів існує перевага.

Ось ще дві частини термінології дерева рішень, які ви повинні зрозуміти, перш ніж продовжувати:

  • Root: вузол, який виконує перше розділення
  • Leaves: кінцеві вузли, які передбачають кінцевий результат

Тепер ви маєте базове розуміння того, що таке дерева рішень. Про те, як будувати дерева рішень з нуля, ми дізнаємось у наступному розділі.

Як побудувати дерева прийняття рішень з нуля

Будувати дерева рішень складніше, ніж ви можете собі уявити. Це пов’язано з тим, що вирішення, за якими функціями розділити ваші дані (що є темою, що належить до полів Ентропія та Збільшення інформації), є математично складною проблемою.

Для вирішення цієї проблеми практики машинного навчання, як правило, використовують багато дерев рішень, використовуючи випадкову вибірку функцій, вибраних як розділення.

Кажуть інакше, для кожного окремого дерева при кожному окремому поділі вибирається нова випадкова вибірка ознак. Цей прийом називається випадковими лісами .

Як правило, практики зазвичай вибирають розмір випадкової вибірки ознак (позначається m) як квадратний корінь із загальної кількості ознак у наборі даних (позначається p). Щоб бути стислим, mце квадратний корінь з p, а потім випадковим чином вибирається певна особливість m.

Якщо зараз це не має повного сенсу, не хвилюйтеся. Це стане зрозумілішим, коли ви врешті-решт побудуєте свою першу випадкову модель лісу.

Переваги використання випадкових лісів

Уявіть, що ви працюєте з набором даних, який має одну дуже сильну особливість. Інакше кажучи, набір даних має одну особливість, яка набагато провісніша щодо кінцевого результату, ніж інші ознаки набору даних.

Якщо ви будуєте дерева прийняття рішень вручну, то має сенс використовувати цю функцію як верхній розділ дерева рішень. Це означає, що у вас буде кілька дерев, прогнози яких сильно корелюють.

Ми хочемо цього уникнути, оскільки взяття середнього значення високо корельованих змінних не суттєво зменшує дисперсію. Вибираючи випадковим чином елементи для кожного дерева у випадковому лісі, дерева стають декоррельованими, а дисперсія отриманої моделі зменшується. Ця декорреляція є головною перевагою використання випадкових лісів перед деревами рішень, зробленими вручну

Підсумок розділу

Ось короткий підсумок того, що ви дізналися про дерева рішень та випадкові ліси в цій статті:

  • Приклад проблеми, яку ви могли б передбачити, використовуючи дерева рішень
  • Елементи дерева рішень: nodes, edges, roots, іleaves
  • Як взяття випадкових зразків особливостей дерева рішень дозволяє нам будувати випадковий ліс
  • Чому використання випадкових лісів для декорреляції змінних може бути корисним для зменшення дисперсії вашої остаточної моделі

Підтримка векторних машин

Машини опорних векторів - це алгоритми класифікації (хоча, технічно кажучи, вони також можуть бути використані для вирішення проблем регресії), які поділяють набір даних на категорії на основі розбиття найширшого розриву між категоріями. Ця концепція стане зрозумілішою завдяки візуалізації за мить.

Що таке машини для підтримки вектора?

Підтримуючі векторні машини - або коротше SVM - це наглядові моделі машинного навчання з відповідними алгоритмами навчання, які аналізують дані та розпізнають закономірності.

Машини опорних векторів можуть використовуватися як для задач класифікації, так і для задач регресії. У цій статті ми конкретно розглянемо використання машин опорних векторів для вирішення задач класифікації.

Як працюють опорні векторні машини?

Давайте розглянемо, як насправді працюють векторні машини підтримки.

Враховуючи набір навчальних прикладів - кожен з яких позначений як приналежний до однієї з двох категорій - алгоритм машинного навчання з опорним вектором будує модель. Ця модель відносить нові приклади до однієї з двох категорій. Це робить машину опорних векторів не ймовірнісним двійковим лінійним класифікатором.

SVM використовує геометрію, щоб робити категоричні прогнози.

Більш конкретно, модель SVM відображає точки даних як точки в просторі та розділяє окремі категорії таким чином, щоб вони були розділені на максимально широкий відкритий пробіл. Прогнозується, що нові точки даних належать до категорії залежно від того, до якої сторони розриву вони належать.

Ось приклад візуалізації, який може допомогти вам зрозуміти інтуїцію машин векторної підтримки:

Як бачите, якщо нова точка даних потрапляє на ліву сторону зеленої лінії, вона буде позначена червоною категорією. Подібним чином, якщо нова точка даних потрапляє на праву сторону зеленої лінії, вона буде позначена як належить до синьої категорії.

Ця зелена лінія називається гіперплощиною , що є важливим словниковим запасом для підтримки алгоритмів векторних машин.

Давайте подивимося на інше візуальне зображення машини підтримки вектор:

На цій діаграмі гіперплощину позначено як оптимальну гіперплощину . Теорія машин опорних векторів визначає оптимальний гіперплощин як той, який максимізує запас між найближчими точками даних з кожної категорії.

Як бачите, лінія поля фактично стосується трьох точок даних - двох із червоної категорії та однієї із синьої. Ці точки даних, що торкаються рядків полів, називаються векторами підтримки і звідки машини векторів підтримки отримують свою назву.

Підсумок розділу

Ось короткий підсумок того, що ви щойно дізналися про машини векторної підтримки:

  • Те, що підтримують векторні машини, є прикладом керованого алгоритму машинного навчання
  • Ці машини опорних векторів можуть бути використані для вирішення як задач класифікації, так і регресії
  • Як векторні машини підтримки класифікують точки даних за допомогою гіперплощини, яка максимізує поле між категоріями в наборі даних
  • Точки даних, що торкаються ліній полів у машині з підтримкою векторів, називаються векторами підтримки . Ці точки даних є місцем, де машини, що підтримують вектор, отримали свою назву.

Кластеризація K-засобів

Кластеризація K-означає - це алгоритм машинного навчання, який дозволяє ідентифікувати сегменти подібних даних у наборі даних.

Що таке кластеризація K-Means?

Кластеризація K-засобів - це некерований алгоритм машинного навчання.

Це означає, що він приймає немічені дані і намагатиметься групувати подібні кластери спостережень разом у ваших даних.

Алгоритми кластеризації K-засобів дуже корисні для вирішення реальних проблем. Ось кілька випадків використання цієї моделі машинного навчання:

  • Сегментація клієнтів для маркетингових команд
  • Класифікація документів
  • Оптимізація маршруту доставки для таких компаній, як Amazon, UPS або FedEx
  • Виявлення та реагування на злочинні центри у місті
  • Професійна спортивна аналітика
  • Прогнозування та запобігання кіберзлочинності

Основною метою алгоритму кластеризації засобів K є розподіл набору даних на окремі групи, щоб спостереження в кожній групі були схожі між собою.

Ось наочне зображення того, як це виглядає на практиці:

Візуалізація K означає алгоритм кластеризації

Ми дослідимо математику, яка стоїть за кластеризацією K-засобів, у наступному розділі цього посібника.

Як працюють алгоритми кластеризації K-Means?

Першим кроком у запуску алгоритму кластеризації K-засобів є вибір кількості кластерів, на які ви хочете поділити свої дані. Ця кількість кластерів - це Kзначення, на яке посилається ім’я алгоритму.

Вибір Kзначення в алгоритмі кластеризації K-засобів є важливим вибором. Про те, як правильно вибрати значення, ми поговоримо далі Kв цій статті.

Далі ви повинні випадковим чином призначити кожну точку у вашому наборі даних випадковому кластеру. Це дає наше початкове призначення, на якому ви потім запускаєте наступну ітерацію, поки кластери не перестають змінюватися:

  • Обчисліть центроїд кожного кластера, взявши середній вектор точок у цьому кластері
  • Повторно призначте кожну точку даних кластеру, який має найближчий центроїд

Ось анімація того, як це працює на практиці для алгоритму кластеризації K-засобів зі Kзначенням 3. Ви можете побачити центроїд кожного кластера, представлений чорним +символом.

Візуалізація K означає алгоритм кластеризації

Як бачите, ця ітерація триває до тих пір, поки кластери не перестануть змінюватися - тобто точки даних більше не призначаються новим кластерам.

Вибір належного значення K для K означає алгоритми кластеризації

Вибір належного Kзначення для алгоритму кластеризації K-засобів насправді досить складний. Немає "правильної" відповіді щодо вибору "найкращого" Kзначення.

Один із методів, який часто використовують практики машинного навчання, називається методом ліктя .

Щоб скористатися методом ліктя, перше, що вам потрібно зробити, це обчислити суму квадратних помилок (SSE) для вашого алгоритму кластеризації K-засобів для групи Kзначень. SSE в K означає, що алгоритм кластеризації визначається як сума квадратної відстані між кожною точкою даних кластера та центроїдом цього кластера.

В якості прикладу цього кроку, ви можете вирахувати SSE для Kзначень 2, 4, 6, 8, і 10.

Далі вам потрібно буде сформувати графік SSE щодо цих різних Kзначень. Ви побачите, що помилка зменшується зі Kзбільшенням значення.

Це має сенс - чим більше категорій ви створюєте в наборі даних, тим більша ймовірність того, що кожна точка даних знаходиться близько до центру свого конкретного кластера.

З огляду на це, ідея методу ліктя полягає у виборі значення, Kпри якому SSE різко уповільнює темп свого спаду. Це різке зменшення створює значення elbowв графіку.

Як приклад, ось графік SSE проти K. У цьому випадку метод ліктьового зв’язку рекомендує використовувати Kзначення приблизно 6.

Візуалізація K означає алгоритм кластеризації

Важливо те, що 6це лише оцінка хорошої вартості Kвикористання. В Kалгоритмі кластеризації K-засобів ніколи не існує "найкращого" значення. Як і багато речей у галузі машинного навчання, це вкрай залежне від ситуації рішення.

Підсумок розділу

Ось короткий підсумок того, про що ви дізналися в цій статті:

  • Приклади некерованих задач машинного навчання, які здатний вирішити алгоритм кластеризації K-засобів
  • Основні принципи того, що таке алгоритм кластеризації K-засобів
  • Як працює алгоритм кластеризації K-означає
  • Як за допомогою методу ліктя вибрати відповідне значення Kв моделі кластеризації K-означає

Аналіз основних компонентів

Аналіз основних компонентів використовується для перетворення багатофункціонального набору даних у перетворений набір даних з меншою кількістю функцій, де кожна нова функція є лінійною комбінацією попередньо існуючих функцій. Цей трансформований набір даних має на меті пояснити більшу частину дисперсії вихідного набору даних з набагато більшою простотою.

Що таке аналіз основних компонентів?

Аналіз основних компонентів - це техніка машинного навчання, яка використовується для вивчення взаємозв’язків між наборами змінних.

По-різному, аналіз основних компонентів вивчає набори змінних, щоб визначити основну структуру цих змінних.

Аналіз основних компонентів іноді називають факторним аналізом .

Виходячи з цього опису, можна подумати, що аналіз основних компонентів дуже схожий на лінійну регресію.

Це не так. Насправді ці дві техніки мають деякі важливі відмінності.

Різниця між лінійною регресією та аналізом основних компонентів

Лінійна регресія визначає лінію, яка найкраще відповідає набору даних. Аналіз основних компонентів визначає кілька ортогональних ліній, які найкраще підходять для набору даних.

Якщо ви не знайомі з терміном ортогональний , це просто означає, що лінії знаходяться під прямим кутом (90 градусів) один до одного - наприклад, Північ, Схід, Південь і Захід знаходяться на карті.

Давайте розглянемо приклад, який допоможе вам краще це зрозуміти.

Аналіз основних компонентів

Погляньте на мітки осей на цьому зображенні.

На цьому зображенні основний компонент осі х прикладає 73% дисперсії в наборі даних. Основний компонент осі y пояснює близько 23% дисперсії набору даних.

Це означає, що 4% дисперсії набору даних залишаються незрозумілими. Ви можете додатково зменшити це число, додавши до свого аналізу більше основних компонентів.

Підсумок розділу

Ось короткий підсумок того, що ви дізналися про аналіз основних компонентів у цьому посібнику:

  • Цей основний компонентний аналіз намагається знайти ортогональні фактори, що визначають мінливість у наборі даних
  • Відмінності між аналізом основних компонентів та лінійною регресією
  • Як виглядають ортогональні основні компоненти при візуалізації всередині набору даних
  • Це додавання більшої кількості основних компонентів може допомогти вам пояснити більшу дисперсію набору даних