Якщо ви хочете вивчити Data Science, пройдіть кілька із цих занять зі статистики

Рік тому я був цифровим виродком без кодування. Спробувавши онлайн-курс програмування, я настільки надихнувся, що вступив до однієї з найкращих програм інформатики в Канаді.

Через два тижні я зрозумів, що зможу навчитися усьому, що мені потрібно, за допомогою edX, Coursera та Udacity. Тож я кинув.

Рішення було не складним. Я міг засвоїти вміст, який хотів, швидше, ефективніше і на частку вартості.

Я вже мав вищу освіту і, що, що ще важливіше, я вже мав університетський досвід. Платити 30 тис. Доларів США за повернення до школи здавалося безвідповідальним.

Невдовзі після цього я почав створювати власний ступінь магістра в галузі даних, використовуючи онлайн-курси, зрозумівши, що для мене це більше підходить, ніж інформатика. Я переглянув вступ до програмування. Для першої статті з цієї серії я порекомендував кілька класів кодування для початківця дослідника даних.

Якщо ви хочете вивчити Data Science, почніть з одного з цих класів програмування

Вичерпний посібник з онлайн-вступу до курсів програмування. medium.freecodecamp.com

Тепер про статистику та ймовірність.

Я пройшов кілька курсів, і багато з них перевіряв. Я знаю, які там варіанти, і які навички потрібні учням, які готуються до роботи аналітика даних або вченого.

Для цього посібника я витратив 15+ годин, намагаючись визначити кожне введення в Інтернет до статистики та курсу ймовірностей, пропонованого станом на листопад 2016 року, витягуючи ключові фрагменти інформації з їх програм та оглядів, та складаючи їх рейтинги. Для цього я звернувся до не кого іншого, як спільноти Class Central з відкритим кодом та її бази даних про тисячі рейтингів та оглядів курсів.

З 2011 року засновник Class Central Дхавал Шах пильніше стежив за онлайн-курсами, ніж будь-хто інший у світі. Дхавал особисто допоміг мені скласти цей список ресурсів.

Як ми обирали курси для розгляду

Кожен курс повинен відповідати чотирьом критеріям:

  1. Це повинен бути вступний курс, в якому практично не потрібно статистики чи досвіду ймовірності.
  2. Його потрібно замовляти на замовлення або пропонувати кожні кілька місяців.
  3. Він повинен мати пристойну тривалість : загалом не менше десяти годин для передбачуваного завершення.
  4. Це має бути інтерактивний онлайн-курс, тому жодних книг чи навчальних посібників лише для читання . Хоча це життєздатні способи вивчення статистики та ймовірності, цей посібник зосереджений на курсах.

Ми вважаємо, що ми охопили кожен помітний курс, який відповідає вищезазначеним критеріям. Оскільки, здається, сотні курсів на Udemy, ми вирішили розглянути лише найбільш перевірені та найвищі рейтинги. Однак завжди є шанс, що ми щось пропустили. Тож, будь ласка, повідомте нас у розділі коментарів, якщо ми залишили хороший курс.

Як ми оцінювали курси

Ми склали середній рейтинг та кількість оглядів від Class Central та інших сайтів оглядів. Ми розрахували середньозважену оцінку для кожного курсу. Якщо серія мала кілька курсів (наприклад, Техаський університет у двоскладовій серії "Основи аналізу даних" Остіна), ми розрахували середньозважену оцінку для всіх курсів. Ми читали текстові огляди та використовували цей відгук, щоб доповнити числові рейтинги.

Ми зробили суб’єктивні навчальні програми на основі трьох факторів:

  1. Ступінь викладання кожного курсу статистики за допомогою кодування прикладів - бажано на R або Python.
  2. Висвітлення основ імовірності та статистики. Охоплення описової статистики, висновку статистики та теорії ймовірностей є ідеальним.
  3. Яка частина навчальної програми відповідає науці про дані? Чи має навчальний план спеціальний зміст, такий як геноміка, як це робить кілька курсів біостатистики? Чи охоплює навчальний план передові поняття, які не часто використовуються в науці про дані?

Чому цільове кодування?

Вільям Чен, науковий співробітник Quora, який має ступінь магістра прикладної математики з Гарварду, написав у цій популярній відповіді Quora наступне на запитання: “Як мені вивчити статистику для науки про дані?”

Будь-якому початківцю досліднику даних я настійно рекомендую вивчати статистику з великим акцентом на кодування прикладів, бажано на Python або R.

Оскільки багато статистичних робіт вченого з питань даних виконується з кодом, знайомство з найпопулярнішими інструментами є корисним.

Статистика І ймовірність

Ймовірність - це не статистика і навпаки. Моє улюблене пояснення їх відмінностей - від Університету Стоні Брук:

Ймовірність стосується передбачення ймовірності майбутніх подій, тоді як статистика передбачає аналіз частоти минулих подій.

Вони пояснюють, що "ймовірність - це насамперед теоретична галузь математики, яка вивчає наслідки математичних визначень", тоді як "статистика - це, перш за все, прикладна галузь математики, яка намагається зрозуміти спостереження в реальному світі".

Статистика загалом розглядається як одна із опор науки про дані. Ймовірність - хоча вона і привертає менше уваги - також є важливою частиною навчальної програми з даних.

Джо Бліцштайн, професор Гарвардського статистичного департаменту, заявив у цій популярній відповіді Quora, що майбутні вчені-дослідники повинні мати добру основу і в теорії ймовірностей.

Джастін Райзінг, науковий співробітник з доктора філософії у статистиці від Уортона пояснив, що цей "добрий фундамент" означає бути комфортним з імовірністю бакалаврату.

Наш вибір найкращих курсів статистики та ймовірностей для вчених-дослідників ...

  • Основи аналізу даних - Частина 1: Статистика за допомогою R Техаського університету в Остіні (edX)
  • Основи аналізу даних - Частина 2: Інференційна статистика Техаського університету в Остіні (edX)

«Основи аналізу даних» включає два найкращих оглянуті курси статистики, середньозважений рейтинг 4,48 із 5 зірок за 20 оглядів. Серія є одним з єдиних курсів верхнього ешелону рейтингів для викладання статистики з акцентом на кодуванні прикладів. Хоча програми не згадуються ні в одній з назв курсів, але вони містять достатній вміст вірогідності, щоб задовольнити наші критерії тестування. Ці курси разом мають чудове поєднання основних висвітлень та можливості для початківця вченого з даних.

Майкл Дж. Махомета, викладач і старший консультант з питань статистики Техаського університету в Остіні, викладач серії "Основи аналізу даних". Обидва курси серії безкоштовні. Орієнтовний графік - 6 тижнів по 3–6 годин на тиждень для кожного курсу. Один видатний рецензент сказав:

Відмінний курс! Я взяв участь 1 і мені це дуже сподобалось, тому було дуже легко вирішити продовжувати роботу з частиною 2. Доктор Махомета та команда - дуже добрі викладачі, і їх матеріал дуже якісний. Вправи цікаві, а матеріали (відео, лабораторні роботи та проблеми) відповідні та добре підібрані. Я рекомендую цей курс усім, хто цікавиться статистичним аналізом (як вступ до машинного навчання, великих даних, науки про дані тощо). За шкалою від 1 до 10 я даю 50!

Зверніть увагу, що опис кожного курсу та навчальна програма доступні за посиланнями, наведеними вище.

Зоряна спеціалізація

Оновлення (5 грудня 2016 р.): Наша оригінальна друга рекомендація, серія UC Berkeley “Stat2x: Вступ до статистики”, закрила їх участь через кілька тижнів після виходу цієї статті. Ми відповідно просунули нашу найкращу рекомендацію в розділі «Конкурс».

  • Статистика зі спеціалізацією R, Університет Дьюка на Курсрі

... який містить наступні п’ять курсів:

  • Вступ до ймовірності та даних
  • Довідкова статистика
  • Лінійна регресія та моделювання
  • Байєсова статистика
  • Статистика з R Capstone

Ця спеціалізація з п’яти курсів базується на чудовому курсі Дьюка з аналізу даних та статистичного висновку, який мав середньозважений рейтинг 4,82 зірки за 55 відгуків. Спеціалізацію викладає той самий професор, а також кілька додаткових викладачів. Ранні огляди нових індивідуальних курсів, які мають 3,6-зірковий середньозважений рейтинг за 5 оглядів, слід приймати з глибокою солі через малий обсяг вибірки. Програми є вичерпними та мають цілі розділи, присвячені ймовірності.

Доктор Майн Четінкая-Рундель є головним інструктором зі спеціалізації. Окремі курси можна перевірити безкоштовно, хоча у вас немає доступу до оцінювання. Відгуки свідчать про те, що спеціалізація "цілком варта грошей". Кожен курс має передбачуваний графік 4–5 тижнів по 5–7 годин на тиждень. Один видатний рецензент сказав наступне про початковий курс, на якому базувалася спеціалізація:

Один з найкращих курсів, які я проходив досі. [Лікар. Моя Четінкая-Рундель]] чудова вчителька, дуже задіяна в обмінах зі своїми учнями. Велика різноманітність навчальних підходів та інструментів. Багато практики через короткі тести, лабораторії R-програмування та глибокий проект. Дуже жвавий форум з великою кількістю допомоги, щоб впоратися з труднощами. Курс не надто складний, але різноманітність запропонованого матеріалу вимагає, щоб студенти залучались досить суттєво. Дуже гарна книга, доступна безкоштовно з великою кількістю практичних вправ.

Хочете більше ймовірності?

  • Вступ до ймовірності - наука про невизначеність Массачусетського технологічного інституту (MIT)

Розгляньте вищезгаданий курс MIT, якщо ви хочете глибше зануритися у світ ймовірностей. Це шедевр із середньозваженим рейтингом 4,91 із 5 зірок за 34 відгуки. Будьте застережені: це виклик і набагато довший, ніж більшість MOOC. Рівень, на якому курс охоплює ймовірність, також не є необхідним для початківців з інформатики.

Джон Цицікліс та Патрік Джаллет, обидва з яких є викладачами кафедри електротехніки та обчислювальної техніки MIT, викладають курс. Зміст цього курсу, по суті, такий самий, як і у відповідного класу MIT ( ймовірнісний системний аналіз та прикладна ймовірність ) - курсу, який пропонувався та постійно вдосконалювався протягом більше 50 років. Орієнтовний графік - 16 тижнів по 12 годин на тиждень. Один видатний рецензент сказав:

Багато онлайн-курсів якимось чином знижуються, але цей виглядає як правильний строгий курс, який керується фізичними вправами, подібний до того, який ви отримаєте особисто в такій школі, як MIT. Професори представляють концепції на лекціях, які, очевидно, були відточені до лазерного фокусу завдяки багаторічному педагогічному досвіду - у презентаціях немає жодної витраченої секунди, і вони проходять точно в потрібному темпі та детально, щоб ви могли зрозуміти їх. Вправи змусять вас працювати над своїми знаннями і є критично важливими для справжнього узагальнення понять. Це найкращий онлайн-курс, який я пройшов з будь-якої теми.

Закликаю вас відвідати сторінку Class Central для цього курсу, щоб прочитати решту оглядів.

Змагання

Наш вибір №1 мав середньозважений рейтинг 4,48 із 5 зірок за 20 відгуків. Давайте розглянемо інші альтернативи.

  • MedStats: Статистика в медицині (Стенфордський університет / Стенфордський OpenEdx): Чудова програма, де приклади мають медичну спрямованість. В кінці висвітлюється трохи програмування на R, хоча і не так багато, як серія UT Austin. Гідний варіант для будь-кого, навіть для тих, хто не націлений на ліки. Він має 4,58-зірковий середньозважений рейтинг за 32 відгуки.
  • SOC120x: Я “Серце” Статистика: Навчитися любити статистику (Університет Нотр-Дам / edX): Орієнтована на нетехнічну аудиторію, хоча, мабуть, буде корисною для когось. Немає кодування. Хороша виробнича цінність. Курси та інструктори виглядають по-справжньому весело. Він має 4,54-зірковий середньозважений рейтинг за 12 відгуків.
  • QM101x: Статистика для бізнесу (Індійський інститут управління Бангалор / edX): Частина серії з 4 курсів. Бізнес фокус. Хороша програма, що використовує кодування. Останні два курси серії не виходили станом на листопад 2016 року, тому поки що не можемо винести рішення. Він має середньозважений рейтинг 4,43 зірки за 27 відгуків.
  • Семінар з імовірності та статистики (Udemy): Викладав доктор Джордж Інгерсолл, заступник декана виконавчих програм МВА в Школі менеджменту UCLA Anderson. Коштує грошей. Використовує Excel. Він має 4,4-зірковий середньозважений рейтинг за 452 відгуки.
  • Вступ до описової статистики (Університет штату Сан-Хосе / Udacity): Частина серії з 2 курсів. Відео розміром до укусу. Немає кодування. Він має 3,88-зірковий середньозважений рейтинг за 8 відгуків.
  • Вступ до довідкової статистики (Університет штату Сан-Хосе / Udacity): Частина серії з 2 курсів. Я проходив обидва курси як перепідготовку для своїх курсів статистики нижчих курсів і прийшов з глибшим розумінням. Дуже сподобався стиль викладання Кеті Корманік (див. Відео нижче). Відео розміром до укусу. Немає кодування. Він має 4,4-зірковий середньозважений рейтинг за 5 відгуків.
  • 6.008.1x: Обчислювальна ймовірність та умовивід (Массачусетський технологічний інститут / edX): Один із двох курсів / циклів для викладання статистики з акцентом на кодуванні прикладів на Python. Огляди свідчать про необхідність попереднього досвіду статистики та про те, що курс трохи неорганізований. Він має 4-зірковий середньозважений рейтинг за 12 відгуків.
  • Основні статистичні дані (Амстердамський університет / Курсер): Один із двох курсів статистики в Амстердамському університеті з методів та статистики в галузі соціальних наук Один надзвичайно позитивний відгук про серію та її викладачів. Немає кодування. Він має 4,06-зірковий середньозважений рейтинг за 8 відгуків.
  • Інференційна статистика (Амстердамський університет / Курсра): Один із двох курсів статистики в Амстердамському університеті з методів та статистики в галузі соціальних наук. Один надзвичайно позитивний відгук про серію та її викладачів. Немає кодування. Він має 4-зірковий середньозважений рейтинг за 3 відгуки.
  • PH525.1x: Статистика та R (Гарвардський університет / edX): Частина серії з 7 курсів на edX. Фокус наук про життя. Використовує програмування R, але огляди показують, що серія UT Austin є кращою. Він має 3,96-зірковий середньозважений рейтинг за 26 відгуків.
  • PH525.3x: Статистичний висновок та моделювання для високопродуктивних експериментів (Гарвардський університет / edX): Частина серії з 7 курсів на edX. Фокус наук про життя. Використовує програмування R, але огляди показують, що серія UT Austin є кращою. Він має 4,63-зірковий середньозважений рейтинг за 4 відгуки.
  • Вступ до статистики (Udacity): Це один з найперших курсів Udacity, і він має свої недоліки, як описано в цьому незабутньому огляді викладача коледжу. Немає кодування. Він має 3,93-зірковий середньозважений рейтинг за 41 відгук.
  • Початковий табір математичної біостатистики 1 (Університет Джона Хопкінса / Курсра): Частина серії з 2 курсів. Біостатистика фокус. Він має 3,13-зірковий середньозважений рейтинг за 23 відгуки.
  • Початковий табір математичної біостатистики 2 (Університет Джона Хопкінса / Курсра): Частина серії з 2 курсів. Фокус біостатистики. Він має 3,83-зірковий середньозважений рейтинг за 3 відгуки.
  • KIexploRx: Дослідження статистики за допомогою R (Karolinska Institutet / edX): Більше курсу дослідження даних, ніж курсу статистики. Використовує кодування. Він має 3,77-зірковий середньозважений рейтинг за 22 відгуки.
  • Статистичне висновок (Університет Джона Гопкінса / Курсер): Один із двох курсів статистики в галузі спеціалізації JHU. Погані відгуки. Він має 2,9-зірковий середньозважений рейтинг за 29 відгуків.
  • Моделі регресії (Університет Джона Хопкінса / Coursera): Один з двох курсів статистики в галузі спеціалізації JHU. Погані відгуки. Він має середньозважений рейтинг 2,73 зірки за 30 відгуків.
  • DS101X: Статистичне мислення для науки про дані та аналітики (Колумбійський університет / edX): Частина сертифіката Microsoft Professional Program в галузі науки про дані. Короткий конспект. Погані відгуки. Він має середньозважений рейтинг 2,77 зірки за 24 відгуки.
  • Розуміння клінічних досліджень: за статистикою (Університет Кейптауна / Курсра): "Це не всебічний курс статистики, але він пропонує практичну орієнтацію на область медичних досліджень та загальновживаний статистичний аналіз". Фокус на охорону здоров'я. Він має 5-зірковий середньозважений рейтинг за 15 відгуків.
  • MED101x: Вступ до прикладної біостатистики: Статистика для медичних досліджень (Університет Осаки / edX): Фокус на біостатистиці. Використовує кодування. Він має 4,5-зірковий середньозважений рейтинг за 3 відгуки.
  • Ймовірність та статистика (Стенфордський університет / Стенфордський OpenEdx): Навчальна програма виглядає чудово. Один огляд справді позитивний. Немає кодування. Він має 4,5-зірковий середньозважений рейтинг за 1 відгук.
  • Інференційна та прогнозована статистика для бізнесу (Університет Іллінойсу в Урбана-Шампейн / Курсра): Частина 7-курсової спеціалізації з питань економічної та аналізу бізнесу. Використовує Excel. Він має 5-зірковий середньозважений рейтинг за 1 огляд.
  • Вивчення та виробництво даних для прийняття бізнес-рішень (Університет Іллінойсу в Урбана-Шампейн / Курсра): Частина 7-курсової спеціалізації з питань економічної та аналізу бізнесу. Використовує Excel. Він має 5-зірковий середньозважений рейтинг за 1 огляд.
  • Вступ до ймовірності, статистики та випадкових процесів (Університет штату Массачусетс, Амхерст / Незалежний): Відео, недоступне для всього курсу. Він має 2,5-зірковий середньозважений рейтинг за 2 відгуки.
  • 005x: Вступ до статистичних методів картографування генів (Університет Кіото / edX): фокус генетики. Потрібна попередня статистика та знання з питань R. Він має 2,5-зірковий середньозважений рейтинг за 1 відгук.
  • Статистика науки про геномні дані (Університет Джона Хопкінса / Курсер): Геномна спрямованість. Невдалий вступний курс: "Справедливий клас для тих, хто цікавиться цією сферою, а також має пристойний досвід у програмуванні R". Він має 2-зірковий середньозважений рейтинг за 2 відгуки.

Станом на листопад 2016 р. Наступні курси не мали оглядів.

  • Статистичне мислення на Python (Частина 1) та Статистичне мислення на Python (Частина 2) (DataCamp): Спеціально використовує кодування та Python, що робить його одним з небагатьох гідних курсів чи серій, які використовують цю мову. Сім годин відео та 120+ вправ. DataCamp - популярний варіант.
  • Посібник із статистики за допомогою R (DataCamp): Використовує кодування. 26 годин відео та 150+ вправ. Знову ж таки, DataCamp - популярний варіант.
  • Статистичні обчислення з R - щадне введення (University College London / Independent): Використовує кодування.
  • Ймовірність та статистика (Карнегі Меллон): Використовує Р. Насамперед текстові інструкції. Розроблений таким чином, щоб еквівалентно одному семестру курсу статистики коледжу.
  • Вступ до ймовірності та статистики (Массачусетський технологічний інститут / MIT OCW): Традиційний формат лекції (на відеозапис).
  • Основи інженерного статистичного аналізу (Університет Оклахоми / Янукс): Технічна спрямованість.
  • Елементарна статистика бізнесу (Університет Оклахоми / Янукс): фокус бізнесу.
  • STAT101x: Біостатистика для додатків великих даних (Медичний відділ Техаського університету / edX): Фокус на біостатистиці.
  • 416.1x: Імовірність: основні поняття та дискретні випадкові змінні (Університет Пердью / edX): Частина серії з 2 курсів.
  • 416.2x: Імовірність: Моделі розподілу та безперервні випадкові змінні (Університет Пердью / edX): Частина серії з 2 курсів.
  • Спеціалізація бізнес-статистики та аналізу (Університет Райса / Курсра): використовує Excel.
  • Статистика 110: Імовірність (Гарвардський університет): Традиційний формат лекції (на відеозапис). Часто рекомендується на Quora.
  • Статистика (запит даних): багатокурсова серія із вмістом близько 12 годин. Потрібна передплата. Один із двох курсів / серій для викладання статистики з акцентом на кодування прикладів на Python. Примітка з Dataquest: "На даний момент статистичні курси повністю переробляються, і вони мають вийти приблизно в кінці листопада".

Обгортання

Це друга із шести частин серії, яка охоплює найкращі MOOC для запуску в область науки про дані. Ми розглянули програмування в першій статті, а решта серії буде охоплювати кілька інших основних компетенцій в галузі науки про дані: процес обробки даних, візуалізація даних та машинне навчання.

Останній фрагмент буде підсумком цих курсів та найкращими MOOC для інших ключових тем, таких як переміщення даних, бази даних та навіть програмна інженерія.

Якщо ви хочете вивчити Data Science, почніть з одного з цих класів програмування

Вичерпний посібник з онлайн-вступу до курсів програмування. medium.freecodecamp.com Я класифікував кожен курс «Введення в науку даних» в Інтернеті на основі тисяч точок даних

Вичерпний посібник з онлайн-вступу до курсів з обробки даних. medium.freecodecamp.com

Якщо ви шукаєте повний список MOOCs Data Science, ви можете знайти їх на сторінці теми Data Science та Big Data Class Central.

Якщо вам сподобалось читати це, перегляньте деякі інші твори Class Central:

Ось 250 курсів Ліги Плюща, які Ви можете пройти онлайн прямо зараз безкоштовно

250 MOOC з Брауна, Колумбії, Корнелла, Дартмута, Гарварда, Пенсільванії, Прінстона та Єлу. medium.freecodecamp.com 50 найкращих безкоштовних онлайн-курсів університету за даними

Коли я запустив Class Central у листопаді 2011 року, було близько 18-ти безкоштовних онлайн-курсів і майже всі… medium.freecodecamp.com

Якщо у вас є пропозиції щодо пропущених курсів, повідомте мені про це у відповідях!

Якщо ви знайшли це корисним, натисніть на? тому більше людей побачать це тут, на Середньому.

Це стисла версія оригінальної статті, опублікованої на Class Central, де містяться описи курсів, навчальні програми та кілька оглядів.