Перспективний вчений з питань даних? Опануйте ці основи.

Наука даних - це захоплююча сфера, яка швидко розвивається. Попиту на талановитих, аналітично налаштованих людей не бракує. Компанії будь-якого розміру наймають науковців з обробки даних, і ця роль забезпечує реальну цінність для широкого кола галузей та додатків.

Часто перші зустрічі людей із цим полем відбуваються через читання науково-фантастичних заголовків, створених великими дослідницькими організаціями. Недавній прогрес підняв перспективу машинного навчання, щоб перетворити світ таким, яким ми його знаємо протягом покоління.

Однак, поза академічними колами та дослідженнями, наука про дані - це набагато більше, ніж основні теми, такі як глибоке навчання та НЛП.

Значна частина комерційної цінності вченого з даних пов’язана з наданням чіткості та розуміння, яке може принести величезна кількість даних. Роль може охоплювати все, починаючи від інженерії даних, закінчуючи аналізом даних та складанням звітів - можливо, з деяким машинним навчанням вдається застосувати його.

Особливо це стосується стартап-фірми. Потреби компаній у даних на ранніх та середніх стадіях, як правило, далеко від сфери нейронних мереж та комп'ютерного зору. (Якщо, звичайно, це не основні особливості їх продукту / послуги).

Швидше, їм потрібен точний аналіз, надійні процеси та можливість швидкого масштабування.

Тому навички, необхідні для багатьох рекламованих ролей в галузі науки про дані, широкі та різноманітні. Як і будь-яке заняття в житті, велика частина цінності приходить від оволодіння основами. Застосовується байкове правило 80:20 - приблизно 80% вартості походить від 20% набору навичок.

Ось огляд деяких основоположних навичок, якими повинен володіти будь-який працівник, який прагне даних.

Почніть зі статистики

Основним атрибутом, який вчений-дослідник надає своїй компанії, є здатність відганяти розуміння від складності. Ключем до досягнення цього є розуміння того, як розкрити сенс із галасливих даних.

Тому статистичний аналіз є важливою навичкою для оволодіння. Статистика дозволяє:

  • Опишіть дані, щоб надати детальну картину зацікавленим сторонам
  • Порівняйте дані та протестуйте гіпотези для інформування про ділові рішення
  • Визначте тенденції та взаємозв'язки, що забезпечують реальну прогнозовану цінність

Статистика забезпечує потужний набір інструментів для розуміння комерційних та оперативних даних.

Але будьте обережні! Єдине, що гірше обмеженого розуміння, - це оманливе розуміння. Ось чому життєво важливо розуміти основи статистичного аналізу.

На щастя, є декілька керівних принципів, яких ви можете слідувати.

Оцініть свої припущення

Дуже важливо пам’ятати про свої припущення щодо своїх даних.

Завжди будьте критичні щодо походження та скептично налаштовані на результати. Чи може бути "нецікаве" пояснення будь-яких спостережуваних тенденцій у ваших даних? Наскільки дійсним є обраний вами тест на статистику чи методологія? Чи відповідають ваші дані всім основним припущенням?

Знання того, які висновки є "цікавими" та про які варто повідомити, також залежить від ваших припущень. Елементарним випадком є ​​судження про те, чи доцільніше повідомляти про середнє значення або медіану набору даних.

Часто важливішим, ніж знання, який підхід використовувати, є знання, якого не робити. Зазвичай існує декілька способів аналізу заданого набору даних, але обов’язково уникайте загальних підводних каменів.

Наприклад, багаторазові порівняння завжди слід виправляти. Ні в якому разі не слід прагнути підтвердити гіпотезу, використовуючи ті самі дані, що використовуються для її формування! Ви здивуєтесь, як легко це робиться.

Розподіл> Місцезнаходження

Щоразу, коли я говорю про вступну статистику, я завжди переконуюсь наголосити на певному моменті: розподіл змінної зазвичай є принаймні таким же цікавим / інформативним, як і його розташування. Насправді це часто більше.

Це пояснюється тим, що розподіл змінної зазвичай містить інформацію про основні генеративні (або вибіркові) процеси.

Наприклад, дані підрахунку часто слідують за розподілом Пуассона, тоді як система, що демонструє позитивні відгуки («підкріплення»), як правило, виявляє розподіл закону степенів. Ніколи не покладайтесь на те, що дані розповсюджуються нормально без попередньої ретельної перевірки.

По-друге, розуміння розподілу даних має важливе значення для знання того, як з ними працювати! Багато статистичних тестів та методів покладаються на припущення щодо розподілу ваших даних.

Як надуманий приклад, завжди обов’язково по-різному обробляти дані унімодальних та бімодальних даних. Вони можуть мати одне і те ж середнє значення, але ви втратите цілу тонну важливої ​​інформації, якщо знехтуєте їх розподілом.

Щоб отримати більш цікавий приклад, який ілюструє, чому слід завжди перевіряти свої дані перед поданням зведених статистичних даних, погляньте на квартет Анскомба:

Кожен графік виглядає дуже своєрідно, так? Проте кожен із них має однакову підсумкову статистику - включаючи їх середні показники, дисперсію та коефіцієнти кореляції. Побудова деяких розподілів виявляє, що вони досить різні.

Нарешті, розподіл змінної визначає вашу впевненість щодо її справжнього значення. "Вузький" розподіл дозволяє забезпечити більшу визначеність, тоді як "широкий" розподіл дозволяє менше.

Відхилення середнього значення є вирішальним для забезпечення контексту. Надто часто засоби із дуже широкими довірчими інтервалами повідомляються поряд із засобами з дуже вузькими довірчими інтервалами. Це може ввести в оману.

Відповідна вибірка

Реальність така, що вибірка може стати проблемою для комерційно орієнтованих вчених-дослідників даних, особливо для тих, хто має досвід у галузі досліджень або інженерії.

У дослідницьких умовах ви можете точно налаштувати точно розроблені експерименти з багатьма різними факторами та рівнями та контрольні методи лікування. Однак комерційні умови, що існують у реальному часі, часто є неоптимальними з точки зору збору даних. Кожне рішення повинно бути ретельно зважено з урахуванням ризику перервати “звичайний бізнес”.

Це вимагає від науковців даних винахідливості, проте реалістичності у своєму підході до вирішення проблем.

A / B тестування - це канонічний приклад підходу, який ілюструє, як продукти та платформи можуть бути оптимізовані на детальному рівні, не викликаючи серйозних порушень у звичному бізнесі.

Баєсові методи можуть бути корисними для роботи з меншими наборами даних, якщо у вас є достатньо інформативний набір пріоритетів для роботи.

Будь-які дані, які ви збираєте, не забудьте визнати їх обмеження.

Дані опитування схильні до упередженості вибірки (часто саме респонденти, які мають найвищі думки, не поспішають заповнити опитування). На часові ряди та просторові дані може впливати автокореляція. І останнє, але не менш важливе: завжди слідкуйте за мультиколінеарністю, аналізуючи дані із пов’язаних джерел.

Інженерія даних

Це щось на зразок кліше в галузі даних, але реальність така, що більша частина робочого циклу даних витрачається на пошук, очищення та зберігання необроблених даних, необхідних для більш проникливого аналізу вгору.

Порівняно мало часу витрачається на впровадження алгоритмів з нуля. Дійсно, більшість статистичних інструментів постачаються із внутрішньою роботою, загорнутою в акуратні пакети R та модулі Python.

Процес "вилучення-перетворення-завантаження" (ETL) є критично важливим для успіху будь-якої команди з обробки даних. Більші організації матимуть спеціальних інженерів даних, щоб задовольнити їхні складні вимоги до інфраструктури даних, але молоді компанії часто залежатимуть від своїх вчених даних, щоб вони володіли потужними, всебічними власними навичками інженерії даних.

Програмування на практиці

Наука про дані є дуже міждисциплінарною. Окрім вдосконалених аналітичних навичок та знань, що стосуються конкретних областей, ця роль також вимагає надійних навичок програмування.

Немає ідеальної відповіді на те, якими мовами програмування повинен навчитися користуватися науковий працівник-дослідник даних. Тим не менш, принаймні один з Python та / або R буде вам дуже добре служити.

Яку б мову ви не вибрали, прагніть ознайомитись з усіма її особливостями та навколишньою екосистемою. Перегляньте різні доступні вам пакети та модулі та налаштуйте свою ідеальну IDE. Дізнайтеся API, які вам потрібно використовувати для доступу до основних платформ та послуг вашої компанії.

Бази даних є невід’ємною частиною мозаїки будь-якого робочого процесу даних. Обов’язково оволодійте деяким діалектом SQL. Точний вибір не надто важливий, оскільки перемикання між ними є керованим процесом, коли це необхідно.

Бази даних NoSQL (наприклад, MongoDB) також можуть бути варті вивчення, якщо ваша компанія їх використовує.

Ставши впевненим користувачем командного рядка, ви зможете значно збільшити вашу повсякденну продуктивність. Навіть знайомство з простими сценаріями bash дозволить вам сильно розпочати роботу з автоматизації повторюваних завдань.

Ефективне кодування

Дуже важливою навичкою для майстрів, які прагнуть опанувати дані, є ефективне кодування. Ключове значення має багаторазове використання. Варто витратити час (коли він доступний) на написання коду на рівні абстракції, що дозволяє використовувати його не раз.

Однак існує баланс між короткостроковими та довгостроковими пріоритетами.

Немає сенсу брати вдвічі більше часу для написання спеціального сценарію для повторного використання, якщо немає шансів, що він коли-небудь стане актуальним знову. Проте кожна хвилина, витрачена на рефакторинг старого коду, який потрібно повторити, - це хвилина, яку можна було зберегти раніше.

Для написання справді продуктивного виробничого коду варто розробити найкращі практики програмного забезпечення.

Інструменти управління версіями, такі як Git, роблять розгортання та підтримку коду набагато впорядкованішими. Планувальники завдань дозволяють автоматизувати рутинні процеси. Регулярні перевірки коду та узгоджені стандарти документації значно полегшать життя вашої команди в майбутньому.

У будь-якій галузі технічної спеціалізації, як правило, не потрібно винаходити колесо. Інженерія даних не є винятком. Такі фреймворки, як Airflow, роблять планування та моніторинг процесів ETL простішими та надійнішими. Для розподіленого зберігання та обробки даних існують Apache Spark та Hadoop.

Для початківців необов’язково вивчати їх глибоко. Однак усвідомлення навколишньої екосистеми та доступних інструментів - це завжди перевага.

Спілкуйтеся чітко

Наука даних - це повний стек дисципліни, важливий зовнішній вигляд зацікавлених сторін: рівень звітності.

Справа в цьому проста - ефективне спілкування приносить із собою значну комерційну цінність. З наукою про дані існує чотири аспекти ефективної звітності.

  • Точність

    Це має вирішальне значення із зрозумілих причин. Навик тут - знати, як інтерпретувати ваші результати, і чітко усвідомлювати будь-які обмеження чи застереження, які можуть застосовуватися. Важливо не переоцінювати або занижувати актуальність якогось конкретного результату.

  • Точність

    Це має значення, оскільки будь-яка неясність у вашому звіті може призвести до неправильної інтерпретації висновків. Це може мати негативні наслідки далі.

  • Короткий

    Звітуйте якомога коротше, але не коротше. Хороший формат може надати певний контекст для основного питання, включити короткий опис наявних даних та дати огляд результатів та графіки "заголовка". Додаткові деталі можуть (і повинні) міститися в додатку.

  • Доступний

    Існує постійна потреба збалансувати технічну точність звіту з реальністю, що більшість його читачів будуть експертами у своїх власних галузях, і не обов’язково в галузі науки про дані. Тут немає простої, універсальної відповіді. Часте спілкування та зворотний зв'язок допоможуть встановити відповідну рівновагу.

Графічна гра

Потужна візуалізація даних допоможе вам ефективно повідомляти складні результати зацікавленим сторонам. Добре розроблений графік або діаграма може швидко розкрити те, що потрібно пояснити декільком абзацам тексту.

Існує широкий вибір безкоштовних та платних інструментів для візуалізації та побудови інформаційної панелі, включаючи Plotly, Tableau, Chartio, d3.js та багато інших.

Для швидких макетів іноді ви не можете перемогти добре устарене програмне забезпечення для електронних таблиць, таке як Excel або Google Sheets. Вони виконуватимуть роботу за необхідністю, хоча їм не вистачає функціональності спеціального програмного забезпечення для візуалізації.

Створюючи інформаційні панелі та графіку, слід врахувати низку керівних принципів. Основна проблема полягає в тому, щоб максимізувати інформаційну цінність візуалізації, не жертвуючи "читабельністю".

Ефективна візуалізація швидко відкриває огляд високого рівня. Більш складна графіка може зайняти трохи більше часу для перегляду глядачем, і відповідно вона повинна пропонувати значно більший інформаційний вміст.

Якщо ви коли-небудь читали лише одну книгу про візуалізацію даних, то класика Едварда Туфте «Візуальне відображення кількісної інформації»є видатним вибором.

Туфте одноосібно популяризував і винайшов значну частину області візуалізації даних. Широко вживані терміни, такі як "chartjunk" та "щільність даних", своїм походженням зобов'язані роботі Туфте. Його концепція "співвідношення даних та чорнила" залишається впливовою впродовж тридцяти років.

Використання кольорів, макета та інтерактивності часто робить різницю між гарною візуалізацією та якісною, професійною.

Зрештою, створення чудової візуалізації даних торкається навичок, частіше пов’язаних з UX та графічним дизайном, ніж наука про дані. Читання цих предметів у вільний час - чудовий спосіб розвинути усвідомлення того, що працює, а що ні.

Не забудьте перевірити сайти, такі як bl.ocks.org, щоб отримати натхнення!

Наука даних вимагає різноманітного набору навичок

Є чотири основні галузі навичок, в яких ви, як прагнутий науковець, повинні зосередитися на розвитку. Вони є:

  • Статистика, що включає як базову теорію, так і реальне застосування.
  • Програмування принаймні на одному з Python або R, а також SQL та використання командного рядка
  • Найкращі практики інженерії даних
  • Ефективне спілкування з вашою роботою

Бонус! Вчіться постійно

Якщо ви прочитали це далеко і почуваєтесь зовсім знеохоченим - будьте впевнені. Основна навичка в такій швидкій галузі - це навчитися вчитися та перевчитися. Безсумнівно, нові рамки, інструменти та методи з'являться в найближчі роки.

Точний набір навичок, який ви дізнаєтесь зараз, можливо, доведеться повністю оновити протягом п’яти-десяти років. Чекайте цього. Роблячи це та підготувавшись, ви можете залишатись попереду гри завдяки постійному перевченню.

Ви ніколи не можете все знати, а правда в тому, що ніхто ніколи цього не знає. Але, якщо ви освоїте основи, ви зможете підібрати що-небудь ще на основі необхідності знати.

І це, мабуть, ключ до успіху в будь-якій швидко розвивається дисципліні.