Як зішкребти веб-сайти за допомогою Python

Іноді вам може знадобитися витягти дані з веб-сайту в інший формат. Але що, якщо веб-сайт не має простого способу експортувати ці дані? Ось тут з’являється скраб веб.

Ми випустили збійний курс на YouTube-каналі freeCodeCamp.org, який навчить вас виконувати витирання веб-сторінок за допомогою бібліотеки Python Beautiful Soup.

Цей курс був розроблений Джимом Ергіном з JimShapedCoding. Джим багато років користується та викладає Python.

Beautiful Soup дозволить вам зібрати будь-яку інформацію, яку ви хочете, з будь-якого веб-сайту, який ви хочете. Це може бути веб-сайт банку, соціальні медіа, Вікіпедія або будь-який інший веб-сайт.

Beautiful Soup надає методи навігації, пошуку та модифікації дерева синтаксичного аналізу. Це полегшує розтин HTML-документа та вилучення необхідних даних. І для написання програми не потрібно багато коду.

На цьому курсі ви спочатку дізнаєтесь, як скребнути базову сторінку HTML, лише щоб вивчити поняття. Потім ви перейдете до вишкрібання справжнього веб-сайту. Наприкінці ви дізнаєтесь, як зберігати інформацію, яку ви викреслили з веб-сайту.

Ось теми, висвітлені в цьому курсі:

  • Основна структура HTML, Пояснення тегів HTML
  • Встановлення пакетів
  • Вишкрібання локальних файлів
  • Прекрасний суп методи find & find_all ()
  • Інструмент перевірки веб-браузера
  • Захоплення цін у базовому проекті зіскаблювання веб-сторінок
  • Використання бібліотеки запитів для перегляду HTML веб-сайту  
  • Вишкрібання виробничого веб-сайту
  • Переглядаючи подібні об'єкти sou.find_all ()
  • Фільтрування скребкованих завдань
  • Налаштування проекту для вишкрібання кожні 10 хвилин
  • Зберігання абзацу із завданнями у текстових файлах

Перегляньте повний курс збоїв на YouTube-каналі freeCodeCamp.org (1-годинний перегляд).