Іноді вам може знадобитися витягти дані з веб-сайту в інший формат. Але що, якщо веб-сайт не має простого способу експортувати ці дані? Ось тут з’являється скраб веб.
Ми випустили збійний курс на YouTube-каналі freeCodeCamp.org, який навчить вас виконувати витирання веб-сторінок за допомогою бібліотеки Python Beautiful Soup.
Цей курс був розроблений Джимом Ергіном з JimShapedCoding. Джим багато років користується та викладає Python.
Beautiful Soup дозволить вам зібрати будь-яку інформацію, яку ви хочете, з будь-якого веб-сайту, який ви хочете. Це може бути веб-сайт банку, соціальні медіа, Вікіпедія або будь-який інший веб-сайт.
Beautiful Soup надає методи навігації, пошуку та модифікації дерева синтаксичного аналізу. Це полегшує розтин HTML-документа та вилучення необхідних даних. І для написання програми не потрібно багато коду.
На цьому курсі ви спочатку дізнаєтесь, як скребнути базову сторінку HTML, лише щоб вивчити поняття. Потім ви перейдете до вишкрібання справжнього веб-сайту. Наприкінці ви дізнаєтесь, як зберігати інформацію, яку ви викреслили з веб-сайту.
Ось теми, висвітлені в цьому курсі:
- Основна структура HTML, Пояснення тегів HTML
- Встановлення пакетів
- Вишкрібання локальних файлів
- Прекрасний суп методи find & find_all ()
- Інструмент перевірки веб-браузера
- Захоплення цін у базовому проекті зіскаблювання веб-сторінок
- Використання бібліотеки запитів для перегляду HTML веб-сайту
- Вишкрібання виробничого веб-сайту
- Переглядаючи подібні об'єкти sou.find_all ()
- Фільтрування скребкованих завдань
- Налаштування проекту для вишкрібання кожні 10 хвилин
- Зберігання абзацу із завданнями у текстових файлах
Перегляньте повний курс збоїв на YouTube-каналі freeCodeCamp.org (1-годинний перегляд).