Короткий огляд Apache Hadoop Framework

Hadoop, тепер відомий як Apache Hadoop, був названий на честь іграшкового слона, який належав сину співзасновника Дуга Каттінга. Дуг обрав назву проекту з відкритим кодом, оскільки його було легко написати, вимовити та знайти в результатах пошуку. Оригінальний жовтий чучело слона, який надихнув цю назву, з’являється в логотипі Hadoop.

Що таке Apache Hadoop?

Бібліотека програмного забезпечення Apache Hadoop - це структура, яка дозволяє розподіленій обробці великих наборів даних між кластерами комп'ютерів за допомогою простих моделей програмування. Він призначений для масштабування від окремих серверів до тисяч машин, кожен з яких пропонує локальні обчислення та зберігання. Замість того, щоб покладатися на апаратне забезпечення для забезпечення високої доступності, сама бібліотека розроблена для виявлення та обробки несправностей на рівні програми, тому забезпечує високодоступну послугу поверх кластера комп'ютерів, кожен з яких може бути схильний до збоїв.

Джерело: Apache Hadoop

У 2003 році компанія Google випустила свою статтю про файлову систему Google (GFS). У ньому детально описується власна розподілена файлова система, призначена забезпечити ефективний доступ до великих обсягів даних за допомогою товарного обладнання. Через рік Google випустив черговий документ під назвою "MapReduce: спрощена обробка даних на великих кластерах". У той час Даг працював в Yahoo. Ці статті стали натхненням для його проекту з відкритим кодом Apache Nutch. У 2006 році компоненти проекту, відомі тоді як Hadoop, переїхали з Apache Nutch і були випущені.

Чому корисний Hadoop?

Щодня мільярди гігабайт даних створюються у різноманітних формах. Ось приклади часто створюваних даних:

  • Метадані від використання телефону
  • Журнали веб-сайтів
  • Операції з купівлі кредитних карток
  • Дописи в соціальних мережах
  • Відео
  • Інформація, зібрана з медичних виробів

«Великі дані» стосуються наборів даних, які занадто великі або складні для обробки за допомогою традиційних програмних програм. Факторами, що сприяють складності даних, є розмір набору даних, швидкість доступних процесорів та формат даних.

На момент випуску Hadoop був здатний обробляти дані в більших масштабах, ніж традиційне програмне забезпечення.

Core Hadoop

Дані зберігаються у розподіленій файловій системі Hadoop (HDFS). Використовуючи зменшення карти, Hadoop обробляє дані в паралельних шматках (обробляючи кілька частин одночасно), а не в одній черзі. Це зменшує час, необхідний для обробки великих наборів даних.

HDFS працює, зберігаючи великі файли, розділені на фрагменти, і тиражуючи їх на багатьох серверах. Наявність кількох копій файлів створює надмірність, яка захищає від втрати даних.

Екосистема Hadoop

Багато інших програмних пакетів існує як доповнення до Hadoop. Ці програми включають екосистему Hadoop. Деякі програми спрощують завантаження даних у кластер Hadoop, а інші полегшують використання Hadoop.

Екосистема Hadoop включає:

  • Вулик апачів
  • Свиня-апач
  • Apache HBase
  • Апачі Фенікс
  • Apache Spark
  • Apache ZooKeeper
  • Клоудера Імпала
  • Apache Flume
  • Apache Sqoop
  • Apache Oozie

Більше інформації:

  • Apache Hadoop