Glossar

Hadoop

Bei Hadoop handelt es sich um ein von der Apache Software Foundation entwickelte Framework, das in der Programmiersprache Java verfasst wurde. Initiator der Entwicklung des Frameworks war Doug Cutting, der auch das Programm Apache Lucene zur Durchführung von Volltextsuchen auf Websites erfunden hat. Hadoop wird im Internet benötigt, um große Datenmengen möglichst schnell auf einem Server zu verarbeiten. Deshalb sollten sich Fachleute für Webdesign intensiv damit beschäftigen, wenn sie umfangreiche Websites beispielsweise nach dem Vorbild von ImageShack oder Facebook ins Netz stellen möchten.

Wie arbeitet die Software Apache Hadoop?

Kernstück der Software ist das Hadoop Distributed File System. Dieses System macht es möglich, die Daten auf mehrere Server so zu verteilen, dass ein optimaler Lastausgleich bei Website mit einem hohen Traffic und umfangreichen Datenbanken erfolgt. Das Hadoop Distributed File System zerlegt dafür alle vorhanden Daten in Blöcke mit fester Länge, die auf verschiedenen Rechnern nach dem Prinzip des redundanten Systems gespeichert werden. Für die Koordination der eingehenden Anfragen und die Verteilung der Abfragen ist bei Hadoop ein Master-Server verantwortlich. Die Server, auf denen die Datenblöcke hinterlegt werden, bezeichnet der IT-Fachmann als Slave-Server. Das Hadoop Distributed File System bietet dem Nutzer die Möglichkeit, sowohl die Größe der einzelnen Datenblöcke als auch den Grad der Redundanz individuell zu konfigurieren. Weitere Einstellungen sind mit der Hilfe des MapReduce-Algorithmus aus dem Hause Google möglich. Ein erheblicher praktischer Vorteil von Hadoop ist, mehrere Hundert Millionen Dateien zentral verwaltet werden können.

Welche Erweiterungen gibt es für Apache Hadoop?

Mit dem optionalen Modul Chukwa kann die Auslastung der via Hadoop miteinander kombinierten Master-Server und Slave-Server in Echtzeit überwacht werden. Bei HBase handelt es sich um ein Datenbanksystem, welches zur Verwaltung der Daten innerhalb eines nach dem Prinzip Hadoop arbeitenden Serverclusters eingesetzt werden kann. HBase liegt das von Google entwickelte Datenbanksystem BigTable zugrunde, welches beispielsweise bei der Google App Engine angewendet wird. Bei Hive handelt es sich um eine von Facebook entwickelte Erweiterung für Hadoop. Damit können Data-Warehouse-Funktionen integriert werden. Mit der Ergänzung Hive wird es möglich, Abfragen mit HiveQL, einer Weiterentwicklung von SQL, an die Datenbanken zu starten. Die Erweiterung Pig ermöglicht die Nutzung von Pig Latin, wobei es sich um eine High-Level-Programmiersprache handelt, mit der auch komplexe Analysen vorhandener Daten und Aktivitäten parallel zueinander durchgeführt werden können. Wird Apache Hadoop mit ZooKeeper ergänzt, kann der Webmaster zusätzliche Möglichkeiten der Konfiguration umfangreicher verteilter Systeme nutzen.

Welche Ableger und Unterstützer gibt es bei Apache Hadoop?

Inzwischen haben einige Unternehmen so genannte Forks, oder auf Deutsch Ableger, zum System Apache Hadoop entwickelt. Ein solcher Fork ist CDH aus dem Hause Cloudera. Aus einer Kooperation zwischen Benchmark Capital und Yahoo! entstand der Ableger Hortonworks. Mit einer Spezialisierung auf das Data Warehousing präsentiert sich die Version Teradata Open Distribution for Hadoop. Microsoft hat die Nutzung des Prinzips Hadoop in die Pakete SQL Server und sowie in den Cloud-Dienst Windows Azure integriert. Wer als professioneller Webdesigner Hadoop nutzen möchte, kann auch auf Greenplum HD von EMC oder InfoSphere BigInsights von IBM zurückgreifen.


Interessiert? Erfahren Sie mehr zum Thema "Hadoop" - kontaktieren Sie uns jetzt

We create for You

Unter der Überschrift „Kreation“ vereinen wir die 4 Kernkompetenzen von baseplus®: Das Design, die Entwicklung, das Online Marketing und Print, in der jeweils anmutenden Farbe. Das konsequente Color-Coding dient der optimierten Benutzerführung, die Claims kommunizieren jeden Bereich zusätzlich.

Klicken Sie hier, um zu sehen was wir meinen