Website-Suche

Best Practices für die Bereitstellung von Hadoop Server unter CentOS/RHEL 7 – Teil 1


In dieser Artikelserie werden wir den gesamten Cloudera Hadoop Cluster Building-Aufbau mit von Anbietern und Industrie empfohlenen Best Practices abdecken.

OS-Installation und Durchführung der OS-Level-Voraussetzungen sind die ersten Schritte zum Aufbau eines Hadoop-Clusters. Hadoop kann auf den verschiedenen Varianten der Linux-Plattform ausgeführt werden: CentOS, RedHat, Ubuntu, Debian<, SUSE usw., In der Echtzeitproduktion basieren die meisten Hadoop-Cluster auf RHEL/CentOS, wir wird CentOS 7 zur Demonstration in dieser Tutorialreihe verwenden.

In einer Organisation kann die Betriebssysteminstallation mit Kickstart durchgeführt werden. Wenn es sich um einen Cluster mit 3 bis 4 Knoten handelt, ist eine manuelle Installation möglich. Wenn wir jedoch einen großen Cluster mit mehr als 10 Knoten erstellen, ist es mühsam, das Betriebssystem einzeln zu installieren. In diesem Szenario kommt die Kickstart-Methode ins Spiel, wir können mit Kickstart mit der Masseninstallation fortfahren.

Das Erreichen einer guten Leistung einer Hadoop-Umgebung hängt von der Bereitstellung der richtigen Hardware und Software ab. Der Aufbau eines produktiven Hadoop-Clusters erfordert daher eine Menge Überlegungen hinsichtlich Hardware und Software.

In diesem Artikel gehen wir verschiedene Benchmarks zur Betriebssysteminstallation und einige Best Practices für die Bereitstellung von Cloudera Hadoop Cluster Server unter CentOS/RHEL 7 durch.

Wichtige Überlegungen und Best Practices für die Bereitstellung von Hadoop Server

Im Folgenden finden Sie die Best Practices für die Einrichtung der Bereitstellung von Cloudera Hadoop Cluster Server unter CentOS/RHEL 7.

  • Hadoop-Server benötigen zum Aufbau eines Clusters keine Enterprise-Standardserver, sondern handelsübliche Hardware.
  • Im Produktionscluster werden 8 bis 12 Datenfestplatten empfohlen. Abhängig von der Art der Arbeitsbelastung müssen wir darüber entscheiden. Wenn der Cluster für rechenintensive Anwendungen vorgesehen ist, empfiehlt es sich, über 4 bis 6 Laufwerke zu verfügen, um E/A-Probleme zu vermeiden.
  • Datenlaufwerke sollten beispielsweise einzeln partitioniert werden – beginnend von /data01 bis /data10.
  • Die RAID-Konfiguration wird für Worker-Knoten nicht empfohlen, da Hadoop selbst Fehlertoleranz für Daten bereitstellt, indem es die Blöcke standardmäßig in 3 repliziert. Daher eignet sich JBOD am besten für Worker-Knoten.
  • Für Master-Server ist RAID 1 die beste Vorgehensweise.
  • Das Standarddateisystem unter CentOS/RHEL 7.x ist XFS. Hadoop unterstützt XFS, ext3 und ext4. Das empfohlene Dateisystem ist ext3, da es auf gute Leistung getestet wurde.
  • Alle Server sollten über dieselbe Betriebssystemversion verfügen, mindestens über dieselbe Nebenversion.
  • Es empfiehlt sich, über homogene Hardware zu verfügen (alle Worker-Knoten sollten die gleichen Hardware-Eigenschaften haben (RAM, Speicherplatz und Kern usw.).
  • Je nach Cluster-Arbeitslast (ausgeglichene Arbeitslast, rechenintensiv, I/O-intensiv) und Größe unterscheidet sich die Ressourcenplanung (RAM, CPU) pro Server.

Nachfolgend finden Sie ein Beispiel für die Festplattenpartitionierung der Server mit 24 TB Speicher.

Installieren von CentOS 7 für die Hadoop-Serverbereitstellung

Dinge, die Sie wissen müssen, bevor Sie den CentOS 7-Server für Hadoop Server installieren.

  • Für Hadoop-Server (Arbeitsknoten) ist eine minimale Installation ausreichend. In einigen Fällen kann die GUI nur für Master-Server oder Verwaltungsserver installiert werden, auf denen wir Browser für Web-UIs verwenden können Management-Tools.
  • Die Konfiguration von Netzwerken, Hostnamen und anderen betriebssystembezogenen Einstellungen kann nach der Installation des Betriebssystems erfolgen.
  • In Echtzeit werden Serveranbieter über ihre eigene Konsole verfügen, um mit den Servern zu interagieren und sie zu verwalten. Dell-Server verfügen beispielsweise über iDRAC, ein in Server integriertes Gerät. Mithilfe dieser iDRAC-Schnittstelle können wir das Betriebssystem installieren, indem wir ein Betriebssystem-Image in unserem lokalen System haben.

In diesem Artikel haben wir das Betriebssystem (CentOS 7) in einer virtuellen VMware-Maschine installiert. Hier werden wir nicht über mehrere Festplatten verfügen, um Partitionen durchzuführen. CentOS ähnelt RHEL (gleiche Funktionalität), daher sehen wir die Schritte zur Installation von CentOS.

1. Laden Sie zunächst das ISO-Image von CentOS 7.x auf Ihr lokales Windows-System herunter und wählen Sie es aus, während Sie die virtuelle Maschine starten. Wählen Sie wie gezeigt „CentOS 7 installieren“.

2. Wählen Sie die Sprache aus, die Standardeinstellung ist Englisch, und klicken Sie auf Weiter.

3. Softwareauswahl – Wählen Sie „Minimale Installation“ und klicken Sie auf „Fertig“.

4. Legen Sie das Root-Passwort so fest, wie wir es festlegen möchten.

5. Installationsziel – Dies ist der wichtige Schritt, bei dem Vorsicht geboten ist. Wir müssen die Festplatte auswählen, auf der das Betriebssystem installiert werden soll. Für das Betriebssystem sollte eine dedizierte Festplatte ausgewählt werden. Klicken Sie auf „Installationsziel“ und wählen Sie die Festplatte aus. In Echtzeit sind dort mehrere Festplatten vorhanden. Wir müssen auswählen, vorzugsweise „sda“.

6. Andere Speicheroptionen – Wählen Sie die zweite Option (Ich werde die Partitionierung konfigurieren), um die betriebssystembezogene Partitionierung wie /var, / zu konfigurieren. var/log, /home, /tmp, /opt, /swap.

7. Sobald Sie fertig sind, beginnen Sie mit der Installation.

8. Sobald die Installation abgeschlossen ist, starten Sie den Server neu.

9. Melden Sie sich beim Server an und legen Sie den Hostnamen fest.

hostnamectl status
hostnamectl set-hostname tecmint
hostnamectl status

Zusammenfassung

In diesem Artikel sind wir die Installationsschritte des Betriebssystems und Best Practices für die Dateisystempartitionierung durchgegangen. Dies sind alles allgemeine Richtlinien. Je nach Art der Arbeitsbelastung müssen wir uns möglicherweise auf weitere Nuancen konzentrieren, um die beste Leistung des Clusters zu erzielen. Clusterplanung ist eine Kunst für den Hadoop-Administrator. Im nächsten Artikel werden wir uns eingehend mit den Betriebssystemvoraussetzungen und der Sicherheitshärtung befassen.