So richten Sie Hochverfügbarkeit für Namenode ein – Teil 5

Hadoop besteht aus zwei Kernkomponenten: HDFS und YARN. HDFS dient der Speicherung der Daten, YARN dient der Verarbeitung der Daten. HDFS ist ein Hadoop Distributed File System, es hat Namenode als Master Service und Datanode als Sklavendienst.

Namenode ist die kritische Komponente von Hadoop, die die Metadaten der in HDFS gespeicherten Daten speichert. Wenn der Namenode ausfällt, ist der gesamte Cluster nicht zugänglich, er ist der Single Point of Failure (SPOF). Daher verfügt die Produktionsumgebung über eine Namenode-Hochverfügbarkeit, um einen Produktionsausfall zu vermeiden, wenn ein Namenode aus verschiedenen Gründen wie Maschinenabsturz, geplante Wartungsaktivitäten usw. ausfällt.

Hadoop 2.x bietet die Machbarkeit, bei der wir zwei Namenodes haben können, einer wird aktiver Namenode und der andere wird Standby-Namenode< sein.

Aktiver Namenode – Er verwaltet alle Client-Vorgänge.
Standby-Namenode – Er ist redundant von Aktiver Namenode. Wenn Active NN ausfällt, übernimmt Standby NN die gesamte Verantwortung von Active NN.

Für die Aktivierung von Namenode High Availability ist Zookeeper erforderlich, der für das automatische Failover zwingend erforderlich ist. ZKFC (Zookeeper Failover Controller) ist ein Zookeeper-Client, der zur Aufrechterhaltung des Status von Namenode verwendet wird.

Anforderungen

Best Practices für die Bereitstellung von Hadoop Server unter CentOS/RHEL 7 – Teil 1
Einrichten von Hadoop-Voraussetzungen und Sicherheitshärtung – Teil 2
So installieren und konfigurieren Sie den Cloudera Manager unter CentOS/RHEL 7 – Teil 3
So installieren Sie CDH und konfigurieren Service-Platzierungen unter CentOS/RHEL 7 – Teil 4

In diesem Artikel werden wir Namenode High Availability in Cloudera Manager aktivieren.

Schritt 1: Installation von Zookeeper

1. Melden Sie sich bei Cloudera Manager an.

http://Your-IP:7180/cmf/home

2. Wählen Sie in der Aktionsaufforderung Cluster (tecmint) „Dienst hinzufügen“ aus.

3. Wählen Sie den Dienst „Zookeeper“ aus.

4. Wählen Sie die Server aus, auf denen Zookeeper installiert werden soll.

5. Wir werden 3 Tierpfleger haben, um das Zookeeper Quorum zu bilden. Wählen Sie die Server wie unten beschrieben aus.

6. Konfigurieren Sie die Zookeeper-Eigenschaften, hier haben wir die Standardeigenschaften. In Echtzeit müssen Sie über separate Verzeichnisse/Mount-Punkte zum Speichern von Zookeeper-Daten verfügen. In Teil-1 haben wir die Speicherkonfiguration für jeden Dienst erläutert. Klicken Sie auf „Weiter“, um fortzufahren.

7. Die Installation beginnt. Nach der Installation wird Zookeeper gestartet. Die Hintergrundvorgänge können Sie hier einsehen.

8. Nach erfolgreichem Abschluss des obigen Schritts lautet der Status „Fertig“.

9. Zookeeper ist nun erfolgreich installiert und konfiguriert. Klicken Sie auf „Fertig stellen“.

10. Sie können den Zookeeper-Dienst im Cloudera Manager-Dashboard anzeigen.

Schritt 2: Aktivieren der Namenode-Hochverfügbarkeit

11. Gehen Sie zu Cloudera Manager –> HDFS –> Aktionen –> Hochverfügbarkeit aktivieren.

12. Geben Sie den Nameservice-Namen als „nameservice1“ ein – Dies ist ein gemeinsamer Namespace für sowohl den aktiven als auch den Standby-Namensknoten.

13. Wählen Sie den zweiten Namenode aus, in dem wir den Standby-Namenode haben werden.

14. Hier wählen wir master2.linux-console.net als Standby-Namenode aus.

15. Wählen Sie die Knoten Journal aus. Dies sind obligatorische Dienste für die Synchronisierung von Aktiv und Standby-Namenode.

16. Wir erstellen das Quorum Journal, indem wir den Journal-Knoten wie unten beschrieben auf drei Servern platzieren. Wählen Sie 3 Server aus und klicken Sie auf „OK“.

17. Klicken Sie auf „Weiter“, um fortzufahren.

18. Geben Sie den Verzeichnispfad für den Journal Node ein. Bei der Installation müssen wir lediglich den Pfad angeben. Dieses Verzeichnis wird automatisch vom Dienst selbst erstellt. Wir erwähnen als ‘/jn’. Klicken Sie auf „Weiter“, um fortzufahren.

19. Die Hohe Verfügbarkeit wird aktiviert.

20. Sobald alle Hintergrundprozesse abgeschlossen sind, erhalten wir den Status „Fertig“.

21. Abschließend erhalten wir eine Benachrichtigung „Hochverfügbarkeit erfolgreich aktiviert“. Klicken Sie auf „Fertig stellen“.

22. Überprüfen Sie den Aktiven- und Standby-Namenode, indem Sie zu Cloudera Manager –> HDFS gehen > –> Instanzen.

23. Hier können Sie zwei Namenodes verbinden, einer befindet sich im Status „Aktiv und der andere im Status „Standby“. ' Zustand.

Abschluss

In diesem Artikel haben wir den Prozess zur Aktivierung von Namenode High Availability Schritt für Schritt durchlaufen. Es wird dringend empfohlen, in allen Clustern in einer Echtzeitumgebung über Namenode High Availability zu verfügen. Bitte teilen Sie Ihre Zweifel mit, wenn bei diesem Vorgang ein Fehler auftritt. Im nächsten Artikel werden wir Resource Manager High Availability sehen.