apache hadoop yarn tutorial
Hadoop Components - MapReduce S Hadoop PRIADOM:
V našom predchádzajúcom tutoriáli o komponente Hadoop sme sa dozvedeli o Hadoop MapReduce a jeho mechanizme spracovania ako INPUT, SPLITTING, MAPPING, SHUFFLING, REDUCING a FINAL RESULT.
V tomto návode preskúmame:
- Ako funguje Map Reduce s YARN?
- Pracovný tok aplikácií Hadoop YARN.
=> Tu sa pozrite na príručku pre začiatočníkov BigData.
Čo sa dozviete:
Mapa Znížiť o Hadoop PRIADZE
Poďme pochopiť, ako MapReduce používa YARN na vykonávanie úloh v klastri Hadoop. Ale predtým, ako budeme pokračovať, nám na mysli príde prvá otázka aká je úplná forma PRIADZE? Alebo čo znamená YARN?
PRIADZE znamená Ešte ďalší vyjednávač zdrojov.
Je to ten, ktorý prideľuje zdroje na rôzne úlohy, ktoré je potrebné vykonať prostredníctvom klastra Hadoop. Bol predstavený v Hadoop 2.0.
Till Hadoop 1.0 MapReduce bol jediný framework alebo jediná procesorová jednotka, ktorú je možné vykonávať nad klastrom Hadoop. Avšak v Hadoop 2.0 YARN bol predstavený a pomocou toho sme schopní ísť ďalej ako MapReduce.
Ako vidíte na diagrame, v dolnej časti máme HDFS, dostali sme YARN a pomocou YARN je veľa rámcov schopných sa pripojiť a využívať HDFS. Takže aj MapReduce sa používa na pripojenie pomocou YARN na vyžiadanie zdrojov a až potom môže vykonávať úlohu cez HDFS, tj klaster Hadoop.
Podobne; SPARK, STORM a ďalšie vyhľadávače sa môžu pripojiť k HDFS. HBase, ktorá je databázou No SQL, ju tiež môže pripojiť. Takže aplikácie HDFS sa stali obrovskými práve preto, že spoločnosť YARN dokázala otvoriť bránu pre ďalšie rámce a ďalšie analytické nástroje Bigdata.
Aký je rozdiel medzi MapReduce Version1 (MRv1) a MapReduce Version2 (MRv2)?
MRv1 bol v podstate súčasťou Hadoop framework 1 a s Hadoop 2 YARN sa dostal do obrazu a MapReduce bol upgradovaný na MRv2 s niekoľkými zmenami v triedach. Triedy boli aktualizované, avšak syntax písania programu MapReduce zostáva rovnaká.
V tomto scenári sa MapReduce teraz pripája k YARN k osi HDFS.
Spolu s YARN sú Resource Manager a Node Manager novými démonmi, ktorí boli uvedení do klastra Hadoop.
Predtým to boli Job Tracker a Task Tracker. Boli však odstránené z Hadoop 2.0 a do rámca Hadoop boli zavedené Správca zdrojov a Správca uzlov spolu s YARN.
Démoni Hadoop 2.x
Poďme sa rýchlo pozrieť na novo predstavené démony v Hadoop 2.0, ktoré prevádzkujú komponenty, t. J. Úložisko a spracovanie.
najlepší prevodník z youtube na mp3 online
V návode na HDFS sme podrobne pochopili démona, tj. NameNode a DataNode. V tomto tutoriáli pochopíme, ako Správca zdrojov a Správca uzlov pracujú v klastri Hadoop 2.x na spravovaní spracovania a úloh, ktoré je potrebné v klastri Hadoop vykonávať.
Čo je teda Správca zdrojov? Správca zdrojov sú Master Daemons, ktorí bežia na hlavnom stroji alebo na NameNode, ktorý je špičkovým strojom. Node Manager je na druhej strane démon, ktorý beží na podriadených strojoch alebo DataNodes alebo spolu s DataNode Process.
Hadoop 2.x MapReduce YARN Components
Pozrime sa nižšie na ďalšie komponenty PRIADZE.
- Zákazník: Je to jednotka, ktorá odosiela rozhranie CLI (Job Line-like Command Line Interface) a klientom môže byť JAVA aplikácia.
- Správca zdrojov: Je to hlavný démon, ktorému sa od klienta odosielajú všetky úlohy, a ktorý prideľuje všetky zdroje na úrovni klastra na vykonávanie konkrétnej úlohy. Funguje na stroji vyššej triedy, ktorý má kvalitný hardvér a dobrú konfiguráciu, pretože práve stroj Master musí spravovať všetko cez klaster.
- Správca uzlov : Je to Slave Daemon, ktorý beží na Slave Machines alebo DataNode, takže každý Slave Machine má spusteného Node Manager. Monitoruje zdroje konkrétneho DataNode, správca zdrojov spravuje prostriedky klastra a správca uzlov spravuje zdroje DataNode.
- Server histórie úloh: Je to jednotka, ktorá sleduje všetky úlohy, ktoré boli vykonané v klastri alebo ktoré boli do klastra predložené. Sleduje tiež stav a tiež uchováva protokolové súbory o každej exekúcii vykonanej cez klaster Hadoop.
- Master aplikácie : Je to komponent, ktorý sa vykonáva cez Node Machine, Slave Machine a je vytvorený manažérom zdrojov na vykonávanie a správu úlohy. Je to ten, kto vyjednáva zdroje od správcu zdrojov a nakoniec koordinuje s správcom uzlov vykonanie úlohy.
- Kontajner: Vytvára ho samotný správca uzlov, ktorý pridelil správca zdrojov, a všetky úlohy sa nakoniec vykonajú v kontajneri.
PRIEBEH Pracovný tok
Ako je zrejmé z vyššie uvedeného diagramu, existuje a Správca zdrojov do ktorého sú odovzdané všetky úlohy a existuje Klaster, v ktorom sú otrokárske stroje, a na každom otrokárskom stroji je Správca uzlov bežiaci.
Správca zdrojov má dve zložky t.j. Plánovač a Správca aplikácií.
Aký je rozdiel medzi Application Master a Application Manager?
Správca aplikácií je súčasťou Správca zdrojov ktorý zabezpečuje vykonanie každej úlohy a Master aplikácie je na to stvorený. Master aplikácie, na druhej strane je niekto, kto vykonáva úlohu a požaduje všetky zdroje, ktoré sa majú vykonať.
Povedzme, že práca je odovzdaná Správca zdrojov , akonáhle je pracovné miesto predložené, Plánovač naplánuje prácu. Raz Plánovač naplánuje vykonanie úlohy Správca aplikácií vytvorí Kontajner v jednom z DataNodes , a v rámci toho Kontajner, the Master aplikácie sa začne.
Toto Master aplikácie potom sa zaregistruje u Správca zdrojov a žiadosť o a Kontajner vykonať úlohu. Hneď ako Kontajner je pridelený, Master aplikácie bude teraz spojená s Správca uzlov a požiadať o spustenie Kontajner .
Ako vidíme, Master aplikácie bol pridelený DataNodes D a JE , a teraz toto Master aplikácie požiadal o Správca uzlov spustiť Kontajnery z DataNode D a DataNode E .
Hneď ako Kontajnery boli spustené, Master aplikácie vykoná úlohu v rámci Kontajner a výsledok bude odoslaný späť do Zákazník .
Tok aplikácie
Poďme to pochopiť postupne.
Na nižšie uvedenom diagrame máme štyri komponenty. Prvý z nich je Zákazník, druhá je Správca zdrojov , tretí je Správca uzlov a štvrtý riadok obsahuje Master aplikácie .
Pozrime sa teda, ako sa tieto kroky medzi nimi vykonávajú.
Úplne prvým krokom je Zákazník kto odovzdá prácu Správca zdrojov , v druhom kroku Správca zdrojov prideľuje a Kontajner spustiť Master aplikácie na Otrocké stroje ; tretím krokom je Master aplikácie registre s Správca zdrojov .
Hneď ako sa zaregistruje, požiada o Kontajner štvrtý krok. V piatom kroku sa: Master aplikácie oznamuje Správca uzlov na ktorom je Kontajner je potrebné zahájiť.
V šiestom kroku raz Správca uzlov spustila Kontajnery, the Master aplikácie v rámci nich vykoná kód Kontajnery .
Nakoniec v siedmom kroku: Zákazník kontaktuje Správca zdrojov alebo Master aplikácie na sledovanie stavu aplikácie.
Nakoniec Master aplikácie sa odhlási z Správca zdrojov a výsledok sa vráti späť do Zákazník . Toto je teda jeden jednoduchý postupný tok spôsobu vykonávania programu MapReduce pomocou rámca YARN.
Záver
V tomto tutoriáli sme sa teda naučili nasledujúce ukazovatele:
- PRIADZE znamená Ešte ďalší vyjednávač zdrojov.
- YARN bola predstavená v Hadoop 2.0
- Spolu s programom YARN boli do rámca Hadoop zavedené aj správca zdrojov a uzol.
- YARN Components ako Client, Resource Manager, Node Manager, Job History Server, Application Master a Container.
V nadchádzajúcom tutoriáli sa budeme zaoberať testovacími technikami BigData a výzvami, ktorým čelí BigData Testing. Dozvieme sa tiež, ako prekonať tieto výzvy a akékoľvek obchádzkové spôsoby, ako uľahčiť testovanie BigData.
=> Navštívte tu a dozviete sa BigData od nuly.
Odporúčané čítanie
- Čo je Hadoop? Výukový program Apache Hadoop pre začiatočníkov
- 20+ výučba MongoDB pre začiatočníkov: bezplatný kurz MongoDB
- Hĺbkové návody pre zatmenie pre začiatočníkov
- Výukový program pre Python pre začiatočníkov (praktické školenie v jazyku Python ZDARMA)
- Výukový program pre veľké dáta pre začiatočníkov Čo sú to veľké dáta?
- Výukový program LoadRunner pre začiatočníkov (8-denný hĺbkový kurz zadarmo)
- Výukový program Hadoop MapReduce s príkladmi Čo je MapReduce?
- Najlepšia výučbová séria C # ZDARMA: Sprievodca C # pre začiatočníkov