Čo je Hadoop? Výukový program Apache Hadoop pre začiatočníkov

what is hadoop apache hadoop tutorial

Vyskúšajte Náš Nástroj Na Odstránenie Problémov

Vyberte Operačný Systém Vyberte Program Projekcie (Voliteľne)

Popíšte Svoj Problém

Tento výukový program Apache Hadoop pre začiatočníkov podrobne vysvetľuje všetko o Big Data Hadoop, jeho funkciách, rámci a architektúre:

ako testovať web v rôznych prehliadačoch

V predchádzajúcom tutoriáli sme sa podrobne venovali Big Data. Otázkou teraz je, ako môžeme spracovať a spracovať taký veľký objem údajov so spoľahlivými a presnými výsledkami.

Existuje skutočne vynikajúce riešenie poskytované serverom Apache a založené na prostredí Java, t.j. Hadoop Framework .

=> Prečítajte si sériu Easy BigData Training Series.

Výukový program Apache Hadoop

Čo sa dozviete:

Čo je Hadoop?
Záver
- Odporúčané čítanie

Čo je Hadoop?

Apache Hadoop je open-source framework na správu všetkých typov údajov (štruktúrovaný, neštruktúrovaný a pološtruktúrovaný).

Ako všetci vieme, pokiaľ chceme spracovávať, ukladať a spravovať naše údaje, je najlepším riešením RDBMS. Údaje by však mali byť v štruktúrovanom formáte, aby sme ich mohli spracovať s RDBMS. Ak sa veľkosť dát tiež zvýši, RDBMS to nedokáže spracovať a musíme pravidelne čistiť databázu.

To môže spôsobiť stratu historických údajov a nemôže generovať presné a spoľahlivé výsledky v niektorých priemyselných odvetviach, ako je predpoveď počasia, bankovníctvo, poisťovníctvo, predaj atď. Ďalším problémom v prípade RDBMS je, že ak dôjde k výpadku hlavného servera, môžeme prísť o dôležité dáta a veľa trpia.

V tomto tutoriáli uvidíme, ako môžeme tieto problémy prekonať pomocou Apache Hadoop.

Hadoop je distribuovaný súborový systém a dokáže ukladať veľké objemy dát (dáta v petabajtoch a terabajtoch). Rýchlosť spracovania údajov je tiež veľmi rýchla a poskytuje spoľahlivé výsledky, pretože má veľmi vysoký systém odolnosti proti chybám.

Hadoop je open-source programovací rámec založený na prostredí Java, ktorý podporuje ukladanie a spracovanie súborov veľkých údajov v prostredí distribuovanej výpočtovej techniky.

Hadoop je založený na koncepcii klastra využívajúcej komoditný hardvér. Nevyžaduje žiadnu zložitú konfiguráciu a môžeme vytvoriť prostredie Hadoop pomocou lacnejšieho, jednoduchého a ľahkého konfiguračného hardvéru.

Koncept klastra je jednoduchým spôsobom údaj, ktorý je uložený v replikačnom formáte na viacerých počítačoch, takže ak dôjde k problému alebo katastrofe na jednom z miest, kde sa údaje nachádzajú, musí existovať duplikát týchto údajov bezpečne na inom mieste. .

Hadoop Vs RDMBS

Ďalej sú uvedené niektoré body, ktoré popisujú výhody Hadoopu oproti RDBMS.

Vlastnosti	Hadoop	RDBMS
Skladovanie	Veľmi vysoká kapacita úložiska.	Bigdata sa nedá uložiť.
Architektúra	Hadoop je založený na HDFS, MapReduce a YARN.	RDBMS je založený na vlastnostiach ACID.
Objem	Zvláda veľké množstvo dát.	RDBMS nedokáže spracovať veľký objem dát.
Rozmanitosť / typy údajov	Dokáže spracovať štruktúrované, čiastočne štruktúrované a neštruktúrované údaje, ako sú video, obrázky, súbory CSV, xml atď.	Spracúvajte iba štruktúrované údaje.
Rýchlosť	Rýchle spracovanie veľkého množstva údajov.	Pri spracovávaní veľkého množstva údajov veľmi pomalé.
Priepustnosť	Veľký prietok.	Nízka priepustnosť.
Odolnosť proti chybám	Veľmi dobre	Nie je schopný obnoviť stratené dáta, ak zlyhá hlavný server.
Spoľahlivý	Veľmi spoľahlivé a generujúce presné historické a aktuálne správy.	Nie je spoľahlivé, pokiaľ ide o Bigdata.

Funkcie Hadoop

Teraz poznáme presnú definíciu Hadoopu. Poďme o krok vpred a oboznámime sa s terminológiou, ktorú používame v Hadoope, naučíme sa jeho architektúru a uvidíme, ako presne to funguje na Bigdata.

Rámec Hadoop je založený na nasledujúcich konceptoch alebo moduloch:

Vlastnosti

Hadoop PRIADZE
Hadoop obyčajný
Hadoop HDFS ( H vypískať D istribuovaný F s S ystem)
Hadoop MapReduce

# 1) Hadoop PRIATOK: YARN znamená „ Y a TO ďalej R zdroj N egotiator “, ktorý sa používa na správu klastrovej technológie cloudu. Používa sa na plánovanie úloh.

# 2) Hadoop Common: Toto sú podrobné knižnice alebo pomocné programy používané na komunikáciu s ďalšími funkciami Hadoopu, ako sú YARN, MapReduce a HDFS.

# 3) Hadoop HDFS: Systém distribuovaných súborov sa v systéme Hadoop používa na ukladanie a spracovanie veľkého množstva údajov. Používa sa tiež na prístup k údajom z klastra.

# 4) Mapa Hadoop Znížiť: MapReduce je hlavná vlastnosť Hadoopu, ktorá je zodpovedná za spracovanie údajov v klastri. Používa sa na plánovanie úloh a sledovanie spracovania údajov.

Tu sme práve zahrnuli definíciu týchto funkcií, ale podrobný popis všetkých týchto funkcií uvidíme v našich pripravovaných tutoriáloch.

Architektúra Hadoop

Poďme sa naučiť architektúru rámca a pozrime sa, aké komponenty sa v ňom používajú. Tento rámec sleduje architektúru typu master-slave v klastri.

Nasledujú komponenty Hadoop:

HDFS
MapReduce
PRIADZE

Architektúra Hadoop

Toto sú tri dôležité komponenty architektúry Hadoop. Mali by sme tiež pochopiť niektoré terminológie alebo koncepty architektúry a zistiť, ako fungujú.

Meno Uzol
Dátový uzol
Uzol sekundárneho mena
Bloky

# 1) Názov uzla

Názov uzla je hlavný uzol v systéme HDFS. Obsahuje metadáta HDFS, ako sú informácie o súboroch, adresárová štruktúra, informácie o blokoch a všetky informácie o dátovom uzle atď. Názov uzla je zodpovedný iba za prístup k údajom alebo súborom od klienta. Sleduje všetky transakcie alebo zmeny vykonané v súboroch.

Funguje to hlavne na dva súbory t.j. FsImage a EditLogs . Názov uzla má JobTracker, ktorý obsahuje všetky podrobnosti o dátovom uzle, napríklad ktorý dátový uzol má akú úlohu, koľko blokov je s každým dátovým uzlom, rytmus každého dátového uzla, podrobnosti plánovania úloh v klastri atď.

Stručne povedané, môžeme povedať, že JobTracker obsahuje TaskTracker každého dátového uzla.

# 2) Dátový uzol

Dátový uzol je uzol slave v HDFS. Údajový uzol je zodpovedný za skutočné ukladanie a spracovanie údajov. Jeho hlavnou úlohou je rozdeliť úlohu na tri bloky a uložiť ju do rôznych dátových uzlov. Potom sa začne so spracovaním údajov.

Tiež má TaskTracker, ktorý má úplné informácie o každom bloku a ktorý blok je zodpovedný za ktorú úlohu, ktoré bloky dokončili úlohu atď., A po spracovaní údajov odošle informácie do Name Node. Zakaždým, keď sa dátový uzol spustí, odošle všetky informácie znova do uzla názvu.

# 3) Sekundárny uzol názvu

Sekundárny uzol názvu sa používa v prípade odolnosti voči chybám. Existujú dva scenáre, keď je uzol názvu nefunkčný a úplná štruktúra Hadoop zlyhá, pretože uzol názvu je jediným bodom zlyhania.

(i) Ak sa uzol názvu Node reštartuje z dôvodu problému, ktorý bol potrebný na opätovné zistenie, pretože obsahuje obrovské množstvo údajov, obnovenie trvá určitý čas.

(ii) V prípade zrútenia Name Node dôjde k strate všetkých údajov HDFS a nebude ich možné znova obnoviť, pretože Name Node je jediným bodom zlyhania. Na prekonanie týchto problémov teda existuje Sekundárny uzol názvu. Obsahuje tiež obraz menného priestoru a editačné protokoly rovnaké ako menný uzol.

Po určitom období skopíruje obraz menného priestoru a aktualizuje protokoly úprav z uzla názvu. V prípade zlyhania uzla názvu teda dôjde k obrázku sekundárneho uzla a správa sa ako primárny uzol. Vďaka tomuto procesu zabraňuje úplnému zlyhaniu.

# 4) Bloky

Bloky sú najmenšou jednotkou v HDFS. Hadoop dokáže spracovať obrovské množstvo súborov, ktoré rozdeľuje na malé bloky. Môžeme povedať, že bloky nie sú ničím iným ako údajmi veľkého súboru. Veľkosť každého bloku je 128 MB. Tieto bloky sa ukladajú do dátových uzlov a údaje sa spracúvajú.

Súčasti použité v Hadoop

Poďme sa naučiť architektúru Hadoop, aby sme pochopili jej fungovanie.

Distribuovaný systém súborov Hadoop (HDFS) je systém súborov, ktorý sa používa v klastri Hadoop. Na ukladanie údajov Hadoop v klastri sa používa hlavne HDFS. HDFS vo všeobecnosti pracuje na postupnom spracovaní údajov. Ako už vieme, je založená na architektúre Master-Slave.

Všetky metaúdaje klastra sa ukladajú na uzol názvu v nástroji JobTracker a skutočné údaje sa ukladajú do údajového uzla HDFS v nástroji TaskTracker.

Za spracovanie údajov zodpovedá spoločnosť MapReduce. Kedykoľvek akýkoľvek súbor príde do klastra na spracovanie, potom ho prvý dátový uzol rozdelí na bloky a každý blok obsahuje 64 MB dát a mohol uložiť 128 MB. Potom sa každý blok dvakrát replikuje a uloží do rôznych dátových uzlov kdekoľvek v klastri.

Všetky tieto informácie sa odošlú do uzla názvu a uzol názvu bude tieto informácie ukladať vo forme metadát. Potom skutočné spracovanie údajov spustí dátový uzol a každé tri sekundy bude do uzla názvu odosielať signál, aby mal uzol informácie, na ktorých tento dátový uzol pracuje.

Ak niekto z dátového uzla zlyhá pri odosielaní signálu srdca, potom uzol názvu znova vytvorí repliku tohto bloku na inom dátovom uzle a začne spracovávať.

Všetky tieto informácie alebo snímky sa uložia na serveri FsImage a ak sa uskutoční nejaká transakcia, upravte protokol, zlúčte nové informácie a vždy si ponechajte novú kópiu protokolov.

Bude vykonaný blok, ktorý najskôr dokončí úlohu, a dátový uzol odošle informácie do uzla názvu a uzol názvu podľa toho vykoná akciu.

V celom tomto procese bude YARN podporovať a poskytovať systému požadované zdroje, aby to neovplyvnilo spracovanie údajov a rýchlosť. Po spracovaní údajov sa výsledky uložia do HDFS na ďalšiu analýzu.

Záver

V tomto tutoriáli sme sa dozvedeli, čo je Hadoop, rozdiely medzi RDBMS vs Hadoop, výhody, komponenty a architektúra Hadoop.

Tento rámec je zodpovedný za spracovanie veľkých údajov a ich analýzu. Videli sme, že v klastri pracujú MapReduce, YARN a HDFS.

Poznámka: Nasledujú podrobnosti o konfigurácii menného a dátového uzla. Sekundárny uzol názvu bude mať rovnakú konfiguráciu ako uzol názvu.

Konfigurácia uzla názvu:

Procesory: 2 štvorjadrové procesory s rýchlosťou 2 GHz
RAM: 128 GB
Disk: 6 x 1 TB SATA
Sieť: 10 Gigabit Ethernet

Konfigurácia dátového uzla:

Procesory: 2 štvorjadrové procesory s rýchlosťou 2 GHz
RAM: 64 GB
Disk: 12 - 24 x 1 TB SATA
Sieť: 10 Gigabit Ethernet

=> Tu sa pozrite na príručku pre začiatočníkov v oblasti veľkých dát.

Čo je Hadoop? Výukový program Apache Hadoop pre začiatočníkov

Čo je Hadoop?

Hadoop Vs RDMBS

Funkcie Hadoop

Architektúra Hadoop

# 1) Názov uzla

# 2) Dátový uzol

# 3) Sekundárny uzol názvu

# 4) Bloky

Záver

Odporúčané čítanie

Zaujímavé Články

Redakcia Choice

Nintendo sa zaväzuje, že v nových finančných výsledkoch uvedie dátumy vydania prvej strany v roku 2023

Starfield: Sprievodca všetkými odpoveďami Lou – Aké je motto Vanguard v Starfield?

Prišiel z Japonska! Kráľ démonov

Annapurna Interactive pripravuje online prezentáciu na 29. júna

Ohlásili sa tri nové hry Spore pre Wii, DS a PC

60 snímok za sekundu + DmC Devil May Cry zasiahne Windows PC 25. januára 2013

Recenzia: Ys Origin

Anime VAs pozrite sa na Miss Kobayashi's Dragon Maid shmup

Pozrite si témy Street Fighter 6 pre veteránov Dhalsima a Hondu

Film Super Mario Bros. rozbil 1 miliardu dolárov

Recenzia: Nový Super Mario Bros. 2

Dohoda: 199 dolárov Xbox One S sa vracia na Vianoce vo Walmart