what is hadoop apache hadoop tutorial
Tento výukový program Apache Hadoop pre začiatočníkov podrobne vysvetľuje všetko o Big Data Hadoop, jeho funkciách, rámci a architektúre:
ako testovať web v rôznych prehliadačoch
V predchádzajúcom tutoriáli sme sa podrobne venovali Big Data. Otázkou teraz je, ako môžeme spracovať a spracovať taký veľký objem údajov so spoľahlivými a presnými výsledkami.
Existuje skutočne vynikajúce riešenie poskytované serverom Apache a založené na prostredí Java, t.j. Hadoop Framework .
=> Prečítajte si sériu Easy BigData Training Series.
Čo sa dozviete:
Čo je Hadoop?
Apache Hadoop je open-source framework na správu všetkých typov údajov (štruktúrovaný, neštruktúrovaný a pološtruktúrovaný).
Ako všetci vieme, pokiaľ chceme spracovávať, ukladať a spravovať naše údaje, je najlepším riešením RDBMS. Údaje by však mali byť v štruktúrovanom formáte, aby sme ich mohli spracovať s RDBMS. Ak sa veľkosť dát tiež zvýši, RDBMS to nedokáže spracovať a musíme pravidelne čistiť databázu.
To môže spôsobiť stratu historických údajov a nemôže generovať presné a spoľahlivé výsledky v niektorých priemyselných odvetviach, ako je predpoveď počasia, bankovníctvo, poisťovníctvo, predaj atď. Ďalším problémom v prípade RDBMS je, že ak dôjde k výpadku hlavného servera, môžeme prísť o dôležité dáta a veľa trpia.
V tomto tutoriáli uvidíme, ako môžeme tieto problémy prekonať pomocou Apache Hadoop.
Hadoop je distribuovaný súborový systém a dokáže ukladať veľké objemy dát (dáta v petabajtoch a terabajtoch). Rýchlosť spracovania údajov je tiež veľmi rýchla a poskytuje spoľahlivé výsledky, pretože má veľmi vysoký systém odolnosti proti chybám.
Hadoop je open-source programovací rámec založený na prostredí Java, ktorý podporuje ukladanie a spracovanie súborov veľkých údajov v prostredí distribuovanej výpočtovej techniky.
Hadoop je založený na koncepcii klastra využívajúcej komoditný hardvér. Nevyžaduje žiadnu zložitú konfiguráciu a môžeme vytvoriť prostredie Hadoop pomocou lacnejšieho, jednoduchého a ľahkého konfiguračného hardvéru.
Koncept klastra je jednoduchým spôsobom údaj, ktorý je uložený v replikačnom formáte na viacerých počítačoch, takže ak dôjde k problému alebo katastrofe na jednom z miest, kde sa údaje nachádzajú, musí existovať duplikát týchto údajov bezpečne na inom mieste. .
Hadoop Vs RDMBS
Ďalej sú uvedené niektoré body, ktoré popisujú výhody Hadoopu oproti RDBMS.
Vlastnosti | Hadoop | RDBMS |
---|---|---|
Skladovanie | Veľmi vysoká kapacita úložiska. | Bigdata sa nedá uložiť. |
Architektúra | Hadoop je založený na HDFS, MapReduce a YARN. | RDBMS je založený na vlastnostiach ACID. |
Objem | Zvláda veľké množstvo dát. | RDBMS nedokáže spracovať veľký objem dát. |
Rozmanitosť / typy údajov | Dokáže spracovať štruktúrované, čiastočne štruktúrované a neštruktúrované údaje, ako sú video, obrázky, súbory CSV, xml atď. | Spracúvajte iba štruktúrované údaje. |
Rýchlosť | Rýchle spracovanie veľkého množstva údajov. | Pri spracovávaní veľkého množstva údajov veľmi pomalé. |
Priepustnosť | Veľký prietok. | Nízka priepustnosť. |
Odolnosť proti chybám | Veľmi dobre | Nie je schopný obnoviť stratené dáta, ak zlyhá hlavný server. |
Spoľahlivý | Veľmi spoľahlivé a generujúce presné historické a aktuálne správy. | Nie je spoľahlivé, pokiaľ ide o Bigdata. |
Funkcie Hadoop
Teraz poznáme presnú definíciu Hadoopu. Poďme o krok vpred a oboznámime sa s terminológiou, ktorú používame v Hadoope, naučíme sa jeho architektúru a uvidíme, ako presne to funguje na Bigdata.
Rámec Hadoop je založený na nasledujúcich konceptoch alebo moduloch:
- Hadoop PRIADZE
- Hadoop obyčajný
- Hadoop HDFS ( H vypískať D istribuovaný F s S ystem)
- Hadoop MapReduce
# 1) Hadoop PRIATOK: YARN znamená „ Y a TO ďalej R zdroj N egotiator “, ktorý sa používa na správu klastrovej technológie cloudu. Používa sa na plánovanie úloh.
# 2) Hadoop Common: Toto sú podrobné knižnice alebo pomocné programy používané na komunikáciu s ďalšími funkciami Hadoopu, ako sú YARN, MapReduce a HDFS.
# 3) Hadoop HDFS: Systém distribuovaných súborov sa v systéme Hadoop používa na ukladanie a spracovanie veľkého množstva údajov. Používa sa tiež na prístup k údajom z klastra.
# 4) Mapa Hadoop Znížiť: MapReduce je hlavná vlastnosť Hadoopu, ktorá je zodpovedná za spracovanie údajov v klastri. Používa sa na plánovanie úloh a sledovanie spracovania údajov.
Tu sme práve zahrnuli definíciu týchto funkcií, ale podrobný popis všetkých týchto funkcií uvidíme v našich pripravovaných tutoriáloch.
Architektúra Hadoop
Poďme sa naučiť architektúru rámca a pozrime sa, aké komponenty sa v ňom používajú. Tento rámec sleduje architektúru typu master-slave v klastri.
Nasledujú komponenty Hadoop:
- HDFS
- MapReduce
- PRIADZE
Toto sú tri dôležité komponenty architektúry Hadoop. Mali by sme tiež pochopiť niektoré terminológie alebo koncepty architektúry a zistiť, ako fungujú.
- Meno Uzol
- Dátový uzol
- Uzol sekundárneho mena
- Bloky
# 1) Názov uzla
Názov uzla je hlavný uzol v systéme HDFS. Obsahuje metadáta HDFS, ako sú informácie o súboroch, adresárová štruktúra, informácie o blokoch a všetky informácie o dátovom uzle atď. Názov uzla je zodpovedný iba za prístup k údajom alebo súborom od klienta. Sleduje všetky transakcie alebo zmeny vykonané v súboroch.
Funguje to hlavne na dva súbory t.j. FsImage a EditLogs . Názov uzla má JobTracker, ktorý obsahuje všetky podrobnosti o dátovom uzle, napríklad ktorý dátový uzol má akú úlohu, koľko blokov je s každým dátovým uzlom, rytmus každého dátového uzla, podrobnosti plánovania úloh v klastri atď.
Stručne povedané, môžeme povedať, že JobTracker obsahuje TaskTracker každého dátového uzla.
# 2) Dátový uzol
Dátový uzol je uzol slave v HDFS. Údajový uzol je zodpovedný za skutočné ukladanie a spracovanie údajov. Jeho hlavnou úlohou je rozdeliť úlohu na tri bloky a uložiť ju do rôznych dátových uzlov. Potom sa začne so spracovaním údajov.
Tiež má TaskTracker, ktorý má úplné informácie o každom bloku a ktorý blok je zodpovedný za ktorú úlohu, ktoré bloky dokončili úlohu atď., A po spracovaní údajov odošle informácie do Name Node. Zakaždým, keď sa dátový uzol spustí, odošle všetky informácie znova do uzla názvu.
# 3) Sekundárny uzol názvu
Sekundárny uzol názvu sa používa v prípade odolnosti voči chybám. Existujú dva scenáre, keď je uzol názvu nefunkčný a úplná štruktúra Hadoop zlyhá, pretože uzol názvu je jediným bodom zlyhania.
(i) Ak sa uzol názvu Node reštartuje z dôvodu problému, ktorý bol potrebný na opätovné zistenie, pretože obsahuje obrovské množstvo údajov, obnovenie trvá určitý čas.
(ii) V prípade zrútenia Name Node dôjde k strate všetkých údajov HDFS a nebude ich možné znova obnoviť, pretože Name Node je jediným bodom zlyhania. Na prekonanie týchto problémov teda existuje Sekundárny uzol názvu. Obsahuje tiež obraz menného priestoru a editačné protokoly rovnaké ako menný uzol.
Po určitom období skopíruje obraz menného priestoru a aktualizuje protokoly úprav z uzla názvu. V prípade zlyhania uzla názvu teda dôjde k obrázku sekundárneho uzla a správa sa ako primárny uzol. Vďaka tomuto procesu zabraňuje úplnému zlyhaniu.
# 4) Bloky
Bloky sú najmenšou jednotkou v HDFS. Hadoop dokáže spracovať obrovské množstvo súborov, ktoré rozdeľuje na malé bloky. Môžeme povedať, že bloky nie sú ničím iným ako údajmi veľkého súboru. Veľkosť každého bloku je 128 MB. Tieto bloky sa ukladajú do dátových uzlov a údaje sa spracúvajú.
Poďme sa naučiť architektúru Hadoop, aby sme pochopili jej fungovanie.
Distribuovaný systém súborov Hadoop (HDFS) je systém súborov, ktorý sa používa v klastri Hadoop. Na ukladanie údajov Hadoop v klastri sa používa hlavne HDFS. HDFS vo všeobecnosti pracuje na postupnom spracovaní údajov. Ako už vieme, je založená na architektúre Master-Slave.
Všetky metaúdaje klastra sa ukladajú na uzol názvu v nástroji JobTracker a skutočné údaje sa ukladajú do údajového uzla HDFS v nástroji TaskTracker.
Za spracovanie údajov zodpovedá spoločnosť MapReduce. Kedykoľvek akýkoľvek súbor príde do klastra na spracovanie, potom ho prvý dátový uzol rozdelí na bloky a každý blok obsahuje 64 MB dát a mohol uložiť 128 MB. Potom sa každý blok dvakrát replikuje a uloží do rôznych dátových uzlov kdekoľvek v klastri.
Všetky tieto informácie sa odošlú do uzla názvu a uzol názvu bude tieto informácie ukladať vo forme metadát. Potom skutočné spracovanie údajov spustí dátový uzol a každé tri sekundy bude do uzla názvu odosielať signál, aby mal uzol informácie, na ktorých tento dátový uzol pracuje.
Ak niekto z dátového uzla zlyhá pri odosielaní signálu srdca, potom uzol názvu znova vytvorí repliku tohto bloku na inom dátovom uzle a začne spracovávať.
Všetky tieto informácie alebo snímky sa uložia na serveri FsImage a ak sa uskutoční nejaká transakcia, upravte protokol, zlúčte nové informácie a vždy si ponechajte novú kópiu protokolov.
Bude vykonaný blok, ktorý najskôr dokončí úlohu, a dátový uzol odošle informácie do uzla názvu a uzol názvu podľa toho vykoná akciu.
V celom tomto procese bude YARN podporovať a poskytovať systému požadované zdroje, aby to neovplyvnilo spracovanie údajov a rýchlosť. Po spracovaní údajov sa výsledky uložia do HDFS na ďalšiu analýzu.
Záver
V tomto tutoriáli sme sa dozvedeli, čo je Hadoop, rozdiely medzi RDBMS vs Hadoop, výhody, komponenty a architektúra Hadoop.
Tento rámec je zodpovedný za spracovanie veľkých údajov a ich analýzu. Videli sme, že v klastri pracujú MapReduce, YARN a HDFS.
Poznámka: Nasledujú podrobnosti o konfigurácii menného a dátového uzla. Sekundárny uzol názvu bude mať rovnakú konfiguráciu ako uzol názvu.
Konfigurácia uzla názvu:
Procesory: 2 štvorjadrové procesory s rýchlosťou 2 GHz
RAM: 128 GB
Disk: 6 x 1 TB SATA
Sieť: 10 Gigabit Ethernet
Konfigurácia dátového uzla:
Procesory: 2 štvorjadrové procesory s rýchlosťou 2 GHz
RAM: 64 GB
Disk: 12 - 24 x 1 TB SATA
Sieť: 10 Gigabit Ethernet
=> Tu sa pozrite na príručku pre začiatočníkov v oblasti veľkých dát.
Odporúčané čítanie
- Výukový program pre veľké dáta pre začiatočníkov Čo sú to veľké dáta?
- 20+ výučba MongoDB pre začiatočníkov: bezplatný kurz MongoDB
- Ako nastaviť testovací rámec Node.js: Výukový program Node.js
- Výukový program Data Mart - Typy, príklady a implementácia Data Mart
- Hĺbkové návody pre zatmenie pre začiatočníkov
- Výukový program pre Python pre začiatočníkov (praktické školenie v jazyku Python ZDARMA)
- Rámec riadený dátami v selenovom WebDriveri pomocou POI Apache
- Výukový program LoadRunner pre začiatočníkov (8-denný hĺbkový kurz zadarmo)