what is data lake data warehouse vs data lake
Tento tutoriál vysvetľuje všetko o Data Lake vrátane jeho potreby, definície, architektúry, výhod a rozdielov medzi Data Lake a Data Warehouse:
Pojem „Data Lake“ sa v dnešnom svete IT používa pomerne často. Zamysleli ste sa niekedy nad tým, čo to je a odkiaľ tento pojem presne pochádza?
V ére informačných technológií, kde sa údaje zosilňujú dňom i nocou v mnohých formách, sa koncept dátového jazera stáva určite dôležitým a užitočným.
Pozrime sa tu podrobne na to, čo je to dátové jazero a aké sú jeho výhody, použitia atď.
Čo sa dozviete:
- Čo je dátové jazero a ako funguje?
- Záver
Čo je dátové jazero a ako funguje?
Dátové jazero je systém alebo centralizované úložisko údajov, ktoré vám umožňuje ukladať všetky vaše štruktúrované, pološtruktúrované, neštruktúrované a binárne údaje v prírodnom / natívnom / surovom formáte.
Štruktúrované dáta môžu obsahovať tabuľky z RDBMS; semštrukturované údaje zahŕňajú súbory CSV, súbory XML, protokoly, JSON atď .; neštruktúrované dáta môžu zahŕňať PDF, textové dokumenty, textové súbory, e-maily atď .; a binárne údaje môžu zahŕňať zvukové, obrazové a obrazové súbory.
Vyplýva to z plochej architektúry na ukladanie údajov. Dáta sa spravidla ukladajú vo forme objektov BLOB alebo súborov.
(obrázok zdroj )
S dátovým jazerom môžete uložiť celý svoj podnik na jednom mieste bez potreby prvej štruktúry dát. Môžete na ňom priamo vykonávať rôzne typy analýz vrátane strojového učenia, analýzy v reálnom čase, miestneho pohybu údajov, pohybu údajov v reálnom čase, dashboardov a vizualizácií.
Zachováva všetky údaje v pôvodnej podobe a predpokladá, že analýza sa uskutoční neskôr, na požiadanie.
Analogy Of Data Lake
(obrázok zdroj )
Termín Data Lake vytvoril James Dixon, vtedajší CTO v Pentaho. Definuje dátový trh (podmnožinu dátového skladu) ako obdobu fľaše s vodou naplnenej vyčistenou, destilovanou vodou, zabalenú a štruktúrovanú pre priame a ľahké použitie.
Na druhej strane je to obdoba vodného útvaru v prírodnej forme. Dátové toky z tokov (rôzne obchodné funkcie / zdrojové systémy) do jazera. Spotrebitelia dátového jazera, t. J. Používatelia, majú prístup k jazeru s cieľom analyzovať, skúmať, zhromažďovať vzorky a potápať sa.
Rovnako ako voda v jazere uspokojuje rôzne potreby ľudí, ako je rybolov, člnkovanie, zásobovanie pitnou vodou atď., Podobne aj architektúra dátového jazera slúži na rôzne účely.
ako otestovať webovú stránku
Vedec v oblasti údajov ich môže použiť na preskúmanie údajov a na vytvorenie hypotézy. Poskytuje analytikom údajov príležitosť analyzovať údaje a objavovať vzorce. Poskytuje podnikovým používateľom a zainteresovaným stranám režim na skúmanie údajov.
Poskytuje tiež analytikom pre reportovanie príležitosť navrhnúť správy a predložiť ich podnikom. Naopak, dátový sklad zbalil dáta na presne definované účely rovnako ako fľaša bisleri, ktorú je možné použiť iba na pitnú vodu.
Data Lake Market - rast, trendy a predpovede
Trh dátových jazier je rozdelený na základe produktov (riešenie alebo služba), nasadenia (lokálne alebo cloudové), odvetvia klientov (maloobchod, bankovníctvo, verejné služby, poistenie, IT, zdravotníctvo, telekomunikácie, vydavateľstvo, výroba) a geografických oblastí regiónoch.
Podľa správy publikovanej Mordor Intelligence, nižšie je prehľad trhu pre dátové jazero:
(obrázok zdroj )
# 1) Zhrnutie trhu
Trh s dátovými jazerami bol v roku 2019 ohodnotený na 3,74 miliárd USD a predpokladá sa, že do roku 2025 sa dotkne 17,60 miliárd USD, pri CAGR (zložená ročná miera rastu) 29,9% v projekčnom období 2020 - 2025.
Tieto zásobníky dát sa čoraz viac ukazujú ako ekonomická voľba pre mnoho organizácií v oblasti dátových skladov. Na rozdiel od dátových jazier vyžaduje dátové skladovanie ďalšie spracovanie údajov pred prijatím do skladu.
Výdavky na správu dátového jazera sú v porovnaní s dátovým skladom menšie, pretože je potrebné veľa spracovania a na vytvorenie databázy pre sklady je potrebný priestor.
# 2) Hlavní hráči
Predpokladá sa, že trh Data Lake bude konsolidovaným trhom, na ktorom bude dominovať päť kľúčových hráčov, ako je vidieť na obrázku nižšie.
# 3) Kľúčové trendy
- Očakáva sa, že jeho použitie v bankovom sektore značne vzrastie. Banky prijímajú dátové jazerá s cieľom poskytovať analytiku na cestách. Pomáha tiež rozpustiť veľa síl v bankovom sektore.
- Pretože na celom svete dochádza k obrovskému nárastu digitálnych platieb / využívania mobilných peňaženiek, zvyšuje sa priestor pre analýzu veľkých dát, a tým aj príležitosť pre ne.
- Očakáva sa, že Severná Amerika bude mať pre dátové jazerá vysokú adopciu. Štúdia uskutočnená spoločnosťou Capgemini hovorí, že viac ako 60% finančných organizácií v USA si myslí, že analýza veľkých dát funguje ako odlíšiteľ pre podnikanie a poskytuje im konkurenčnú výhodu. Viac ako 90% organizácií má pocit, že investícia do veľkých dátových projektov zvyšuje šance na úspech v budúcnosti.
- Sú potrebné na použitie aplikácií inteligentných meračov a v USA sa očakáva, že v roku 2021 bude nainštalovaných asi 90 miliónov inteligentných meračov. Preto sa po nich predpokladá vysoký dopyt.
Prečo sa vyžaduje Data Lake?
Účelom dátového jazera je poskytnúť nespracovaný pohľad na dáta (dáta v najčistejšej podobe).
Príklady
V dnešnej dobe má veľa veľkých spoločností vrátane Google, Amazon, Cloudera, Oracle, Microsoft a niekoľkých ďalších ponuky dátových jazier.
Mnoho organizácií využíva služby cloudového úložiska ako Azure Data Lake alebo Amazon S3. Spoločnosti tiež používajú distribuovaný súborový systém, ako je Apache Hadoop. Vyvinul sa tiež koncept jazera osobných údajov, ktorý vám umožní spravovať a zdieľať vaše vlastné veľké dáta.
Pokiaľ hovoríme o priemyselnom použití, potom je to veľmi vhodné riešenie pre oblasť zdravotnej starostlivosti. Z dôvodu neštruktúrovaného formátu veľkého množstva údajov v zdravotníctve ( Napríklad, Poznámky lekára, klinické údaje, história chorôb pacientov atď.) A požiadavka na prehľady v reálnom čase, dátové jazero je skvelou voľbou oproti dátovému skladu.
Ponúka flexibilné riešenia aj v oblasti vzdelávania, kde sú údaje veľmi rozsiahle a veľmi surové.
pl sql otázky na pohovor na 3 roky praxe
V dopravnom sektore, hlavne v oblasti riadenia dodávateľského reťazca alebo logistiky, pomáha pri predpovedaní a realizácii výhod znižovania nákladov.
Letecké a elektroenergetické odvetvia tiež využívajú dátové jazerá.
Príkladom jeho implementácie je GE Predix (vyvinutý spoločnosťou General Electric), čo je platforma pre priemyselné dátové jazero ponúkajúca silné kompetencie v oblasti správy dát na vytváranie, nasadzovanie a riadenie priemyselných aplikácií, ktoré odkazujú na priemyselné aktíva, zhromažďujú a analyzujú údaje a poskytujú údaje v reálnom čase poznatky o zlepšovaní priemyselnej infraštruktúry a procesov.
Rozdiel medzi Data Warehouse a Data Lake
Ľudia často ťažko pochopia, v čom sa jazero líši od dátového skladu. Tvrdia tiež, že je to to isté ako dátový sklad. Ale toto nie je realita.
Jedinou zhodou medzi dátovým jazerom a dátovým skladom je, že oba sú úložiskami dát. Oddych, sú rôzne. Majú rôzne prípady použitia a účely.
Rozdiely sú objasnené nižšie:
Dátové jazero | Dátový sklad | |
---|---|---|
Analytika | Dátové jazero je možné použiť na strojové učenie, profilovanie údajov pri zisťovaní údajov a prediktívnu analýzu. | Dátový sklad je možné použiť na Business Intelligence, vizualizácie a dávkové reporty. |
Údaje | Dátové jazero bude obsahovať všetky nespracované údaje. Môže byť štruktúrovaný, neštruktúrovaný alebo pološtruktúrovaný. Je možné, že niektoré údaje v dátovom jazere nikdy nebudú použité. | Dátový sklad obsahuje iba tie údaje, ktoré sa spracúvajú a vylepšujú, t. J. Štruktúrované údaje, ktoré sú potrebné na hlásenie a riešenie konkrétnych obchodných problémov. |
Používatelia | Používatelia dátového jazera sú vo všeobecnosti vedci a vývojári údajov. | Používatelia dátového skladu sú spravidla obchodní profesionáli, operatívni používatelia a obchodní analytici. |
Prístupnosť | Dátové jazero je vysoko prístupné a ľahko a rýchlo sa aktualizuje, pretože nemá žiadnu štruktúru. | V dátovom sklade je aktualizácia údajov komplikovanejšia a nákladnejšia operácia, pretože dátové sklady sú štruktúrované podľa návrhu. |
Schéma | Schéma na zápis. Navrhnuté pred implementáciou DW. | Schéma na čítanie. Napísané v čase analýzy. |
Architektúra | Plochá architektúra | Hierarchická architektúra |
Účel | Účel nespracovaných údajov uložených v dátových jazerách nie je stanovený alebo je neurčený. Údaje môžu niekedy prúdiť do dátového jazera s ohľadom na niektoré konkrétne budúce použitie alebo len na to, aby boli dáta po ruke. Dátové jazero má menej organizované a menej filtrované údaje. | Spracované údaje uložené v dátovom sklade majú konkrétny a jednoznačný účel. DW usporiadal a filtroval údaje. Vyžaduje teda menej úložného priestoru ako dátové jazero. |
Skladovanie | Navrhnuté pre lacné skladovanie. Hardvér dátového jazera sa veľmi líši od hardvéru dátového skladu. Využíva štandardné servery kombinované s lacným úložiskom. Vďaka tomu je dátové jazero pomerne ekonomické a vysoko škálovateľné na terabajty a petabajty. Toto sa robí, aby sa všetky údaje uložili v dátovom jazere, aby ste sa mohli kedykoľvek vrátiť k času a vykonať analýzu. | Drahé pre veľké objemy dát. Dátový sklad má drahé diskové úložisko, vďaka čomu je vysoko výkonný. Z dôvodu úspory priestoru je preto dátový model zjednodušený a v dátovom sklade sa uchovávajú iba tie údaje, ktoré sú skutočne potrebné na prijímanie obchodných rozhodnutí. |
Podpora dátových typov | Data Lake veľmi dobre podporuje netradičné dátové typy, ako sú protokoly serverov, dáta senzorov, aktivita na sociálnych sieťach, text, obrázky, multimédiá atď. Všetky údaje sa uchovávajú bez ohľadu na zdroj a štruktúru. | Dátový sklad spravidla pozostáva z údajov získaných z transakčných systémov. Veľmi dobre nepodporuje netradičné dátové typy. Ukladanie a konzumácia netradičných údajov môže byť v dátovom sklade nákladné a ťažké. |
Bezpečnosť | Bezpečnosť dátových jazier je v štádiu „dozrievania“, pretože ide o relatívne nový koncept ako dátový sklad. | Bezpečnosť dátových skladov je v „zrelej“ fáze. |
Svižnosť | Vysoko pohyblivý; nakonfigurujte a prekonfigurujte podľa potreby. | Menej obratný; pevná konfigurácia. |
Architektúra Data Lake
Schéma architektúry
Vyššie je uvedený koncepčný diagram architektúry dátového jazera. V ľavej časti najviac vidíte, že máme zdroje údajov, ktoré môžu byť štruktúrované, pološtruktúrované alebo neštruktúrované.
Tieto zdroje údajov sa skombinujú do úložiska nespracovaných údajov, ktoré spotrebuje údaje v surovej podobe, t. J. Údaje bez akýchkoľvek transformácií. Jedná sa o lacné, trvalé a škálovateľné úložisko.
Ďalej máme analytické karantény, ktoré možno použiť na zisťovanie údajov, analýzu prieskumných údajov a prediktívne modelovanie. Toto v zásade využívajú vedci v oblasti dát na skúmanie údajov, vytváranie nových hypotéz a definovanie prípadov použitia.
Potom existuje stroj na dávkové spracovanie, ktorý spracováva nespracované údaje do spotrebiteľsky použiteľnej formy, t. J. V štruktúrovanom formáte, ktorý je možné použiť na hlásenie koncovým používateľom.
Potom máme k dispozícii procesor na spracovanie v reálnom čase, ktorý sa využíva pri streamovaní údajov a ich transformácii.
Kľúčové vlastnosti Data Lake
Aby mohlo byť úložisko veľkých údajov klasifikované ako Data Lake, malo by mať tieto tri atribúty:
# 1) Jediné spoločné úložisko údajov, ktoré sa zvyčajne nachádza v distribuovanom systéme súborov (DFS).
Dáta systému Hadoop udržiavajú údaje v ich pôvodnej podobe a počas životného cyklu údajov zachytávajú zmeny údajov a relatívnu sémantiku. Tento prístup je obzvlášť výhodný pri kontrolách súladu a interných auditoch.
Toto je vylepšenie oproti konvenčnému Enterprise Data Warehouse, v ktorom keď dáta prechádzajú transformáciami, agregáciami a úpravami, je ťažké dať dáta ako celok, keď sú potrebné, a spoločnosti sa snažia zistiť zdroj / pôvod dát.
# 2) Zahŕňa možnosti plánovania a plánovania úloh (napríklad prostredníctvom ľubovoľného plánovacieho nástroja, ako je YARN, atď.).
Vykonanie pracovnej záťaže je pre podnik Hadoop nevyhnutnou potrebou a spoločnosť YARN ponúka správu zdrojov a centrálnu platformu na zabezpečenie konštantných procesov, bezpečnosť a nástroje na správu údajov v klastroch Hadoop, ktoré zaisťujú, aby analytické pracovné toky mali požadovanú úroveň prístupu k údajom a výpočtového výkonu.
# 3) Zahŕňa súbor nástrojov a funkcií potrebných na spotrebu, spracovanie alebo prácu s údajmi.
Ľahká a rýchla dostupnosť pre používateľov je jednou z kľúčových čŕt dátového jazera, pretože organizácie ukladajú dáta v pôvodnej alebo čistej podobe.
V akejkoľvek forme sú údaje, tj. Štruktúrované, neštruktúrované alebo pološtruktúrované, vkladajú sa tak, ako sú v dátovom jazere. Umožňuje vlastníkom údajov kombinovať údaje o zákazníkoch, dodávateľoch a prevádzkach tým, že sa zbavuje akýchkoľvek technických alebo politických bariér pri zdieľaní údajov.
Výhody
(obrázok zdroj )
- Všestranný : Dostatočne kompetentné na ukladanie všetkých druhov štruktúrovaných / neštruktúrovaných údajov, od údajov CRM po aktivity na sociálnych sieťach.
- Väčšia flexibilita schémy : Nepotrebuje plánovanie ani predchádzajúce znalosti z analýzy údajov. Ukladá všetky údaje v pôvodnej podobe a predpokladá, že analýza sa uskutoční neskôr, na požiadanie. To je pre OLAP veľmi užitočné. Napríklad, dátové jazero Hadoop vám umožňuje byť bez schémy, pričom môžete schému oddeliť od údajov.
- Analýza rozhodnutí v reálnom čase : Tešia sa z výhody obrovského množstva konzistentných údajov a algoritmov hlbokého učenia, aby dosiahli analýzu rozhodovania v reálnom čase. Schopný získať hodnotu z neobmedzeného počtu dátových typov.
- Škálovateľné: Sú oveľa škálovateľnejšie ako tradičné dátové sklady a sú tiež menej nákladné.
- Pokročilá analýza / kompatibilita s SQL a inými jazykmi: V prípade dátových jazier existuje mnoho spôsobov, ako získať údaje. Na rozdiel od tradičných dátových skladov, ktoré pre jednoduchú analýzu podporujú iba SQL, poskytujú veľa ďalších možností a jazykovú podporu pre analýzu údajov. Sú tiež kompatibilné s nástrojmi strojového učenia, ako je Spark MLlib.
- Demokratizovať údaje: Demokratizovaný prístup k údajom prostredníctvom jediného integrovaného pohľadu na údaje v celej organizácii pri využití efektívnej platformy na správu údajov. To zaisťuje celkovú dostupnosť údajov.
- Lepšia kvalita údajov: Celkovo získate lepšiu kvalitu dát pomocou dátových jazier prostredníctvom technologických výhod, ako sú ukladanie dát v natívnom formáte, škálovateľnosť, univerzálnosť, flexibilita schém, podpora SQL a ďalších jazykov a pokročilá analýza.
Výzvy a riziká
Dátové jazerá ponúkajú veľa výhod. Ale áno, je s nimi spojených aj niekoľko výziev a rizík, ktorým sa musí organizácia starostlivo venovať.
Oni sú:
- Ak nebudú správne navrhnuté, môžu sa zmeniť na dátové močiare. Niekedy organizácie jednoducho skončia s ukladaním neobmedzených údajov do týchto jazier bez toho, aby mali na pamäti akúkoľvek stratégiu a účel.
- Analytici, ktorí chcú údaje použiť, niekedy nemajú znalosti o tom, ako to urobiť, pretože ťažba v dátových jazerách je dosť náročná. Po určitom čase tak strácajú na dôležitosti a dynamike. Organizácie musia pracovať na odstránení tejto bariéry pre analytikov.
- Pretože v dátových jazerách máme veľa neusporiadaných údajov, nie sú čerstvé ani aktuálne, aby sa dali použiť vo výrobe. Údaje v týchto jazerách teda zostávajú v pilotnom režime a nikdy sa nespustia do výroby.
- Neštruktúrované údaje môžu viesť k nepoužiteľným údajom.
- Niekedy sa organizácie stretnú s tým, že z hľadiska uskutočnených investícií nemá podstatný vplyv na podnikanie. Vyžaduje si to zmenu myslenia. Aby mohli nastať vplyvy, musia spoločnosti povzbudzovať manažérov a vedúcich činiteľov, aby sa rozhodovali na základe analýz odvodených z týchto dátových rezerv.
- Bezpečnosť a kontrola prístupu sú tiež jedným z rizík, keď s nimi pracujete. Niektoré z údajov, ktoré môžu vyžadovať ochranu súkromia a nariadenia, sa bez dozoru dostanú do dátových jazier.
Implementácia
V podniku je celkom rozumné implementovať dátové jazero svižne.
To znamená, že najskôr implementujeme Data Lake MVP, ktorý ho nechá testovať používateľmi s ohľadom na kvalitu, ľahký prístup, ukladanie a analytické schopnosti, dostane spätnú väzbu a potom doplní komplexné požiadavky a funkcie, ktoré mu pridajú hodnotu.
Organizácia spravidla prechádza nasledujúcimi štyrmi základnými fázami implementácie:
(obrázok zdroj )
Fáza 1:
Jazero základných údajov: V tejto fáze sa tím venuje základnej architektúre, technológii (cloudovej alebo staršej) a bezpečnostným a riadiacim postupom pre dátové jazero. Je schopný ukladať všetky nespracované údaje pochádzajúce z rôznych podnikových zdrojov a kombinovať interné a externé údaje na poskytovanie obohatených informácií.
Fáza 2:
Sandbox: Vylepšenie analytických schopností: V tejto fáze majú dátoví vedci prístup k dátovému zásobníku, aby vykonali predbežné experimenty s využitím nespracovaných údajov a navrhli analytické modely na splnenie obchodných potrieb.
Fáza 3:
otvorené testovacie nástroje pre odpočinok api
Dátové sklady a spolupráca v Data Lake: V tejto fáze začne organizácia využívať dátové jazero v synergii s existujúcimi dátovými skladmi. Dávajú sa im dáta s nízkou prioritou, aby sa neprekročil limit úložiska dátových skladov.
Predstavuje vyhliadku na získanie poznatkov zo studených údajov alebo ich dotazovanie na zistenie informácií, ktoré nie sú indexované konvenčnými databázami.
Fáza 4:
Úplné prijatie Data Lake: Toto je posledná etapa a fáza získania zrelosti, v ktorej sa mení na kľúčový prvok dátovej architektúry organizácie a efektívne priame vyhľadávanie. Do tejto doby by dátové jazero nahradilo EDW a stalo by sa jediným zdrojom všetkých podnikových údajov.
Organizácia môže prostredníctvom dátového jazera urobiť nasledovné:
- Vytvárajte komplexné riešenia pre modelovanie a analýzu údajov pre rôzne obchodné potreby.
- Navrhujte interaktívne dashboardy, ktoré konsolidujú porozumenie z dátového jazera a rôzne aplikácie a zdroje údajov.
- Implementujte pokročilé analytické alebo robotické programy, pretože zvláda výpočtové operácie.
V tomto bode má tiež silné bezpečnostné a riadiace opatrenia.
Predajcovia Data Lake
V priemysle existujú rôzni predajcovia, ktorí poskytujú nástroje Data Lake.
(obrázok zdroj )
Ak sa pozrieme na veľké spoločnosti:
- Výpočtový poskytuje nástroj inteligentného dátového jazera. BDM (Big Data Management) 10.2.2 je najnovšia dostupná verzia.
- Volal sa predajca hľadač ktorý tiež poskytuje tento nástroj.
- Spoločnosť Talend ktorý je obľúbený pre svoje nástroje ETL, poskytuje aj nástroj Data Lake.
- Potom máme open-source nástroj s názvom Kylo z Teradata spoločnosti. Tím s názvom „Think Big“ v spoločnosti Teradata vyvinul tento nástroj.
- Spoločnosť Údaje suda Inc tiež poskytuje tieto služby.
- Od Microsoft , môžeš nájsť Azure dátové jazero dostupné v priemysle.
- Hvr softvér tiež poskytuje riešenia konsolidácie dátových jazier.
- Údaje o pódiu, spoločnosť Qlik poskytuje nástrojové produkty ako potrubia dátových jazier, viaczónové dátové jazerá.
- snehová vločka má tiež produkt Data Lake.
- Zaloni je spoločnosť Data Lake, ktorá spracúva obrovské údaje pomocou Big Data.
Jedná sa teda o populárnych poskytovateľov služieb, ako aj predajcov takýchto nástrojov.
Ak hľadáte nácvik a budovanie svojich vedomostí o údajových jazerách, môžete ísť na server Informatica alebo Kylo. Ak hľadáte cloudovú službu, môžete sa rozhodnúť pre Looker, Informatica a Talend. Títo traja dodávatelia poskytujú cloudové dátové jazerá AWS. Môžete tiež získať 1-mesačnú bezplatnú skúšobnú verziu od spoločnosti Kylo.
Záver
V tomto tutoriáli sme sa podrobne zaoberali konceptom dátového jazera. Prešli sme si základnú myšlienku za dátovým jazerom, jeho architektúru, kľúčové charakteristiky, výhody, spolu s jeho príkladmi, prípadmi použitia atď.
Tiež sme videli, ako sa dátové jazero líši od dátového skladu. Pokryli sme aj najlepších dodávateľov poskytujúcich súvisiace služby.
Príjemné čítanie !!
Odporúčané čítanie
- Výukový program na testovanie dátových skladov s príkladmi Sprievodca testovaním ETL
- Top 10 nástrojov na testovanie a overovanie štruktúrovaných údajov pre SEO
- Ťažba dát: Proces, techniky a hlavné problémy v analýze dát
- Výukový program Data Mart - Typy, príklady a implementácia Data Mart
- Top 10 populárnych nástrojov pre dátové sklady a testovacie technológie
- Dimenzionálny dátový model v dátovom sklade - návod s príkladmi
- 10+ najlepších nástrojov na zber údajov so stratégiami zhromažďovania údajov
- Funkcia údajového fondu v IBM Rational Quality Manager pre správu testovacích údajov