big data tutorial beginners what is big data
V tomto výučbe sú vysvetlené všetky základné informácie o veľkých dátach. Výukový program obsahuje výhody, výzvy, technológie a nástroje spolu s aplikáciami veľkých dát:
V tomto digitálnom svete s technologickým pokrokom si denne vymieňame veľké množstvo dát ako v Terabajty alebo petabajt .
Ak si denne vymieňame toto množstvo údajov, musíme ich tiež udržiavať a niekde ukladať. Riešením na zvládnutie veľkého množstva údajov s vysokou rýchlosťou a rôznou rozmanitosťou je Veľké dáta.
Dokáže spracovať komplexné údaje pochádzajúce z viacerých zdrojov, ako sú rôzne databázy, webové stránky, widgety atď. Môže tiež spájať a porovnávať údaje pochádzajúce z rôznych zdrojov. Skutočne umožňuje rýchlejší prístup k údajom ( Napríklad, sociálne médiá).
Zoznam tutoriálov v tejto sérii veľkých dát
Výukový program č. 1: Čo sú to veľké dáta? [Tento návod]
Výukový program č. 2: Čo je Hadoop? Výukový program Apache Hadoop pre začiatočníkov
Výukový program č. 3: Hadoop HDFS - distribuovaný systém súborov Hadoop
Výukový program č. 4: Sprievodca príkazmi pre architektúru Hadoop a HDFS
Výukový program č. 5: Výukový program Hadoop MapReduce s príkladmi Čo je MapReduce?
Výukový program č. 6: Výukový program pre začiatočníkov Apache Hadoop Čo je priadza?
Výukový program č. 7: Komplexný návod na testovanie Hadoop Sprievodca testovaním veľkých dát
Čo sa dozviete:
Čo sú to veľké dáta?
Slovo Obrovské nestačí na vysvetlenie údajov BigData, určité vlastnosti ich klasifikujú do dát BigData.
ako otvárať súbory SWF v systéme Windows
Máme tri hlavné charakteristiky BigData, a ak akékoľvek údaje vyhovujú týmto vlastnostiam, bude sa s nimi zaobchádzať ako s BigData. Ja t je kombinácia troch V spomenutých nižšie:
- Objem
- Rýchlosť
- Odroda
Objem : Údaje by mali byť obrovského objemu. Big Data má riešenie na udržanie veľkého množstva dát, ktoré sú v terabajtoch alebo petabajtoch. Na BigData môžeme vykonávať operácie CRUD (vytváranie, čítanie, aktualizácia a mazanie) ľahko a efektívne.
Rýchlosť : Je zodpovedný za rýchlejší prístup k údajom. Napríklad, v dnešnej dobe sociálne médiá potrebujú rýchlu výmenu údajov za zlomok času a BigData je pre ňu najlepším riešením. Preto je rýchlosť ďalšou charakteristikou a je to rýchlosť spracovania údajov.
Odroda : V sociálnych médiách máme do činenia s neštruktúrovanými údajmi, ako sú zvukové alebo obrazové záznamy, obrázky atď. Štruktúrované a pološtruktúrované údaje potrebujú aj rôzne odvetvia, ako napríklad oblasť bankovníctva. BigData je riešením na udržanie oboch typov údajov na jednom mieste.
Rozmanitosť znamená rôzne typy údajov, napríklad štruktúrované / neštruktúrované údaje pochádzajúce z viacerých zdrojov.
Štruktúrované dáta : Dáta, ktoré majú správnu štruktúru, alebo tie, ktoré je možné ľahko uložiť v tabuľkovej forme v akýchkoľvek relačných databázach, ako sú Oracle, SQL Server alebo MySQL, sú známe ako štruktúrované údaje. Môžeme to ľahko a efektívne spracovať alebo analyzovať.
Príkladom štruktúrovaných údajov sú údaje uložené v relačnej databáze, ktorú je možné spravovať pomocou jazyka SQL (Structured Query Language). Napríklad, Údaje o zamestnancoch (meno, identifikačné číslo, označenie a plat) je možné uložiť v tabuľkovej podobe.
V tradičnej databáze môžeme vykonávať operácie alebo spracovávať neštruktúrované alebo pološtruktúrované údaje až po ich naformátovaní alebo zapadnutí do relačnej databázy. Príklady štruktúrovaných dát sú ERP, CRM atď.
Pološtruktúrované údaje: Pološtruktúrované údaje sú údaje, ktoré nie sú úplne naformátované. Nie je uložený v údajových tabuľkách ani v žiadnej databáze. Stále to však môžeme ľahko pripraviť a spracovať, pretože tieto údaje obsahujú značky alebo hodnoty oddelené čiarkou atď. Príklad pološtruktúrovaných údajov sú súbory XML, súbory CSV atď.
Neštruktúrované údaje: Neštruktúrované údaje sú údaje, ktoré nemajú žiadnu štruktúru. Môže to byť v akejkoľvek podobe, neexistuje žiadny preddefinovaný dátový model. Nemôžeme to uložiť do tradičných databáz. Je zložité ich vyhľadať a spracovať.
Objem neštruktúrovaných údajov je tiež veľmi vysoký. Príklad z neštruktúrovaných údajov je telo e-mailu, zvuk, video, obrázky, dosiahnuté dokumenty atď.
Výzvy tradičných databáz
- Tradičná databáza nepodporuje rôzne údaje, t. J. Nie je schopná spracovať neštruktúrované a pološtruktúrované údaje.
- Tradičná databáza je pomalá pri práci s veľkým množstvom údajov.
- V tradičných databázach je spracovanie alebo analýza veľkého množstva údajov veľmi ťažké.
- Tradičná databáza je schopná ukladať údaje v terabajtoch alebo petabajtoch.
- Tradičná databáza nedokáže spracovať historické údaje a správy.
- Po určitom čase je potrebné vyčistiť databázu údajov.
- Náklady na údržbu veľkého množstva údajov sú pri tradičnej databáze veľmi vysoké.
- Presnosť údajov je v tradičnej databáze menšia, pretože sa v nich neuchovávajú úplné historické údaje.
Veľké dátaVýhody oproti tradičnej databáze
- Spoločnosť Big Data je zodpovedná za manipuláciu, správu a spracovanie rôznych typov údajov, ako sú štruktúrované, pološtruktúrované a neštruktúrované.
- Je to nákladovo efektívne z hľadiska údržby veľkého množstva údajov. Funguje na distribuovanom databázovom systéme.
- Pomocou techník BigData môžeme dlhodobo ukladať veľké množstvá údajov. Je teda ľahké spracovávať historické údaje a generovať presné správy.
- Rýchlosť spracovania údajov je veľmi rýchla, a preto sociálne médiá využívajú techniky veľkých dát.
- Presnosť dát je veľkou výhodou Big Data.
- Umožňuje používateľom prijímať efektívne rozhodnutia pre ich podnikanie na základe aktuálnych a historických údajov.
- Spracovanie chýb, kontrola verzií a skúsenosti zákazníkov sú v aplikácii BigData veľmi účinné.
Navrhované čítanie => Big Data vs Big Data Analytics vs Data Science
Výzvy a riziká v systéme BigData
Výzvy:
- Jednou z hlavných výziev v oblasti Big Data je správa veľkého množstva dát. V dnešnej dobe prichádzajú dáta do systému z rôznych zdrojov s rozmanitosťou. Pre spoločnosti je to teda veľmi veľká výzva, aby to zvládli správne. Napríklad, na vygenerovanie správy, ktorá obsahuje údaje za posledných 20 rokov, je potrebné uložiť a udržiavať posledných 20 rokov údajov v systéme. Na zabezpečenie presnej správy je potrebné do systému vložiť iba príslušné údaje. Nemal by obsahovať irelevantné alebo nepotrebné údaje, inak bude zachovanie tohto množstva údajov pre spoločnosti veľkou výzvou.
- Ďalšou výzvou tejto technológie je synchronizácia rôznych typov údajov. Ako všetci vieme, Big Data podporuje štruktúrované, neštruktúrované a pološtruktúrované dáta pochádzajúce z rôznych zdrojov, ich synchronizácia a získanie konzistencie dát je veľmi ťažké.
- Ďalšou výzvou, ktorej spoločnosti čelia, je priepasť odborníkov, ktorí môžu pomôcť a implementovať problémy, ktorým čelia v systéme. V tejto oblasti existuje veľká medzera v talentoch.
- Riešenie otázky súladu je drahé.
- Zhromažďovanie, agregácia, ukladanie, analýza, analýza a vykazovanie údajov z BigData má obrovské náklady. Organizácia by mala byť schopná zvládnuť všetky tieto náklady.
Riziká:
- Môže spracovávať rôzne údaje, ale ak spoločnosti nedokážu správne porozumieť požiadavkám a kontrolovať zdroj údajov, poskytne chybné výsledky. Vo výsledku bude potrebné veľa času a peňazí na preskúmanie a opravu výsledkov.
- Bezpečnosť dát je ďalším rizikom BigData. Pri veľkom objeme dát je vyššia šanca, že ich niekto ukradne. Dátoví hackeri môžu ukradnúť a predať dôležité informácie (vrátane historických údajov) o spoločnosti.
- Ochrana osobných údajov je ďalším rizikom pre BigData. Ak chceme zabezpečiť osobné a citlivé údaje pred hackermi, mali by byť chránené a musia vyhovovať všetkým zásadám ochrany osobných údajov.
Big Data Technologies
Nasledujú technológie, ktoré možno použiť na správu veľkých dát:
- Apache Hadoop
- Microsoft HDInsight
- Žiadne SQL
- Úľ
- Sqoop
- BigData v programe Excel
Podrobnému popisu týchto technológií sa budeme venovať v našich pripravovaných príručkách.
Nástroje na používanie konceptov veľkých dát
Nižšie sú uvedené nástroje otvoreného zdroja, ktoré môžu pomôcť pri používaní konceptov veľkých dát:
# 1) Apache Hadoop
# 2) Osvetlite
# 3) Apache Storm
# 4) Apache Samoa
# 5) Elasticsearch
# 6) MongoDB
# 7) Systém HPCC BigData
Aplikácie veľkých dát
Nasledujú domény, kde sa používa:
- Bankovníctvo
- Médiá a zábava
- Poskytovatelia zdravotnej starostlivosti
- Poistenie
- Vzdelávanie
- Maloobchodné
- Výroba
- Vláda
BigData a dátový sklad
Dátový sklad je základný koncept, ktorý musíme pochopiť pred diskusiou o testoch Hadoop alebo BigData.
otázky a odpovede na pohovor s testovaním api
Poďme pochopiť Data Warehouse z príkladu v reálnom čase. Napríklad , existuje spoločnosť, ktorá založila svoje pobočky v troch rôznych krajinách, predpokladajme pobočku v Indii, Austrálii a Japonsku.
V každej pobočke sú všetky údaje o zákazníkovi uložené v lokálnej databáze. Tieto lokálne databázy môžu byť bežné klasické RDBMS ako Oracle alebo MySQL alebo SQL Server atď. A všetky údaje o zákazníkoch sa do nich budú ukladať každý deň.
Teraz chce organizácia každý štvrťročne, polročne alebo ročne analyzovať tieto údaje z hľadiska rozvoja podnikania. Aby to bolo isté, organizácia zhromaždí všetky tieto údaje z viacerých zdrojov a potom ich spojí na jednom mieste a toto miesto sa volá 'Dátový sklad'.
Dátový sklad je druh databázy, ktorá obsahuje všetky údaje načítané z viacerých zdrojov alebo z viacerých typov databáz cez internet „ETL“ (Ktoré je JE extrakt, T ransform a Ľ oad) proces. Keď sú údaje v dátovom sklade pripravené, môžeme ich použiť na analytické účely.
Pre analýzu teda môžeme generovať správy z údajov dostupných v dátovom sklade. Pomocou nástrojov Business Intelligence Tools je možné generovať viac grafov a správ.
Na analytické účely vyžadujeme Data Warehouse, aby sme rozšírili podnikanie a prijali príslušné rozhodnutia pre organizácie.
oracle dba rozhovor otázky a odpovede pre skúsených
V tomto procese sa dejú tri veci, po prvé, zhromaždili sme údaje z viacerých zdrojov a umiestnili ich na jedno miesto, ktorým je Data Warehouse.
Tu používame proces „ETL“, takže pri načítaní údajov z viacerých zdrojov na jedno miesto ich použijeme v koreňoch transformácie a potom tu môžeme použiť rôzne druhy nástrojov ETL.
Keď sú dáta pripravené do Data Warehouse, môžeme pomocou nástrojov Business Intelligence (BI) generovať rôzne výkazy na analýzu obchodných údajov alebo ich tiež nazývame Reporting Tools. Nástroje ako Tableau alebo Cognos možno použiť na generovanie prehľadov a tabuliek DashBoards na analýzu údajov pre podnikanie.
OLTP a OLAP
Poďme pochopiť, čo sú OLTP a čo sú OLAP?
Volajú sa databázy, ktoré sa udržiavajú lokálne a používajú sa na transakčné účely OLTP, tj. Online spracovanie transakcií. Tu sa uložia každodenné transakcie, ktoré sa okamžite aktualizujú, a preto sme ich nazvali OLTP System.
Tu používame tradičné databázy, máme viac tabuliek a existujú vzťahy, takže je všetko systematicky plánované podľa databázy. Tieto údaje nepoužívame na analytické účely. Tu môžeme použiť klasické databázy RDMBS ako Oracle, MySQL, SQL Server atď.
Keď prichádzame do časti Data Warehouse, používame systémy Teradata alebo Hadoop, ktoré sú tiež druhom databázy, ale údaje v DataWarehouse sa zvyčajne používajú na analytické účely a nazývajú sa OLAP alebo Online analytické spracovanie.
Tu je možné údaje aktualizovať štvrťročne, polročne alebo ročne. Údaje sa niekedy aktualizujú aj „ponuky“, čo znamená, že sa dáta aktualizujú a načítajú na analýzu podľa požiadaviek zákazníka.
Dáta na analýzu sa tiež neaktualizujú každý deň, pretože dáta získame z viacerých zdrojov, pravidelne a môžeme vykonať túto úlohu ETL. Takto funguje online analytický systém spracovania.
Aj v tomto prípade môžu nástroje BI alebo Reporting Tools generovať správy aj panely dashboard a na základe toho budú ľudia v podnikaní prijímať rozhodnutia o zlepšení svojho podnikania.
Odkiaľ prichádza BigData do obrazu?
BigData sú údaje, ktoré presahujú kapacitu úložiska a spracovania bežných databáz a sú v štruktúrovanom a neštruktúrovanom formáte, takže s nimi nemôžu manipulovať miestne systémy RDBMS.
Tento druh údajov sa bude generovať v TeraBytes (TB) alebo PetaBytes (PB) alebo mimo nich a v súčasnosti sa rýchlo zvyšuje. Existuje niekoľko zdrojov na získanie tohto druhu údajov, napríklad Facebook, WhatsApp (ktoré súvisia so sociálnymi sieťami); Amazon, Flipkart súvisiaci s elektronickým obchodom; Gmail, Yahoo, Rediff týkajúce sa e-mailov a Google a ďalších vyhľadávacích nástrojov. Bigdata tiež získavame z mobilných telefónov, ako sú údaje SMS, nahrávanie hovorov, protokoly hovorov atď.
Záver
Veľké dáta sú riešením na efektívne a bezpečné spracovanie veľkého množstva údajov. Je zodpovedný aj za uchovávanie historických údajov. Táto technológia má mnoho výhod, a preto chce každá spoločnosť prejsť na veľké dáta
Autor: Vaishali Tarey, technický vedúci @ Syntel
Odporúčané čítanie
- Výukový program Data Mart - Typy, príklady a implementácia Data Mart
- Top 10 nástrojov na návrh databázy na zostavenie komplexných dátových modelov
- 20+ výučba MongoDB pre začiatočníkov: bezplatný kurz MongoDB
- Čo je to dátové jazero Dátový sklad vs Data Lake
- Top 10 nástrojov na testovanie a overovanie štruktúrovaných údajov pre SEO
- Dimenzionálny dátový model v dátovom sklade - návod s príkladmi
- Ťažba dát: Proces, techniky a hlavné problémy v analýze dát
- Ako vykonať testovanie na základe dát v SoapUI Pro - SoapUI Tutorial # 14