complete guide big data analytics
Toto je komplexný sprievodca funkciou Big Data Analytics s prípadmi použitia, architektúrou, príkladmi a porovnaním s nástrojom Big Data and Data Science:
Analýza veľkých dát získala trakciu, pretože korporácie ako Facebook, Google a Amazon vytvorili svoje nové paradigmy distribuovaného spracovania a analýzy dát, aby pochopili sklony svojich zákazníkov k extrakcii hodnoty z veľkých dát.
V tomto tutoriáli vysvetľujeme analýzu veľkých dát a porovnávame ich s Big Data a Data Science. Zastrešíme potrebné atribúty, ktoré musia podniky mať vo svojej stratégii veľkých dát a fungujúcej metodike. Spomenieme tiež najnovšie trendy a niektoré prípady použitia analytiky údajov.
Ako ukazuje nasledujúci obrázok, Analytics vyžaduje, aby človek používal zručnosti v oblasti IT, podnikania a dátovej vedy. Analýza veľkých dát je v centre využívania hodnôt z veľkých dát a pomáha pri získavaní prehľadov o spotrebnom materiáli pre organizáciu.
[obrázok zdroj ]
Čo sa dozviete:
- Čo je analýza veľkých dát
- Záver
Čo je analýza veľkých dát
Big Data Analytics sa zaoberá využitím súboru štatistických techník, nástrojov a postupov analytiky pre Big Data.
Odporúčané Čítanie => Úvod do veľkých dát
Je to analytika, ktorá pomáha pri získavaní cenných vzorcov a zmysluplných poznatkov z veľkých dát na podporu rozhodovania na základe údajov. Veľké dáta a analytika sa stali populárnymi práve kvôli vzniku nových zdrojov údajov, ako sú sociálne médiá a údaje o IoT.
Tento trend vedie k oblasti praxe a štúdia s názvom „dátová veda“, ktorá zahŕňa techniky, nástroje, technológie a procesy na dolovanie, čistenie, modelovanie a vizualizáciu údajov.
Big Data vs. Big Data Analytics vs. Data Science
TO porovnanie medzi big data, data science a big data analytics je možné pochopiť z nasledujúcej tabuľky.
Základ | Veľké dáta | Data Science | Analýza veľkých dát |
---|---|---|---|
Nástroje a technológie | Ekosystém Hadoop, CDH, Cassandra, MongoDB, Java, Python, Talend, SQL, Rapid Miner | R, Python, Jupyter, Data Science Workbench, IBM SPSS, tablo | Spark, Storm, Knime, Data Wrapper, Lumify, HPCC, Qubole, Microsoft HDInsight |
Pracovné roly a zručnosti | Údržba úložnej infraštruktúry, spracovanie údajov a znalosti o Hadoope a jeho integrácia s inými nástrojmi. | Transformácia údajov, dátové inžinierstvo, hádanie údajov, modelovanie údajov a vizualizácia | BI a pokročilá analýza, štatistika, modelovanie údajov a strojové učenie, matematické zručnosti, komunikácia, poradenstvo. |
Označenia | Architekt veľkých dát Vývojár veľkých dát Veľký dátový inžinier | Vedec dát Inžinier strojového učenia | Veľký dátový analytik Obchodný analytik Inžinier Business Intelligence Špecialista na obchodnú analýzu Vývojár vizualizácie údajov Analytický manažér |
Približne. Priemerný ročný plat v USD | 100 000 | 90 000 | 70 000 |
Navrhované čítanie = >> Data Science vs. Computer Science
Čo by mala mať každá stratégia analýzy veľkých dát
Dobre definovaná, integrovaná a komplexná stratégia prispieva a podporuje cenné rozhodovanie na základe údajov v organizácii. V tejto časti sme uviedli najdôležitejšie kroky, ktoré je potrebné zohľadniť pri definovaní stratégie analýzy veľkých dát.
Krok 1: Posúdenie
Hodnotenie, ktoré je už zosúladené s obchodnými cieľmi, si vyžaduje zapojenie kľúčových zainteresovaných strán, vytvorenie tímu členov so správnym súborom zručností, hodnotenie politík, ľudí, procesov, technológií a dátových aktív. V prípade potreby je možné do tohto procesu zapojiť zákazníkov hodnotených.
Krok 2: Stanovenie priorít
Po vyhodnotení je potrebné odvodiť prípady použitia, uprednostniť ich pomocou prediktívnej analýzy veľkých dát, normatívnej analýzy a kognitívnej analýzy. Môžete tiež použiť nástroj, ako je matica priorít, a ďalej filtrovať prípady použitia pomocou spätnej väzby a vstupov od kľúčových zainteresovaných strán.
Krok 3: Roadmap
V tomto kroku je potrebné vytvoriť časovo obmedzený plán a zverejniť ho pre všetkých. Plán musí obsahovať všetky podrobnosti týkajúce sa zložitostí, finančných prostriedkov, inherentných výhod prípadov použitia a zmapovaných projektov.
Krok 4: Správa zmien
Implementácia riadenia zmien vyžaduje správu dostupnosti, integrity, bezpečnosti a použiteľnosti údajov. Efektívny program riadenia zmien využívajúci akékoľvek existujúce riadenie údajov stimuluje aktivity a členov na základe nepretržitého monitorovania.
Krok 5: Sada správnych schopností
Identifikácia správneho súboru zručností je rozhodujúca pre úspech organizácie pri súčasných trendoch v priemysle. Preto treba nasledovať správnych vodcov a priniesť vzdelávacie programy na vzdelávanie kritických zainteresovaných strán.
Krok 6: Spoľahlivosť, škálovateľnosť a bezpečnosť
Vďaka správnemu prístupu a efektívnej stratégii analýzy veľkých dát je analytický proces spoľahlivý s efektívnym využitím interpretovateľných modelov obsahujúcich princípy dátovej vedy. Stratégia analýzy veľkých dát musí obsahovať hneď od začiatku aj aspekty zabezpečenia robustného a úzko integrovaného analytického kanálu.
Dátový kanál a proces pre analýzu údajov
Pri plánovaní plynovodu analytiky údajov je potrebné vziať do úvahy tri základné aspekty. Sú to tieto:
- Vstup: Formát údajov a výber technológie na spracovanie, je založený na základnej povahe údajov. tj. či sú údaje časové rady a kvalita.
- Výkon: Výber konektorov , správy a vizualizácia závisia od technickej odbornosti koncových používateľov a ich požiadaviek na spotrebu dát.
- Objem: Riešenia mierky sú plánované na základe objemu dát, aby sa zabránilo preťaženiu systému na spracovanie veľkých dát.
Teraz poďme diskutovať o typickom procese a etapách pre veľký analytický kanál údajov.
Fáza 1: Príjem dát
Príjem dát je prvým a najvýznamnejším krokom v dátovom potrubí. Zvažuje tri aspekty údajov.
- Zdroj údajov - Je to významné z hľadiska výberu architektúry potrubia veľkých dát.
- Štruktúra údajov - Serializácia je kľúčom k udržaniu homogénnej štruktúry v celom potrubí.
- Čistota údajov - Analytics je rovnako dobrý ako údaje bez problémov, ako sú chýbajúce hodnoty a odľahlé hodnoty atď.
Fáza 2: ETL / Skladovanie
Ďalším dôležitým modulom sú nástroje na ukladanie údajov, ktoré slúžia na vykonávanie ETL (Extract Transform Load). Uloženie dát v správnom dátovom centre závisí od,
- Hardware
- Odborné znalosti v oblasti riadenia
- Rozpočet
[obrázok zdroj ]
Niektoré časovo testované nástroje na ETL / skladovanie v dátových centrách sú:
- Apache Hadoop
- Apache Hive
- Apache Parkety
- Vyhľadávací modul Presto
Cloudové spoločnosti ako Google, AWS, Microsoft Azure poskytujú tieto nástroje na základe poplatkov a šetria počiatočné kapitálové výdavky.
Fáza 3: Analýzy a vizualizácia
Ak vezmeme do úvahy obmedzenie spoločnosti Hadoop na rýchle dopytovanie, je potrebné použiť analytické platformy a nástroje, ktoré umožňujú rýchle a ad-hoc dopytovanie s požadovanou vizualizáciou výsledkov.
>> Odporúčané čítanie: Big Data Tools
Fáza 4: Monitorovanie
Po vytvorení infraštruktúry pre príjem, ukladanie a analýzu pomocou vizualizačných nástrojov je ďalším krokom zabezpečenie nástrojov na monitorovanie IT a údajov. Tie obsahujú:
- Využitie CPU alebo GPU
- Spotreba pamäte a zdrojov
- Siete
Niektoré nástroje, ktoré stojí za zváženie, sú:
- Datadog
- Grafana
Monitorovacie nástroje sú nepostrádateľné v potrubí pre analýzu veľkých dát a pomáhajú monitorovať kvalitu a integritu kanálu.
Architektúra analýzy veľkých dát
Diagram architektúry uvedený nižšie ukazuje, ako moderné technológie využívajú nestrukturované aj štruktúrované zdroje údajov na spracovanie s redukciou Hadoop & Map, analytické systémy v pamäti a analýzu v reálnom čase, aby priniesli kombinované výsledky pre operácie a rozhodovanie v reálnom čase.
[obrázok zdroj ]
Aktuálne trendy v analýze údajov
V tejto časti sme vymenovali základné aspekty, ktoré treba hľadať pri implementácii alebo sledovaní trendov analýzy veľkých dát v priemysle.
# 1) Zdroje veľkých dát
Existujú predovšetkým tri zdroje veľkých dát. Sú uvedené nižšie:
- Sociálne údaje: Údaje generované z dôvodu používania sociálnych médií. Tieto údaje pomáhajú pochopiť pocity a správanie zákazníkov a môžu byť užitočné v marketingovej analýze.
- Údaje o stroji: Tieto dáta sú zachytávané z priemyselných zariadení a aplikácií pomocou senzorov IoT. Pomáha to pri porozumení ľudí správanie a poskytuje informácie o procesy .
- Transakčné údaje: Generuje sa ako výsledok offline aj online aktivít používateľov týkajúcich sa platobných príkazov, faktúr, príjmových dokladov atď. Väčšina tohto druhu údajov potrebuje predbežné spracovanie a čistenie pred tým, ako sa dá použiť na analýzu.
# 2) Úložisko dát SQL / NoSQL
V porovnaní s tradičnými databázami alebo RDBMS sa databázy NoSQL ukazujú ako lepšie úlohy potrebné pre analýzu veľkých dát.
Databázy NoSQL si vedia neodmysliteľne poradiť s neštruktúrovanými údajmi celkom dobre a neobmedzujú sa iba na drahé úpravy schém, vertikálne škálovanie a rušenie vlastností ACID.
# 3) Prediktívna analýza
Predictive Analytics ponúka prispôsobené štatistiky, ktoré vedú organizácie k vytváraniu nových odpovedí alebo nákupov a príležitostí krížového predaja pre nových zákazníkov. Organizácie používajú prediktívnu analýzu na predpovedanie jednotlivých prvkov na granulárnej úrovni s cieľom predpovedať budúce výsledky a predchádzať potenciálnym problémom. Toto sa ďalej kombinuje s historickými údajmi a mení sa na normatívne analýzy.
Niektoré oblasti, kde sa úspešne používa prediktívna analýza veľkých dát, sú obchod, ochrana detí, systémy podpory klinických rozhodnutí, predikcia portfólia, predpovede na ekonomickej úrovni a upisovanie.
# 4) Hlboké učenie
Veľké dáta sú pre konvenčné výpočty ohromujúce. Ukazuje sa, že tradičné techniky strojového učenia pri analýze dát sa vyrovnávajú vo výkone s nárastom rozmanitosti a objemu údajov.
Analytics čelí výzvam, pokiaľ ide o variácie formátu, vysoko distribuované vstupné zdroje, nevyvážené vstupné údaje a rýchlo sa pohybujúce údaje o streamovaní a algoritmy hĺbkového učenia sa s týmito výzvami pomerne efektívne vyrovnávajú.
Hlboké učenie sa účinne využíva pri sémantickom indexovaní, vykonávaní diskriminačných úloh, označovaní sémantického obrazu a videa, sociálnom zacielení a tiež pri hierarchických viacúrovňových prístupoch k učeniu v oblastiach rozpoznávania objektov, označovania údajov, vyhľadávania informácií a prirodzeného jazyka. spracovanie.
# 5) Dátové jazerá
Uloženie rôznych súborov údajov v rôznych systémoch a ich kombinácia pre analýzu s tradičnými prístupmi k správe údajov sa ukážu ako drahé a takmer nemožné. Preto organizácie vytvárajú Data lakes, ktoré ukladajú dáta v surovom, natívnom formáte pre vykonateľnú analýzu.
Obrázok nižšie zobrazuje príklad dátového jazera v architektúre big-data.
[obrázok zdroj ]
Používa sa analýza veľkých dát
Nižšie uvádzame niektoré bežné prípady použitia:
# 1) Analýza zákazníkov
Analýza veľkých dát je užitočná na rôzne účely, ako napríklad mikro-marketing, individuálny marketing, jemnejšia segmentácia a hromadné prispôsobenie zákazníkom firmy. Firmy môžu vytvárať stratégie na prispôsobenie svojich produktov a služieb podľa schopností zákazníka na ďalší predaj alebo krížový predaj podobnej alebo odlišnej škály výrobkov a služieb.
# 2) Prevádzková analýza
Prevádzková analýza pomáha pri zlepšovaní celkového rozhodovania a obchodných výsledkov využitím existujúcich údajov a ich obohatením o údaje stroja a IoT.
Napríklad, Analýza veľkých dát v zdravotníctve umožnila čeliť výzvam a novým príležitostiam súvisiacim s optimalizáciou výdavkov na zdravotnú starostlivosť, zlepšením monitorovania klinických štúdií, predpovedaním a plánovaním reakcií na epidémie chorôb, ako je COVID-19.
# 3) Prevencia podvodov
Vidíme, že analýza veľkých dát má potenciál priniesť obrovský úžitok tým, že pomôže predvídať a obmedziť pokusy o podvod, najmä vo finančnom a poisťovacom sektore.
Napríklad, Poisťovne zachytávajú v reálnom čase údaje o demografii, zárobkoch, zdravotných nárokoch, nákladoch na právne zastúpenie, počasí, hlasových záznamoch zákazníka a poznámkach call centra. Konkrétne podrobnosti v reálnom čase pomáhajú odvodiť prediktívne modely kombináciou vyššie uvedených informácií s historickými údajmi, aby sa včas identifikovali špekulované podvodné pohľadávky.
# 4) Optimalizácia ceny
Spoločnosti používajú analýzu veľkých dát na zvýšenie ziskových marží hľadaním najlepšej ceny na úrovni produktu, a nie na úrovni kategórie. Veľkým spoločnostiam pripadá príliš ohromné, aby získali podrobné informácie a zložitosť cenových premenných, ktoré sa pravidelne menia pre tisíce produktov.
Stratégia optimalizácie cien založená na analytike, ako napríklad dynamické bodovanie obchodov, umožňuje spoločnostiam stanovovať ceny klastrov produktov a segmentov na základe ich údajov a poznatkov o jednotlivých úrovniach obchodov, aby dosiahli rýchle výhry od náročných klientov.
často kladené otázky
Otázka č. 1) Je analýza veľkých dát dobrou kariérou?
Odpoveď: Je pridanou hodnotou pre každú organizáciu, umožňuje jej prijímať informované rozhodnutia a poskytuje náskok pred konkurenciou. Kariérny postup v oblasti veľkých dát zvyšuje vašu šancu stať sa kľúčovým rozhodovacím orgánom pre organizáciu.
Otázka č. 2) Prečo je dôležitá analýza veľkých dát?
Odpoveď: Pomáha organizáciám vytvárať nové príležitosti na rast a úplne nové kategórie produktov, ktoré môžu kombinovať a analyzovať priemyselné údaje. Tieto spoločnosti majú dostatok informácií o produktoch a službách, nákupcoch a dodávateľoch, preferenciách spotrebiteľov, ktoré je možné zachytiť a analyzovať.
Otázka 3) Čo sa vyžaduje pre analýzu veľkých dát?
Odpoveď: Rozsah technológií, ktoré musí dobrý analytik veľkých údajov poznať, je obrovský. Aby niekto ovládal analytiku veľkých dát, vyžaduje pochopenie rôznych nástrojov, softvéru, hardvéru a platforiem. Napríklad, Tabuľky, SQL dotazy, R / R Studio a Python sú niektoré základné nástroje.
Na podnikovej úrovni sú okrem systémov Linux, Hadoop, Java, Scala, Python, Spark, Hadoop a HIVE dôležité aj nástroje ako MATLAB, SPSS, SAS a Congnos.
Objektívne otázky:
Otázka č. 4) Ktorá z nižšie uvedených databáz nie je databázou NoSQL?
- MongoDB
- PostgreSQL
- CouchDB
- HBase
Odpoveď: PostgreSQL
Otázka č. 5) Je Cassandra NoSQL?
- Pravdaže
- Falošné
Odpoveď: Pravdaže
Otázka č. 6) Čo z toho nie je majetkom spoločnosti Hadoop?
čo je chyba v softvéri
- Open Source
- Na základe Javy
- Distribuované spracovanie
- Reálny čas
Odpoveď: Reálny čas
Otázka č. 7) Vyberte všetky činnosti, ktoré NEVYKONÁVA Data Scientist.
- Vytvárajte modely strojového učenia a zlepšujte ich výkon.
- Vyhodnotenie štatistických modelov na validáciu analýz
- Zhrňte pokročilé analýzy pomocou nástrojov na vizualizáciu údajov
- Prezentácia výsledkov technickej analýzy interným tímom a obchodným zákazníkom
Odpoveď: Prezentácia výsledkov technickej analýzy interným tímom a obchodným zákazníkom
Ďalšie čítanie = >> Kľúčové rozdiely medzi analytikmi dát a dátovými vedcami
Otázka 8) Ktoré činnosti vykonáva dátový analytik?
- Vyčistite a usporiadajte nespracované údaje
- Hľadanie zaujímavých trendov v dátach
- vytvárať dashboardy a vizualizácie pre ľahkú interpretáciu
- Všetko vyššie uvedené
Odpoveď: Všetko vyššie uvedené
Otázka č. 9) Ktoré z nasledujúcich opatrení vykonáva dátový inžinier?
- Integrácia nových zdrojov údajov do existujúceho potrubia analýzy údajov
- Vývoj API na spotrebu dát
- monitorovanie a testovanie systému na zabezpečenie nepretržitého výkonu
- Všetko vyššie uvedené
Odpoveď: Všetko vyššie uvedené
Otázka č. 10) Správna postupnosť toku údajov pre analytiku je
- Zdroje údajov, príprava údajov, transformácia údajov, návrh algoritmov, analýza údajov
- Zdroje údajov, transformácia údajov, návrh algoritmu, príprava údajov, analýza údajov
- Zdroje údajov, návrh algoritmu, príprava údajov, transformácia údajov, analýza údajov
- Zdroje údajov, príprava údajov, návrh algoritmov, transformácia údajov, analýza údajov
Odpoveď: Zdroje údajov, príprava údajov, transformácia údajov, návrh algoritmov, analýza údajov
Otázka č. 11) Analýza údajov je lineárny proces.
- Pravdaže
- Falošné
Odpoveď: Falošné
Otázka č. 12) Prieskumná analýza NIE JE
- Odpoveď otázky týkajúce sa počiatočnej analýzy údajov podrobne
- Určiť problémy so súborom údajov
- Vypracujte náčrt odpovede na otázku
- Zistite, či sú údaje správne na zodpovedanie otázky
Odpoveď: Odpoveďotázky týkajúce sa počiatočnej analýzy údajov podrobne
Otázka č. 13) Predikčná otázka je iný názov pre inferenčnú otázku.
- Pravdaže
- Falošné
Odpoveď: Falošné
Záver
Pokryli sme najdôležitejšie aspekty analýzy veľkých dát. Vysvetlili sme najbežnejšie prípady použitia a trendy v priemysle analýzy veľkých dát, aby sme dosiahli čo najlepšie výhody.
Odporúčané čítanie
- Najlepšie 7 NAJ spoločností v oblasti analýzy údajov v roku 2021 [aktualizovaný zoznam 2021]
- Top 15 Big Data Tools (Big Data Analytics Tools) in 2021
- 10 najlepších nástrojov na analýzu údajov pre dokonalú správu údajov [ZOZNAM 2021]
- Top 10 Data Science Tools in 2021 to Eliminate Programming
- Výukový program pre veľké dáta pre začiatočníkov Čo sú to veľké dáta?
- Najlepšie 13 najlepších spoločností veľkých dát v roku 2021
- 10 najlepších nástrojov na modelovanie údajov na správu zložitých návrhov
- 10+ najlepších nástrojov na správu údajov na splnenie vašich požiadaviek na údaje v roku 2021