data warehousing fundamentals
Dozviete sa všetko o základoch dátových skladov. Táto hĺbková príručka vysvetľuje, čo je dátové skladovanie, spolu s jeho typmi, charakteristikami, zásluhami a nedostatkami:
Dátový sklad je najnovším trendom v oblasti ukladania dát v dnešnom IT priemysle.
V tomto výučbe sa dozviete, čo je Data Warehouse? Prečo je dátové skladovanie rozhodujúce? Typy aplikácií dátového skladu, charakteristiky dátového skladu, výhody a nevýhody dátového skladu.
Zoznam výukových programov pre dátové sklady v tejto sérii:
Výukový program č. 1: Základy dátového skladu
Výukový program č. 2: Čo je proces ETL v dátovom sklade?
Výukový program č. 3: Testovanie dátového skladu
Výukový program č. 4: Dimenzionálny dátový model v dátovom sklade
Výukový program č. 5: Typy schém v modelovaní dátového skladu
Výukový program č. 6: Výukový program Data Mart
Výukový program č. 7: Metadáta v ETL
Prehľad tutoriálov v tejto sérii dátových skladov
Tutorial_Num | Čo sa naučíte |
---|---|
Výukový program č. 7 | Metadáta v ETL Tento výukový program vysvetľuje úlohu metadát v ETL, príklady a typy metadát, úložisko metadát a výzvy v správe metadát. |
Výukový program č. 1 | Základy dátového skladu Z tohto tutoriálu sa dozviete všetko o koncepciách skladovania dát. Táto hĺbková príručka vysvetľuje, čo je dátové skladovanie spolu s jeho typmi, charakteristikami, zásluhami a nedostatkami. |
Výukový program č. 2 | Čo je proces ETL v dátovom sklade? Tento podrobný návod k procesu ETL vysvetľuje procesný tok a kroky zapojené do procesu ETL (extrakcia, transformácia a načítanie) v dátovom sklade. |
Výukový program č. 3 | Testovanie dátového skladu Ciele a význam testovania dátových skladov, zodpovednosti za testovanie ETL, chyby v nasadení DW a ETL, podrobne v tomto výučbe. |
Výukový program č. 4 | Dimenzionálny dátový model v dátovom sklade Tento tutoriál vysvetľuje výhody a mýty dimenzionálneho dátového modelu v Data Warehouse. Dozviete sa tiež o rozmerových tabuľkách a tabuľkách faktov s príkladmi. |
Výukový program č. 5 | Typy schém v modelovaní dátového skladu Tento výukový program vysvetľuje rôzne typy schém dátového skladu. Dozviete sa, čo je schéma hviezd a snehových vločiek a aký je rozdiel medzi schémou hviezd a snehových vločiek. |
Výukový program č. 6 | Výukový program Data Mart Tento tutoriál vysvetľuje koncepty Data Mart vrátane implementácie Data Mart, typov, štruktúry a rozdielov medzi Data Warehouse a Data Mart. |
Čo sa dozviete:
Základy dátového skladu: Kompletný sprievodca
Cieľové publikum
- Vývojári a testeri dátového skladu / ETL.
- Databázoví odborníci so základnými znalosťami databázových konceptov.
- Správcovia databáz / odborníci na veľké dáta, ktorí chcú porozumieť konceptom dátových skladov.
- Absolventi vysokých škôl / nováčikovia, ktorí hľadajú prácu v dátových skladoch.
Čo je to dátové skladovanie?
Data Warehouse (DW) je úložiskom obrovského množstva organizovaných údajov. Tieto údaje sú konsolidované z jedného alebo viacerých rôznych zdrojov údajov. DW je relačná databáza, ktorá je určená hlavne na analytické výkazníctvo a včasné rozhodovanie v organizáciách.
Údaje na tento účel sú izolované a optimalizované od údajov o zdrojových transakciách, čo nebude mať žiadny vplyv na hlavný predmet podnikania. Ak organizácia zavedie akúkoľvek obchodnú zmenu, potom sa DW použije na preskúmanie účinkov tejto zmeny, a preto sa DW použije aj na sledovanie procesu, ktorý nie je rozhodujúci.
Dátový sklad je väčšinou systém iba na čítanie, pretože prevádzkové údaje sú veľmi oddelené od DW. To poskytuje prostredie na načítanie najvyššieho množstva údajov s dobrým zápisom dotazu.
DW tak bude pôsobiť ako backendový engine pre nástroje Business Intelligence, ktorý zobrazuje správy a dashboardy pre podnikových používateľov. DW sa vo veľkej miere používa v bankovníctve, finančníctve, maloobchode atď.
Prečo je skladovanie dát rozhodujúce?
Nižšie sú uvedené niektoré z dôvodov, prečo je Data Warehouse rozhodujúci.
- Dátový sklad zhromažďuje všetky prevádzkové údaje z niekoľkých heterogénnych zdrojov „rôznych formátov“ a procesom extrakcie, transformácie a načítania (ETL) načíta údaje do DW v „štandardizovanom rozmerovom formáte“ v celej organizácii.
- Dátový sklad uchováva „súčasné aj historické údaje“ pre analytické výkazníctvo a rozhodovanie na základe faktov.
- Pomáha organizáciám prijímať „inteligentnejšie a rýchlejšie rozhodnutia“ o znižovaní nákladov a zvyšovaní výnosov porovnávaním štvrťročných a ročných správ s cieľom zlepšiť ich výkonnosť.
Typy aplikácií dátového skladu
Business Intelligence (BI) je odvetvie dátových skladov určené na rozhodovanie. Po načítaní údajov v DW zohráva BI hlavnú rolu pri analýze údajov a ich prezentácii podnikovým používateľom.
Termín „aplikácie dátového skladu“ v praxi znamená, v koľkých rôznych druhoch je možné údaje spracovať a využiť.
Máme tri typy DW aplikácií, ako je uvedené nižšie.
- Spracovávanie informácií
- Analytické spracovanie
- Data mining, ktorá slúži na účely BI
# 1) Spracovanie informácií
Jedná sa o druh aplikácie, kde dátový sklad umožňuje priamy kontakt jedného s dátami v ňom uloženými.
Pretože údaje je možné spracovať napísaním priamych dotazov na údaje (alebo) so základnou štatistickou analýzou údajov, konečné výsledky sa podnikovým používateľom oznámia vo forme správ, tabuliek, tabuliek alebo grafov.
DW podporuje nasledujúce nástroje na spracovanie informácií:
i) Dotazovacie nástroje: Podnikateľ (alebo) analytik spúšťa dotazy pomocou dotazovacích nástrojov na preskúmanie údajov a generovanie výstupu vo forme správ alebo grafiky podľa obchodných požiadaviek.
ii) Nástroje na nahlasovanie: Ak chce podnik vidieť výsledky v ľubovoľnom definovanom formáte a plánovane, tj. Denne, týždenne alebo mesačne, použijú sa nástroje na tvorbu prehľadov. Tieto druhy prehľadov je možné kedykoľvek uložiť a skontrolovať.
(iii) Štatistické nástroje: Ak chce podnik vykonať analýzu na širšom pohľade na údaje, na získanie týchto výsledkov sa použijú štatistické nástroje. Podniky môžu robiť závery a predpovede na základe pochopenia týchto strategických výsledkov.
# 2) Analytické spracovanie
Jedná sa o druh aplikácie, kde dátový sklad umožňuje analytické spracovanie údajov v ňom uložených. Dáta môžu byť analyzované nasledujúcimi operáciami ako Slice-and-Dice, Drill Down, Roll Up a Pivoting.
(i) nakrájajte a nakrájajte na kocky : Dátový sklad umožňuje operáciám nakrájať na kocky analyzovať dáta prístupné z mnohých úrovní s kombináciou rôznych perspektív. Operácia plátok a kocky interne využíva mechanizmus rozbalenia. Krájanie funguje na rozmerových dátach.
Ako súčasť podnikových požiadaviek, ak sa zameriame na jednu oblasť, potom rozrezanie analyzuje rozmery tejto konkrétnej oblasti podľa požiadaviek a poskytne výsledky. Tvorba kociek na analytických operáciách. Dicing zväčšuje konkrétnu množinu atribútov vo všetkých dimenziách a poskytuje tak rôzne perspektívy. Rozmery sa uvažujú z jedného alebo viacerých po sebe nasledujúcich plátkov.
(ii) Hĺbková analýza : Ak chce podnik prejsť na podrobnejšiu úroveň ľubovoľného súhrnného čísla, potom rozbalenie je operácia na prechod nadol v tomto súhrne na menšie podrobné úrovne. To dáva vynikajúcu predstavu o tom, čo sa deje a kde sa musí podnikanie sústrediť užšie.
Podrobnejšie rozčlenenie stôp z úrovne hierarchie na úroveň menších podrobností pre analýzu hlavných príčin. To sa dá ľahko pochopiť na príklade, keď sa môže uskutočniť hĺbková analýza predaja Úroveň krajiny -> Úroveň regiónu -> Úroveň štátu -> Úroveň okresu -> Úroveň obchodu.
(iii) Zrolovanie : Roll up funguje opačne ako operácia drill-down. Ak chce podnik nejaké súhrnné údaje, potom sa do obrazu dostane súhrn. Agreguje údaje na úrovni detailov pohybom nahor v dimenzionálnej hierarchii.
Súhrnné informácie sa používajú na analýzu vývoja a výkonu systému.
To možno pochopiť pomocou Príklad ako pri zrolovaní predaja, odkiaľ je možné zrátať súčty Úroveň mesta -> Na úrovni štátu -> Úroveň regiónu -> Úroveň krajiny .
(iv) Pivot : Otočením údajov na kockách sa otáčaním analyzujú údaje dimenzií. Napríklad, rozmer riadku je možné zameniť za rozmer stĺpca a naopak.
# 3) Ťažba dát
Toto je druh aplikácie, kde dátový sklad umožňuje zisťovanie znalostí o dátach a výsledky budú predstavované pomocou vizualizačných nástrojov. Vo vyššie uvedených dvoch typoch aplikácií môžu byť informácie riadené používateľmi.
Pretože údaje sa rozširujú v rôznych podnikoch, je ťažké prehľadať a rozbaliť dátový sklad, aby ste získali všetky možné informácie o dátach. Potom sa do obrazu dostane dolovanie dát, aby sa dosiahlo objavenie vedomostí.
Toto vnáša do údajov všetky minulé asociácie, výsledky atď. A predpovedá budúcnosť. Toto je teda riadené údajmi a nie riadené používateľmi. Údaje je možné nájsť nájdením skrytých vzorcov, asociácií, klasifikácií a predpovedí.
Dolovanie dát ide do hĺbky spolu s údajmi pri predpovedaní budúcnosti. Na základe predpovedí tiež navrhuje kroky, ktoré treba podniknúť.
Nižšie sú uvedené rôzne aktivity ťažby dát:
- Vzory: Dolovanie údajov objavuje vzory, ktoré sa vyskytujú v databáze. Používatelia môžu poskytnúť obchodné vstupy, pri ktorých sa pri rozhodovaní očakávajú určité znalosti vzorov.
- Asociácie / vzťahy: Dolovanie údajov objavuje vzťahy medzi objektmi s frekvenciou ich asociačných pravidiel. Tento vzťah môže byť medzi dvoma alebo viacerými objektmi (alebo), môže objavovať pravidlá vo vlastnostiach toho istého objektu.
- Klasifikácia: Data mining organizuje dáta v množine preddefinovaných tried. Takže ak sa z údajov vyberie akýkoľvek objekt, klasifikácia priraďuje k danému objektu príslušnú menovku triedy.
- Predpoveď: Data mining porovnáva množinu existujúcich hodnôt s cieľom nájsť najlepšie možné budúce hodnoty / trendy v podnikaní.
Preto na základe všetkých vyššie uvedených výsledkov navrhuje Data mining aj súbor opatrení, ktoré je potrebné podniknúť.
Charakteristika dátového skladu
Dátový sklad je zostavený na základe nasledujúcich charakteristík údajov ako predmetovo orientovaný, integrovaný, energeticky nezávislý a časový variant.
# 1) Orientované na predmet: Dátový sklad môžeme definovať ako subjektovo orientovaný, pretože môžeme analyzovať dáta skôr s ohľadom na konkrétnu predmetnú oblasť, ako na aplikáciu múdrych údajov. To poskytuje výsledky, ktoré sú viac definované pre ľahké rozhodovanie. Pokiaľ ide o vzdelávací systém, predmetovými oblasťami by mohli byť študenti, predmety, známky, učitelia atď.
# 2) Integrované: Údaje v dátovom sklade sú integrované z rôznych zdrojov, ako sú napríklad iné relačné databázy, ploché súbory atď. Pre efektívnu analýzu údajov sa získava také obrovské množstvo údajov. Môžu však nastať konflikty údajov, pretože rôzne zdroje údajov môžu byť v odlišných formátoch. Dátový sklad prináša všetky tieto údaje v konzistentnom formáte do celého systému.
# 3) Neprchavé: Po načítaní údajov do dátového skladu ich nie je možné zmeniť. Logicky je to prijateľné, pretože častá zmena údajov vám nedovolí analyzovať údaje. Časté zmeny v prevádzkovej databáze je možné pravidelne načítať do dátového skladu, počas tohto procesu sa pridajú nové údaje, staršie údaje sa však nevymažú a zostanú ako historické údaje.
# 4) Časová varianta: Všetky historické údaje spolu s najnovšími údajmi v dátovom sklade zohrávajú rozhodujúcu úlohu pri načítaní údajov ľubovoľného času. Ak chce podnik nejaké správy, grafy atď., Potom na porovnanie s predchádzajúcimi rokmi a na analýzu trendov sú potrebné všetky staré údaje staré 6 mesiacov, staré 1 rok alebo dokonca staršie atď.
Výhody dátového skladu
Keď je systém dátového skladu produktívny, organizácia získa jeho používaním nasledujúce výhody:
- Vylepšené Business Intelligence
- Zvýšený výkon systému a dopytov
- Business Intelligence z viacerých zdrojov
- Včasný prístup k údajom
- Vylepšená kvalita a konzistencia údajov
- Historická inteligencia
- Vysoká návratnosť investícií
# 1) Vylepšené Business Intelligence: V skorších dobách, keď ešte neexistovali dátové sklady a Business Intelligence, zvykli obchodní používatelia a analytici prijímať rozhodnutia s obmedzeným množstvom údajov a so svojím vnútorným cítením.
DW & BI priniesli zmenu poskytnutím poznatkov so skutočnými faktami a so skutočnými údajmi o organizácii, ktoré sa zhromažďujú za určité časové obdobie. Podnikoví používatelia môžu priamo vyhľadávať údaje z obchodných procesov, ako sú marketing, financie, predaj atď., Na základe ich potrieb strategického rozhodovania a inteligentných obchodných rozhodnutí.
# 2) Zvýšený výkon systému a dopytov: Skladovanie údajov zhromažďuje objemné informácie z heterogénnych systémov a umiestňuje ich do jedného systému, aby bolo možné na rýchle načítanie údajov použiť jeden vyhľadávací modul.
# 3) Business Intelligence z viacerých zdrojov: Viete, ako Business Intelligence všeobecne funguje na dátach? Absorbuje údaje z viacerých systémov, subsystémov, platforiem a zdrojov údajov, aby mohol pracovať na projekte. Dátový sklad však tento problém pre BI rieši konsolidáciou všetkých projektových údajov bez akýchkoľvek duplikátov.
# 4) Včasný prístup k údajom: Firemným používateľom prinesie výhody, že budú tráviť menej času získavaním údajov. Majú po ruke niektoré nástroje, pomocou ktorých môžu dopytovať údaje s minimálnymi technickými znalosťami a generovať správy. To umožňuje podnikovým používateľom tráviť dostatok času skôr zhromažďovaním údajov.
# 5) Vylepšená kvalita a konzistencia údajov: Skladovanie údajov transformuje údaje s rozdielnymi formátmi zdrojového systému do jedného formátu. Preto možno tie isté obchodné jednotky, ktoré získavajú údaje do dátového skladu, môžu znova použiť úložisko DW na svoje obchodné správy a dotazy.
Z pohľadu organizácie teda budú všetky obchodné jednotky v pohotovosti s konzistentnými výsledkami / správami. Tieto kvalitné a konzistentné údaje tak pomáhajú riadiť úspešné podnikanie.
kedy by sa malo vykonať regresné testovanie
# 6) Historická inteligencia: Dátový sklad uchováva všetky historické údaje, ktoré neuchovávajú žiadne transakčné systémy. Toto veľké množstvo údajov sa používa na analýzu údajov za konkrétne časové obdobie a na ich vykazovanie a na analýzu trendov s cieľom predpovedať budúcnosť.
# 7) Vysoká návratnosť investícií (ROI): Ktokoľvek začne podnikať tým, že očakáva dobrú návratnosť investícií, čo sa týka väčších ziskov a menších výdavkov. V reálnom svete údajov mnoho štúdií dokázalo, že implementácia dátového skladu a systémov Business Intelligence priniesla vysoké príjmy a ušetrila náklady.
Odteraz by ste mali byť schopní pochopiť, ako dobre navrhnutý systém DW prináša výhody vášmu podnikaniu.
Nevýhody dátového skladu
Aj keď je to veľmi úspešný systém, je dobré poznať niektoré úskalia systému:
- Vytvorenie dátového skladu je určite časovo náročný a zložitý proces.
- Náklady na údržbu sú vysoké, pretože systém vyžaduje neustále aktualizácie. Môže sa tiež zvýšiť, ak nie je správne využitá.
- Vývojári, testéri a používatelia by mali byť riadne vyškolení, aby porozumeli systému DW a aby ho mohli technicky implementovať.
- Môžu existovať citlivé údaje, ktoré nie je možné načítať do DW na účely rozhodovania.
- Reštrukturalizácia akýchkoľvek obchodných procesov (alebo) zdrojových systémov má na DW zásadný vplyv.
Záver
Dúfame, že tento úvodný výukový program poskytol základné informácie o základoch ukladania dát. Podrobne sme sa pozreli na všetky základné koncepty dátového skladu.
V tomto komplexnom výučbe sme sa naučili definíciu, typy, charakteristiky, výhody a nevýhody dátového skladu.
=> Prečítajte si školiace série o ľahkom ukladaní dát.
Odporúčané čítanie
- Príklady dolovania dát: Najčastejšie aplikácie dolovania dát 2021
- Ako funguje testovanie na základe dát (príklady QTP a selénu)
- Ťažba dát: Proces, techniky a hlavné problémy v analýze dát
- Výukový program na testovanie dátových skladov ETL (kompletný sprievodca)
- Najlepšia výučbová séria C # ZDARMA: Sprievodca C # pre začiatočníkov
- Výukový program pre počítačové siete: Najdôležitejší sprievodca
- Výukový program QTP # 18 - Dáta riadené a hybridné rámce vysvetlené na príkladoch QTP
- 10+ najlepších nástrojov na zber údajov so stratégiami zhromažďovania údajov