data mart tutorial types
Tento výukový program vysvetľuje pojmy dátového trhu vrátane implementácie, typov, štruktúry a rozdielov medzi dátovým trhom a rozdielov medzi dátovým skladom a dátovým trhom:
V tomto Kompletná školiaca séria dátových skladov , pozreli sme sa na rôzne Schémy dátového skladu podrobne.
Tento tutoriál vám pomôže podrobne sa naučiť koncepty Data Mart spolu s jednoduchými príkladmi.
Uvidíme, čo je dátový trh? Kedy potrebujeme dátový trh? Nákladovo efektívny dátový trh, Náklady na dátový trh, Typy dátových trhov, Kroky pri implementácii dátového trhu, Štruktúra dátového trhu, Kedy je pilotný Data Mart užitočný? Nevýhody Datamartu a rozdiely medzi Data Warehouse a Data Mart.
Cieľové publikum
- Vývojári a testeri dátového skladu / ETL.
- Databázoví odborníci so základnými znalosťami databázových konceptov.
- Správcovia databáz / odborníci na veľké dáta, ktorí chcú porozumieť konceptom dátového skladu / ETL.
- Absolventi vysokých škôl / nováčikovia, ktorí hľadajú prácu v dátovom sklade.
Čo sa dozviete:
- Čo je to dátový trh?
- Porovnanie Data Warehouse vs Data Mart
- Typy dátových záznamov
- Kroky implementácie dátového trhu
- Štruktúra dátového trhu
- Kedy je pilotný dátový trh užitočný?
- Nevýhody Data Mart
- Záver
Čo je to dátový trh?
Dátový trh je malá časť dátového skladu, ktorá súvisí hlavne s konkrétnou obchodnou doménou, ako je marketing (alebo) predaj atď.
Údaje uložené v systéme DW sú obrovské, a preto sú dátové trhy navrhované s podmnožinou údajov patriacich jednotlivým oddeleniam. Špecifická skupina používateľov tak môže tieto údaje ľahko použiť na svoju analýzu.
Na rozdiel od dátového skladu, ktorý má veľa kombinácií používateľov, každý dátový trh bude mať konkrétnu skupinu koncových používateľov. Menší počet koncových používateľov vedie k lepšej reakčnej dobe.
K dátovým trhom sú prístupné aj nástroje business intelligence (BI). Dátové trhy neobsahujú duplikované (alebo) nepoužívané údaje. Aktualizujú sa v pravidelných intervaloch. Sú to predmetovo orientované a flexibilné databázy. Každý tím má právo vyvíjať a udržiavať svoje dátové trhy bez úpravy dátového skladu (alebo) údajov iného dátového trhu.
Dátový trh je vhodnejší pre malé podniky, pretože stojí oveľa menej ako systém dátového skladu. Čas potrebný na zostavenie dátového trhu je tiež kratší ako čas potrebný na vybudovanie dátového skladu.
Obrázkové znázornenie viacerých dátových trás:
Kedy potrebujeme Data Mart?
Na základe potreby naplánujte a navrhnite dátový trh pre vaše oddelenie zapojením zainteresovaných strán, pretože prevádzkové náklady na dátový trh môžu byť niekedy vysoké.
Zvážte nasledujúce dôvody na vybudovanie dátového trhu:
- Ak chcete rozdeliť údaje na skupinu stratégií riadenia prístupu používateľov.
- Ak chce konkrétne oddelenie vidieť výsledky dotazu oveľa rýchlejšie, namiesto skenovania obrovských DW dát.
- Ak oddelenie chce, aby boli dáta postavené na iných hardvérových (alebo) softvérových platformách.
- Ak oddelenie chce, aby boli údaje navrhované spôsobom, ktorý je vhodný pre jeho nástroje.
Nákladovo efektívny dátový trh
Cenovo efektívny dátový trh je možné vytvoriť nasledujúcimi krokmi:
- Identifikujte funkčné rozdelenia: Rozdeľte údaje organizácie na konkrétne údaje každého údajového trhu (oddelenia), aby boli splnené jej požiadavky, a to bez akejkoľvek ďalšej organizačnej závislosti.
- Identifikujte požiadavky na nástroj na prístup používateľa: Na trhu môžu existovať rôzne nástroje prístupu používateľov, ktoré potrebujú odlišné dátové štruktúry. Dátové trhy sa používajú na podporu všetkých týchto vnútorných štruktúr bez narušenia údajov DW. Jeden dátový trh je možné podľa potreby používateľa spojiť s jedným nástrojom. Dátové trhy môžu tiež poskytnúť aktualizované údaje takýmto nástrojom každý deň.
- Identifikujte problémy s riadením prístupu: Ak rôzne dátové segmenty v systéme DW potrebujú súkromie a malo by k nim pristupovať niekoľko autorizovaných používateľov, všetky tieto údaje je možné presunúť do dátových trhov.
Náklady na dátový trh
Náklady na dátový trh je možné odhadnúť takto:
- Náklady na hardvér a softvér: Akýkoľvek novo pridaný dátový trh môže potrebovať ďalší hardvér, softvér, výpočtový výkon, sieť a úložný priestor na disku, aby mohol pracovať s dopytmi požadovanými koncovými používateľmi. Toto robí z martingu dát nákladnú stratégiu. Preto by mal byť rozpočet naplánovaný presne.
- Sieťový prístup: Ak sa umiestnenie dátového trhu líši od umiestnenia dátového skladu, všetky údaje by sa mali preniesť pomocou procesu načítania dátového trhu. Preto by mala byť poskytnutá sieť na prenos veľkého množstva dát, ktoré môžu byť drahé.
- Obmedzenia časového okna: Čas potrebný na načítanie dátového trhu bude závisieť od rôznych faktorov, ako sú zložitosť a objemy dát, kapacita siete, mechanizmy prenosu dát atď.
Porovnanie Data Warehouse vs Data Mart
S.No | Dátový sklad | Data Mart |
---|---|---|
1 | Komplexné a náklady na implementáciu vyššie. | Jednoduché a lacnejšie na implementáciu. |
dva | Funguje na úrovni organizácie pre celé podnikanie. | Rozsah je obmedzený na konkrétne oddelenie. |
3 | Dotaz na DW je pre podnikových používateľov zložitý z dôvodu obrovských závislostí od údajov. | Dotaz na dátový trh je pre obchodných používateľov ľahký z dôvodu obmedzeného množstva údajov. |
4 | Čas implementácie je viac, môže to byť v mesiacoch alebo rokoch. | Čas implementácie je kratší, môže to byť dni, týždne alebo mesiace. |
5 | Zhromažďuje údaje z rôznych systémov externých zdrojov. | Zhromažďuje údaje z niekoľkých centralizovaných systémov DW (alebo) interných (alebo) externých zdrojov. |
6 | Môžu sa prijímať strategické rozhodnutia. | Môžu sa robiť obchodné rozhodnutia. |
Typy dátových záznamov
Dátové trhy sa delia na tri typy, tj. Závislé, nezávislé a hybridné. Táto klasifikácia je založená na tom, ako boli vyplnené, t. J. Buď z dátového skladu (alebo) z akýchkoľvek iných zdrojov údajov.
Extrakcia, transformácia a preprava (ETT) je proces, ktorý sa používa na vyplnenie údajov z dátového trhu z akýchkoľvek zdrojových systémov.
Pozrime sa podrobne na každý typ !!
# 1) Závislý dátový trh
V závislom dátovom trhu sa údaje získavajú zo samotného existujúceho dátového skladu. Toto je prístup zhora nadol, pretože časť reštrukturalizovaných údajov do dátového trhu sa extrahuje z centralizovaného dátového skladu.
Dátový trh môže používať dáta DW logicky alebo fyzicky, ako je uvedené nižšie:
- Logické zobrazenie: V tomto scenári nie sú dáta dátového toku fyzicky oddelené od DW. Logicky odkazuje na údaje DW prostredníctvom virtuálnych zobrazení (alebo) tabuliek.
- Fyzická podmnožina: V tomto scenári sú dáta dátového toku fyzicky oddelené od DW.
Po vyvinutí jedného alebo viacerých dátových trhov môžete používateľom povoliť prístup iba k dátovým trhom (alebo), aby mali prístup k dátovým trhom a dátovým skladom.
falošná e-mailová adresa, ktorú môžem použiť
ETT je zjednodušený proces v prípade závislých dátových trhov, pretože použiteľné údaje už existujú v centralizovanom DW. Presná sada súhrnných údajov by sa mala presunúť do príslušných trhových údajov.
Obrázok závislého údajového trhu je uvedený nižšie :
# 2) Nezávislý dátový trh
Nezávislý dátový trh je najvhodnejší pre malé oddelenia v organizácii. Údaje tu nepochádzajú z existujúceho dátového skladu. Nezávislý dátový trh nezávisí ani od podnikových DW, ani od iných dátových trhov.
Nezávislé dátové trhy sú samostatné systémy, v ktorých sa údaje extrahujú, transformujú a načítajú z externých (alebo) interných zdrojov údajov. Ľahko sa navrhujú a udržiavajú, kým nepodporujú jednoduché obchodné potreby jednotlivých oddelení.
S každou fázou procesu ETT musíte pracovať v prípade nezávislých trhov údajov podobným spôsobom, ako sa údaje spracovali do centralizovaného DW. Počet zdrojov a údajov naplnených do dátových tržníc však môže byť menší.
Obrázkové znázornenie nezávislého údajového trhu :
# 3) Hybrid Data Mart
V hybridnom dátovom trhu sú dáta integrované z DW aj z iných operačných systémov. Hybridné dátové trhy sú flexibilné s veľkými úložnými štruktúrami. Môže tiež odkazovať na ďalšie údaje z dátových trhov.
Obrázkové znázornenie hybridného dátového trhu:
Kroky implementácie dátového trhu
Implementácia Data Mart, ktorá sa považuje za trochu zložitú, je vysvetlená v nasledujúcich krokoch:
- Návrh: Od času, keď podnikoví používatelia požadujú dátový trh, fáza navrhovania zahŕňa zhromažďovanie požiadaviek, vytváranie vhodných údajov z príslušných zdrojov údajov, vytváranie logických a fyzických dátových štruktúr a ER diagramov.
- Stavba: Tím navrhne všetky tabuľky, zobrazenia, indexy atď. V systéme dátových trhov.
- Počet obyvateľov: Údaje budú extrahované, transformované a načítané do dátového trhu spolu s metadátami.
- Prístup: Údaje Data Mart sú k dispozícii pre prístup koncových používateľov. Môžu požadovať údaje pre svoju analýzu a správy.
- Správa: Zahŕňa to rôzne manažérske úlohy, ako sú napríklad kontroly prístupu používateľov, doladenie výkonu dátového trhu, údržba existujúcich trhových dát a vytváranie scenárov obnovy dátového trhu v prípade zlyhania systému.
Štruktúra dátového trhu
Štruktúra každého dátového trhu je vytvorená podľa požiadavky. Štruktúry Data Mart sa nazývajú Star joins. Táto štruktúra sa bude líšiť od jedného dátového trhu k druhému.
Spojenia hviezd sú viacrozmerné štruktúry, ktoré sú tvorené tabuľkami faktov a dimenzií na podporu veľkého množstva údajov. Spojenie hviezd bude mať v strede tabuľku faktov obklopenú tabuľkami dimenzií.
Údaje príslušnej tabuľky faktov sú spojené s údajmi tabuliek dimenzií s odkazom na cudzí kľúč. Tabuľka faktov môže byť obklopená tabuľkami rozmerov 20 - 30.
Podobne ako v systéme DW, aj v spojeniach hviezd obsahujú tabuľky faktov iba číselné údaje a príslušné textové údaje je možné popísať v rozmerových tabuľkách. Táto štruktúra pripomína hviezdnu schému v DW.
Obrázkové znázornenie štruktúry spojenia hviezd.
Granulárne dáta z centralizovaného DW sú ale základom pre všetky dáta dátového trhu. Na normalizovaných údajoch DW sa uskutoční veľa výpočtov na ich transformáciu na mnohorozmerné údaje o bradaviciach, ktoré sú uložené vo forme kociek.
Funguje to podobne, ako keď sa údaje zo starších zdrojových systémov transformujú na normalizované údaje DW.
Kedy je pilotný dátový trh užitočný?
Pilot môže byť nasadený v malom prostredí s obmedzeným počtom používateľov, aby sa zabezpečilo, či je nasadenie úspešné pred plnohodnotným nasadením. Nie je to však vždy nevyhnutné. Po splnení účelu nebude pilotné nasadenie k ničomu.
Musíte zvážiť nasledujúce scenáre, ktoré odporúčajú pre pilotné nasadenie:
- Ak sú koncoví používatelia v systéme dátových skladov noví.
- Ak sa koncoví používatelia chcú pohodlne zoznámiť s údajmi / správami pred výrobou.
- Ak koncoví používatelia chcú mať skúsenosti s najnovšími nástrojmi (alebo) technológiami.
- Ak chce vedenie vidieť výhody ako dôkaz koncepcie predtým, ako bude predstavené ako veľké vydanie.
- Ak chce tím zabezpečiť, aby všetky komponenty ETL (alebo) infraštruktúry fungovali pred vydaním dobre.
Nevýhody Data Mart
Aj keď dátové trhy majú oproti DW určité výhody, majú aj svoje nevýhody, ktoré sú vysvetlené nižšie:
- Udržiavanie nežiaducich dátových tržníc, ktoré sa vytvorili, sa ťažko udržuje.
- Dátové trhy sú určené pre potreby malých firiem. Zväčšením veľkosti dátových trhov sa zníži ich výkon.
- Ak vytvárate väčší počet dátových trhov, vedenie by sa malo správne postarať o ich správu verzií, zabezpečenie a výkon.
- Dátové trhy môžu obsahovať historické (alebo) súhrnné (alebo) podrobné údaje. Aktualizácia údajov DW a údajov dátového trhu sa však nemusí uskutočniť súčasne z dôvodu problémov s nekonzistentnosťou údajov.
Záver
Mnoho organizácií sa zameriava na dátové trhy z hľadiska úspory nákladov. Preto sa tento tutoriál zameral na technické aspekty dátových trhov v systéme dátového skladu.
Metadáta v ETL sú podrobne vysvetlené v našom pripravovanom výučbe.
=> Navštívte tu a pozrite si sériu školení pre dátové sklady pre všetkých.
Odporúčané čítanie
- Výukový program na testovanie dátových skladov s príkladmi Sprievodca testovaním ETL
- Dátové typy v Pythone
- Dátové typy C ++
- Dimenzionálny dátový model v dátovom sklade - návod s príkladmi
- Apriori Algorithm in Mining Data: Implementácia s príkladmi
- Príklady dolovania dát: Najčastejšie aplikácie dolovania dát 2021
- Základy dátového skladu: Sprievodca príkladmi
- Výukový program na testovanie objemu: Príklady a nástroje na testovanie objemu