dimensional data model data warehouse tutorial with examples
V tomto výučbe sú vysvetlené výhody a mýty dimenzionálneho dátového modelu v dátovom sklade. Dozviete sa tiež o tabuľkách dimenzií a tabuľkách faktov s príkladmi:
Testovanie dátového skladu bolo vysvetlené v našom predchádzajúcom návode, v tomto Séria školení pre dátový sklad pre všetkých .
Obrovské dáta sú organizované v Data Warehouse (DW) s technikami dimenzionálneho dátového modelovania. Tieto techniky dimenzionálneho dátového modelovania umožňujú koncovým používateľom veľmi ľahko vyhľadávať obchodné údaje. Tento tutoriál vysvetľuje všetko o rozmerových dátových modeloch v DW.
Cieľové publikum
- Vývojári a testeri dátového skladu / ETL.
- Databázoví odborníci so základnými znalosťami databázových konceptov.
- Správcovia databáz / odborníci na veľké dáta, ktorí chcú porozumieť konceptom dátového skladu / ETL.
- Absolventi vysokých škôl / nováčikovia, ktorí hľadajú prácu v dátovom sklade.
Čo sa dozviete:
Dimenzionálne dátové modely
Dimenzionálne dátové modely sú dátové štruktúry, ktoré sú k dispozícii koncovým používateľom v toku ETL na dopytovanie a analýzu údajov. Proces ETL končí načítaním údajov do cieľových dimenzionálnych dátových modelov. Každý dimenzionálny dátový model je zostavený z tabuľky faktov obklopenej viacerými tabuľkami dimenzií.
Kroky, ktoré treba dodržať pri návrhu dimenzionálneho dátového modelu:
Výhody modelovania rozmerových údajov
Nižšie sú uvedené rôzne výhody dimenzionálneho dátového modelovania.
- Sú zabezpečené na použitie neustále sa meniacich prostredí DW.
- Obrovské údaje je možné ľahko vytvoriť pomocou rozmerových dátových modelov.
- Dáta z rozmerových dátových modelov sú ľahko pochopiteľné a analyzovateľné.
- Sú koncovým používateľom rýchlo prístupné na dotazovanie s vysokým výkonom.
- Dimenzionálne dátové modely nám umožňujú hierarchicky rozbaliť (alebo) zrolovať dáta.
ER modelovanie vs dimenzionálne dátové modelovanie
- ER modelovanie je vhodné pre operačné systémy, zatiaľ čo rozmerové modelovanie je vhodné pre dátový sklad.
- Modelovanie ER zachováva podrobné aktuálne transakčné údaje, zatiaľ čo dimenzionálne modelovanie zachováva súhrn súčasných aj historických transakčných údajov.
- ER modelovanie normalizovalo údaje, zatiaľ čo dimenzionálne modelovanie malo normalizované údaje.
- Modelovanie ER používa viac vyhľadávaní počas načítania dotazu, zatiaľ čo dimenzionálne modelovanie využíva menší počet spojení, a preto je výkon dotazu v dimenzionálnom modelovaní rýchlejší.
Mýty o dimenzionálnych údajoch
Ďalej uvádzame niektoré z existujúcich mýtov o dimenzionálnych údajoch.
- Dimenzionálne dátové modely sa používajú iba na predstavenie súhrnu údajov.
- V organizácii sú špecifické pre jednotlivé oddelenia.
- Nepodporujú škálovateľnosť.
- Sú navrhnuté tak, aby slúžili na účely hlásení a dotazov koncových používateľov.
- Nemôžeme integrovať dimenzionálne dátové modely.
Rozmerové tabuľky
Tabuľky dimenzií zohrávajú kľúčovú úlohu v systéme DW ukladaním všetkých analyzovaných metrických hodnôt. Tieto hodnoty sú v tabuľke uložené pod ľahko voliteľnými rozmerovými atribútmi (stĺpcami). Kvalita systému DW väčšinou závisí od hĺbky atribútov dimenzie.
Preto by sme sa mali pokúsiť poskytnúť veľa atribútov spolu s ich príslušnými hodnotami v tabuľkách dimenzií.
Pozrime sa na štruktúru tabuliek dimenzií !!
# 1) Kľúč tabuľky dimenzií: Každá tabuľka dimenzií bude mať ktorýkoľvek zo svojich atribútov dimenzie ako primárny kľúč na jedinečnú identifikáciu každého riadku. Z tohto dôvodu môžu odlišné číselné hodnoty tohto atribútu slúžiť ako primárne kľúče.
Ak hodnoty atribútov nie sú v žiadnom prípade jedinečné, môžete za primárne kľúče považovať sekvenčne generované čísla systémov. Tiež sa nazývajú ako náhradné kľúče.
Dimenzionálne dátové modely musia mať obmedzenie referenčnej integrity pre každý kľúč medzi dimenziami a faktami. Tabuľky faktov budú mať preto odkaz na cudzí kľúč pre každý primárny / náhradný kľúč v dimenzii, aby sa zachovala referenčná integrita.
Ak zlyhá, potom nie je možné načítať údaje príslušnej tabuľky faktov pre tento kľúč dimenzie.
# 2) Tabuľka je široká: Môžeme povedať, že tabuľky dimenzií sú široké, pretože do tabuľky dimenzií môžeme v ľubovoľnom bode cyklu DW pridať ľubovoľný počet atribútov. Architekt DW požiada tím ETL, aby do schémy pridal príslušné nové atribúty.
V scenároch v reálnom čase môžete vidieť tabuľky dimenzií s 50 (alebo) ďalšími atribútmi.
# 3) Textové atribúty: Dimenzionálne atribúty môžu byť ľubovoľného typu, najlepšie textové (alebo) číselné. Textové atribúty budú mať skôr skutočné obchodné slová ako kódy. Tabuľky dimenzií nie sú určené na výpočty, preto sa číselné hodnoty pre dimenzionálne atribúty používajú zriedka.
# 4) Atribúty nemusia priamo súvisieť: Všetky atribúty v tabuľke dimenzií nemusia navzájom súvisieť.
# 5) Nie je normalizované: Normalizácia tabuľky dimenzií prinesie do obrazu viac sprostredkovateľských tabuliek, čo nie je efektívne. Rozmerové tabuľky teda nie sú normalizované.
Dimenzionálne atribúty môžu slúžiť ako zdroj obmedzení v dotazoch a môžu sa tiež zobrazovať ako štítky v prehľadoch. Dotazy budú fungovať efektívne, ak priamo vyberiete atribút z tabuľky dimenzií a odkazujete priamo na príslušnú tabuľku faktov bez toho, aby ste sa dotkli akýchkoľvek ďalších sprostredkovateľských tabuliek.
# 6) Vŕtanie a vyhrnutie: Atribúty dimenzie majú schopnosť rozbaliť (alebo) zrolovať údaje, kedykoľvek je to potrebné.
# 7) Viaceré hierarchie: Tabuľka jednej dimenzie s viacerými hierarchiami je veľmi častá. Tabuľka dimenzií bude mať jednoduchú hierarchiu, ak existuje iba jedna cesta od spodnej úrovne po najvyššiu. Podobne bude mať viac hierarchií, ak je k dispozícii viac ciest na dosiahnutie od spodnej úrovne po najvyššiu.
# 8) Niekoľko záznamov: Tabuľky dimenzií budú mať menší počet záznamov (v stovkách) ako tabuľky faktov (v miliónoch). Aj keď sú menšie ako fakty, poskytujú všetky vstupy do tabuliek faktov.
Tu je príklad tabuľky dimenzií zákazníka:
Po porozumení vyššie uvedeným konceptom sa môžete rozhodnúť, či údajové pole môže fungovať ako atribút dimenzie (alebo) nie pri extrakcii údajov zo samotného zdroja.
Základný plán zaťaženia pre dimenziu
Dimenzie je možné vytvoriť dvoma spôsobmi, t. J. Extrakciou údajov o dimenziách z externých zdrojových systémov (alebo) Systém ETL môže vytvoriť dimenzie z fázovania bez zapojenia akýchkoľvek externých zdrojov. Systém ETL bez externého spracovania je však vhodnejší na vytváranie tabuliek dimenzií.
Ďalej sú uvedené kroky zapojené do tohto procesu:
Ako otvorím súbory SWF
- Čistenie údajov: Údaje sa pred načítaním do tabuľky dimenzií vyčistia, overia a použijú sa obchodné pravidlá, aby sa zachovala konzistencia.
- Zhodné údaje: Údaje z iných častí dátového skladu by sa mali správne agregovať ako jedna hodnota vzhľadom na každé pole tabuľky dimenzií.
- Zdieľajte rovnaké domény: Akonáhle sú údaje potvrdené, uložia sa opäť do fázovacích tabuliek.
- Dodanie údajov: Nakoniec sa načítajú všetky hodnoty rozmerových atribútov s priradenými primárnymi / náhradnými kľúčmi.
Typy rozmerov
Rôzne typy dimenzií sú pre vašu informáciu uvedené nižšie.
Začnime!!
# 1) Malé rozmery
Malé rozmery v dátovom sklade fungujú ako vyhľadávacie tabuľky s menším počtom riadkov a stĺpcov. Údaje do malých rozmerov je možné ľahko načítať z tabuliek. Ak je to potrebné, malé rozmery je možné kombinovať ako super rozmer.
# 2) Vyhovujúca dimenzia
Vyhovujúca dimenzia je dimenzia, na ktorú možno odkazovať rovnakým spôsobom s každou tabuľkou faktov, s ktorou súvisí.
Dimenzia dátumu je najlepším príkladom vyhovujúcej dimenzie, pretože atribúty dimenzie dátumu, ako napríklad rok, mesiac, týždeň, dni atď., Komunikujú rovnaké údaje rovnakým spôsobom pri akomkoľvek počte faktov.
Príklad zmenenej dimenzie.
# 3) Junk Dimension
Niekoľko atribútov v tabuľke faktov, napríklad príznaky a indikátory, je možné presunúť do samostatnej tabuľky dimenzií nevyžiadanej pošty. Tieto atribúty tiež nepatria do iných existujúcich tabuliek dimenzií. Vo všeobecnosti sú hodnoty týchto atribútov jednoducho „áno / nie“ (alebo) „pravdivé / nepravdivé“.
Vytvorenie novej dimenzie pre každý jednotlivý atribút príznaku ho robí zložitým vytvorením väčšieho počtu cudzích kľúčov k tabuľke faktov. Súčasné uchovanie všetkých týchto príznakov a informácií o indikátoroch v tabuľkách faktov tiež zvyšuje množstvo údajov uložených v faktoch, čím sa zhoršuje výkon.
Preto je najlepším riešením vytvorenie jedinej junk dimenzie, pretože junk dimenzia je schopná pojať ľubovoľný počet ukazovateľov „áno / nie“ alebo „pravda / nepravda“. Nevyžiadané dimenzie však ukladajú popisné hodnoty pre tieto ukazovatele (áno / nie (alebo) pravda / nepravda), ako napríklad aktívne a čakajúce atď.
Na základe zložitosti tabuľky faktov a jej indikátorov môže mať tabuľka faktov jednu alebo viac nevyžiadaných dimenzií.
Príklad Junk Dimension.
# 4) Dimenzia hry na hrdinov
Jedna dimenzia, ktorú je možné v tabuľke faktov označiť na rôzne účely, sa nazýva dimenzia hrania rolí.
Najlepším príkladom dimenzie pre hranie rolí je opäť tabuľka dimenzií dátumu, pretože rovnaký atribút dátumu v dimenzii je možné použiť na rôzne účely, napríklad dátum objednávky, dátum dodania, dátum transakcie, dátum zrušenia, atď.
V prípade potreby môžete vytvoriť štyri rôzne zobrazenia tabuľky dimenzií dátumu so zreteľom na štyri rôzne atribúty dátumu tabuľky faktov.
Príklad dimenzie hrania rolí.
# 5) Degenerujte rozmery
Môže existovať niekoľko atribútov, ktoré nemôžu byť dimenziami (metrikami) ani faktami (mierami), ale sú potrebné na analýzu. Všetky takéto atribúty je možné presunúť do zdegenerovaných dimenzií.
Napríklad, číslo objednávky, číslo faktúry atď. môžete považovať za zdegenerované atribúty dimenzie.
Príklad degenerovanej dimenzie.
# 6) Pomalá zmena rozmerov
Pomaly sa meniaca dimenzia je druh, keď sa údaje môžu meniť pomaly kedykoľvek a nie v pravidelných pravidelných intervaloch. S upravenými údajmi v tabuľkách dimenzií je možné zaobchádzať rôznymi spôsobmi, ako je vysvetlené nižšie.
Môžete zvoliť typ SCD, aby ste reagovali na zmenu jednotlivo pre každý atribút v dimenzionálnej tabuľke.
i) SCD typu 1
- Ak v type 1 dôjde k zmene hodnôt rozmerových atribútov, existujúce hodnoty sa prepíšu novo upravenými hodnotami, čo nie je nič iné ako aktualizácia.
- Staré údaje sa neuchovávajú pre historickú potrebu.
- Minulé správy nie je možné obnoviť, pretože neexistujú staré údaje.
- Ľahko sa udržuje.
- Dopad na tabuľky faktov je väčší.
Príklad SCD typu 1:
(II) SCD typu 2
- V type 2, keď dôjde k zmene hodnôt rozmerových atribútov, bude vložený nový riadok s upravenými hodnotami bez zmeny údajov starého riadku.
- Ak v niektorej z tabuliek faktov existuje odkaz na cudzí kľúč, ktorý existuje so starým záznamom, potom sa starý náhradný kľúč aktualizuje všade automaticky s novým náhradným kľúčom.
- Dopad na zmeny tabuľky faktov je s uvedeným krokom veľmi malý.
- Staré údaje sa po vykonaní zmien nikde neuvažujú.
- V type 2 môžeme sledovať všetky zmeny, ktoré sa dejú v rozmerových atribútoch.
- Ukladanie historických údajov nie je nijako obmedzené.
- V type 2 je pridanie niekoľkých atribútov do každého riadku, ako je zmenený dátum, platný dátum a čas, dátum a čas ukončenia, dôvod zmeny a aktuálny príznak voliteľné. To je však dôležité, ak chce podnik poznať počet zmien vykonaných v určitom časovom období.
Príklad SCD typu 2:
(III) SCD typu 3
- V prípade typu 3, keď dôjde k zmene hodnôt rozmerových atribútov, sa nové hodnoty aktualizujú, ale staré hodnoty stále zostávajú v platnosti ako druhá možnosť.
- Namiesto pridávania nového riadku pre každú zmenu sa pridá nový stĺpec, ak predtým neexistoval.
- Staré hodnoty sa umiestnia do vyššie pridaných atribútov a údaje primárneho atribútu sa prepíšu zmenenou hodnotou ako v prípade typu 1.
- Ukladanie historických údajov je obmedzené.
- Dopad na tabuľky faktov je väčší.
Príklad SCD typu 3:
iv) SCD typu 4
- Pri type 4 sú aktuálne údaje uložené v jednej tabuľke.
- Všetky historické údaje sa uchovávajú v inej tabuľke.
Príklad SCD typu 4:
v) SCD typu 6
- Dimenzionálna tabuľka môže mať aj kombináciu všetkých troch typov SCD 1, 2 a 3, ktorá je známa ako pomaly sa meniaca dimenzia typu 6 (alebo) hybridná.
Tabuľky faktov
Tabuľky faktov obsahujú množinu kvantitatívne nameraných hodnôt, ktoré sa používajú na výpočty. Hodnoty tabuľky faktov sa zobrazia v obchodných správach. Na rozdiel od textových údajových typov rozmerových tabuliek je údajový typ tabuliek faktov výrazne číselný.
Tabuľky faktov sú hlboké, zatiaľ čo tabuľky dimenzií sú široké, pretože tabuľky faktov budú mať vyšší počet riadkov a menší počet stĺpcov. Primárny kľúč definovaný v tabuľke faktov je predovšetkým na identifikáciu každého riadku zvlášť. Primárny kľúč sa v skutočnosti nazýva aj zložený kľúč.
Ak zložený kľúč chýba v tabuľke faktov a ak akékoľvek dva záznamy obsahujú rovnaké údaje, je veľmi ťažké rozlíšiť údaje a odkazovať na údaje v tabuľkách dimenzií.
Ak teda ako zložený kľúč existuje správny jedinečný kľúč, je dobré vygenerovať poradové číslo pre každý záznam tabuľky faktov. Ďalšou alternatívou je vytvorenie zreťazeného primárneho kľúča. To sa vygeneruje zreťazením všetkých odkazovaných primárnych kľúčov dimenzionálnych tabuliek po riadkoch.
Jedna tabuľka faktov môže byť obklopená tabuľkami viacerých dimenzií. Pomocou cudzích kľúčov, ktoré existujú v tabuľkách faktov, je možné v dimenzionálnych tabuľkách odkazovať na príslušný kontext (podrobné údaje) nameraných hodnôt. Pomocou dotazov budú používatelia efektívne vykonávať hĺbkovú analýzu a vyhrnutie.
Najnižšia úroveň údajov, ktoré je možné uložiť do tabuľky faktov, sa nazýva Granularity. Počet tabuliek dimenzií spojených s tabuľkou faktov je nepriamo úmerný granularite údajov tejto tabuľky faktov. tj. Najmenšia nameraná hodnota vyžaduje odkaz na ďalšie tabuľky dimenzií.
V dimenzionálnom modeli si tabuľky faktov udržiavajú vzťah medzi mnohými s tabuľkami dimenzií.
Príklad tabuľky faktov o predaji:
Plán zaťaženia pre tabuľky faktov
Údaje tabuľky faktov môžete načítať efektívne, keď vezmete do úvahy nasledujúce ukazovatele:
# 1) Vyraďte a obnovte indexy
Indexy v skutočnosti tabuľky zvyšujú dobrý výkon pri vyhľadávaní údajov, ale pri načítaní údajov ničia výkon. Preto pred načítaním akýchkoľvek obrovských údajov do tabuliek faktov primárne zrušte všetky indexy v tejto tabuľke, načítajte údaje a obnovte indexy.
# 2) Oddeľte prílohy od aktualizácií
Pri načítaní do tabuľky faktov nezlučujte vložené a aktualizované záznamy. Ak je počet aktualizácií menší, potom prílohy a aktualizácie spracujte osobitne. Ak je počet aktualizácií vyšší, odporúčame vám skrátiť a znovu načítať tabuľku faktov, aby ste dosiahli rýchle výsledky.
# 3) Rozdelenie disku
Vykonajte fyzické rozdelenie na tabuľke faktov do mini tabuliek, aby ste dosiahli lepší výkon dotazov na údaje tabuľky hromadných faktov. Okrem DBA a tímu ETL nebude nikto vedieť o rozdeleniach na základe faktov.
Ako príklad , môžete rozdeliť tabuľku podľa mesiaca, po štvrťroku, po roku atď. Pri dotazovaní sa namiesto skenovania celej tabuľky berú do úvahy iba rozdelené údaje.
# 4) Načítajte paralelne
jednoduchý mp3 downloader na stiahnutie zadarmo plná verzia
Teraz sme dostali predstavu o oddieloch na tabuľkách faktov. Rozdelenie na fakty je tiež užitočné pri načítaní obrovských údajov do faktov. Ak to chcete urobiť, najskôr logicky rozdeľte údaje do rôznych dátových súborov a spustite úlohy ETL, aby sa všetky tieto logické časti údajov načítali paralelne.
# 5) Nástroj na hromadné načítanie
Na rozdiel od iných systémov RDBMS, systém ETL nemusí výslovne udržiavať protokoly vrátenia zmien kvôli zlyhaniam stredných transakcií. Tu sa „hromadné načítania“ dejú v skutočnosti namiesto „vloženia SQL“ na načítanie obrovských údajov. Ak v prípade zlyhania jedného načítania možno ľahko načítať všetky dáta (alebo), môžu pokračovať tam, kde sú pri hromadnom načítaní prerušené.
# 6) Vymazanie záznamu o fakte
K vymazaniu záznamu tabuľky faktov dôjde iba v prípade, že to podnik výslovne chce. Ak v zdrojových systémoch už neexistujú údaje z tabuľky faktov, môžu sa príslušné údaje fyzicky (alebo) logicky vymazať.
- Fyzické mazanie: Nežiaduce záznamy sa z tabuľky faktov natrvalo odstránia.
- Logické mazanie: Do tabuľky faktov bude pridaný nový stĺpec, napríklad „odstránený“ typu Bit (alebo) Boolean. Toto slúži ako príznak predstavujúci odstránené záznamy. Musíte sa ubezpečiť, že pri vyhľadávaní údajov tabuľky faktov nevyberáte odstránené záznamy.
# 7) Poradie aktualizácií a vymazaní v tabuľke faktov
Ak existujú nejaké údaje, ktoré sa majú aktualizovať, mali by sa najskôr aktualizovať tabuľky dimenzií, potom podľa potreby aktualizovať náhradné kľúče vo vyhľadávacej tabuľke a potom sa aktualizuje príslušná tabuľka faktov. Vymazanie sa deje naopak, pretože vymazaním všetkých nechcených údajov z tabuliek faktov je ľahké odstrániť prepojené nežiaduce údaje z dimenzií.
Vyššie uvedenú postupnosť by sme mali dodržiavať v obidvoch prípadoch, pretože tabuľky dimenzií a tabuľky faktov neustále udržiavajú referenčnú integritu.
Druhy faktov
Na základe správania údajov tabuliek faktov sa kategorizujú ako tabuľky faktov transakcií, tabuľky faktov snímok a akumulované tabuľky faktov tabuliek. Všetky tieto tri typy sledujú rôzne funkcie s rôznymi stratégiami načítania údajov.
# 1) Tabuľky transakčných faktov
Ako naznačuje názov, tabuľky faktov transakcií ukladajú údaje na úrovni transakcií pre každú udalosť, ktorá sa stane. Tento druh údajov je ľahké analyzovať na úrovni samotnej tabuľky faktov. Ale pre ďalšiu analýzu môžete tiež odkazovať na súvisiace dimenzie.
Napríklad, každý predaj (alebo) nákup z marketingového webu by sa mal načítať do tabuľky faktov transakcií.
Nižšie je uvedený príklad tabuľky transakčných faktov.
# 2) Tabuľky faktov o pravidelných snímkach
Ako naznačuje názov, údaje v pravidelných snímkach sa faktická tabuľka ukladá vo forme snímok (obrázkov) v pravidelných intervaloch, napríklad pre každý deň, týždeň, mesiac, štvrťrok atď., V závislosti od obchodných potrieb.
Je teda zrejmé, že ide o agregáciu údajov po celú dobu. Fakty o snímkach sú teda v porovnaní s tabuľkami faktov o transakciách zložitejšie. Napríklad, akékoľvek údaje v prehľadoch výnosov z výkonu je možné uložiť do tabuliek faktov pre ľahkú orientáciu.
Nižšie je uvedený príklad tabuľky pravidelných snímok.
# 3) Hromadenie tabuliek faktov
Hromadiace sa tabuľky s údajmi o snímkach vám umožňujú ukladať údaje do tabuliek po celú dobu životnosti produktu. Funguje to ako kombinácia vyššie uvedených dvoch typov, kde je možné údaje kedykoľvek vložiť ako snímku.
V tomto type sa aktualizujú ďalšie stĺpce s dátumom a údaje pre každý riadok s každým míľnikom daného produktu.
Príklad tabuľky faktov akumulačnej snímky.
Okrem vyššie uvedených troch typov je tu niekoľko ďalších typov tabuliek faktov:
# 4) Tabuľky faktografických faktov: Faktom je súbor opatrení, zatiaľ čo v skutočnosti menej zachytáva iba udalosti (alebo) podmienky, ktoré neobsahujú žiadne opatrenia. Tabuľka faktov bez faktov sa používa hlavne na sledovanie systému. Údaje v týchto tabuľkách je možné analyzovať a použiť ich na vykazovanie.
Napríklad, môžete vyhľadať podrobnosti o zamestnancovi, ktorý čerpal dovolenku, a typ dovolenky za rok, atď. Po zahrnutí všetkých týchto podrobných údajov, ktoré nie sú jasné, v skutočnosti tabuľka určite zväčší veľkosť faktov.
Nižšie je uvedený príklad tabuľky faktických faktov.
# 5) Tabuľky zhody: Konformná skutočnosť je skutočnosť, na ktorú možno odkazovať rovnakým spôsobom s každým dátovým trhom, s ktorým súvisí.
Špecifikácie tabuľky faktov
Ďalej sú uvedené špecifikácie tabuľky faktov.
- Názov faktu: Toto je reťazec, ktorý stručne popisuje funkčnosť tabuľky faktov.
- Obchodný proces: Táto tabuľka faktov musí spĺňať rozhovory o podnikaní.
- Otázky: Uvádza zoznam obchodných otázok, na ktoré odpovie uvedená tabuľka faktov.
- Zrno: Označuje najnižšiu úroveň podrobností spojených s údajmi z tabuľky faktov.
- Rozmery: Uveďte všetky tabuľky dimenzií spojené s touto tabuľkou faktov.
- Opatrenia: Vypočítané hodnoty uložené v tabuľke faktov.
- Frekvencia zaťaženia Predstavuje časové intervaly na načítanie údajov do tabuľky faktov.
- Počiatočné riadky: Prvýkrát si pozrite počiatočné údaje vyplnené v tabuľke faktov.
Príklad modelovania rozmerových údajov
Môžete získať predstavu o tom, ako je možné pre systém navrhnúť tabuľky dimenzií a tabuľky faktov, a to tak, že sa pozriete na nižšie uvedený diagram modelovania dimenzionálnych údajov pre predaj a objednávky.
Záver
Teraz by ste už mali získať vynikajúce znalosti o technikách dimenzionálneho dátového modelovania, ich výhodách, mýtoch, dimenzionálnych tabuľkách, tabuľkách faktov a ich typoch a procesoch.
V našom pripravovanom výučbe sa dozviete viac o schémach Data Warehouse !!
=> Navštívte tu a dozviete sa skladovanie dát od nuly.
Odporúčané čítanie
- Výukový program na testovanie dátových skladov s príkladmi Sprievodca testovaním ETL
- Príklady dolovania dát: Najčastejšie aplikácie dolovania dát 2021
- Výukový program pre Python DateTime s príkladmi
- Základy dátového skladu: Sprievodca príkladmi
- Výukový program na testovanie objemu: Príklady a nástroje na testovanie objemu
- Top 10 populárnych nástrojov pre dátové sklady a testovacie technológie
- Ťažba dát: Proces, techniky a hlavné problémy v analýze dát
- Ako vykonať testovanie na základe dát v SoapUI Pro - SoapUI Tutorial # 14