metadata data warehouse explained with examples
Tento výukový program vysvetľuje úlohu metadát v ETL, príklady a typy metadát, úložisko metadát a výzvy v správe metadát:
Dátový trh v ETL bol podrobne vysvetlený v našom predchádzajúcom návode.
Koncept metadát je v ETL veľmi dôležitý a tento tutoriál vysvetlí všetko o metadátach.
Pokrýva úlohu metaúdajov, príklady metaúdajov, ako aj jeho typy, úložisko metadát, spôsob správy metaúdajov skladovania údajov, výzvy týkajúce sa správy metadát.
Ďalej sa dozviete, čo je metadátami riadený ETL a aký je rozdiel medzi údajmi a metadátami.
=> Prečítajte si tu školiacu sériu bezplatných dátových skladov.
Cieľové publikum
- Vývojári a testeri dátového skladu / ETL.
- Databázoví odborníci so základnými znalosťami databázových konceptov.
- Správcovia databáz / odborníci na veľké dáta, ktorí chcú porozumieť oblastiam dátového skladu / ETL.
- Absolventi / nováčikovia vysokej školy, ktorí hľadajú prácu v dátových skladoch.
Čo sa dozviete:
spoločnosti zapojené do internetu vecí
Metadáta v ETL
Používatelia tímu (alebo) dátového skladu môžu na vytvorenie, údržbu a správu systému použiť metadáta v rôznych situáciách. Základná definícia metaúdajov v dátovom sklade je, „Sú to údaje o údajoch“ .
Metadáta môžu obsahovať všetky druhy informácií o údajoch DW, ako napríklad:
- Zdroj všetkých extrahovaných údajov.
- Použitie týchto údajov DW.
- Akýkoľvek druh údajov a ich hodnoty.
- Vlastnosti údajov.
- Logika transformácie pre extrahované údaje.
- DW tabuľky a ich atribúty.
- DW objekty
- Časové značky
Metadáta fungujú ako obsah údajov v systéme DW, ktorý ukazuje techniku s ďalšími podrobnosťami o týchto údajoch. Jednoducho povedané, môžete si v každej knihe predstaviť index, ktorý slúži ako metadáta za obsah tejto knihy.
Metadáta fungujú podobne ako index obsahu DW. Všetky takéto metadáta sú uložené v úložisku. Prechádzaním metadát koncoví užívatelia spoznajú, odkiaľ môžu začať analyzovať systém DW. Inak je pre koncových používateľov ťažké vedieť, odkiaľ majú začať s analýzou dát v takom obrovskom systéme DW.
Úloha metadát v dátovom sklade
V predchádzajúcich dňoch boli metadáta vytvárané a udržiavané ako dokumenty. Ale v dnešnom digitálnom svete túto prácu uľahčili rôzne nástroje zaznamenávaním metadát na každej úrovni procesu DW.
Metadáta vytvorené jedným nástrojom môžu byť štandardizované (t. J. Údaje môžu byť prenesené do jedného jedinečného formátu) a môžu byť znova použité v ostatných nástrojoch kdekoľvek v systéme DW.
Ako vieme, operačné systémy uchovávajú aktuálne údaje, systémy DW udržiavajú historické a súčasné údaje.
Metadáta musia sledovať všetky zmeny, ktoré sa dejú v zdrojových systémoch, metódach extrakcie / transformácie údajov a v štruktúre (alebo) obsahu údajov, ktoré v tomto procese nastanú. Metadáta budú udržiavať rôzne verzie, aby udržali prehľad o všetkých týchto zmenách v priebehu niekoľkých rokov.
Dostatočné metadáta poskytnuté v úložisku pomôžu každému používateľovi pri efektívnejšej a nezávislejšej analýze systému. Pochopením metadát môžete dosiahnuť čo najlepšie výsledky akýmkoľvek dotazom na DW údaje.
Obrázkové znázornenie úlohy metadát:
príklad testovacích prípadov junit v zatmení
Príklady jednoduchých metaúdajov
Ďalej uvádzame niektoré z príkladov metadát.
- Metadáta pre webovú stránku môžu obsahovať jazyk, v ktorom je kódovaná, nástroje použité na jej vytvorenie, podporujúce prehliadače atď.
- Metadáta digitálneho obrázka môžu obsahovať veľkosť obrázka, rozlíšenie, intenzitu farieb, dátum vytvorenia obrázka atď.
- Metadáta dokumentu môžu obsahovať dátum vytvorenia dokumentu, dátum poslednej úpravy, jeho veľkosť, autora, popis atď.
Porovnanie medzi dátami a metadátami
S.No | Údaje | Metadáta |
---|---|---|
1 | Údaje sú súborom informácií. | Metadáta sú informácie o údajoch. |
dva | Údaje môžu (alebo) nemusia byť spracované. | Metadáta sú vždy spracované údaje. |
Typy metadát
Klasifikácia metadát do rôznych typov nám pomôže lepšie ich pochopiť. Táto klasifikácia môže byť založená na jeho použití (alebo) používateľoch atď.
Pozrime sa nižšie na rôzne typy metadát:
# 1) Metadáta zákulisia: Usmerňuje DBA (alebo) koncových používateľov na procesy extrakcie, čistenia a načítania.
# 2) Metadáta prednej izby: Usmerňuje koncových používateľov na prácu s nástrojmi a správami BI.
# 3) Metadáta procesu: Tu sa ukladajú metadáta procesu ETL, ako napríklad počet načítaných, odmietnutých, spracovaných riadkov a čas potrebný na načítanie do systému DW atď. Tieto informácie môžu byť prístupné aj koncovým používateľom.
Štatistika fázovacích tabuliek je zároveň dôležitá aj pre tím ETL. Tieto metaúdaje budú ukladať procesné údaje pracovných tabuliek, ako napríklad počet načítaných, zamietnutých, spracovaných riadkov a čas potrebný na načítanie do jednotlivých pracovných tabuliek.
# 4) Dátový smer: Toto ukladá logickú transformáciu pre každý prvok zdrojového systému na cieľový prvok DW.
# 5) Obchodné definície: Kontext pre tabuľky DW bol odvodený z obchodných definícií. Každý atribút v tabuľke je spojený s obchodnou definíciou. Preto by mali byť uložené ako metadáta (alebo) akýkoľvek iný dokument pre ďalšie použitie. Na týchto obchodných definíciách závisia koncoví používatelia aj tím ETL.
# 6) Technické definície: Technické definície sa v oblasti postupovania údajov používajú výlučne viac ako obchodné definície. Hlavným účelom je znížiť nejednoznačnosť pri vytváraní fázovacích tabuliek a opätovne použiť všetky existujúce tabuľky. Technické definície uložia podrobnosti o každej postupnej tabuľke, ako napríklad jej umiestnenie a štruktúru.
Každá pracovná tabuľka je tu technicky zdokumentovaná, ak nie je zdokumentovaná, znamená to, že pracovná tabuľka neexistuje. Tým sa zabráni tomu, aby sa použil rovnaký predradný stôl.
# 7) Obchodné metadáta: Údaje budú uložené v obchodných podmienkach v prospech koncových používateľov / analytikov / manažérov / akýchkoľvek používateľov. Obchodné metadáta sú serverom proxy so zdrojovými údajmi systému, t. J. S nimi sa nebude robiť žiadna manipulácia s údajmi. Môže byť odvodený z akýchkoľvek obchodných dokumentov a obchodných pravidiel.
# 8) Technické metadáta: Toto uloží technické údaje, ako sú atribúty tabuliek, ich dátové typy, veľkosť, atribúty primárneho kľúča, atribúty cudzieho kľúča a akékoľvek indexy. Toto je v porovnaní s obchodnými metadátami štruktúrovanejšie.
Technické metadáta sú určené hlavne pre tím DW, ako sú vývojári / testeri / analytici / DBA, aby vytvorili (alebo) udržali systém. Toto tiež významne využívajú správcovia na monitorovanie načítania databázy a záloh údajov, atď.
# 9) Prevádzkové metadáta: Ako vieme, údaje do systému DW sa získavajú z mnohých operačných systémov s rôznymi typmi údajov a poľami. Extrakty DW transformujú tieto údaje na jedinečný typ a všetky tieto údaje načítajú do systému.
Zároveň musí byť schopný spätne prepojiť údaje so svojimi údajmi o zdrojovom systéme. Metadáta, ktoré uchovávajú všetky tieto informácie o prevádzkových údajoch, sú známe ako prevádzkové metadáta.
# 10) Informácie o zdrojovom systéme:
Nasledujúce metadáta môžete zhromažďovať z rôznych zdrojových systémov:
- Systém súborov (alebo) databázy: Toto uloží názvy súborov databáz (alebo) zdrojového systému.
- Špecifikácie tabuľky: Takto sa uložia všetky podrobnosti o tabuľkách, ako napríklad názov tabuľky, jej účel, veľkosť, atribúty, primárne kľúče a cudzie kľúče.
- Pravidlá spracovania výnimiek: Takto sa uložia rôzne metódy obnovy systému v prípade zlyhania systému.
- Obchodné definície: Toto uloží obchodné definície pre krátke pochopenie údajov.
- Obchodné pravidlá: Takto sa uloží súbor pravidiel pre každú tabuľku, aby porozumeli jej údajom a aby sa zabránilo nedôslednosti.
Metadáta zdrojového systému šetria pri analýze údajov tímu DW veľa času.
# 11) Metadáta úloh ETL: Metadáta úloh ETL sú veľmi dôležité, pretože ukladajú podrobnosti všetkých úloh, ktoré sa majú spracovať v rozvrhu, aby sa načítal systém ETL.
Tieto metadáta ukladajú nasledujúce informácie:
- Názov práce: Názov úlohy ETL.
- Účel práce: Účel vykonávania práce.
- Zdrojové tabuľky / súbory: Poskytuje názvy a umiestnenie všetkých tabuliek a súborov, z ktorých sa získavajú údaje touto úlohou ETL. Môže obsahovať viac ako jeden názov súboru tabuľky (alebo).
- Cieľové tabuľky / súbory: Poskytuje názvy a umiestnenie všetkých tabuliek a súborov, do ktorých sa táto úloha ETL transformuje. Môže obsahovať viac ako jeden názov súboru tabuľky (alebo).
- Zamietnuté údaje: Poskytuje názvy a umiestnenie všetkých tabuliek a súborov, z ktorých sa zamýšľané zdrojové údaje nenačítali do cieľa.
- Predbežné procesy: Poskytuje názvy skriptov úloh (alebo), od ktorých závisí aktuálna úloha. To znamená, že tie musia byť pred vykonaním aktuálnej úlohy úspešne vykonané.
- Post procesy: Poskytuje názvy skriptov úloh (alebo), ktoré by sa mali spustiť okamžite po aktuálnej úlohe na dokončenie procesu.
- Frekvencia: Poskytuje informácie o tom, ako často by sa mala úloha vykonávať, t. J. Denne, týždenne (alebo) mesačne.
# 12) Metadáta transformácie: Metadáta transformácie ukladajú všetky konštrukčné informácie súvisiace s procesom ETL. Každá jedna manipulácia s údajmi v procese ETL je známa ako transformácia údajov.
Akákoľvek sada funkcií, uložených procedúr, kurzorov, premenných a cyklov v procese ETL sa môže považovať za transformáciu. Takéto transformácie ale nemožno dokumentovať osobitne ako metadáta.
Celý proces ETL je zostavený z transformácií údajov. Niekoľko transformácií v ETL je možné preddefinovať a použiť v celom systéme DW. Vývojári ETL trávia čas vytváraním (alebo) opätovným spracovaním všetkých transformácií údajov. Opätovné použitie preddefinovaných transformácií počas vývoja procesu ETL prácu urýchli.
Prečítajte si nižšie uvedené transformácie údajov, ktoré nájdete v ETL:
- Extrakcie zdrojových dát: To zahŕňa transformácie údajov na čítanie zo údajov zdrojového systému, ako je napríklad dopyt SQL Select (alebo) FTP (alebo), čítanie údajov XML / sálového počítača.
- Náhradné generátory kľúčov: Nové poradové číslo, ktoré by sa malo vygenerovať pre každý riadok databázovej tabuľky, sa uloží ako metadáta.
- Vyhľadávanie: Vyhľadávania je možné vykonať pomocou všetkých príkazov IN, vnútorných spojení a vonkajších spojení. Používajú sa hlavne na uchovanie náhradných klávesov zo všetkých príslušných dimenzných tabuliek pri načítaní faktu.
- Filtre: Filtre sa odporúčajú na triedenie údajov, ktoré by sa mali extrahovať, načítať a odmietnuť v procese ETL. Osvedčeným postupom je filtrovanie údajov v počiatočných štádiách systému ETL. Filtre sa používajú v závislosti od obmedzení obchodných pravidiel (alebo).
- Agregáty: V závislosti od úrovne podrobnosti údajov možno použiť metadáta súvisiace s agregačnými funkciami, ako sú súčet, počet, priemer atď.
- Aktualizácia stratégií: Toto sú pravidlá uplatňované na záznam pri aktualizácii údajov. Ak dôjde k nejakej zmene v existujúcich údajoch, bude to znamenať, či by sa mal záznam pridať, vymazať (alebo) aktualizovať.
- Cieľový nakladač: Cieľový nakladač uloží podrobnosti o databáze, názvy tabuliek a názvov stĺpcov, do ktorých by sa mali údaje načítať prostredníctvom procesu ETL. Okrem toho sa tým tiež uložia podrobnosti o nástroji na hromadné načítanie, ak existuje, ktorý sa vykonáva pri načítaní údajov do systému ETL.
Každú transformáciu je možné pomenovať osobitne pomocou krátkej poznámky o jej účele.
Niektoré príklady konvencií pomenovania sú tu uvedené pre vyššie uvedený zoznam transformácií.
SRC_ SEQ_ LKP_ FIL_ AGG_ UPD__ TRG_
Repozitár metadát v ETL
Úložisko metadát je miesto, kde je akýkoľvek typ metadát uložený buď v lokálnej databáze (alebo) vo virtuálnej databáze. Každý typ metadát, napríklad obchodné (alebo) technické metadáta, je možné logicky oddeliť v úložisku.
Okrem vyššie uvedených dvoch typov má úložisko aj jeden ďalší komponent s názvom Information navigator.
Informačný navigátor možno použiť na vykonávanie nasledujúcich úloh:
- Rozhranie z dotazovacieho nástroja: Toto poskytuje rozhranie k dotazovacím nástrojom na prístup k metadátam DW.
- Podrobnejšie podrobnosti: To umožňuje používateľovi rozbaliť metadáta a získať tak podrobnejšie informácie. Napríklad na prvej úrovni môže užívateľ získať definíciu dátovej tabuľky. Po podrobnejšom prehľade môže získať atribúty tabuľky na ďalšej úrovni. Podrobnejšou analýzou údajov môže získať podrobnosti o jednotlivých atribútoch atď.
- Skontrolujte preddefinované dotazy a prehľady: To umožňuje používateľovi kontrolovať preddefinované dotazy a správy. Toto funguje ako referencia na vlastné dotazy na rámce s vhodnými parametrami atď.
Obrázkové znázornenie úložiska metadát:
Ako je možné spravovať metadáta dátového skladu?
Ľudia, procesy a nástroje sú kľúčovými zdrojmi na správu metadát.
- Ľudia by mali pochopiť metadáta pre správne použitie.
- Tento proces začlení metadáta do úložiska nástrojov (alebo) s vývojom životného cyklu DW pre budúce použitie.
- Potom môžu byť metadáta spravované nástrojmi.
Výzvy pre správu metadát
Po vytvorení metadát môžete čeliť nasledujúcim výzvam pri integrácii a správe metadát v systéme.
- Prinášanie rôznych formátov metadát do štandardného formátu môže vyžadovať väčšie úsilie, ak sa v systéme DW používajú rôzne nástroje, pretože metadáta je možné ukladať do tabuliek, aplikácií (alebo) databáz.
- Formáty metadát nemajú zavedené priemyselné štandardy. S týmto nedostatkom štandardizovaného procesu je ťažké odovzdať metadáta rôznymi úrovňami systému DW a nástrojov.
- Dôsledné udržiavanie rôznych verzií historických metadát je zložitá úloha.
Čo je ETL riadený metadátami?
Metadáta založené na ETL vytvárajú vrstvu na zjednodušenie procesu načítania údajov do systému DW. V závislosti od metaúdajov sa môžete rozhodnúť, či údaje spracujete do systému (alebo). Preto ho môžete nazvať ako ETL riadený metadátami.
Záver
Významná úloha metaúdajov pri určovaní úspešnosti (alebo) zlyhania systému DW bola podrobne vysvetlená v tomto návode.
Podrobne sme tiež preskúmali význam, úlohu, príklady, typy, výzvy metadát spolu s príslušným obrazovým znázornením.
hlavné rozdiely medzi Java a C ++
Dúfame, že tieto poučné návody z tejto série Data Warehouse obohatili vaše vedomosti o dátových skladoch a súvisiacich konceptoch !!!
Príjemné čítanie !!
=> Navštívte tu a dozviete sa skladovanie dát od nuly.
Odporúčané čítanie
- Výukový program na testovanie dátových skladov s príkladmi Sprievodca testovaním ETL
- Výukový program na testovanie dátových skladov ETL (kompletný sprievodca)
- Dimenzionálny dátový model v dátovom sklade - návod s príkladmi
- Výukový program Data Mart - Typy, príklady a implementácia Data Mart
- Čo je proces ETL (extrakcia, transformácia, načítanie) v dátovom sklade?
- 10 najlepších nástrojov na mapovanie údajov, ktoré sú užitočné v procese ETL (ZOZNAM 2021)
- Príklady dolovania dát: Najčastejšie aplikácie dolovania dát 2021
- ETL Testovacie otázky a odpovede na pohovor