what is etl extract
Tento podrobný návod k procesu ETL vysvetľuje tok procesu a kroky zapojené do procesu ETL (extrakcia, transformácia a načítanie) v dátovom sklade:
Tento tutoriál v sérii vysvetľuje: Čo je to proces ETL? Extrakcia dát, transformácia, načítanie, ploché súbory, čo je fáza? ETL cyklus atď.
Začnime!!
=> Tu si pozrite Príručku školenia o perfektnom dátovom sklade.
Čo sa dozviete:
- Základy procesu ETL (extrakcia, transformácia, načítanie)
- Záver
Základy procesu ETL (extrakcia, transformácia, načítanie)
Cieľové publikum
- Vývojári a testeri dátového skladu / ETL.
- Databázoví odborníci so základnými znalosťami databázových konceptov.
- Správcovia databáz / odborníci na veľké dáta, ktorí chcú porozumieť oblastiam dátového skladu / ETL.
- Absolventi vysokých škôl / nováčikovia, ktorí hľadajú pracovné miesta v dátovom sklade.
Čo je proces ETL v dátovom sklade?
Všetci vieme, že dátový sklad je súborom obrovského množstva dát, ktoré majú podnikovým používateľom poskytovať informácie pomocou nástrojov Business Intelligence.
Na tento účel by sa mal DW načítať v pravidelných intervaloch. Údaje do systému sa zhromažďujú z jedného alebo viacerých operačných systémov, plochých súborov atď. Proces, ktorý prenáša údaje do DW, je známy ako ETL proces . Extrakcia, transformácia a načítanie sú úlohy ETL.
# 1) Extrakcia: Všetky preferované údaje z rôznych zdrojových systémov, ako sú databázy, aplikácie a ploché súbory, sú identifikované a extrahované. Extrakciu dát je možné dokončiť spustením úloh v mimopracovných hodinách.
# 2) Transformácia: Väčšinu extrahovaných údajov nie je možné priamo načítať do cieľového systému. Na základe obchodných pravidiel je možné pred načítaním údajov vykonať niektoré transformácie.
Napríklad, údaje cieľového stĺpca môžu očakávať ako vstup dva zdrojové stĺpce spojené údaje. Rovnako môže existovať zložitá logika pre transformáciu údajov, ktorá si vyžaduje odborné znalosti. Niektoré údaje, ktoré nepotrebujú žiadne transformácie, je možné priamo presunúť do cieľového systému.
Proces transformácie tiež opraví údaje, odstráni všetky nesprávne údaje a opraví všetky chyby v údajoch pred ich načítaním.
# 3) Načítanie: Všetky zhromaždené informácie sa načítajú do cieľových tabuliek dátového skladu.
Extrakcia dát
Extrakcia dát hrá hlavnú rolu pri navrhovaní úspešného systému DW. Rôzne zdrojové systémy môžu mať odlišné charakteristiky údajov a proces ETL bude tieto rozdiely účinne spravovať pri extrakcii údajov.
„ Mapa logických údajov ”Je základný dokument na extrakciu údajov. Toto ukazuje, ktoré zdrojové údaje by mali ísť do ktorej cieľovej tabuľky, a ako sa zdrojové polia mapujú na príslušné polia cieľovej tabuľky v procese ETL.
Ďalej sú uvedené kroky, ktoré je potrebné vykonať počas navrhovania mapy logických údajov:
- Architekt dátového skladu navrhne dokument mapy logických údajov.
- Odkázaním na tento dokument vývojár ETL vytvorí úlohy ETL a testéri ETL vytvoria testovacie prípady.
- V tomto dokumente budú uvedené všetky konkrétne zdroje údajov a príslušné dátové prvky, ktoré podporujú obchodné rozhodnutia. Tieto dátové prvky budú slúžiť ako vstupy počas procesu extrakcie.
- Analyzujú sa údaje zo všetkých zdrojových systémov a dokumentujú sa všetky druhy dátových anomálií, čo pomáha pri navrhovaní správnych obchodných pravidiel a zastaví extrakciu nesprávnych údajov do DW. Samotné tieto údaje sú tu odmietnuté.
- Len čo konečný zdrojový a cieľový dátový model navrhnú architekti ETL a obchodní analytici, môžu sa prejsť vývojármi ETL a testermi. Týmto spôsobom získajú jasné pochopenie toho, ako by sa mali obchodné pravidlá vykonávať v každej fáze ťažby, transformácie a načítania.
- Pri prechode pravidlami mapovania z tohto dokumentu by architekti, vývojári a testeri ETL mali mať dobré znalosti o tom, ako údaje prúdia z každej tabuľky ako dimenzie, fakty a akékoľvek ďalšie tabuľky.
- Je tu tiež spomenutý akýkoľvek druh pravidiel alebo vzorcov pre manipuláciu s údajmi, aby sa zabránilo extrakcii nesprávnych údajov. Napríklad, extrahovať iba posledných 40 dní údajov atď.
- Zodpovednosťou tímu ETL je podrobne analyzovať údaje podľa obchodných požiadaviek a vyniesť všetky užitočné údaje o zdrojovom systéme, tabuľkách a stĺpcoch, ktoré sa majú načítať do DW.
Dokument s mapou logických údajov je zvyčajne tabuľka, ktorá zobrazuje nasledujúce komponenty:
(tabuľka „“ sa nenašla /)Vývojový diagram extrakcie:
Uveďte časové okno na spustenie úloh v každom zdrojovom systéme vopred, aby počas extrakčného cyklu neprišli o žiadne zdrojové údaje.
Pomocou vyššie uvedených krokov extrakcia dosahuje cieľ prevodu údajov z rôznych formátov z rôznych zdrojov do jedného formátu DW, z ktorého majú výhody celé procesy ETL. Takto logicky umiestnené údaje sú užitočnejšie pre lepšiu analýzu.
Metódy extrakcie v dátovom sklade
V závislosti na zdrojovom a cieľovom dátovom prostredí a obchodných potrebách môžete zvoliť metódu extrakcie vhodnú pre váš DW.
# 1) Logické extrakčné metódy
Extrakcia dát v systéme dátového skladu môže byť jednorazové úplné načítanie, ktoré sa vykoná na začiatku (alebo), môže to byť prírastkové načítanie, ku ktorému dochádza zakaždým s neustálymi aktualizáciami.
najlepší bezplatný sťahovač videa pre Windows 10
- Úplná extrakcia: Ako už samotný názov napovedá, údaje zdrojového systému sa úplne extrahujú do cieľovej tabuľky. Zakaždým, keď tento druh extrakcie načíta všetky údaje súčasného zdrojového systému bez zohľadnenia posledných extrahovaných časových pečiatok. Najlepšie by ste mohli použiť úplnú extrakciu pre počiatočné načítanie alebo tabuľky s menším počtom údajov.
- Prírastková extrakcia: Údaje, ktoré sú pridané / upravené od konkrétneho dátumu, sa zohľadnia pri prírastkovej extrakcii. Tento dátum je obchodne špecifický ako dátum poslednej extrakcie (alebo) dátum poslednej objednávky atď. Môžeme odkazovať na stĺpec časovej pečiatky zo samotnej zdrojovej tabuľky (alebo) je možné vytvoriť samostatnú tabuľku na sledovanie iba podrobností dátumu extrakcie. Odkazovanie na časovú pečiatku je významnou metódou počas prírastkovej extrakcie. Logika bez časovej pečiatky môže zlyhať, ak má tabuľka DW veľké údaje.
# 2) Metódy fyzickej extrakcie
V závislosti od schopností zdrojových systémov a obmedzení údajov môžu zdrojové systémy poskytnúť údaje fyzicky na extrakciu ako online extrakcia a offline extrakcia. Toto podporuje akýkoľvek z typov logickej extrakcie.
- Online extrakcia :: Môžeme sa priamo pripojiť k ľubovoľným databázam zdrojového systému pomocou spojovacích reťazcov a extrahovať údaje priamo z tabuliek zdrojového systému.
- Offline extrakcia :: Nebudeme sa tu priamo pripájať k databáze zdrojového systému, namiesto toho zdrojový systém poskytuje údaje výslovne v preddefinovanej štruktúre. Zdrojové systémy môžu poskytovať údaje vo forme plochých súborov, výpisových súborov, archívnych protokolov a tabuľkových priestorov.
Nástroje ETL sú najvhodnejšie na vykonávanie akýchkoľvek zložitých extrakcií údajov, hocikoľkokrát pre DW, aj keď sú drahé.
Extrahovanie zmenených údajov
Po dokončení počiatočného načítania je dôležité zvážiť, ako ďalej extrahovať údaje, ktoré sa zmenili, zo zdrojového systému. Tím procesu ETL by mal na začiatku samotného projektu navrhnúť plán, ako implementovať extrakciu počiatočných a prírastkových zaťažení.
Väčšinou môžete zvážiť stratégiu „Auditové stĺpce“ pre prírastkové načítanie, aby ste zachytili zmeny údajov. Tabuľky zdrojového systému môžu vo všeobecnosti obsahovať kontrolné stĺpce, ktoré uchovávajú časovú značku pre každú úpravu (alebo) vloženia.
Časová pečiatka sa môže naplniť spúšťačmi databázy (alebo) zo samotnej aplikácie. Musíte zaručiť presnosť údajov stĺpcov auditu, aj keď sa načítavajú akýmkoľvek spôsobom, aby ste nezmeškali zmenené údaje pri prírastkoch.
Počas prírastkového načítania môžete vziať do úvahy maximálny dátum a čas, kedy došlo k poslednému načítaniu, a extrahovať všetky údaje zo zdrojového systému s časovou značkou väčšou ako posledná značka času načítania.
Pri získavaní údajov:
- Optimálne používajte dotazy na získanie iba tých údajov, ktoré potrebujete.
- Nepoužívajte príliš odlišnú klauzulu, pretože to spomaľuje výkon dotazov.
- Používajte operátory SET ako Union, Minus, Intersect opatrne, pretože to zhoršuje výkon.
- V klauzule where používajte radšej kľúčové slová na porovnanie, ako napríklad, medzi, atď., A nie funkcie ako substr (), to_char () atď.
Transformácia údajov
Transformácia je proces, pri ktorom sa na extrahované údaje aplikuje sada pravidiel pred priamym načítaním údajov zdrojového systému do cieľového systému. Extrahované údaje sa považujú za nespracované údaje.
Proces transformácie so súborom štandardov prináša všetky odlišné údaje z rôznych zdrojových systémov do použiteľných údajov v systéme DW. Cieľom transformácie údajov je kvalita údajov. Všetky pravidlá logickej transformácie si môžete prečítať v dokumente mapovania údajov.
Ak na základe pravidiel transformácie niektoré zdrojové údaje nespĺňajú pokyny, potom sú tieto zdrojové údaje pred načítaním do cieľového systému DW odmietnuté a vložené do odmietacieho súboru alebo tabuľky odmietnutia.
Pravidlá transformácie nie sú zadané pre údaje stĺpcov s priamym načítaním (nevyžaduje sa žiadna zmena) zo zdroja na cieľ. Preto možno transformácie údajov klasifikovať ako jednoduché a zložité. Transformácie údajov môžu zahŕňať konverzie stĺpcov, preformátovanie dátovej štruktúry atď.
Ďalej uvádzame niektoré z úloh, ktoré je potrebné vykonať počas transformácie údajov:
# 1) Výber: Zo zdrojových systémov môžete vybrať buď celé údaje tabuľky, alebo konkrétnu skupinu údajov stĺpcov. Výber údajov sa zvyčajne dokončí pri samotnej extrakcii.
Môžu sa vyskytnúť prípady, keď zdrojový systém neumožňuje vybrať konkrétnu množinu údajov stĺpcov počas fázy extrakcie, potom extrahovať všetky údaje a vykonať výber vo fáze transformácie.
# 2) Rozdelenie / pripojenie: S vybranými údajmi môžete manipulovať ich rozdelením alebo spojením. Počas transformácie budete vyzvaní, aby ste vybrané zdrojové údaje ešte viac rozdelili.
Napríklad, ak je celá adresa uložená v jednom veľkom textovom poli v zdrojovom systéme, môže systém DW požiadať o rozdelenie adresy na samostatné polia ako mesto, štát, PSČ atď. To je ľahké pre indexovanie a analýzu na základe každého z nich zložka jednotlivo.
Zatiaľ čo spojenie / zlúčenie dvoch alebo viacerých stĺpcov je počas transformačnej fázy v systéme DW veľmi rozšírené. To neznamená zlúčenie dvoch polí do jedného poľa.
Napríklad, ak informácie o konkrétnej entite pochádzajú z viacerých zdrojov údajov, potom sa zhromažďovanie informácií ako jednej entity dá nazvať spojením / zlúčením údajov.
# 3) Konverzia: Údaje extrahovaných zdrojových systémov môžu byť pre každý dátový typ v rôznych formátoch, a preto by sa všetky extrahované údaje mali počas fázy transformácie previesť do štandardizovaného formátu. Rovnaký druh formátu je ľahko pochopiteľný a ľahko použiteľný pre obchodné rozhodnutia.
# 4) Zhrnutie: V niektorých situáciách bude DW hľadať skôr súhrnné údaje ako podrobné údaje nízkej úrovne zo zdrojových systémov. Pretože údaje na nízkej úrovni nie sú najvhodnejšie na analýzu a dopytovanie podnikovými používateľmi.
Napríklad, údaje o predaji pre každú pokladňu nemusí systém DW vyžadovať, denný vedľajší produkt (alebo) denný predaj v obchode je užitočný. Sumarizáciu údajov je teda možné vykonať počas fázy transformácie podľa obchodných požiadaviek.
# 5) Obohatenie: Keď sa stĺpec DW vytvorí spojením jedného alebo viacerých stĺpcov z viacerých záznamov, potom obohacovanie údajov usporiada polia, aby sa lepšie zobrazili údaje v systéme DW.
# 6) Revízie formátu: Revízie formátu sa vyskytujú najčastejšie počas fázy transformácie. Typ údajov a ich dĺžka sa revidujú pre každý stĺpec.
Napríklad, stĺpec v jednom zdrojovom systéme môže byť číselný a ten istý stĺpec v inom zdrojovom systéme môže byť text. Kvôli štandardizácii sa počas fázy transformácie typ údajov pre tento stĺpec zmení na text.
# 7) Dekódovanie polí: Pri extrakcii údajov z viacerých zdrojových systémov môžu byť údaje v rôznych systémoch dekódované odlišne.
Napríklad, jeden zdrojový systém môže predstavovať stav zákazníka ako AC, IN a SU. Iný systém môže predstavovať rovnaký stav ako 1, 0 a -1.
Počas fázy transformácie údajov musíte tieto kódy dekódovať na správne hodnoty, ktoré sú zrozumiteľné podnikovým používateľom. Vyššie uvedené kódy môžu byť preto zmenené na aktívne, neaktívne a pozastavené.
# 8) Vypočítané a odvodené hodnoty: Keď vezmeme do úvahy údaje o zdrojovom systéme, DW môže uložiť ďalšie údaje stĺpcov pre výpočty. Pred uložením do DW musíte urobiť výpočty založené na obchodnej logike.
# 9) Prevod dátumu a času: Toto je jeden z kľúčových typov údajov, na ktoré sa treba sústrediť. Formát dátumu a času sa môže vo viacerých zdrojových systémoch líšiť.
Napríklad, jeden zdroj môže uložiť dátum ako 10. novembra 1997. Iný zdroj môže uložiť ten istý dátum vo formáte 10/10/1997. Preto by sa počas transformácie údajov mali všetky hodnoty dátumu a času previesť do štandardného formátu.
# 10) De-duplikácia: V prípade, že zdrojový systém obsahuje duplicitné záznamy, potom sa uistite, že do systému DW je načítaný iba jeden záznam.
Vývojový diagram transformácie:
Ako implementovať transformáciu?
V závislosti od zložitosti transformácií údajov môžete použiť manuálne metódy, transformačné nástroje (alebo) kombinácie oboch, ktoré sú účinné.
# 1) Ručné techniky
Pre malé systémy DW sú postačujúce manuálne techniky. Analytici a vývojári údajov vytvoria programy a skripty na manuálnu transformáciu údajov. Táto metóda vyžaduje podrobné testovanie každej časti kódu.
Náklady na údržbu môžu byť vysoké v dôsledku zmien, ktoré sa vyskytnú v obchodných pravidlách (alebo) v dôsledku pravdepodobnosti výskytu chýb pri zvýšení objemu údajov. O metadáta by ste sa mali starať na začiatku a tiež pri každej zmene, ktorá nastane v pravidlách transformácie.
# 2) Transformačné nástroje
Ak chcete automatizovať väčšinu transformačného procesu, môžete prijať transformačné nástroje v závislosti od rozpočtu a časového rámca dostupného pre projekt. Pri automatizácii by ste mali venovať kvalitný čas výberu nástrojov, ich konfigurácii, inštalácii a integrácii so systémom DW.
Prakticky úplná transformácia pomocou nástrojov nie je možná bez manuálneho zásahu. Ale údaje transformované nástrojmi sú určite efektívne a presné.
Aby sme to dosiahli, mali by sme do transformačného nástroja ako vstup zadať správne parametre, definície údajov a pravidlá. Z poskytnutých vstupov samotný nástroj zaznamená metadáta a tieto metadáta sa pridajú k celkovým metadátam DW.
Ak dôjde k zmenám v obchodných pravidlách, stačí tieto zmeny do nástroja zadať, o ostatné transformačné úpravy sa postará samotný nástroj. Preto je efektívna kombinácia oboch metód.
Načítavajú sa údaje
Extrahované a transformované dáta sa načítajú do cieľových DW tabuliek počas fázy načítania procesu ETL. O tom, ako by sa mal načítať proces pre každú tabuľku, rozhodne podnik.
Proces načítania sa môže uskutočniť nasledujúcimi spôsobmi:
- Počiatočné zaťaženie: Načítanie údajov na prvé vyplnenie príslušných tabuliek DW.
- Prírastkové zaťaženie: Po načítaní tabuliek DW sa zvyšok prebiehajúcich zmien periodicky uplatňuje.
- Úplné obnovenie: Ak niektoré tabuľky, ktoré sa práve používajú, potrebujú obnovenie, potom sa súčasné údaje z tejto tabuľky úplne odstránia a znova načítajú. Prebíjanie je podobné ako pri počiatočnom načítaní.
Pozrite sa na nasledujúci príklad, aby ste lepšie pochopili proces načítania v ETL:
identifikačné číslo produktu | Meno Produktu | Dátum predaja |
---|---|---|
1 | Šlabikár | 3. júna 2007 |
dva | Značka | 3. júna 2007 |
3 | Zadná taška | 4. júna 2007 |
4 | Cap | 4. júna 2007 |
5 | Topánky | 5. júna 2007 |
# 1) Počas počiatočného načítania sú dáta, ktoré sa predávajú 3rdJún 2007 sa načíta do cieľovej tabuľky DW, pretože ide o počiatočné údaje z vyššie uvedenej tabuľky.
#dva) Počas prírastkového načítania musíme načítať údaje, ktoré sa predajú po 3rdJúna 2007. Mali by sme brať do úvahy všetky záznamy s dátumom predaja väčším ako (>) predchádzajúcim dátumom nasledujúceho dňa. Preto dňa 4thJúna 2007, načítajte všetky záznamy s dátumom predaja> 3rdJúna 2007 pomocou dotazov a načítať iba tieto dva záznamy z tabuľky vyššie.
5. dňathJún 2007, načítajte všetky záznamy s dátumom predaja> 4thJúna 2007 a načítať iba jeden záznam z vyššie uvedenej tabuľky.
# 3) Počas úplného obnovenia sa všetky vyššie uvedené údaje tabuľky načítajú do DW tabuliek naraz bez ohľadu na dátum predaja.
Načítané údaje sú uložené v príslušných tabuľkách dimenzií (alebo) faktov. Dáta je možné načítať, pripojiť alebo zlúčiť do DW tabuliek nasledovne:
# 4) Zaťaženie: Dáta sa načítajú do cieľovej tabuľky, ak sú prázdne. Ak tabuľka obsahuje nejaké údaje, existujúce údaje sa odstránia a potom sa načítajú nové údaje.
Napríklad,
Existujúce údaje tabuľky
Meno zamestnanca | Rola |
---|---|
Ján | Manažér |
Revanth | Viesť |
Bob | Asistent manažéra |
Ronald | Vývojár |
Zmenené údaje
Meno zamestnanca | Rola |
---|---|
Ján | Manažér |
Rohan | riaditeľ |
Chetan | AVP |
The | VP |
Údaje po načítaní
Meno zamestnanca | Rola |
---|---|
Ján | Manažér |
Rohan | riaditeľ |
Chetan | AVP |
The | VP |
# 5) Pripojiť: Append je rozšírenie vyššie uvedeného načítania, pretože pracuje s už existujúcimi tabuľkami. V cieľových tabuľkách pridáva Append viac údajov k existujúcim údajom. Ak sa zistí duplicitný záznam so vstupnými údajmi, môže byť pripojený ako duplikát (alebo) a môže byť odmietnutý.
Napríklad,
Existujúce údaje tabuľky
Meno zamestnanca | Rola |
---|---|
Ján | Manažér |
Revanth | Viesť |
Zmenené údaje
Meno zamestnanca | Rola |
---|---|
Ján | Manažér |
Rohan | riaditeľ |
Chetan | AVP |
The | VP |
Údaje po pripojení
Meno zamestnanca | Rola |
---|---|
Ján | Manažér |
Revanth | Viesť |
Rohan | riaditeľ |
Chetan | AVP |
The | VP |
# 6) Deštruktívne zlúčenie: Tu sa prichádzajúce údaje porovnávajú s existujúcimi cieľovými údajmi na základe primárneho kľúča. Ak existuje zhoda, aktualizuje sa existujúci cieľový záznam. Ak sa nenájde zhoda, do cieľovej tabuľky sa vloží nový záznam.
Napríklad,
Existujúce údaje tabuľky
Meno zamestnanca | Rola |
---|---|
Ján | Manažér |
Revanth | Viesť |
Zmenené údaje
Meno zamestnanca | Rola |
---|---|
Ján | Manažér |
Revanth | riaditeľ |
Chetan | AVP |
The | VP |
Dáta po konštruktívnom zlúčení
Meno zamestnanca | Rola |
---|---|
Ján | Manažér |
Revanth | riaditeľ |
Chetan | AVP |
The | VP |
# 7) Konštruktívne ide: Na rozdiel od deštruktívneho zlúčenia, ak existuje zhoda s existujúcim záznamom, ponechá existujúci záznam taký, aký je, a vloží prichádzajúci záznam a označí ho ako najnovšie údaje (časová značka) vzhľadom na tento primárny kľúč.
Napríklad,
Existujúce údaje tabuľky
Meno zamestnanca | Rola |
---|---|
Ján | Manažér |
Revanth | Viesť |
Zmenené údaje
Meno zamestnanca | Rola |
---|---|
Ján | Manažér |
Revanth | riaditeľ |
Chetan | AVP |
The | VP |
Dáta po konštruktívnom zlúčení
Meno zamestnanca | Rola |
---|---|
Ján | Manažér |
Revanth | Riaditeľ *** |
Revanth | Viesť |
Chetan | AVP |
The | VP |
Technicky je obnovenie jednoduchšie ako aktualizácia údajov. Aktualizácia vyžaduje špeciálnu stratégiu na extrahovanie iba konkrétnych zmien a ich použitie v systéme DW, zatiaľ čo obnovenie iba nahradí údaje. Obnova údajov však trvá dlhšie v závislosti od objemu údajov.
Ak máte také obnovovacie úlohy, ktoré sa majú spúšťať každý deň, možno budete musieť spustiť systém DW a načítať údaje. Namiesto toho, aby ste celý systém DW spúšťali a zakaždým načítali údaje, môžete údaje rozdeliť a načítať vo forme niekoľkých súborov.
Počas testovania si poznamenajte čas chodu pre každé načítanie. Ak sa niektoré údaje nedokážu načítať do systému DW kvôli akýmkoľvek nezhodám kľúčov atď., Potom im dajte spôsoby, ako s takýmto údajom narábať. Zaistite, aby boli načítané údaje dôkladne otestované.
Postupný diagram načítania:
Ploché súbory
Ploché súbory sa široko používajú na výmenu údajov medzi heterogénnymi systémami, z rôznych zdrojových operačných systémov a z rôznych zdrojových databázových systémov do aplikácií dátového skladu. Ploché súbory sú najefektívnejšie a ľahko sa spravujú aj pre homogénne systémy.
Ploché súbory sa primárne používajú na tieto účely:
# 1) Dodanie zdrojových údajov: Môže existovať niekoľko zdrojových systémov, ktoré z bezpečnostných dôvodov nedovolia používateľom DW prístup do ich databáz. V takýchto prípadoch sa údaje dodávajú prostredníctvom plochých súborov.
Podobne sú údaje získavané z externých dodávateľov alebo systémov sálových počítačov v zásade vo forme plochých súborov, ktoré budú používateľom ETL ukladať na FTP.
# 2) Pracovné / pracovné tabuľky: Proces ETL vytvára pracovné tabuľky pre svoje interné účely. Asociácia pracovných tabuliek s plochými súbormi je oveľa jednoduchšia ako DBMS, pretože čítanie a zápis do súborového systému je rýchlejšie ako vkladanie a dopytovanie databázy.
# 3) Príprava na hromadné naloženie: Po dokončení procesov extrakcie a transformácie, ak nástroj ETL nepodporuje hromadné načítanie in-stream (alebo). Ak chcete archivovať údaje, môžete vytvoriť plochý súbor. Tieto dáta plochého súboru sú načítané procesorom a načítané údaje do systému DW.
Ploché súbory je možné vytvoriť dvoma spôsobmi ako „ploché súbory s pevnou dĺžkou“ a „ploché súbory s ohraničením“. Ploché súbory môžu vytvárať programátori, ktorí pracujú pre zdrojový systém.
Pozrime sa, ako spracujeme tieto ploché súbory:
Spracovanie plochých súborov s pevnou dĺžkou
Ploché súbory majú spravidla stĺpce s pevnou dĺžkou, a preto sa tiež nazývajú pozičné ploché súbory. Nižšie je rozloženie plochého súboru, ktorý zobrazuje presné polia a ich polohy v súbore.
Názov poľa | Dĺžka | Štart | Koniec | Typ | Pripomienky |
---|---|---|---|---|---|
Krstné meno | 10 | 1 | 10 | Text | Meno zákazníka |
Stredné meno | 5 | jedenásť | pätnásť | Text | Prostredné meno zákazníka |
Priezvisko | 10 | 16 | 25 | Text | Priezvisko zákazníka |
Rozloženie obsahuje názov poľa, dĺžka, začiatočná pozícia na začiatku znaku poľa, koncová poloha, kde sa znak poľa končí, dátový typ ako textový, číselný atď. a prípadne poznámky.
V závislosti od pozícií údajov bude testovací tím ETL overovať presnosť údajov v plochom súbore s pevnou dĺžkou.
Spracovanie oddelených plochých súborov
V súboroch s oddeleným plochým súborom je každé údajové pole oddelené oddeľovačmi. Tento oddeľovač označuje začiatočnú a koncovú pozíciu každého poľa. Všeobecne sa ako oddeľovač používa čiarka, môžete však použiť akýkoľvek iný symbol alebo skupinu symbolov.
Súbory s ohraničením môžu mať príponu .CSV (alebo). Príponu TXT (alebo) bez prípony. Vývojári, ktorí vytvárajú súbory ETL, označia skutočný symbol oddeľovača na spracovanie daného súboru. V rozložení s oddelenými súbormi môže prvý riadok predstavovať názvy stĺpcov.
Rovnako ako pozičné ploché súbory, testovací tím ETL výslovne overí presnosť údajov plochých súborov s oddelenými údajmi.
Účel oddychovej oblasti
Hlavným účelom pracovnej oblasti je dočasné uloženie údajov pre proces ETL. Oddychová oblasť sa nazýva zákulisie systému DW. Architekt ETL rozhodne, či sa údaje budú ukladať do pracovnej oblasti alebo nie.
Postupné nastavenie pomôže veľmi rýchlo získať údaje zo zdrojových systémov. Zároveň v prípade zlyhania systému DW nemusíte proces znova spustiť zhromažďovaním údajov zo zdrojových systémov, ak už fázové údaje existujú.
Po ukončení procesu extrakcie údajov sú dôvody na to, aby sa údaje v systéme DW uložili:
# 1) Obnoviteľnosť: Vyplnené pracovné tabuľky budú uložené v samotnej DW databáze (alebo), môžu byť presunuté do súborových systémov a môžu byť uložené osobitne. V určitom okamihu môžu pracovné dáta fungovať ako dáta obnovy, ak zlyhá niektorý krok transformácie alebo načítania.
Je pravdepodobné, že zdrojový systém prepísal údaje použité pre ETL, a preto udržiavanie extrahovaných údajov v postupe nám pomáha pri akejkoľvek referencii.
# 2) Záloha: Je ťažké uchovať si späť obrovské objemy databázových tabuliek DW. Ale zálohy sú nevyhnutnosťou pre akékoľvek zotavenie po katastrofe. Ak teda máte fázové údaje, ktoré sú extrahovanými údajmi, môžete spustiť úlohy na transformáciu a načítanie, čím sa dajú havarované údaje znova načítať.
Ak chcete zálohovať pracovné dáta, môžete pracovné dáta často presunúť do súborových systémov, aby bolo možné ich ľahko komprimovať a uložiť vo vašej sieti. Kedykoľvek je to potrebné, stačí rozbaliť súbory, načítať ich do pracovných tabuliek a spustiť úlohy, aby sa znova načítali tabuľky DW.
# 3) Audit: Niekedy sa v systéme ETL môže vykonať audit, aby sa skontrolovalo dátové prepojenie medzi zdrojovým systémom a cieľovým systémom. Audítori môžu overiť pôvodné vstupné údaje na základe výstupných údajov na základe pravidiel transformácie.
Údaje o postupe a ich zálohovanie sú tu veľmi užitočné, aj keď zdrojový systém má údaje k dispozícii alebo nie. Audit sa môže uskutočniť kedykoľvek a v ktoromkoľvek období súčasných (alebo) minulých údajov. Architektúra oddychovej časti by mala byť dobre naplánovaná.
Angularjs rozhovor otázky a odpovede pre skúsených v .net
Návrh pracovnej oblasti
V dátovom sklade môžu byť údaje pracovnej oblasti navrhnuté takto:
Pri každom novom načítaní údajov do pracovných tabuliek je možné existujúce údaje vymazať (alebo) uchovať ako historické údaje pre referenciu. Ak sa údaje vymažú, nazýva sa to „prechodná pracovná oblasť“.
Ak sa údaje uchovávajú ako história, nazýva sa to „Perzistentná pracovná oblasť“. Môžete tiež navrhnúť oddychovú oblasť s kombináciou vyššie uvedených dvoch typov, ktorá je „hybridná“.
Pri návrhu pracovnej oblasti sú známe základné pravidlá:
- Prístup do oblasti zhromažďovania údajov by mal mať iba tím ETL. Dotaz na údaje o postupe je obmedzený na iných používateľov.
- Tabuľky v pracovnej oblasti môžu byť pridané, upravené alebo zrušené dátovým architektom ETL bez zapojenia ďalších používateľov. Pretože pracovná oblasť nie je oblasťou prezentácie na generovanie správ, slúži iba ako pracovný stôl.
- Architekt ETL by mal odhadnúť mieru ukladania údajov pracovnej oblasti, aby mohol poskytnúť podrobnosti správcom DBA a OS. Správcovia pridelia priestor pracovným databázam, súborovým systémom, adresárom atď.
Ak pracovná oblasť a databáza DW používajú rovnaký server, môžete dáta ľahko presunúť do systému DW. Ak sú servery odlišné, použite odkazy na databázu FTP (alebo).
Tok procesu ETL
Štandardný cyklus ETL prejde nasledujúcimi krokmi procesu:
- Spustením cyklu ETL spustíte úlohy postupne.
- Uistite sa, že sú všetky metadáta pripravené.
- Cyklus ETL pomáha extrahovať údaje z rôznych zdrojov.
- Overte extrahované údaje.
- Ak sa používajú pracovné tabuľky, cyklus ETL načíta údaje do pracovnej tabuľky.
- ETL vykonáva transformácie uplatnením obchodných pravidiel, vytváraním agregátov atď
- Ak sa vyskytnú nejaké poruchy, potom cyklus ETL ich upozorní vo forme správ.
- Potom cyklus ETL načíta údaje do cieľových tabuliek.
- Predchádzajúce údaje, ktoré je potrebné uložiť na účely historickej potreby, sa archivujú.
- Zvyšok údajov, ktoré sa nemusia ukladať, sa vyčistí.
Vývojový diagram procesu ETL:
Záver
V tomto tutoriáli sme sa dozvedeli o hlavných konceptoch procesu ETL v Data Warehouse. Odteraz by ste mali byť schopní pochopiť, čo je extrakcia dát, transformácia údajov, načítanie údajov a tok procesu ETL.
Prečítajte si pripravovaný návod a dozviete sa viac o testovaní Data Warehouse !!
=> Navštívte tu sériu exkluzívnych dátových skladov.
Odporúčané čítanie
- Výukový program na testovanie dátových skladov s príkladmi Sprievodca testovaním ETL
- 10 najlepších nástrojov na mapovanie údajov, ktoré sú užitočné v procese ETL (ZOZNAM 2021)
- Výukový program na testovanie dátových skladov ETL (kompletný sprievodca)
- Ťažba dát: Proces, techniky a hlavné problémy v analýze dát
- Proces ťažby dát: zúčastnené modely, kroky procesu a výzvy
- ETL Testovacie otázky a odpovede na pohovor
- Najlepšie 10 testovacích nástrojov ETL v roku 2021
- Top 10 populárnych nástrojov pre dátové sklady a testovacie technológie