oracle data warehouse
Príručka Oracle Data Warehouse s výhodami, architektúrou, rizikami a porovnaním so systémom OLTP (online spracovanie transakcií):
V predchádzajúcom návode z Komplexný sprievodca spoločnosťou Oracle , dozvedeli sme sa o produktoch a službách Oracle v rôznych doménach, ako sú aplikácie, databázy, OS atď. Tento článok poskytne podrobné znalosti o Oracle Data Warehousing. Predtým však najskôr pochopíme koncept Business Intelligence (BI).
Business Intelligence
Business Intelligence je softvérová doména, ktorá zahŕňa určité metódy, technológie, nástroje a aplikácie, ktorá pomáha pri štruktúrovaní, zdokonaľovaní a transformácii objemných údajov do inteligentného a zrozumiteľného formátu, ktorý môžu zákazníci využiť na generovanie prispôsobených správ, a tiež pomáha pri podnikaní rozhodnutia.
K dispozícii sú rôzne možnosti, ako sú dátové sklady, OLAP (online spracovanie transakcií), dolovanie dát, integrácia dát, rozhodovacie inžinierstvo, tabuľky atď.
Enterprise Data Warehousing (EDW) je jednou z hlavných súčastí BI, ktorá slúži na analytické a reportingové potreby podnikov. Data Warehouse je systém správy relačných databáz (RDBMS), ktorý uchováva konsolidované údaje prijaté z viacerých zdrojov na neskoršie použitie.
sql dotazy precvičujú otázky s odpoveďami
Čo sa dozviete:
- Prehľad Oracle Data Warehouse
- Porovnanie dátového skladu OLTP vs.
- Kontrastný dátový sklad a dátový trh
- Prehľad procesu ETL
- Architektúra dátového skladu
- Záver
Prehľad Oracle Data Warehouse
Prečo sa nazýva „Data Warehouse“?
Skúsme si pripomenúť význam slova „sklad“, aby sme sa spojili s výrazom „Data Warehouse“.
Fyzický sklad je úložisko, ktoré sa používa na skladovanie tovaru prijatého z rôznych zdrojov, ktorý je možné neskôr dodať zákazníkovi na základe jeho potrieb.
(obrázok zdroj )
Podobne je dátový sklad úložiskom údajov prijatých z rôznych zdrojových systémov. Týmito zdrojmi môžu byť akékoľvek úložné systémy, ako napríklad dátové trhy, ploché súbory alebo akékoľvek zariadenia na ukladanie médií, ktoré obsahujú údaje pre rôzne podnikové domény, ako sú HR, predaj, prevádzka, správa zdrojov a marketing atď.
Účel mať dátový sklad
Podnik mohol počuť o koncepcii dátového skladu, ale môže si byť istý, či by mal do svojho podniku zahrnúť aj ten. Stále by však existovala potreba ukladať údaje z rôznych zdrojov na spoločnú pôdu a archivovať ich, aby bolo možné uvoľniť úložný priestor z transakčných systémov. To je miesto, kde sa systém dátových skladov stáva obchodnou požiadavkou.
Pre rast na trhu by manažment mal byť dobrý v rozhodovaní, ktoré sa dá urobiť až po dôkladnom preštudovaní minulých trendov organizácie. Preto sa tieto archivované údaje uchovávajú v dátovom sklade v dobre organizovanom a vypočítanom formáte, aby ich bolo možné v budúcnosti použiť na obchodnú analýzu.
Výhody dátového skladu
Ak bude Data Warehouse úspešne implementovaný, môže byť prospešný nasledujúcimi spôsobmi:
# 1) Zjednodušila prácu analytikov dodaním vylepšenej verzie riešení business intelligence. Extrahuje údaje z viacerých zdrojových systémov, transformuje a ukladá ich, na čo ich môže podnik priamo analyzovať.
Ponúka tiež rôzne nástroje, ktoré podporujú nasledovné:
- Generovanie prispôsobených obchodných správ.
- Interaktívne informačné panely zobrazujúce požadované informácie.
- Schopnosť hĺbkovej analýzy pomocou dashboardov iba na získanie podrobností.
- Dolovanie dát a analýza trendov.
#dva) Aj po prijatí údajov z rôznych zdrojových systémov zostanú údaje v dátovom sklade konzistentné v dôsledku transformácií, ku ktorým došlo počas procesu ETL. Konzistentné údaje poskytujú rozhodujúcemu orgánu dôveru v presnosť.
# 3) Dátové sklady sú tiež definované ako šetrič času, pretože kritické údaje požadované zúčastnenými stranami pri podnikaní obchodných rozhodnutí sú k dispozícii na jednom mieste a dajú sa ľahko načítať.
# 4) Sú navrhnuté tak, aby uchovávali historické údaje, a preto je možné ich dopytovať na štúdium trendov v rôznych časových obdobiach. Pomáha tiež zúčastneným stranám odvodiť cestu budúceho rastu.
Riziká spojené s používaním dátového skladu
Každá nová implementácia obsahuje okrem výhod aj súbor rizík, o ktoré je potrebné sa starať.
Nižšie sú uvedené niektoré z uvedených rizík:
- Nekompatibilita zdrojových systémov so systémom skladovania údajov môže skončiť vykonaním mnohých manuálnych prác.
- Nesprávny odhad času procesu ETL môže viesť k prerušeniu práce.
- Jedná sa o veľmi špičkové úložné systémy, ktoré si preto vyžadujú vysokú údržbu. Akýkoľvek pracovný tok alebo obchodné zmeny môžu stáť veľmi vysoké.
- Nastavenie dátového skladu je časovo náročný proces, pretože potrebuje veľa času na pochopenie obchodných tokov a identifikáciu integračných schopností na navrhnutie skladu.
- Bezpečnosť dát je tu vždy riziko, pretože obsahuje odveké historické dáta, ktoré v prípade úniku môžu mať vplyv na podnikanie.
Porovnanie dátového skladu OLTP vs.
Rozdiely medzi OLTP a Data Warehouse možno pochopiť z nasledujúcej tabuľky.
OLTP | Skladovanie údajov |
---|---|
Vložiť a aktualizovať sú hlavné operácie, ktoré vykonávajú koncoví používatelia v systémoch OLTP. | Na dátové sklady sa dopytuje hlavne pomocou príkazu SELECT a je možné ich aktualizovať iba pomocou služieb ETL. |
Systémy OLTP podporujú obchodné transakcie. | Data Warehouse podporuje obchodné rozhodnutia prijaté po analýze dokončených obchodných transakcií. |
Údaje zostávajú nestále, t. J. Stále sa menia | Údaje sa nemajú meniť. |
Uchovávajú najaktuálnejšie údaje. | Uchovávajú historické údaje. |
Uchováva nespracované údaje bez akýchkoľvek výpočtov. | Drží súhrnné a dobre vypočítané údaje. |
Údaje sa normalizujú. | Údaje zostanú deaktivované. |
Veľkosť databázy Oracle sa môže pohybovať od 50 MB do 100 GB. | Veľkosť databázy Oracle sa môže pohybovať od 100 GB do 2 TB. |
Kontrastný dátový sklad a dátový trh
Data Warehouse a DataMart nie sú obidva pojmy podobné a zdá sa, že súvisia s ukladaním údajov.
Áno, súvisia a obe slúžia na ukladanie údajov. Hlavným rozdielom medzi oboma z nich je kapacita pre ukladanie údajov a tento rozdiel pomáha koncovým používateľom zvoliť správnu pamäťovú jednotku pre svoje systémy.
Data Mart má menšiu kapacitu na uchovávanie údajov v porovnaní s dátovým skladom, a preto ho možno považovať za jeho podmnožinu. Dátové trhy sa zvyčajne identifikujú na ukladanie obmedzených údajov, ktoré by mohli pochádzať z konkrétneho oddelenia alebo oblasti podnikania, zatiaľ čo dátové sklady sa dajú použiť na uchovanie konsolidovaných údajov pre všetkých.
Vezmime si príklad webovej stránky elektronického obchodu s rôznymi kategóriami tovaru, ako je móda, doplnky, predmety pre domácnosť, knihy a školské potreby, elektronika a ďalšie.
Dátové trhy teda môžu byť navrhnuté tak, aby ukladali produktové dátové kategórie, zatiaľ čo dátové sklady je možné používať na ukladanie kompletných dát webových stránok vrátane histórie na jednom mieste.
Dátové tržnice majú menšiu veľkosť, dajú sa vytvoriť oveľa rýchlejšie bez väčšej analýzy, ako je to potrebné pri návrhu dátového skladu. Na udržanie konzistencie údajov je však potrebné vynaložiť veľké úsilie na synchronizáciu viacerých údajových trhov.
Prehľad procesu ETL
ETL (extrakcia, transformácia a načítanie) je proces extrakcie údajov z rôznych zdrojových systémov, ich transformácie a načítania do systému Data Warehouse. Je to zložitý proces, ktorý vyžaduje interakciu s rôznymi zdrojovými systémami na extrakciu údajov, a teda aj technicky náročnými.
Transformácia opäť vyžaduje veľa analýz, aby sme pochopili formát zdrojových systémov a priniesli údaje do spoločného formátu, aby bolo možné rovnaké údaje uložiť v dátovom sklade.
Proces ETL je opakujúca sa úloha, ktorá môže bežať denne, týždenne alebo dokonca mesačne v závislosti od obchodných požiadaviek.
Architektúra dátového skladu
Poďme pochopiť architektúru Data Warehouse, ktorá je určená predovšetkým na ukladanie rafinovaných údajov pre vopred definované obchodné požiadavky. Architektúra pozostáva z 5 komponentov s tokom údajov zhora nadol.
Jedná sa o tieto komponenty:
- Zdroje dát
- Staging údajov
- Dátový sklad (dátové úložisko)
- Dátový pochod (ukladanie dát)
- Prezentácia údajov
Poďme pochopiť všetky stupne zaradené vyššie jednu po druhej.
# 1) Zdroje údajov
Existujú rôzne zdrojové systémy, ktoré slúžia ako vstup do systémov dátových skladov.
Môžu to byť tieto zdrojové systémy:
- Relačné databázy ako Oracle, DB2, MySQL, MS Access atď., Ktoré možno použiť na zaznamenávanie denných transakcií akejkoľvek organizácie. Tieto denné obchodné transakcie môžu súvisieť s ERP, CRM, predajom, financiami a marketingom atď.
- Ploché pilníky
- Webové služby
- Kanály RSS a podobné zdroje.
# 2) Staging údajov
ako napísať regresné testovacie prípady
Len čo sú zdroje údajov na mieste, ďalším krokom by bola extrakcia týchto údajov zo zdrojových systémov do pracovnej oblasti skladu.
rôzne typy testovania v qa
Pretože údaje boli načítané z rôznych systémov, ktoré dodržiavajú rôzne formáty úložiska, je potrebné ich reštrukturalizovať, aby sa zabezpečil ich spoločný formát. Transformácia dát preto prebieha ako ďalší krok.
Počas transformácie dochádza k čisteniu údajov, ktoré zahŕňa uplatňovanie obchodných pravidiel, filtrovanie údajov, odstraňovanie nadbytočnosti, formátovanie údajov, triedenie údajov atď.
# 3) Dátový sklad (úložisko dát)
Po extrakcii a transformácii údajov sa načítajú do multidimenzionálneho prostredia, napríklad Data Warehouse. Teraz môžu tieto spracované údaje koncoví používatelia použiť na analýzu a ďalšie účely.
# 4) Dátové trhy (ukladanie dát)
Ako už bolo spomenuté vyššie, že údaje sú teraz pripravené na spotrebovanie koncovými používateľmi, v ďalšom kroku je k dispozícii voliteľný proces vytvárania dátových záznamov. Tieto dátové trhy sa dajú použiť na ukladanie súhrnných údajov konkrétneho oddelenia alebo odvetvia podnikania na špeciálne použitie.
Napríklad, môžu byť pridané samostatné trhové dáta pre oddelenia ako Predaj, Financie a Marketing atď. ako ďalší krok, ktorý bude obsahovať konkrétne dáta a umožní analytikovi vykonávať podrobné dotazy pre obchodné potreby. Bráni tiež všetkým ostatným koncovým používateľom v prístupe k celému skladu, a tým zaisťuje bezpečnosť údajov.
# 5) Nástroje na prístup k údajom (prezentácia údajov)
Existuje množstvo preddefinovaných nástrojov Business Intelligence, ktoré môžu používatelia používať na prístup k dátovým skladom alebo údajovým trhom. Tieto klientske nástroje sú navrhnuté mimoriadne užívateľsky prívetivým spôsobom, pretože používateľom poskytujú rôzne možnosti prístupu k údajom.
Možnosti sú uvedené nižšie:
- Aplikáciou dotazu na Oracle alebo na iné databázy priamo cez SQL.
- Generovanie správy.
- Vývoj aplikácií.
- Používanie nástrojov na dolovanie dát atď.
Na trhu je málo populárnych nástrojov na skladovanie:
- Analytix DS
- Amazon Redshift
- Softvér Ab Initio
- Code Futures
- Holistická správa údajov
- Informatická spoločnosť
Cloudové dátové sklady
Dátové sklady sú svetom nadmerne uznávané. Vynára sa ďalšia otázka: Používame na nasadenie Data Warehouses optimalizovaný prístup?
Potom bolo predstavené cloudové dátové skladovanie, ktoré prevláda nad Enterprise Data Warehousing (EDW). Koncept cloudových dátových skladov ponúkol rôzne výhody.
Sú to tieto:
i) Škálovateľnosť: Údaje v cloudových systémoch sú ľahko škálovateľné hore a dole bez problémov, zatiaľ čo na tradičné škálovanie dátových skladov vyžaduje veľa času a zdrojov.
ii) Úspora nákladov: Cloudové dátové sklady priniesli pozoruhodný rozdiel v investíciách potrebných na nastavenie skladu. Znížili počiatočné náklady odstránením nákladov na
-
- Údržba hardvérových / serverových miestností.
- Personál potrebný na údržbu.
- Ostatné prevádzkové náklady.
(iii) Výkon: Výkon je ďalším faktorom, ktorý umožnil cloudovým systémom dominovať nad tradičnými. Ak sa podnikanie rozširuje globálne a k dátam je potrebné získať prístup z rôznych častí sveta s rýchlejším obratom, je najlepšie použiť cloudové sklady.
Massively Parallel Processing (MPP) je jednou z metód spoločného spracovania, ktorú používajú sklady na dosiahnutie toho istého.
(iv) Pripojiteľnosť: Ako už bolo spomenuté vyššie, ak je potrebné k údajom pristupovať z viacerých geografických miest, potrebujú používatelia vynikajúce pripojenie k týmto skladom a cloudový sklad to isté ponúka.
Záver
Dúfame, že ste všetci po prečítaní vyššie uvedeného článku získali nestranný názor na systém Oracle Data Warehousing. Ak potrebujete ďalšie informácie o konkrétnej téme týkajúcej sa skladovania údajov, dajte nám vedieť, aby sme to v nasledujúcich tutoriáloch mohli pokryť rovnako.
Výukový program PREV | NEXT Tutorial
Odporúčané čítanie
- Čo je to dátové jazero Dátový sklad vs Data Lake
- Výukový program na testovanie dátových skladov s príkladmi Sprievodca testovaním ETL
- Top 10 populárnych nástrojov pre dátové sklady a testovacie technológie
- Dimenzionálny dátový model v dátovom sklade - návod s príkladmi
- Metadáta v dátovom sklade (ETL) vysvetlené pomocou príkladov
- Výukový program na testovanie dátových skladov ETL (kompletný sprievodca)
- Typy schém v modelovaní dátových skladov - schéma Star & SnowFlake
- Čo je proces ETL (extrakcia, transformácia, načítanie) v dátovom sklade?