top 32 best datastage interview questions
Zoznam najčastejšie kladených otázok a odpovedí na otázky týkajúce sa dátového rozhovoru, ktoré vám pomôžu pripraviť sa na nadchádzajúci rozhovor:
DataStage je veľmi populárny nástroj ETL, ktorý bol k dispozícii na súčasnom trhu.
V tomto článku zdieľam súbor veľmi užitočných odpovedí na otázky určených pre rozhovory s IBM Datastage. Ak sa na pohovore pozriete nižšie, budete mať pri pohovore otázky, ktoré vám môžu pomôcť.
Poskytli sme podrobné odpovede na otázky týkajúce sa rozhovoru s dátovým serverom, ktoré pomôžu začiatočníkom a skúseným odborníkom.
Odporúčané čítanie => Otázky na pohovor s testovaním ETL
Najčastejšie otázky a odpovede týkajúce sa rozhovoru o dátovom priestore
Začnime!
Otázka 1) Čo je to Datastage?
Odpovede: Datasage je Nástroj ETL daná IBM ktorý využíva GUI na navrhovanie riešení integrácie dát. Toto bol prvý nástroj ETL, ktorý poskytol koncept paralelizmu.
Je k dispozícii v nasledujúcich 3 rôznych vydaniach
- Serverová edícia
- Enterprise Edition
- Vydanie MVS
Otázka č. 2) Zvýraznite hlavné vlastnosti Datastage?
Odpovede: Hlavné vlastnosti Datastage sú zvýraznené nižšie:
- Je to súčasť integrácie údajov informačného servera IBM Infosphere.
- Je to nástroj založený na grafickom používateľskom rozhraní. Potrebujeme len presunúť a pustiť objekty Datastage a môžeme ich previesť na kód Datastage.
- Používa sa na vykonávanie operácií ETL (Extract, Transform, Load)
- Poskytuje pripojenie k viacerým zdrojom a viacerým cieľom súčasne
- Poskytuje techniky rozdelenia a paralelných procesov, ktoré umožňujú úlohám Datastage spracovávať obrovské objemy dát pomerne rýchlejšie.
- Má pripojenie na podnikovej úrovni.
Otázka č. 3) Aké sú primárne použitia nástroja Datastage?
Odpovede: Datastage je nástroj ETL, ktorý sa primárne používa na extrakciu údajov zo zdrojových systémov, ich transformáciu a konečné načítanie do cieľových systémov.
Otázka č. 4) Aké sú hlavné rozdiely, ktoré ste zaznamenali medzi verziou DataStage 7.x a 8.x?
Odpovede: Tu sú hlavné rozdiely medzi oboma verziami
7.x | 8.x |
---|---|
Verzia 7.x bola závislá od platformy | Táto verzia je nezávislá na platforme |
Má dvojvrstvovú architektúru, kde je dátové pripojenie postavené na serveri Unix | Má trojvrstvovú architektúru, kde máme v dolnej časti databázu serverov UNIX, potom databázu XMETA, ktorá funguje ako úložisko, a hore máme dátovú schránku. |
Sada parametrov neexistuje | Máme sady parametrov, ktoré sa dajú použiť kdekoľvek v projekte. |
Mali sme dizajnéra a manažéra ako dvoch samostatných klientov | V tejto verzii bol klient správcu zlúčený do klienta návrhára |
Pracovné miesta v tejto verzii sme museli hľadať ručne | Tu máme v úložisku možnosť rýchleho nájdenia, kde môžeme ľahko hľadať úlohy. |
Otázka č. 5) Môžete zdôrazniť hlavné vlastnosti informačného servera IBM Infosphere?
Odpovede: Hlavné vlastnosti balíka informačných serverov IBM Infosphere sú:
ako sa dostať do testovania qa
- Poskytuje jednotnú platformu pre integráciu údajov. Má schopnosť pripájať sa k viacerým zdrojovým systémom, ako aj zapisovať do viacerých cieľových systémov.
- Je založená na centralizovaných vrstvách. Všetky komponenty balíka sú schopné zdieľať základnú architektúru balíka.
- Má vrstvy pre zjednotené úložisko, pre integrované služby metadát a spoločný paralelný modul.
- Poskytuje nástroje na analýzu, čistenie, monitorovanie, transformáciu a doručovanie údajov.
- Má masívne možnosti paralelného spracovania. Ukázalo sa, že spracovanie je veľmi rýchle.
Otázka č. 6) Aké sú rôzne vrstvy v architektúre informačného servera?
Odpovede: Ďalej sú uvedené rôzne vrstvy architektúry informačného servera
- Jednotné užívateľské rozhranie
- Spoločné služby
- Jednotné paralelné spracovanie
- Zjednotené metadáta
- Spoločné pripojenie
Otázka č. 7) Čo by mohol byť systém zdroja údajov?
Odpovede: Môže to byť databázová tabuľka, plochý súbor alebo dokonca externá aplikácia, ako napríklad people soft.
Otázka č. 8) Na ktorom rozhraní budete pracovať ako vývojár?
Odpovede: Ako vývojár Datastage pracujeme na klientskom rozhraní Datastage, ktoré je známe ako dizajnér Datastage, ktorý je potrebné nainštalovať do lokálneho systému. V backende je pripojený k serveru Datastage.
Otázka č. 9) Aké sú rôzne bežné služby v Datastage?
Odpovede: Nižšie je uvedený zoznam bežných služieb v Datastage:
- Služby metadát
- Zjednotené nasadenie služby
- Bezpečnostné služby
- Slučkovanie a nahlasovacie služby.
Otázka 10) Ako začnete vyvíjať projekt Datastage?
Odpovede: Úplne prvým krokom je vytvorenie úlohy Datastage na serveri Datastage. Všetky objekty Datastage, ktoré vytvoríme, sú uložené v projekte Datastage. Projekt Datastage je samostatné prostredie na serveri pre úlohy, tabuľky, definície a rutiny.
Projekt Datastage je samostatné prostredie na serveri pre úlohy, tabuľky, definície a rutiny.
Otázka č. 11) Čo je úloha DataStage?
Odpovede: Úloha Datastage je jednoducho kód DataStage, ktorý vytvárame ako vývojár. Obsahuje rôzne fázy navzájom spojené, ktoré definujú údaje a tok procesov.
Fázy nie sú ničím iným ako funkciami, ktoré sa implementujú.
Napríklad: Predpokladajme, že chcem urobiť súčet sumy predaja. Môže to byť operácia „zoskupiť podľa“, ktorá sa uskutoční v jednej fáze.
skopírovať pole do iného poľa java
Teraz chcem výsledok zapísať do cieľového súboru. Túto operáciu teda vykoná iná etapa. Keď som definoval obe fázy, musím definovať tok údajov z fázy „zoskupiť do“ do fázy cieľového súboru. Tento dátový tok je definovaný prepojeniami DataStage.
Keď som definoval obe fázy, musím definovať tok údajov z fázy „zoskupiť do“ do fázy cieľového súboru. Tento dátový tok je definovaný prepojeniami DataStage.
Otázka č. 12) Čo sú sekvencie DataStage?
Odpovede: Sekvencia dátového pásma spája úlohy DataStage v logickom toku.
Otázka č. 13) Ako chcete dosiahnuť, aby ste rovnaký kód používali v rôznych úlohách?
Odpovede: To sa dá dosiahnuť pomocou zdieľaných kontajnerov. Zdieľali sme kontajnery na opätovné použitie. Zdieľaný kontajner je opakovane použiteľný prvok úlohy pozostávajúci z fáz a odkazov. Môžeme zavolať zdieľaný kontajner v rôznych úlohách Datastage.
Otázka č. 14) Kde sa ukladajú úlohy v dátovom pásme?
Odpovede: Úlohy Datastage sa ukladajú do úložiska. Máme rôzne priečinky, do ktorých môžeme ukladať úlohy Datastage.
Otázka č. 15) Kde vidíte rôzne fázy v návrhárovi?
Odpovede: Všetky fázy sú k dispozícii v okne s názvom „ Paleta „ . Má rôzne kategórie v závislosti od druhu funkcie, ktorú javisko poskytuje.
Rôzne kategórie stupňov na palete sú - Všeobecné, Kvalita údajov, Databáza, Vývoj, Súbor, Spracovanie atď.
Otázka č. 16) Čo sú fázy spracovania?
Odpovede: Fázy spracovania nám umožňujú použiť skutočnú transformáciu údajov.
Napríklad , „ fáza agregátora v kategórii Spracovanie nám umožňuje použiť všetky operácie typu „zoskupiť podľa“. Podobne máme aj ďalšie fázy spracovania, ako napríklad fáza „Pripojenie“, ktorá nám umožňuje spojiť údaje pochádzajúce z dvoch rôznych vstupných tokov.
Otázka č. 17) Aké sú kroky potrebné na vytvorenie jednoduchej základnej úlohy Datastage?
Odpovede: Kliknite na Súbor -> Kliknite na Nový -> Vyberte paralelnú úlohu a stlačte OK. Otvorí sa paralelné okno úlohy. V tejto paralelnej úlohe môžeme zostaviť rôzne fázy a definovať dátový tok medzi nimi. Najjednoduchšou úlohou DataStage je úloha ETL.
V tomto je potrebné najskôr extrahovať údaje zo zdrojového systému, pre ktorý môžeme použiť fázu súboru alebo databázu, pretože môj zdrojový systém môže byť buď databázová tabuľka, alebo súbor.
Predpokladajme, že čítame údaje z textového súboru. V takom prípade presunieme fázu „Sekvenčný súbor“ do okna paralelnej úlohy. Okrem týchto údajov teraz musíme vykonať určitú transformáciu. Použijeme fázu Transformer, ktorá je k dispozícii v kategórii Spracovanie. Pod fázu Transformer môžeme napísať ľubovoľnú logiku.
Nakoniec musíme spracované údaje načítať do nejakej cieľovej tabuľky. Povedzme, že moja cieľová databáza je DB2. Z tohto dôvodu vyberieme fázu konektora DB2. Potom tieto dátové stavy spojíme prostredníctvom postupných odkazov.
Po tomto , musíme nakonfigurovať fázy tak, aby smerovali na správny súborový systém alebo databázu.
Napríklad, Pre fázu sekvenčného súboru musíme definovať povinné parametre, ako je názov súboru, umiestnenie súboru, metadáta stĺpca.
Potom musíme zostaviť úlohu Datastage. Kompilácia úlohy skontroluje syntax úlohy a vytvorí spustiteľný súbor pre úlohu Datastage, ktorý je možné vykonať za behu programu.
Otázka 18) Pomenujte rôzne spôsoby triedenia v Datastage.
Odpovede: K dispozícii sú dve metódy:
- Zoradenie odkazov
- Integrované triedenie údajov
Otázka č. 19) Ak v dávke zlyhá medzi úlohami a chcete dávku reštartovať z konkrétnej úlohy, a nie od nuly, čo urobíte?
Odpovede: V Datastage existuje možnosť v poradí úloh - „Pridajte kontrolné body, aby bola sekvencia pri zlyhaní reštartovateľná“ . Ak je táto možnosť začiarknutá, potom môžeme znova spustiť postupnosť úloh od bodu, v ktorom zlyhala.
Otázka č. 20) Ako importujete a exportujete úlohy Datastage?
Odpovede: F alebo toto, nižšie uvedené funkcie príkazového riadku
- Import: dsimport.exe
- Export: dsexport.exe
Otázka č. 21) Aké sú rutiny v dátovom zázname? Využívajte rôzne typy rutín.
Odpovede: Rutinné je skupina funkcií, ktoré definuje správca DS. Prebieha cez transformátorový stupeň.
Existujú 3 druhy rutín:
- Paralelné rutiny
- Mainframe rutiny
- Rutiny servera
Otázka č. 22) Ako odstránite duplicitné hodnoty v DataStage?
Odpovede: Existujú dva spôsoby, ako zaobchádzať s duplicitnými hodnotami
- Na odstránenie duplikátov môžeme použiť fázu odstránenia duplikátov.
- Pomocou fázy Triedenie môžeme odstrániť duplikáty. Fáza triedenia má vlastnosť s názvom „povoliť duplikáty“. Pri nastavení tejto vlastnosti na hodnotu false nebudeme vo výstupe druhu dostávať duplicitné hodnoty.
Otázka č. 23) Aké sú rôzne druhy zobrazení, ktoré sú k dispozícii v režisérovi Datastage?
Odpovede: V režisérovi Datastage sú k dispozícii 3 druhy zobrazení. Oni sú:
- Zobrazenie denníka
- Stavový pohľad
- Pohľad na prácu
Otázka č. 24) Rozlišujte medzi informáciami a dátami. Ktorý by ste si vybrali a prečo?
Odpovede: Informatica aj DataStage sú výkonné nástroje ETL.
Získané body rozlišujú medzi oboma nástrojmi:
Výpočtový | Datasage | |
---|---|---|
Paralelné spracovanie | Informatica nepodporuje paralelné spracovanie. | Na rozdiel od toho poskytuje datastage mechanizmus pre paralelné spracovanie. |
Implementácia SCD | Implementácia SCD (pomaly sa meniacich rozmerov) v Informatice je celkom jednoduchá. | Implementácia SCD do dátového záznamu je však zložitá. Datastage podporuje SCD iba pomocou vlastných skriptov. |
Kontrola verzie | Informatica podporuje kontrolu verzií prostredníctvom registrácie a odhlásenia objektov. | Túto funkcionalitu však v dátovom úložisku nemáme k dispozícii. |
Dostupné transformácie | K dispozícii sú menšie transformácie. | Datastage ponúka väčšiu škálu transformácií ako Informatica. |
Sila vyhľadávania | Informatica poskytuje veľmi výkonné dynamické vyhľadávanie v pamäti cache | V dátovom sklade nemáme nič podobné. |
Podľa môjho osobného názoru by som išiel s Informaticou cez Datastage. Ako dôvod som považoval Informaticu za systematickejšiu a užívateľsky príjemnejšiu ako DataStage.
Ďalším silným dôvodom je, že ladenie a spracovanie chýb je v serveri Informatica oveľa lepšie v porovnaní s dátovým serverom. Takže oprava problémov je v Informatice ľahšia. Datastage neposkytuje úplnú podporu pri spracovaní chýb.
=> Chcete sa dozvedieť viac informácií o službe Informatica? Máme podrobné vysvetlenie tu.
Otázka č. 25) Poskytnite predstavu o systémových premenných.
Odpovede: Systémové premenné sú premenné iba na čítanie začínajúce sa na „@“ ktoré je možné prečítať buď transformačným stupňom, alebo rutinou. Používajú sa na získanie informácií o systéme.
Otázka č. 26) Aký je rozdiel medzi pasívnym a aktívnym stupňom?
Odpovede: Pasívne stupne sa využívajú na extrakciu a načítanie, zatiaľ čo aktívne stupne sa využívajú na transformáciu.
Otázka č. 27) Aké sú rôzne druhy kontajnerov dostupné v aplikácii Datastage?
Odpovede: V Datastage máme menej ako 2 kontajnery:
otázky a odpovede pre skúsených používateľov skriptu Unix
- Miestny kontajner
- Zdieľaný kontajner
Otázka č. 28) Je hodnota postupnej premennej uložená dočasne alebo trvalo?
Odpovede: Dočasne. Je to dočasná premenná.
Otázka č. 29) Aké sú rôzne typy pracovných miest v Datastage?
Odpovede: V Datastage máme dva typy pracovných pozícií:
- Úlohy na serveri (bežia postupne)
- Paralelné úlohy (vykonávajú sa paralelne)
Otázka č. 30) Aké je použitie nástroja Datastage director?
Odpovede: Prostredníctvom riaditeľa Datastage môžeme naplánovať úlohu, overiť úlohu, vykonať ju a monitorovať.
Otázka č. 31) Aké sú rôzne druhy hash súboru?
Odpovede: Máme 2 typy hash súborov:
- Statický hash súbor
- Dynamický hash súbor
Otázka č. 32) Čo je to štádium kvality?
Odpovede: Fáza kvality (tiež sa nazýva fáza integrity) je fáza, ktorá pomáha pri kombinovaní údajov pochádzajúcich z rôznych zdrojov.
Záver
Mali by ste mať so sebou praktické znalosti o architektúre Datastage, jej hlavných vlastnostiach a mali by ste byť schopní vysvetliť, v čom sa líši od niektorých iných populárnych nástrojov ETL.
Dodatočne , mali by ste mať nestranný názor na rôznych stupňoch a ich použití, komplexný spôsob vytvorenia úlohy Datastage a jeho spustenia.
Odporúčané čítanie => Čo je testovanie ETL?
Všetko najlepšie!
Odporúčané čítanie
- ETL Testovacie otázky a odpovede na pohovor
- 10 najlepších nástrojov na mapovanie údajov, ktoré sú užitočné v procese ETL (ZOZNAM 2021)
- 15 najlepších nástrojov ETL v roku 2021 (kompletný aktualizovaný zoznam)
- Výukový program na testovanie dátových skladov s príkladmi Sprievodca testovaním ETL
- Výukový program na testovanie dátových skladov ETL (kompletný sprievodca)
- Testovanie ETL vs. DB - bližší pohľad na potrebu testovania ETL, plánovanie a nástroje ETL
- Ako vykonať testovanie ETL pomocou nástroja Informatica PowerCenter
- Metadáta v dátovom sklade (ETL) vysvetlené pomocou príkladov
- Tlačová správa - iCEDQ Soft Nová verzia platformy ETL Testovanie a testovanie migrácie dát
- Najlepšie 10 testovacích nástrojov ETL v roku 2021
- Čo je proces ETL (extrakcia, transformácia, načítanie) v dátovom sklade?