top 29 data engineer interview questions
Zoznam najčastejšie kladených otázok a odpovedí na otázky týkajúce sa dátových inžinierov, ktoré vám pomôžu pripraviť sa na nadchádzajúci rozhovor:
V súčasnosti je dátové inžinierstvo po vývoji softvéru najvyhľadávanejšou oblasťou a stalo sa jednou z najrýchlejšie sa rozvíjajúcich pracovných príležitostí na svete. Anketári chcú pre svoj tím najlepších dátových technikov, a preto majú tendenciu dôkladne kandidovať. Hľadajú určité zručnosti a vedomosti. Musíte byť zodpovedajúcim spôsobom pripravení na splnenie ich očakávaní.
Čo sa dozviete:
- Zodpovednosti dátového inžiniera
- Zručnosti dátového inžiniera
- Často kladené otázky týkajúce sa rozhovoru s dátovým inžinierom
- Záver
Zodpovednosti dátového inžiniera
Medzi zodpovednosti patrí:
- Zaobchádzať s údajmi v rámci spoločnosti a dohliadať na ne.
- Udržiavajte a spravujte zdrojový systém údajov a pracovné oblasti.
- Zjednodušte čistenie údajov spolu s následným vytváraním a zlepšovaním duplikácie údajov.
- Sprístupniť a vykonať transformáciu údajov aj proces ETL.
- Extrahovanie a vytváranie ad-hoc vytvárania dotazov na údaje.
Zručnosti dátového inžiniera
S kvalifikáciou tiež potrebujete určité zručnosti. Obidva sú rozhodujúce, keď sa pripravujete na pozíciu dátového inžiniera. Uvádzame zoznam 5 najlepších zručností, ktoré nie sú potrebné, aby ste sa stali úspešným dátovým inžinierom.
- Zručnosti vo vizualizácii údajov.
- Python a SQL.
- Znalosti o modelovaní dát pre veľké dáta aj pre dátové sklady
- Matematika
- Know-how v ETL
- Zážitok z veľkého dátového priestoru
Skôr ako sa začnete pripravovať na pohovor, musíte pracovať na zdokonaľovaní týchto schopností. A keď máte zdokonalené schopnosti, tu je niekoľko otázok na pohovor, ktoré si môžete pripraviť, aby si vás anketári všimli a najali aj vás.
Často kladené otázky týkajúce sa rozhovoru s dátovým inžinierom
Všeobecné otázky týkajúce sa rozhovoru
Otázka č. 1) Prečo ste študovali dátové inžinierstvo?
Odpoveď: Cieľom tejto otázky je zistiť vaše vzdelanie, pracovné skúsenosti a pozadie. Mohla to byť prirodzená voľba v pokračovaní vášho vzdelania v odbore informačné systémy alebo informatika. Alebo ste možno pracovali v podobnom odbore alebo prechádzate z úplne inej pracovnej oblasti.
Nech už je váš príbeh akýkoľvek, nezdržujte sa a nevyhýbajte sa. A keď budete zdieľať, neustále zdôrazňujte zručnosti, ktoré ste sa počas tejto cesty naučili, a vynikajúcu prácu, ktorú ste odviedli.
Nezačnite však rozprávať. Začnite trochu svojím vzdelaním a potom sa dostaňte k časti, keď ste vedeli, že chcete byť dátovým inžinierom. A potom pokračujte ďalej, ako sa dostanete sem.
Otázka č. 2) Čo je podľa vás najťažšie na tom, že ste dátovým inžinierom?
Odpoveď: Na túto otázku musíte odpovedať úprimne. Nie každý aspekt všetkých pracovných pozícií je ľahký a váš anketár to vie. Cieľom tejto otázky nie je presne určiť vašu slabosť, ale vedieť, ako sa dopracovávate k veciam, s ktorými je ťažké sa vyrovnať.
Môžete povedať niečo ako: „Ako dátovému inžinierovi je pre mňa ťažké splniť požiadavku všetkých oddelení v spoločnosti, kde väčšina z nich často prichádza s protichodnými požiadavkami. Často mi teda pripadá náročné vyvážiť ich podľa toho.
Ale ponúkol mi cenný pohľad na fungovanie oddelení a na úlohu, ktorú zohrávajú v celkovej štruktúre spoločnosti. “ A to je len jeden príklad. Môžete a mali by ste uviesť svoj uhol pohľadu.
Otázka č. 3) Povedzte nám incident, keď ste mali spojiť údaje z rôznych zdrojov, ale narazili ste na neočakávané problémy a ako ste ich vyriešili?
Odpoveď: Táto otázka je príležitosťou, aby ste preukázali svoje schopnosti riešiť problémy a to, ako sa prispôsobujete náhlym zmenám plánu. Otázku je možné riešiť všeobecne alebo špecificky v kontexte s dátovým inžinierstvom. Ak ste takúto skúsenosť ešte nezažili, môžete poskytnúť hypotetickú odpoveď.
Tu je príklad odpovede: „V mojej predchádzajúcej franšízovej spoločnosti som mal ja a môj tím zhromažďovať údaje z rôznych miest a systémov. Jedna z povolení však zmenila svoj systém bez predchádzajúceho upozornenia. Výsledkom bolo niekoľko problémov so zberom a spracovaním údajov.
Aby sme to vyriešili, museli sme najskôr prísť s rýchlym krátkodobým riešením na získanie základných údajov do systému spoločnosti. A potom sme vyvinuli dlhodobé riešenie, aby sa zabránilo opakovaniu takýchto problémov. “
Otázka č. 4) V čom sa práca dátového inžiniera líši od práce dátového architekta?
Odpoveď: Táto otázka má skontrolovať, či chápete, že v tíme dátového skladu existujú rozdiely. S odpoveďou sa nemôžete pokaziť. Zodpovednosti oboch sa prekrývajú alebo sa líšia v závislosti od toho, čo potrebuje oddelenie údržby databázy alebo spoločnosť.
Môžete povedať, že „podľa mojich skúseností sa rozdiel medzi úlohami dátového inžiniera a dátového architekta líši od spoločnosti k spoločnosti. Aj keď veľmi úzko spolupracujú, existujú rozdiely v ich všeobecných povinnostiach.
Za správu serverov a budovanie architektúry dátového systému spoločnosti zodpovedá dátový architekt. A práca dátového inžiniera je testovať a udržiavať túto architektúru. Spolu s tým sa my, dátoví inžinieri, staráme o to, aby údaje, ktoré majú analytici k dispozícii, boli kvalitné a spoľahlivé. “
Otázky týkajúce sa technického rozhovoru
Otázka č. 5) Čo sú štyri V spoločnosti Big Data?
(obrázok zdroj )
Odpoveď:
Štyri veľké dáta veľkých dát sú:
- Prvé V je Rýchlosť ktorá sa vzťahuje na rýchlosť generovania veľkých dát v priebehu času. Možno to teda považovať za analýzu údajov.
- Druhým V je Odroda rôznych foriem veľkých dát, či už ide o obrázky, súbory denníka, mediálne súbory a hlasové nahrávky.
- Tretie V je Objem údajov. Môže to byť v počte používateľov, počte tabuliek, veľkosti údajov alebo počte záznamov.
- Štvrté V je Pravdivosť súvisiace s neistotou alebo istotou údajov. Inými slovami, rozhoduje o tom, nakoľko spoľahlivé sú údaje.
Otázka č. 6) Ako sa líšia štruktúrované údaje od neštruktúrovaných?
Odpoveď: Nasledujúca tabuľka vysvetľuje rozdiely:
Štruktúrované dáta | Neštruktúrované údaje | |
---|---|---|
7) | Súhrnné údaje sú obsiahnuté v jednej dimenzii. | Údaje sú rozdelené do rôznych dimenzií. |
1) | Môže byť uložený v MS Access, Oracle, SQL Server a ďalších podobných tradičných databázových systémoch. | Nemôže byť uložený v tradičnom databázovom systéme. |
2) | Môže byť uložený v rôznych stĺpcoch a riadkoch. | Nemôže byť uložený v riadkoch a stĺpcoch. |
3) | Príkladom štruktúrovaných údajov sú transakcie online aplikácií. | Príkladom neštruktúrovaných údajov sú tweety, vyhľadávanie Google, lajky na Facebooku atď. |
4) | Dá sa ľahko definovať v rámci dátového modelu. | Podľa dátového modelu to nemožno definovať. |
5) | Dodáva sa s pevnou veľkosťou a obsahom. | Dodáva sa v rôznych veľkostiach a obsahu. |
Otázka č. 7) Ktoré nástroje ETL poznáte?
Odpoveď: Pomenujte všetky nástroje ETL, s ktorými ste pracovali. Môžete povedať: „Pracoval som so správami údajov SAS, IBM Infosphere a SAP Data Services. Ale môj preferovaný je PowerCenter od Informatica. Je efektívny, má extrémne vysoký výkon a je flexibilný. Stručne povedané, má všetky dôležité vlastnosti dobrého nástroja ETL.
Bez problémov prevádzkujú operácie s obchodnými údajmi a zaručujú prístup k údajom, aj keď v podniku alebo jeho štruktúre dôjde k zmenám. “ Uistite sa, že hovoríte iba o tých, s ktorými ste spolupracovali a s ktorými pracujete radi. Prípadne by to mohlo váš rozhovor pripraviť neskôr.
Otázka č. 8) Povedzte nám o návrhových schémach modelovania údajov.
Odpoveď: Dátové modelovanie sa dodáva s dvoma typmi návrhových schém.
Vysvetľujú sa takto:
- Prvý z nich je Rozpis hviezd , ktorá je rozdelená na dve časti - tabuľku faktov a tabuľku dimenzií. Tu sú obe tabuľky spojené. Hviezdna schéma je najjednoduchší štýl schémy dátového trhu a tiež sa k nej najviac pristupuje. Je pomenovaný tak, pretože jeho štruktúra pripomína hviezdu.
- Druhá z nich je Schéma snehovej vločky čo je rozšírenie hviezdnej schémy. Dodáva ďalšie rozmery a nazýva sa snehová vločka, pretože svojou štruktúrou pripomína snehovú vločku.
Otázka č. 9) Aký je rozdiel medzi hviezdnou schémou a schémou snehovej vločky?
(obrázok zdroj )
Odpoveď: Nasledujúca tabuľka vysvetľuje rozdiely:
Rozpis hviezd | Schéma snehovej vločky | |
---|---|---|
1) | Tabuľka dimenzií obsahuje hierarchie dimenzií. | Pre hierarchie existujú samostatné tabuľky. |
2) | Tu tabuľky dimenzií obklopujú tabuľku faktov. | Tabuľky dimenzií obklopujú tabuľku faktov a potom sú ďalej obklopené tabuľkami dimenzií. |
3) | Tabuľka faktov a ľubovoľná tabuľka dimenzií sú spojené jediným spojením. | Na načítanie údajov je potrebných veľa spojení. |
4) | Dodáva sa s jednoduchým dizajnom DB. | Má komplexný DB dizajn. |
5) | Funguje dobre aj s denormalizovanými dopytmi a dátovými štruktúrami. | Funguje iba s normalizovanou dátovou štruktúrou. |
6) | Redundancia dát - vysoká. | Redundancia dát - veľmi nízka. |
8) | Rýchlejšie spracovanie kociek. | Komplexné spojenie spomaľuje spracovanie kociek. |
Otázka č. 10) Aký je rozdiel medzi dátovým skladom a operačnou databázou?
Odpoveď: Nasledujúca tabuľka vysvetľuje rozdiely:
Dátový sklad | Prevádzková databáza | |
---|---|---|
7) | Podporuje niekoľko súbežných klientov ako OLTP. | Podporuje mnoho súbežných klientov. |
1) | Sú navrhnuté tak, aby podporovali analytické spracovanie veľkého množstva. | Tieto podporujú transakčné spracovanie veľkého množstva. |
2) | Historické údaje ovplyvňujú dátový sklad. | Aktuálne údaje ovplyvňujú operačnú databázu. |
3) | Pravidelne sa pridávajú nové, stále dáta, ktoré sa však stále nemenia. | Údaje sa pravidelne aktualizujú podľa potreby. |
4) | Je určený na analýzu obchodných opatrení podľa atribútov, tematických oblastí a kategórií. | Je určený na spracovanie v reálnom čase a obchodné rokovania. |
5) | Optimalizované pre veľké zaťaženie a zložité dotazy, ktoré pristupujú k mnohým riadkom pri každej tabuľke. | Optimalizované pre jednoduchú jednu skupinu transakcií, ako je načítanie a pridanie jedného riadku po druhom pre každú tabuľku. |
6) | Je plný platných a konzistentných informácií a nepotrebuje žiadne overenie v reálnom čase. | Vylepšené pre validáciu prichádzajúcich informácií a používa tabuľky validačných údajov. |
8) | Jeho systémy sú zamerané hlavne na predmety. | Jeho systémy sú orientované hlavne na procesy. |
9) | Dáta vychádzajú. | Data In. |
10) | Je možné získať prístup k obrovskému množstvu údajov. | Je možný prístup k obmedzenému počtu údajov. |
jedenásť) | Vytvorené pre OLAP, online analytické spracovanie. | Vytvorené pre OLTP, online spracovanie transakcií. |
Otázka č. 11) Poukážte na rozdiel medzi OLTP a OLAP.
Odpoveď: Nasledujúca tabuľka vysvetľuje rozdiely:
OLTP | OLAP | |
---|---|---|
7) | Objem dát nie je príliš veľký. | Má veľký objem dát. |
1) | Používa sa na správu prevádzkových údajov. | Používa sa na správu informačných údajov. |
2) | Používajú ho klienti, úradníci a IT profesionáli. | Používajú to manažéri, analytici, riadiaci pracovníci a ďalší znalostní pracovníci. |
3) | Je orientovaný na zákazníka. | Je orientovaný na trh. |
4) | Spravuje aktuálne údaje, ktoré sú mimoriadne podrobné a slúžia na rozhodovanie. | Spravuje obrovské množstvo historických údajov. Poskytuje tiež prostriedky na agregáciu a sumarizáciu spolu so správou a ukladaním údajov na rôznych úrovniach podrobnosti. Preto sa údaje pri rozhodovaní stávajú pohodlnejšie. |
5) | Má veľkosť databázy 100 MB-GB. | Má veľkosť databázy 100 GB-TB. |
6) | Používa dátový model ER (entity-relationship) spolu s návrhom databázy, ktorá je orientovaná na aplikácie. | OLAP používa buď snehovú vločku alebo hviezdny model spolu s návrhom databázy, ktorá je zameraná na predmet. |
8) | Režim prístupu - čítanie / zápis. | Režim prístupu je väčšinou zápis. |
9) | Úplne normalizované. | Čiastočne normalizované. |
10) | Rýchlosť jeho spracovania je veľmi rýchla. | Rýchlosť jeho spracovania závisí od počtu súborov, ktoré obsahuje, zložitých dotazov a obnovenia dávkových údajov |
Otázka č. 12) Vysvetlite hlavný koncept rámca Apache Hadoop.
Odpoveď: Je založený na algoritme MapReduce. V tomto algoritme sa na spracovanie obrovskej množiny údajov používajú operácie Map a Reduce. Údaje mapujte, filtrujte a triedte, zatiaľ čo funkcia Reduce (Znížiť) sumarizuje údaje. Kľúčovými bodmi v tomto koncepte sú škálovateľnosť a odolnosť voči chybám. Tieto funkcie môžeme v Apache Hadoop dosiahnuť efektívnym zavedením MapReduce a Multi-threading.
Otázka č. 13) Pracovali ste niekedy s Hadoop Framework?
(obrázok zdroj )
Odpoveď: Mnoho vedúcich zamestnancov sa v rozhovore pýta na nástroj Hadoop, aby zistili, či viete, aké nástroje a jazyky spoločnosť používa. Ak ste pracovali s Hadoop Framework, povedzte im podrobnosti o vašom projekte, aby ste priblížili svoje vedomosti a zručnosti s týmto nástrojom a jeho schopnosťami. A ak ste s ním nikdy nepracovali, bude fungovať aj nejaký výskum, ktorý by preukázal určitú znalosť jeho atribútov.
Môžeš povedať, napríklad, 'Počas práce na tímovom projekte som mal možnosť pracovať s Hadoop.' Boli sme zameraní na zvýšenie efektívnosti spracovania dát, preto sme sa kvôli jeho schopnosti zvýšiť rýchlosť spracovania dát bez zníženia kvality pri jeho distribuovanom spracovaní rozhodli použiť Hadoop.
A keďže moja predchádzajúca spoločnosť očakávala v najbližších mesiacoch výrazný nárast spracovania údajov, prišla vhod aj jej škálovateľnosť. Hadoop je tiež sieť s otvoreným zdrojovým kódom založená na prostredí Java, vďaka čomu je najlepšou voľbou pre projekty s obmedzenými zdrojmi a ľahko sa používa bez ďalšieho školenia. “
záťažové testovanie vs výkonové testovanie vs záťažové testovanie
Otázka č. 14) Spomeňte niektoré dôležité vlastnosti softvéru Hadoop.
Odpoveď: Funkcie sú nasledujúce:
- Hadoop je bezplatný rámec otvoreného zdroja, kde môžeme meniť zdrojový kód podľa našich požiadaviek.
- Podporuje rýchlejšie distribuované spracovanie údajov. HDFS Hadoop ukladá údaje distribuovaným spôsobom a na paralelné spracovanie údajov používa MapReduce.
- Hadoop je vysoko tolerantný a štandardne na rôznych uzloch umožňuje používateľovi vytvoriť tri repliky každého bloku. Pokiaľ je teda jeden z uzlov neúspešný, môžeme údaje obnoviť z iného uzla.
- Je tiež škálovateľný a je kompatibilný s mnohými hardvérmi.
- Pretože Hadoop ukladal údaje v klastroch, nezávisle od všetkých ostatných operácií. Preto je spoľahlivý. Uložené údaje zostanú nedotknuté nesprávnou funkciou strojov. A preto je tiež vysoko dostupný.
Otázka č. 15) Ako môžete zvýšiť obchodné príjmy analýzou veľkých dát?
Odpoveď: Analýza veľkých dát je dôležitou súčasťou podnikania, pretože im pomáha odlíšiť sa od seba a zvyšuje príjmy. Big data analytics ponúka prispôsobené návrhy a odporúčania podnikom prostredníctvom prediktívnej analýzy.
Pomáha tiež podnikom pri zavádzaní nových produktov na základe preferencií a potrieb zákazníkov. To pomáha podnikom zarobiť podstatne viac, približne o 5 - 20% viac. Spoločnosti ako Bank of America, LinkedIn, Twitter, Walmart, Facebook atď. Používajú na zvýšenie svojich výnosov analýzu veľkých dát.
Otázka č. 16) Aké kroky musíte dodržiavať pri zavádzaní riešenia Big Data?
Odpoveď: Pri zavádzaní riešenia Big Data je potrebné dodržať tri kroky:
- Príjem dát Je to prvý krok k nasadeniu riešenia Big Data. Jedná sa o extrakciu údajov z rôznych zdrojov, ako sú SAP, MYSQL, Salesforce, súbory protokolov, interná databáza atď. K príjmu údajov môže dôjsť prostredníctvom streamovania v reálnom čase alebo dávkových úloh.
- Úložisko dát- Po prijatí údajov by sa extrahované údaje mali niekde uložiť. Je uložený buď v databázach HDFS alebo NoSQL. HDFS funguje dobre pre sekvenčný prístup cez HBase pre náhodný prístup na čítanie alebo zápis.
- Spracovanie dát- Toto je tretí a posledný krok pre nasadenie na riešení veľkých dát. Po uložení sú údaje spracovávané prostredníctvom jedného z hlavných rámcov ako MapReduce alebo Pig.
Otázka č. 17) Čo je blok a blokový skener v HDFS?
Odpoveď: Blok je minimálne množstvo údajov, ktoré je možné zapisovať alebo čítať v HDFS. 64 MB je predvolená veľkosť bloku.
Scanner blokov je program, ktorý pravidelne sleduje počet blokov na DataNode a overuje ich kvôli možným chybám kontrolného súčtu a poškodeniu údajov.
Otázka č. 18) Akým výzvam ste čelili pri zavádzaní nových aplikácií na analýzu údajov, ak ste ich už niekedy zaviedli?
Odpoveď: Ak ste nikdy nezaviedli novú analýzu údajov, môžete to jednoducho povedať. Pretože sú dosť drahé, a preto sa tak nestáva často, aby to spoločnosti robili. Ale ak sa spoločnosť rozhodne investovať do nej, môže to byť mimoriadne ambiciózny projekt. Na inštaláciu, pripojenie, používanie a údržbu týchto nástrojov by bolo potrebných vysoko vyškolených zamestnancov.
Takže ak ste niekedy týmto procesom prešli, povedzte im, akým prekážkam ste čelili a ako ste ich prekonali. Ak ste to neurobili, povedzte im podrobne, čo o postupe viete. Táto otázka určuje, či máte základné know-how na prekonanie problémov, ktoré by mohli vzniknúť pri zavádzaní nových aplikácií na analýzu údajov.
Vzorová odpoveď; „Bol som súčasťou zavádzania novej dátovej analýzy v mojej predchádzajúcej spoločnosti. Celý proces je prepracovaný a vyžaduje si dobre naplánovaný proces pre čo najplynulejší prechod.
Ani pri bezchybnom plánovaní sa však nemôžeme vždy vyhnúť nepredvídaným okolnostiam a problémom. Jedným z takýchto problémov bol neuveriteľne vysoký dopyt po používateľských licenciách. Išlo to nad rámec toho, čo sme očakávali. Na získanie ďalších licencií musela spoločnosť prerozdeliť finančné zdroje.
Školenie bolo tiež potrebné naplánovať tak, aby to nebránilo pracovnému postupu. Museli sme tiež optimalizovať infraštruktúru tak, aby podporovala vysoký počet používateľov. “
Otázka č. 19) Čo ak zlyhá NameNode v klastri HDFS?
Odpoveď: Klaster HDFS má iba jeden NameNode a uchováva metadáta DataNode. Iba jeden NameNode dáva klastrom HDFS jediný bod zlyhania.
Ak teda NameNode spadne, systémy môžu byť nedostupné. Aby sme tomu zabránili, môžeme určiť sekundárny NameNode, ktorý berie pravidelné kontrolné body v súborových systémoch HDFS, ale nejde o zálohu NameNode. Môžeme ho však použiť na opätovné vytvorenie NameNode a reštartovanie.
Otázka 20) Rozdiel medzi NAS a DAS v klastri Hadoop.
Odpoveď: Na NAS sú úložná a výpočtová vrstva samostatné a potom sa úložisko distribuuje medzi rôzne servery v sieti. V prostredí DAS je úložisko obvykle pripojené k výpočtovému uzlu. Apache Hadoop je založený na princípe spracovania v blízkosti konkrétneho umiestnenia údajov.
Preto by úložný disk mal byť pre výpočet lokálny. DAS vám pomôže získať výkon v klastri Hadoop a dá sa použiť na komoditný hardvér. Jednoducho povedané, je to nákladovo efektívnejšie. Ukladanie na NAS je preferované s vysokou šírkou pásma okolo 10 GbE.
Otázka č. 21) Je budovanie databázy NoSQL lepšie ako vytváranie relačnej databázy?
(obrázok zdroj )
Odpoveď: Pri odpovedi na túto otázku musíte preukázať svoje vedomosti o oboch databázach. Musíte tiež doložiť príkladom situácie, ktorá ukazuje, ako budete alebo ste použili know-how v skutočnom projekte.
Vaša odpoveď by mohla znieť asi takto: „V niektorých situáciách by mohlo byť prospešné vybudovať NoSQL databázu. V mojej poslednej spoločnosti, keď sa franšízový systém exponenciálne zväčšoval, sme sa museli rýchlo zväčšiť, aby sme čo najlepšie využili všetky prevádzkové a predajné údaje, ktoré sme mali.
Pri riešení zvýšeného zaťaženia pri spracovaní údajov je škálovanie lepšie ako škálovanie na väčších serveroch. Je to nákladovo efektívne a ľahšie dosiahnuteľné pomocou databáz NoSQL, pretože dokáže ľahko zvládnuť obrovské objemy dát. To sa hodí, keď potrebujete v budúcnosti rýchlo zareagovať na značné zmeny v načítaní dát.
Aj keď relačné databázy majú lepšie pripojenie k akýmkoľvek analytickým nástrojom. Ale databázy NoSQL majú čo ponúknuť. “
Otázka č. 22) Čo robíte, keď narazíte na neočakávaný problém s údržbou údajov? Vyskúšali ste na to nejaké out-of-the-box riešenie?
Odpoveď: Pri každej rutinnej úlohe nevyhnutne vznikajú neočakávané problémy, a to aj pri údržbe údajov. Cieľom tejto otázky je vedieť, či a ako môžete riešiť situácie pod vysokým tlakom.
Môžete povedať niečo ako „údržba údajov môže byť rutinnou úlohou, ale je nevyhnutné pozorne sledovať konkrétne úlohy vrátane zaistenia úspešného vykonania skriptov.
Raz pri kontrole integrity som narazil na poškodený index, ktorý by mohol v budúcnosti spôsobiť vážne problémy. Preto som prišiel s novou úlohou údržby, ktorá má zabrániť pridávaniu poškodených indexov do databázy spoločnosti. “
Otázka č. 23) Už ste niekedy trénovali niekoho vo svojom odbore? Ak áno, čo vám na tom prišlo najnáročnejšie?
Odpoveď: Zvyčajne sú potrební dátoví inžinieri, aby vyškolili svojich spolupracovníkov v nových systémoch alebo procesoch, ktoré ste vytvorili, alebo vyškolili nových zamestnancov v už existujúcich systémoch a architektúre. Takže s touto otázkou chce váš anketár vedieť, či to zvládnete. Ak ste nemali možnosť niekoho trénovať sami, hovorte o výzvach, ktoré niekto trénoval, alebo o ktorých viete, že vám čelili.
Ukážka ideálnej odpovede bude asi takáto. 'Áno, mal som príležitosť vyškoliť malé aj veľké obe skupiny spolupracovníkov.' Školenie nových zamestnancov s významnými skúsenosťami v inej spoločnosti je tou najnáročnejšou úlohou, s akou som sa stretol. Často sú tak zvyknutí pristupovať k údajom z jednej inej perspektívy, že sa snažia akceptovať spôsob, akým robíme veci.
Často majú mimoriadny názor a myslia si, že vedia všetko dobre, a preto im trvá veľa času, kým si uvedomia, že problém môže mať viac riešení. Snažím sa ich povzbudiť, aby otvorili svoje mysle a prijali alternatívne možnosti, a to zdôraznením toho, aká úspešná bola naša architektúra a procesy. “
Otázka č. 24) Aké sú výhody a nevýhody práce v cloudových výpočtoch?
(obrázok zdroj )
Odpoveď:
Klady:
- Žiadne náklady na infraštruktúru.
- Minimálne riadenie.
- Žiadne ťažkosti týkajúce sa správy a správy.
- Ľahko prístupný.
- Zaplaťte za to, čo používate.
- Je to spoľahlivé.
- Ponúka kontrolu, zálohovanie a obnovu dát.
- Obrovské úložisko.
Zápory:
- Na správne fungovanie je potrebné dobré pripojenie na internet a rovnako dobrá šírka pásma.
- Má to svoj výpadok.
- Vaša kontrola nad infraštruktúrou bude obmedzená.
- Existuje malá flexibilita.
- Má určité priebežné náklady.
- Môžu sa vyskytnúť bezpečnostné a technické problémy.
Otázka č. 25) Práca dátových inžinierov je zvyčajne „v zákulisí“. Vyhovuje vám práca mimo „reflektor“?
Odpoveď: Váš náborový manažér chce vedieť, či máte radi reflektory alebo či môžete dobre pracovať v oboch situáciách. Vaša odpoveď by im mala napovedať, že hoci máte radi reflektor, rovnako vám vyhovuje práca v pozadí.
„Pre mňa je dôležité, že by som mal byť odborníkom vo svojom odbore a prispievať k rastu svojej spoločnosti. Ak musím pracovať vo svetle reflektorov, je mi dobre aj to robiť. Ak sa vyskytne problém, s ktorým sa musia riadiaci pracovníci vyrovnať, neváham zdvihnúť hlas a upozorniť ho na to. “
Otázka č. 26) Čo sa stane, keď skener blokov zistí poškodený dátový blok?
Odpoveď: Najskôr sa DataNode hlási k NameNode. Potom NameNode začne vytvárať novú repliku prostredníctvom repliky poškodeného bloku. Poškodený dátový blok nebude odstránený, ak sa počet replikácií správnych replík zhoduje s faktorom replikácie.
Otázka č. 27) Už ste niekedy našli nové inovatívne využitie pre už existujúce údaje? Malo to pozitívny vplyv na spoločnosť?
Odpoveď: Táto otázka je určená pre nich, aby zistili, či ste sebamotivovaní a natoľko dychtiví prispieť k úspechu projektov. Ak je to možné, odpovedzte na otázku príkladom, kde ste sa ujali projektu alebo ste prišli s nápadom. A ak ste niekedy predstavili nové riešenie problému, nenechajte si ho ujsť.
Príklad odpovede: „Vo svojom poslednom zamestnaní som sa podieľal na zisťovaní, prečo máme vysokú mieru fluktuácie zamestnancov. Pozorne som sledoval údaje z rôznych oddelení, kde som našiel vysoko korelované údaje v kľúčových oblastiach ako financie, marketing, prevádzka atď. A miera fluktuácie zamestnancov.
Spolupracoval s analytikmi oddelenia pre lepšie pochopenie týchto korelácií. S našim porozumením sme vykonali niekoľko strategických zmien, ktoré pozitívne ovplyvnili mieru fluktuácie zamestnancov. “
Otázka č. 28) Aké netechnické zručnosti si myslíte, že vám ako dátovému inžinierovi prídu najviac užitočné?
Odpoveď: Snažte sa vyhnúť najočividnejším odpovediam, ako sú komunikačné alebo medziľudské schopnosti. Môžete povedať: „Stanovenie priorít a multitasking sa mi pri práci často hodili. Za deň dostaneme rôzne úlohy, pretože pracujeme s rôznymi oddeleniami. Preto je nevyhnutné, aby sme im dali prednosť. Uľahčuje nám prácu a pomáha nám efektívne ich všetky dokončiť. “
Otázka 29) S akými bežnými problémami ste sa ako dátový inžinier stretli?
Odpoveď: Jedná sa o:
- Nepretržitá integrácia v reálnom čase.
- Ukladá sa z nich obrovské množstvo údajov a informácií.
- Obmedzenia zdrojov.
- Zvážte, ktoré nástroje použiť a ktoré z nich môžu priniesť najlepšie výsledky.
Záver
Dátové inžinierstvo môže znieť ako rutinná nudná práca, ale má veľa zaujímavých aspektov. Je to zrejmé z možných scenárov otázok, ktoré by sa anketári mohli pýtať. Mali by ste byť pripravení odpovedať nielen na technické rezervované otázky, ale aj na situačné otázky, ako sú tie uvedené vyššie. Len tak budete môcť dokázať, že svoju prácu môžete robiť dobre a zaslúžite si ju.
Všetko najlepšie!!
Odporúčané čítanie
- Dotazy a odpovede na pohovor
- ETL Testovacie otázky a odpovede na pohovor
- Top 32 najlepších otázok a odpovedí na rozhovor o údajoch
- Najlepšie otázky a odpovede týkajúce sa rozhovorov JSON
- Najlepšie otázky a odpovede z rozhovoru pre Teradata
- Top 24 otázok s modelovaním údajov s podrobnými odpoveďami
- Najvyšších 50+ otázok a odpovedí s databázovými rozhovormi
- Top 30 otázok a odpovedí na pohovory SAS