comprehensive hadoop testing tutorial big data testing guide
V tomto výučbe sa dozviete základné informácie, typy testovania, plány, požadované prostredie, testovací proces, overenie a overenie pre testovanie Hadoop a BigData:
V tomto tutoriále uvidíme základný úvod do testovania Hadoop a BigData, napríklad to, kedy a kde sa testovanie prejaví a čo je potrebné otestovať ako súčasť testovania Hadoop.
Budeme tiež podrobne diskutovať o nasledujúcich témach:
- Úlohy a zodpovednosti testovania Hadoop
- Prístup k testovaniu pri testovaní Hadoop / BigData
=> Tu nájdete A-Z výučbových kurzov BigData.
Čo sa dozviete:
- Ukladanie a spracovanie dát v Hadoope
- BigData a testovanie Hadoop
- Aká je stratégia alebo plán testovania údajov BigData?
- Typy testovania pre testovanie BigData
- Nástroje na testovanie BigData Hadoop
- Testovanie prostredí a nastavení
- Úlohy a zodpovednosti testovania Hadoop
- Prístup k testovaniu pri testovaní Hadoop / BigData
- Záver
- Odporúčané čítanie
Ukladanie a spracovanie dát v Hadoope
Na vykonávanie týchto procesov v systéme Hadoop máme pracovnú silu, ktorá je rozdelená do štyroch sekcií.
- Správcovia spoločnosti Hadoop sú zodpovední za nastavenie prostredia a majú administrátorské práva na prístup k systémom Hadoop.
- Vývojári Hadoop rozvíjať programy týkajúce sa sťahovania, ukladania a spracovania údajov z rôznych miest do centralizovaných miest.
- Testery Hadoop na overenie a overenie údajov pred vytiahnutím z rôznych miest a po vytiahnutí na centralizované miesto, ako aj overenie a overenie sa vykonáva pri načítaní údajov do klientskeho prostredia.
- Analytici spoločnosti Hadoop pracovať, keď sa vykoná načítanie údajov a keď sa údaje dostanú do skladu v mieste klienta. Tieto údaje používajú na generovanie prehľadov a informačných panelov. Analytici vykonávajú analýzu údajov pre rast a rozvoj podnikania.
Vieme, že Hadoop nie je jediný systém; obsahuje viac systémov a strojov. Dáta sú rozdelené a uložené na viacerých počítačoch. Ak k nim chceme znova získať prístup, je potrebné ich skombinovať a preniesť do prehľadov atď.
Vývojár je zodpovedný za písanie programov v jazykoch JAVA a Python, ktoré slúžia na extrakciu údajov a ich uloženie.
Druhou úlohou vývojára je spracovanie údajov. Existujú dve vrstvy Hadoop, jedna slúži na ukladanie, tj. Hadoop HDFS, a druhá na spracovanie, tj. Hadoop MapReduce.
Ukladanie znamená, že akékoľvek dáta, ktoré máme v zdroji, sa práve uložia / vložia do systému. Spracovanie znamená, že ho musíme rozdeliť na viac strojov a znova skombinovať a odoslať klientovi.
Ukladanie a spracovanie sa teda vykonáva programovaním skriptov a vývojár je zodpovedný za písanie skriptov.
Okrem programovania je ďalšou metódou na ukladanie a spracovanie údajov v Hadoop použitie databázových aplikácií ako Hive, Impala, HBase atď. Tieto nástroje nepotrebujú žiadne znalosti programovania.
BigData a testovanie Hadoop
Len čo vývojár uloží a spracuje údaje, dáta idú na generovanie správy. Pred tým musíme overiť presnosť spracovaných údajov a skontrolovať, či sú údaje správne načítané a spracované správne alebo nie.
Program alebo skripty vytvorené vývojárom teda musí byť overený testerom Hadoop alebo BigData. Tester musí poznať základné programovanie ako Mapper, Hive, Pig Script, atď., Aby mohol verifikovať skripty a vykonávať príkazy.
Pred testovaním teda musia testéri vedieť, čo fungujú všetky programy a skripty, ako napísať kód a potom premýšľať, ako ich otestovať. Testovanie je možné vykonať ručne alebo pomocou automatizačných nástrojov.
Hadoop ponúka rôzne druhy testovania, ako napríklad Unit Testing, Regression Testing, System Testing a Performance Testing atď. Toto sú teda bežné typy testovania, ktoré používame pri bežnom testovaní, ako aj testovanie Hadoop a BigData.
V programoch Hadoop a BigData Testing máme rovnaký druh terminológie testovania, ako je testovacia stratégia, testovacie scenáre a testovacie prípady atď. Iba prostredie je iné a existujú rôzne druhy techník, ktoré používame na testovanie systému BigData a Hadoop, pretože tu musíme testovať údaje a nie aplikáciu.
Ako otestovať BigData a čo všetko vyžaduje testovanie v BigData?
Na testovanie BigData musíme mať nejaké plány a stratégie.
Musíme preto zvážiť nasledujúce body:
- Aká je stratégia alebo plán testovania pre BigData?
- Aký druh testovacích prístupov sa uplatňuje na BigData?
- Aké je požadované prostredie?
- Ako overiť a overiť údaje BigData?
- Aké nástroje sa používajú pri testovaní BigData?
Pokúsme sa získať odpovede na všetky vyššie uvedené otázky.
Aká je stratégia alebo plán testovania údajov BigData?
Testovanie BigData znamená overenie a overenie údajov pri ich ukladaní a spracovaní do dátového skladu.
Pri testovaní BigData musíme otestovať objem a rozmanitosť údajov extrahovaných z rôznych databáz a načítaných a spracovaných v Data Warehouse alebo Hadoop System, toto testovanie je predmetom funkčného testovania.
Musíme otestovať rýchlosť dát stiahnutých z rôznych databáz a nahraných do systému Hadoop, ktorý je súčasťou Testovania výkonu.
Ako plán alebo stratégia sa teda musíme sústrediť na funkčné aj výkonové testovanie testovania BigData.
Pri testovaní BigData musí tester overiť spracovanie veľkého množstva údajov pomocou komoditného hardvéru a relatívnych komponentov. Kvalita dát preto hrá dôležitú úlohu aj pri testovaní BigData. Je nevyhnutné overiť a overiť kvalitu údajov.
Typy testovania pre testovanie BigData
V predchádzajúcej časti sme videli, že funkčné testovanie a testovanie výkonu zohrávajú pri testovaní BigData zásadnú úlohu. Okrem testera BigData musíme vykonať niekoľko ďalších typov testovania, ako napríklad Testovanie databázy alebo Testovanie architektúry.
Tieto typy testovania sú rovnako dôležité ako funkčné a výkonnostné testy.
# 1) Architektonické testovanie
Toto testovanie sa vykonáva s cieľom zabezpečiť, aby bolo spracovanie údajov správne a spĺňalo požiadavky. Systém Hadoop v skutočnosti spracováva obrovské objemy dát a je vysoko komplexný so zdrojmi.
Ak je architektúra nesprávna, môže to znížiť výkon, v dôsledku čoho sa môže prerušiť spracovanie údajov a môže dôjsť k ich strate.
# 2) Testovanie databázy
Tu sa do popredia dostane validácia procesu a musíme overiť údaje z rôznych databáz, t. J. Musíme zabezpečiť, aby údaje načítané zo zdrojových databáz alebo miestnych databáz boli správne a správne.
Musíme tiež skontrolovať, či sa údaje dostupné v zdrojových databázach zhodujú s údajmi zadanými v systéme Hadoop.
Podobne musíme overiť, či sú údaje v systéme Hadoop správne a správne po spracovaní alebo povedzme po transformácii a či sa majú načítať do prostredia klienta so správnym overením a overením.
Ako súčasť testovania databázy musíme prejsť CRUEL operácie t.j. Vytvoriť údaje v lokálnych databázach Načítať údaje a musíme ich vyhľadať a mali by byť k dispozícii v databáze pred a po načítaní do Data Warehouse a z Data Warehouse do prostredia klienta.
Overenie akýchkoľvek Aktualizované Údaje o každej fáze ukladania alebo načítania a spracovania údajov. Vymazanie všetkých poškodených údajov alebo duplicitných a nulových údajov.
# 3) Testovanie výkonu
V rámci Testovania výkonu musíme skontrolovať rýchlosť načítania a spracovania údajov, napríklad ako IOPS (vstupný výstup za sekundu).
Je potrebné skontrolovať rýchlosť zadávania údajov alebo údajov ako vstupu z rôznych databáz do systému Data Warehouse alebo Hadoop a zo systému Hadoop alebo Data Warehouse do prostredia klienta.
Musí tiež skontrolovať rýchlosť údajov prichádzajúcich z rôznych databáz a z dátového skladu ako výstupu. Toto nazývame vstupný výstup za sekundu alebo IOPS.
Okrem toho je ďalším aspektom kontrola výkonu absorpcie a distribúcie údajov a ako rýchlo sú údaje spotrebované dátovým skladom z rôznych databáz a klientskym systémom zo systému Hadoop.
Rovnako ako tester musíme skontrolovať výkonnosť distribúcie údajov, napríklad rýchlosť distribúcie údajov do rôznych súborov dostupných v systéme Hadoop alebo v dátovom sklade. Rovnaký proces sa deje pri distribúcii údajov do klientských systémov.
Systém Hadoop alebo dátový sklad sa skladá z viacerých komponentov, takže tester musí skontrolovať výkon všetkých týchto komponentov, ako sú úlohy MapReduce, vkladanie a spotreba dát, doba odozvy na dotazy a ich výkon, ako aj výkonnosť vyhľadávania. operácie. Všetky tieto sú zahrnuté v Testovaní výkonu.
# 4) Funkčné testovanie
Funkčné testovanie obsahuje testovanie všetkých čiastkových komponentov, programov a skriptov, nástrojov používaných na vykonávanie operácií ukladania alebo načítania a spracovania atď.
Pre testera sú to štyri dôležité typy a fázy, cez ktoré je potrebné filtrovať údaje, aby klient získal perfektné a bezchybné údaje.
Nástroje na testovanie BigData Hadoop
Na testovanie BigData sa používajú rôzne nástroje:
- HDFS Hadoop distribučný súborový systém pre ukladanie BigData.
- Redukcia mapy HDFS pre spracovanie dát BigData.
- Pre NoSQL alebo HQL Cassandra DB, ZooKeeper a HBase atď.
- Cloudové serverové nástroje ako EC2.
Testovanie prostredí a nastavení
Pre akýkoľvek typ testovania vyžaduje tester správne nastavenie a prostredie.
Nižšie je uvedený zoznam požiadaviek:
- Typ údajov a aplikácií, ktoré sa majú testovať.
- Ukladanie a spracovanie vyžaduje veľký priestor pre obrovské množstvo dát.
- Správna distribúcia súborov vo všetkých klastroch DataNodes klastra.
- Počas spracovania údajov by využitie hardvéru malo byť minimálne.
- Spustiteľné programy a skripty podľa požiadaviek aplikácie.
Úlohy a zodpovednosti testovania Hadoop
Ako tester Hadoop zodpovedáme za pochopenie požiadaviek, prípravu odhadov testovania, plánovanie testovacích skriniek, získanie niektorých testovacích údajov na testovanie niektorých testovacích skriniek, zapojenie sa do vytvárania testovacej základne, vykonávanie testovacích plánov, hlásenie a opätovné testovanie chýb.
Musíme byť tiež zodpovední za denné hlásenie stavu a dokončenie testu.
Prvá vec, o ktorej budeme diskutovať, je Stratégia testovania . Keď máme navrhované riešenie nášho problému, musíme ísť ďalej a naplánovať alebo naplánovať náš testovací plán, môžeme diskutovať o stratégii automatizácie, ktorú tam môžeme použiť, o pláne testovania, ktorý závisí od našich termínov dodania, tiež môže diskutovať o plánovaní zdrojov.
Stratégia automatizácie nám pomôže pri znižovaní manuálneho úsilia potrebného pri testovaní produktu. Časový plán testov je dôležitý, pretože zabezpečí včasné dodanie produktu.
Plánovanie zdrojov bude mať zásadný význam, pretože musíme naplánovať, koľko pracovných hodín potrebujeme pri testovaní a koľko zdrojov Hadoop je potrebných na vykonanie nášho plánovania testov.
Akonáhle strategizujeme svoje testovanie, musíme pokračovať a vytvoriť Plány rozvoja testov, ktoré zahŕňajú Vytváranie testovacích plánov, Vytváranie testovacích skriptov, ktoré nám pomôžu automatizovať naše testovanie a tiež identifikovať niektoré testovacie údaje, ktoré sa použijú v testovacích plánoch. a pomáha nám vykonávať tieto testovacie plány.
Keď skončíme s vývojom testov, ktorý zahŕňa vytváranie testovacích plánov, testovacích skriptov a testovacích údajov, pokračujeme a začneme tieto testovacie plány vykonávať.
Keď vykonávame testovacie plány, môžu existovať určité scenáre, keď skutočný výstup nie je taký, ako sa očakávalo, a tieto veci sa nazývajú chyby. Kedykoľvek sa vyskytne chyba, musíme tiež otestovať tieto chyby a musíme pre ne vytvoriť a udržiavať matice.
Všetky tieto veci spadajú do nasledujúcej kategórie, ktorá je Správa defektov .
Čo je správa chýb?
Správa defektov pozostáva zo sledovania chýb, opráv chýb a overovania chýb. Kedykoľvek sa vykoná testovací plán proti niektorému z produktov, ktoré máme, a hneď ako sa zistí konkrétna chyba alebo sa zistí chyba, je potrebné túto chybu nahlásiť vývojárovi alebo prideliť vývojárovi.
Takže vývojár to môže preskúmať a začať na tom pracovať. Ako tester musíme sledovať postup chyby a sledovať, či bola chyba opravená. Ak bola chyba podľa hlásenia opravená, musíme pokračovať a znova ju otestovať a overiť, či je vyriešená.
Keď sú všetky chyby opravené, uzavreté a overené, musíme pokračovať a doručiť OKAY Testovaný produkt. Pred dodaním produktu sa však musíme ubezpečiť, že UAT (User Acceptance Testing) je úspešne dokončený.
Zaisťujeme, aby testovanie inštalácie a overovanie požiadaviek prebehli správne, t. J. Produkt, ktorý sa dodáva klientovi alebo koncovému používateľovi, zodpovedá požiadavkám uvedeným v dokumente s požiadavkami na softvér.
Kroky, o ktorých sme hovorili, sú založené na fantázii, nech už ide o ktorýkoľvek z testovacích scenárov alebo akýkoľvek z testovacích prístupov, ktoré pri týchto krokoch použijeme, alebo povedzme tieto frázy na testovanie nášho produktu a na poskytnutie konečného výsledku, ktorý je Okej Testovaný produkt.
Poďme na to a podrobne si to rozoberme a porovnajme s Hadoop Testing.
Vieme, že Hadoop je niečo, čo sa používa na dávkové spracovanie, a tiež vieme, že ETL je jednou z oblastí, kde sa Hadoop často používa. ETL znamená Extrakčná transformácia a načítanie . O týchto procesoch sa podrobne zmienime, keď budeme diskutovať o pláne testovania a stratégii testovania z hľadiska testovania Hadoop.
Podľa nižšie uvedeného diagramu predpokladáme, že máme štyri rôzne zdroje údajov. Operačný systém, CRM ( Riadenie vzťahov so zákazníkmi ) a ERP ( Plánovanie podnikových zdrojov ) je RDBMS alebo povedzme Relačný systém správy databáz, ktorý máme, a máme tiež niekoľko plochých súborov, ktoré možno protokoly, súbory, záznamy alebo čokoľvek čo sa týka našich zdrojov údajov.
Možno používame Sqoop alebo Flume alebo akýkoľvek iný konkrétny produkt na získanie údajov, záznamov alebo čohokoľvek iného ako mojich zdrojov údajov. Tieto nástroje môžeme použiť na získanie údajov zo zdrojov údajov do môjho pracovného adresára, ktorý je prvou fázou nášho procesu Extrakcia.
Akonáhle budú dáta v nich pracovným adresárom, ktorý je v skutočnosti HDFS (distribučný súborový systém Hadoop), použijeme najmä skriptovací jazyk ako PIG na Transformácia tieto údaje. To Transformácia bude podľa údajov, ktoré máme.
Keď sa Dáta zodpovedajúcim spôsobom transformujú pomocou akejkoľvek skriptovacej technológie, ktorú máme, budeme Načítava tieto údaje do dátového skladu. Z dátového skladu sa tieto údaje použijú na analýzu OLAP, tvorbu prehľadov a dolovanie údajov alebo na analýzu.
Poďme ďalej a diskutujme, ktoré všetky fázy môžeme pri testovaní Hadoop použiť.
Prvá fáza bude extrakčná. Tu budeme získavať údaje z našich zdrojových databáz údajov alebo z plochých súborov, a v takom prípade môžeme urobiť, aby sme overili, či boli všetky údaje úspešne a správne skopírované zo zdroja do pracovného adresára.
Môže to zahŕňať overenie počtu záznamov, typu záznamov a typu polí, atď.
Po skopírovaní týchto údajov do pracovného adresára pokračujeme a spustíme druhú fázu, ktorou je Transformácia. Tu budeme mať určitú obchodnú logiku, ktorá bude pôsobiť na skopírované údaje zo zdrojových systémov a skutočne vytvorí alebo transformuje údaje do požadovanej obchodnej logiky.
Transformácia môže zahŕňať triedenie údajov, filtrovanie údajov, pripojenie údajov z dvoch rôznych zdrojov údajov a určité ďalšie operácie.
Po transformácii údajov pôjdeme ďalej, budeme mať pripravené testovacie plány a skontrolujeme, či dostávame výstup podľa očakávania, a všetky výstupy, ktoré dostávame, zodpovedajú očakávanému výsledku a dátovým typom, poľným hodnotám a rozsahy atď. sú niečo, čo zapadá na svoje miesto.
Keď je to správne, môžeme pokračovať a načítať údaje do Data Warehouse.
Vo fáze načítania vlastne kontrolujeme, či je počet záznamov z fázy a počet záznamov v dátovom sklade synchronizovaný. Nemusia byť podobné, ale predpokladá sa, že sú synchronizované. Tiež vidíme, či je typ údajov, ktoré boli transformované, synchronizované.
Uverejnite, že tieto údaje použijeme na analýzu, vykazovanie a ťažbu údajov OLAP, čo je posledná vrstva nášho produktu, a v takom prípade môžeme mať k dispozícii následné alebo môžeme povedať, že plány testov sú k dispozícii pre všetky tieto vrstvy.
Kedykoľvek dostaneme nejaké údaje zo zdroja do cieľového miesta, vždy sa musíme ubezpečiť, že k údajom má autorizovaný prístup iba overená osoba.
Overenie
Povolenie
Čo máme na mysli pod týmito dvoma výrazmi?
Aby sme to pochopili, pozrime sa na veci z ETL diagramu.
Podľa vyššie uvedeného diagramu dostávame naše údaje zo zdrojových RDBMS motorov a z plochých súborov do HDFS a táto fáza sa nazýva extrakcia.
Poďme diskutovať o autentifikácii konkrétnym spôsobom, existujú určité podniky, ktoré majú údaje, ktoré sú obmedzené svojou povahou, tento typ údajov sa nazýva štandardom Spojených štátov amerických ako údaje PII.
PII znamenať Osobné identifikačné údaje, akékoľvek informácie, ako napríklad dátum narodenia, SSN, číslo mobilného telefónu, e-mailová adresa a adresa domu atď., spadajú pod PII. Toto je obmedzené a nedá sa zdieľať so všetkými.
Údaje by sa mali zdieľať iba s osobami, ktoré to najviac potrebujú, a tými, ktorí ich potrebujú na skutočné spracovanie. Zavedenie tejto kontroly a zavedenie prvej obrannej línie sa nazýva Autentifikácia.
Napríklad, používame prenosný počítač a máme tam nainštalovaný systém Windows, môžeme mať v našom operačnom systéme Windows vytvorený nejaký používateľský účet a tam sme uplatňovali heslo.
Týmto spôsobom sa do systému môže prihlásiť iba osoba, ktorá má poverenia pre tento konkrétny používateľský účet, a tak ochránime naše údaje pred krádežou alebo zbytočným prístupom. Druhou vrstvou je Autorizácia.
Príklad, v našom operačnom systéme Windows máme dva rôzne používateľské účty, jeden používateľský účet je náš a druhý môže byť používateľský účet hosťa. Správca (WE) má právo vykonávať všetky druhy operácií, ako napríklad inštaláciu a odinštalovanie softvéru, vytváranie nových súborov a mazanie existujúcich súborov atď.
Na druhej strane, hosťujúci používatelia nemusia mať k dispozícii všetok tento druh prístupu. Hosť má autentifikáciu na prihlásenie do systému, ale nemá oprávnenie na mazanie alebo vytváranie súborov a inštaláciu, ani na odinštalovanie žiadneho softvéru v systéme a zo systému.
Používateľský účet hosťa má však kvôli overeniu právo čítať vytvorené súbory a používať softvér, ktorý je už nainštalovaný.
Takto sa testuje autentifikácia a autorizácia, v tomto prípade akékoľvek údaje dostupné v HDFS alebo v ktoromkoľvek zo súborových systémov, ktoré potrebujeme na overenie autentifikácie a autorizácie údajov.
Prístup k testovaniu pri testovaní Hadoop / BigData
Prístup k testovaniu je spoločný pre všetky druhy testovania nielen preto, že ide o testovanie BigData alebo Hadoop, keď ideme na bežné manuálne testovanie alebo testovanie automatizácie alebo testovanie bezpečnosti, tiež na testovanie výkonu, takže akýkoľvek druh testovania sleduje rovnaký prístup.
Požiadavky
Ako súčasť testovacieho prístupu musíme začať s Požiadavky „Požiadavka je základná vec, v dnešnej dobe sme ju v agilnom procese nazvali Stories and Epics. Epic nie je nič iné ako väčšia požiadavka, zatiaľ čo príbehy sú menšie požiadavky.
Požiadavka v zásade obsahuje to, čo sú všetky dátové modely, ciele, zdroje, ako aj to, aké transformácie musíme použiť, aké nástroje musíme použiť? Všetky tieto podrobnosti nájdete v Požiadavkách.
V zásade ide o požiadavku klienta alebo požiadavku zákazníka. Na základe tejto požiadavky začneme náš testovací proces.
Odhad
Ďalšou časťou prístupu je Odhad „Koľko času musíme venovať celej činnosti, ktorá je súčasťou testovania. Robíme plánovanie testov, pripravujeme testovacie scenáre, pripravujeme testovacie prípady a ich vykonávanie, rovnako nájdeme chyby a nahlásime ich a tiež pripravíme testovacie protokoly.
Všetky tieto činnosti budú nejaký čas trvať, takže koľko času potrebujeme na dokončenie všetkých týchto činností, a toto sa v podstate nazýva Odhad. Musíme manažmentu urobiť hrubý odhad.
Plánovanie testov
Plánovanie testov nie je nič iné ako popis procesov, čo testovať, čo netestovať, aký je rozsah testovania, aké sú plány, koľko zdrojov je potrebných, hardvérové a softvérové požiadavky a aké sú časové harmonogramy a testovacie cykly aké úrovne testovania požadujeme atď.
Počas plánovania testu urobia určité pridelenie zdrojov do projektu a aké sú rôzne modely, ktoré máme, koľko zdrojov je potrebných a aký druh požadovaných schopností atď., Všetky tieto veci a aspekty budú zahrnuté do testu Fáza plánovania.
Plánovanie testov bude väčšinou robiť vedúci alebo riadiaci ľudia.
Testovacie scenáre a testovacie prípady
Po dokončení plánovania testov sa musíme pripraviť Testovacie scenáre a testovacie prípady , najmä na testovanie veľkých údajov, vyžadujeme spolu s dokumentom požiadaviek niekoľko dokumentov. Čo všetko spolu s touto požiadavkou požadujeme?
Potrebujeme Doklad o požiadavke ktorý obsahuje potreby klienta, spolu s tým potrebujeme Vstupný dokument t.j. Dátové modely. Dátový model v zmysle toho, čo sú schémy DataBase, aké sú tabuľky a aké sú vzťahy, všetky tieto údaje budú k dispozícii v údajových modeloch.
Tiež máme Mapovanie dokumentov , Mapovacie dokumenty pre Napr. v Relačných databázach máme niekoľko tabuliek a po načítaní údajov cez ETL v Data Warehouse v HDFS, čo všetko je potrebné robiť? tj. mapový dátový typ.
najlepší špionážny softvér pre mobilné telefóny
Napríklad, ak máme zákaznícku tabuľku v HDFS, potom v HDFS máme tabuľku CUSTOMER_TARGET alebo rovnaká tabuľka môže byť aj v HIVE.
V tejto tabuľke zákazníkov máme určité stĺpce a v tabuľke CIEĽ ZÁKAZNÍKA máme určité stĺpce, ako je znázornené na diagrame. Dáta sme vyhodili z tabuľky zákazníkov do tabuľky CIEĽ ZÁKAZNÍKA, t. J. Od zdroja k cieľu.
Potom musíme skontrolovať presné mapovanie, ako napríklad Údaje, ktoré sa nachádzajú v zdrojovej tabuľke, čo je stĺpec 1 a riadok 1 tabuľky zákazníka, a považuje sa to za C1R1 a rovnaké údaje by sa mali mapovať v C1R1 tabuľky CIEĽ ZÁKAZNÍKA. Toto sa v zásade nazýva Mapovanie.
Ako budeme vedieť, aké sú všetky mapovania, ktoré musíme overiť? Takže tieto mapovania budú prítomné v mapovacom dokumente. V mapovacom dokumente uvedie zákazník všetky druhy priradení.
Tiež sme požadovali a Dizajnový dokument „Dizajnový dokument požadovaný pre vývojový tím aj pre tím QA, pretože v dizajnovom dokumente uvedie zákazník, aký druh úloh na znižovanie máp bude implementovať a aký typ úloh MapReduce prijíma vstupy a aký typ MapReduce Pracovné miesta poskytujú výstupy.
Podobne, ak máme HIVE alebo PIG, aké sú všetky UDF, ktoré zákazník vytvoril, ako aj všetky vstupy, ktoré urobia a aký výstup budú produkovať atď.
Aby sme mohli pripraviť testovacie scenáre a testovacie prípady, musíme mať všetky tieto dokumenty k dispozícii ručne:
- Doklad o požiadavke
- Dátový model
- Mapovací dokument
- Dizajnový dokument
Môžu sa líšiť od jednej organizácie k druhej. Neexistuje povinné pravidlo, že všetky tieto dokumenty musíme mať. Niekedy máme všetky dokumenty a niekedy máme iba dva alebo tri dokumenty, alebo sa niekedy musíme spoliehať na jeden dokument, ktorý závisí od zložitosti projektu, harmonogramu spoločnosti a všetkého.
Recenzie testovacích scenárov a testovacích prípadov
Musíme vykonať kontrolu testovacích scenárov a testovacích prípadov, pretože nejako alebo v niektorých prípadoch zabudneme alebo niektoré testovacie prípady premeškáme, pretože každý nedokáže myslieť na všetky možné veci, ktoré je možné splniť s požiadavkami, za takých podmienok musíme brať do úvahy pomoc od nástrojov tretích strán alebo od niekoho iného.
Takže kedykoľvek pripravujeme nejaké dokumenty alebo niečo predvádzame, potrebujeme niekoho, aby skontroloval obsah od rovnakého tímu, napríklad vývojárov, testerov. Dajú správne návrhy, aby obsahovali niečo viac, alebo tiež navrhnú aktualizáciu alebo úpravu testovacích scenárov a testovacích prípadov.
Poskytujú všetky komentáre a na základe toho budeme aktualizovať naše testovacie scenáre a testovacie prípady a viac verzií dokumentu, ktoré musíme vydať v celom tíme, kým nebude dokument úplne aktualizovaný podľa požiadavky.
Vykonanie testu
Keď bude dokument hotový, dostaneme odhlásenie od horného tímu, aby sme spustili proces vykonávania, ktorý sa v zásade nazýva Test Case Execution.
Ak chceme vykonať naše testovacie prípady počas vykonávania, musíme skontrolovať, či musí vývojár poslať informácie, či je to normálne funkčné testovanie alebo nejaké iné testovanie alebo testovanie automatizácie, ktoré vyžadujeme zostavenie. Avšak tu z hľadiska testovania Hadoop alebo BigData poskytne vývojár úlohy MapReduce.
Súbory HDFS - bez ohľadu na to, ktoré súbory sa kopírujú na HDFS, sú tieto informácie potrebné na kontrolu oprávnení, skripty HIVE, ktoré vytvorili vývojári na overenie údajov v tabuľke HIVE, a tiež potrebujeme súbory HIVE UDF vyvinuté vývojármi, PIG Skripty a PIG UDF.
Toto sú všetky veci, ktoré musíme od vývojárov dostať. Než pôjdeme na popravu, mali by sme mať všetky tieto veci.
Pre MapReduce Jobs poskytnú niektoré súbory JAR a ako súčasť HDFS už načítali údaje do HDFS a súbory by mali byť pripravené a skripty HIVE na overenie údajov v tabuľkách HIVE. Bez ohľadu na to, aké UDF implementovali, bude k dispozícii v HIVE UDF. To isté vyžadujeme aj pre skripty PIG a UDF.
Hlásenie a sledovanie chýb
Akonáhle vykonáme naše testovacie prípady, nájdeme nejaké chyby, niektoré očakávané a niektoré skutočné sa nerovnajú očakávaným výsledkom, takže musíme uviesť ich zoznam a poskytnúť ich vývojovému tímu na riešenie, čo sa v zásade nazýva hlásenie defektov.
Predpokladajme, že ak v MapReduce Job nájdeme nejaký nedostatok, nahlásime to vývojárovi a ten znova vytvorí Job MapReduce a urobí nejaké úpravy na úrovni kódu a potom opäť poskytne najnovšiu Job MapReduce, ktorú musíme otestovať .
Toto je trvalý proces, akonáhle je úloha otestovaná a úspešná, musíme ju znova otestovať a nahlásiť vývojárovi a potom získať ďalšiu na testovanie. Takto sa dosahuje aktivita hlásenia a sledovania chýb.
Správy o testoch
Keď sme skončili s celým procesom testovania a chyby boli ukončené, musíme vytvoriť naše správy o testoch. Správa o teste je všetko, čo sme doteraz urobili pre dokončenie procesu testovania. Všetko plánovanie, písanie a vykonávanie testovacích prípadov, výstup, ktorý sme dostali, atď., Je všetko zdokumentované vo forme protokolov o testoch.
Tieto správy musíme zasielať každý deň alebo týždenne alebo podľa potrieb zákazníka. V súčasnosti organizácie používajú model AGILE, takže každé hlásenie o stave je potrebné aktualizovať počas denných scrumov.
Záver
V tomto tutoriáli sme prešli:
- Stratégia alebo plán testovania BigData.
- Požadované prostredie pre testovanie BigData.
- Validácia a overenie BigData.
- Nástroje používané pri testovaní BigData.
Dozvedeli sme sa tiež o -
- Ako v rámci úloh a zodpovednosti funguje stratégia testovania, vývoj testov, vykonávanie testov, správa a doručenie defektov ako súčasť testovania Hadoop.
- Prístup k testovaniu pri testovaní Hadoop / BigData, ktorý zahŕňa zhromažďovanie, odhad, plánovanie testov, vytváranie testovacích scenárov a testovacích prípadov spolu s recenziami.
- Dozvedeli sme sa tiež informácie o vykonávaní testov, hlásení a sledovaní chýb a hlásení o testoch.
Dúfame, že vám tento výukový program BigData Testing pomohol!
=> Skontrolujte VŠETKY výukové programy BigData tu.
Odporúčané čítanie
- Výukový program na testovanie objemu: Príklady a nástroje na testovanie objemu
- Ako vykonať testovanie na základe dát v SoapUI Pro - SoapUI Tutorial # 14
- Výukový program na testovanie dátových skladov s príkladmi Sprievodca testovaním ETL
- Stiahnutie e-knihy Testing Primer
- Výukový program na testovanie dátových skladov ETL (kompletný sprievodca)
- Čo je Hadoop? Výukový program Apache Hadoop pre začiatočníkov
- Výukový program pre deštruktívne testovanie a nedeštruktívne testovanie
- Funkčné testovanie vs. Nefunkčné testovanie