data mining process models
Tento výukový program procesu ťažby dát pokrýva modely, kroky a výzvy spojené s procesom ťažby údajov:
Techniky ťažby dát boli podrobne vysvetlené v našom predchádzajúcom tutoriáli v tomto Absolvujte školenie v oblasti ťažby dát pre všetkých . Data Mining je perspektívna oblasť vo svete vedy a techniky.
Data Mining, ktorá je tiež známa ako Knowledge Discovery v databázach, je proces zisťovania užitočných informácií z veľkého množstva údajov uložených v databázach a dátových skladoch. Táto analýza sa robí pre rozhodovacie procesy v spoločnostiach.
Ťažba dát sa vykonáva pomocou rôznych techník, ako je klastrovanie, asociácia a sekvenčná analýza vzorov a rozhodovací strom.
Čo sa dozviete:
- Čo je dolovanie dát?
- Extrakcia dát ako proces
- Modely na dolovanie dát
- Kroky v procese ťažby údajov
- Proces ťažby dát v Oracle DBMS
- Proces ťažby dát v Datawarehouse
- Aké sú aplikácie extrakcie dát?
- Výzvy na dolovanie dát
- Záver
- Odporúčané čítanie
Čo je dolovanie dát?
Data Mining je proces zisťovania zaujímavých vzorcov a poznatkov z veľkého množstva údajov. Zdroje údajov môžu zahŕňať databázy, dátové sklady, web a ďalšie úložiská informácií alebo údaje, ktoré sa do systému streamujú dynamicky.
Prečo podniky potrebujú extrakciu dát?
S príchodom veľkých dát sa ťažba dát stala čoraz rozšírenejšou. Veľké dáta sú extrémne veľké súbory údajov, ktoré môžu počítače analyzovať a odhaliť tak určité vzorce, asociácie a trendy, ktorým ľudia rozumejú. Veľké dáta obsahujú rozsiahle informácie o rôznych druhoch a rozmanitom obsahu.
S týmto množstvom údajov by teda jednoduchá štatistika s manuálnym zásahom nefungovala. Túto potrebu spĺňa proces získavania údajov. To vedie k zmene od jednoduchých štatistík údajov k zložitým algoritmom dolovania údajov.
Proces ťažby údajov extrahuje príslušné informácie z nespracovaných údajov, ako sú transakcie, fotografie, videá, ploché súbory, a tieto informácie automaticky spracuje, aby vytvoril správy užitočné pre podnikateľov.
Proces ťažby dát je preto pre podniky zásadný pre lepšie rozhodovanie prostredníctvom objavovania vzorov a trendov v dátach, sumarizácie údajov a vyberania relevantných informácií.
Extrakcia dát ako proces
Akýkoľvek obchodný problém preskúma nespracované údaje, aby vytvoril model, ktorý opíše informácie a prinesie správy, ktoré bude podnik používať. Vytvorenie modelu zo zdrojov údajov a formátov údajov je iteračný proces, pretože nespracované údaje sú k dispozícii v mnohých rôznych zdrojoch a formách.
Dáta sa každým dňom zväčšujú, a preto pri nájdení nového zdroja údajov môžu zmeniť výsledky.
Nižšie je uvedený obrys procesu.
(obrázok zdroj )
Modely na dolovanie dát
Mnoho priemyselných odvetví, ako je výroba, marketing, chemický a kozmický priemysel, využíva výhody ťažby dát. Tým sa drasticky zvyšuje dopyt po štandardných a spoľahlivých procesoch dolovania dát.
Medzi dôležité modely dolovania dát patria:
# 1) Medziodvetvový štandardný proces pre dolovanie dát (CRISP-DM)
CRISP-DM je spoľahlivý model dolovania dát pozostávajúci zo šiestich fáz. Jedná sa o cyklický proces, ktorý poskytuje štruktúrovaný prístup k procesu ťažby údajov. Šesť fáz je možné implementovať v akomkoľvek poradí, niekedy by to však vyžadovalo návrat k predchádzajúcim krokom a opakovanie akcií.
ktorá vrstva modelu osi pracuje s rámami?
Šesť fáz CRISP-DM zahŕňa:
# 1) Obchodné porozumenie: V tomto kroku sú stanovené ciele podnikov a sú objavené dôležité faktory, ktoré pomôžu pri dosahovaní cieľa.
# 2) Pochopenie údajov: Tento krok zhromaždí všetky údaje a vyplní údaje v nástroji (ak používa akýkoľvek nástroj). V zozname sú uvedené údaje o ich zdroji údajov, umiestnení, spôsobe získavania a prípadných problémoch. Dáta sú vizualizované a dopytované za účelom kontroly ich úplnosti.
# 3) Príprava údajov: Tento krok zahŕňa výber vhodných údajov, čistenie, zostavenie atribútov z údajov, integráciu údajov z viacerých databáz.
# 4) Modelovanie: V tomto kroku sa vykonáva výber techniky dolovania dát, ako je rozhodovací strom, generovanie návrhu testu na vyhodnotenie vybraného modelu, zostavenie modelov z množiny údajov a vyhodnotenie vytvoreného modelu s odborníkmi s cieľom prediskutovať výsledok.
typický znak do reťazca c ++
# 5) Hodnotenie: Tento krok určí, do akej miery výsledný model spĺňa obchodné požiadavky. Vyhodnotenie je možné vykonať testovaním modelu na reálnych aplikáciách. Model sa kontroluje, či neobsahuje chyby alebo kroky, ktoré by sa mali opakovať.
# 6) Nasadenie: V tomto kroku sa vytvorí plán nasadenia, vytvorí sa stratégia monitorovania a udržiavania výsledkov modelu dolovania dát, aby sa skontrolovala jeho užitočnosť, vypracujú sa záverečné správy a vykoná sa kontrola celého procesu, aby sa skontrolovala akákoľvek chyba a aby sa zistilo, či sa nejaký krok opakuje. .
(obrázok zdroj )
# 2) SEMMA (vzorkovanie, skúmanie, úpravy, modelovanie, hodnotenie)
SEMMA je ďalšou metodikou dolovania dát vyvinutou SAS Institute. Skratka SEMMA znamená vzorkovať, skúmať, upravovať, modelovať, hodnotiť.
SEMMA uľahčuje aplikáciu prieskumných štatistických a vizualizačných techník, výber a transformáciu významných predikovaných premenných, vytvorenie modelu pomocou premenných, ktoré majú vyjsť s výsledkom, a skontrolovať jeho presnosť. SEMMA je tiež poháňaný vysoko iteračným cyklom.
Kroky v programe SEMMA
- Vzorka: V tomto kroku sa extrahuje veľká množina údajov a odoberie sa vzorka, ktorá predstavuje úplné údaje. Vzorkovanie zníži výpočtové náklady a čas spracovania.
- Preskúmať: Údaje sa skúmajú pre akékoľvek mimoriadne hodnoty a anomálie s cieľom lepšieho pochopenia údajov. Údaje sa vizuálne skontrolujú, aby sa zistili trendy a zoskupenia.
- Upraviť: V tomto kroku sa manipulácia s údajmi, ako sú zoskupovanie a podskupiny, vykonáva zameraním modelu, ktorý sa má vytvoriť.
- Model: Na základe prieskumov a úprav sú zostavené modely, ktoré vysvetľujú vzorce v dátach.
- Posúdiť: V tomto kroku sa hodnotí užitočnosť a spoľahlivosť zostaveného modelu. Tu sa robí testovanie modelu so skutočnými údajmi.
Prístup SEMMA aj CRISP fungujú pre proces zisťovania znalostí. Hneď ako sú modely postavené, sú nasadené pre podniky a výskumné práce.
Kroky v procese ťažby údajov
Proces ťažby údajov je rozdelený na dve časti, a to na predbežné spracovanie údajov a na dolovanie údajov. Predbežné spracovanie údajov zahŕňa čistenie údajov, integráciu údajov, ich redukciu a transformáciu. Časť na dolovanie dát vykonáva dolovanie dát, hodnotenie vzorov a reprezentáciu znalostí údajov.
(obrázok zdroj )
Prečo údaje predspracujeme?
Existuje veľa faktorov, ktoré určujú užitočnosť údajov, ako napríklad presnosť, úplnosť, konzistentnosť, aktuálnosť. Údaje musia byť kvalitné, ak vyhovujú zamýšľanému účelu. Predbežné spracovanie je teda v procese ťažby dát zásadné. Hlavné kroky spojené s predspracovaním údajov sú vysvetlené nižšie.
# 1) Čistenie údajov
Čistenie dát je prvým krokom v dolovaní dát. Má význam, pretože špinavé údaje, ak sú použité priamo v ťažbe, môžu spôsobiť zmätok v postupoch a spôsobiť nepresné výsledky.
Tento krok v zásade zahŕňa odstránenie hlučných alebo neúplných údajov zo zbierky. K dispozícii je veľa metód, ktoré vo všeobecnosti čistia údaje samy, ale nie sú robustné.
V tomto kroku sa vykonávajú bežné čistiace práce:
(i) Vyplňte chýbajúce údaje:
Chýbajúce údaje je možné vyplniť spôsobmi, ako napríklad:
- Ignorovanie n-tice.
- Ručné doplnenie chýbajúcej hodnoty.
- Použite mieru centrálnej tendencie, medián alebo
- Vyplnenie najpravdepodobnejšej hodnoty.
(ii) Odstráňte hlučné údaje: Náhodná chyba sa nazýva hlučné dáta.
Metódy na odstránenie hluku sú:
Binning: Metódy kombinovania sa používajú triedením hodnôt do segmentov alebo košov. Vyhladenie sa vykoná konzultáciou so susednými hodnotami.
Binovanie sa vykonáva vyhladením pomocou koša, to znamená, že každý kôš sa nahradí stredom koša. Vyrovnanie stredom, kde je každá hodnota bin nahradená stredom bin. Vyhladenie hranicami koša, tj. Minimálna a maximálna hodnota v koši sú hranice koša a každá hodnota koša je nahradená najbližšou hraničnou hodnotou.
- Identifikácia odľahlých hodnôt
- Riešenie nezrovnalostí
# 2) Integrácia údajov
Keď sa na analýzu skombinuje viac heterogénnych zdrojov údajov, ako sú databázy, kocky údajov alebo súbory, tento proces sa nazýva integrácia údajov. To môže pomôcť pri zlepšovaní presnosti a rýchlosti procesu dolovania údajov.
Rôzne databázy majú rozdielne konvencie pomenovania premenných tým, že spôsobujú nadbytočnosť v databázach. Na odstránenie nadbytočnosti a nekonzistencií z integrácie údajov je možné vykonať ďalšie čistenie údajov bez ovplyvnenia spoľahlivosti údajov.
Integráciu údajov je možné vykonať pomocou nástrojov na migráciu údajov, ako sú Oracle Data Service Integrator a Microsoft SQL atď.
# 3) Zníženie údajov
Táto technika sa používa na získanie relevantných údajov na analýzu zo zberu údajov. Veľkosť znázornenia je pri zachovaní integrity oveľa menšia. Redukcia dát sa vykonáva pomocou metód ako Naive Bayes, Decision Trees, Neural network atď.
Niektoré stratégie redukcie údajov sú:
- Zníženie rozmerov: Zníženie počtu atribútov v množine údajov.
- Zníženie početnosti: Nahradenie pôvodného objemu údajov menšími formami reprezentácie údajov.
- Kompresia dát: Komprimované znázornenie pôvodných údajov.
# 4) Transformácia údajov
V tomto procese sa údaje transformujú do formy vhodnej pre proces dolovania údajov. Údaje sú konsolidované, aby bol proces ťažby efektívnejší a vzory boli ľahšie pochopiteľné. Transformácia údajov zahŕňa proces mapovania údajov a procesu generovania kódu.
Stratégie transformácie údajov sú:
- Vyhladenie: Odstránenie šumu z údajov pomocou klastrovania, regresných techník atď.
- Agregácia: Na dáta sa aplikujú súhrnné operácie.
- Normalizácia: Zmena mierky údajov by mala spadať do menšieho rozsahu.
- Diskretizácia: Nespracované hodnoty číselných údajov sú nahradené intervalmi. Napríklad, Vek.
# 5) Ťažba dát
Data Mining je proces identifikácie zaujímavých vzorcov a poznatkov z veľkého množstva údajov. V týchto krokoch sa na extrahovanie dátových vzorcov použijú inteligentné vzory. Údaje sú znázornené vo forme vzorov a modely sú štruktúrované pomocou techník klasifikácie a zoskupovania.
# 6) Vyhodnotenie vzoru
Tento krok zahŕňa identifikáciu zaujímavých vzorov predstavujúcich vedomosti na základe mier zaujímavosti. Metódy sumarizácie a vizualizácie údajov sa používajú na to, aby boli údaje pre používateľov zrozumiteľné.
# 7) Reprezentácia znalostí
Reprezentácia znalostí je krok, v ktorom sa na reprezentáciu vyťažených údajov používajú vizualizácia dát a nástroje na reprezentáciu znalostí. Dáta sú vizualizované vo forme správ, tabuliek atď.
Proces ťažby dát v Oracle DBMS
RDBMS predstavuje údaje vo forme tabuliek s riadkami a stĺpcami. K údajom je možné získať písaním dotazov do databázy.
Relačné systémy na správu databáz, ako napríklad Oracle, podporujú ťažbu dát pomocou nástroja CRISP-DM. Zariadenia databázy Oracle sú užitočné pri príprave a porozumení údajov. Spoločnosť Oracle podporuje dolovanie údajov prostredníctvom rozhrania Java, rozhrania PL / SQL, automatizovaného dolovania údajov, funkcií SQL a grafických používateľských rozhraní.
Proces ťažby dát v Datawarehouse
Dátový sklad je vymodelovaný pre multidimenzionálnu dátovú štruktúru nazývanú dátová kocka. Každá bunka v dátovej kocke uchováva hodnotu niektorých agregovaných mier.
Dolovanie dát vo viacrozmernom priestore vykonávané v štýle OLAP (Online Analytical Processing), kde umožňuje skúmanie viacerých kombinácií dimenzií na rôznych úrovniach zrnitosti.
Aké sú aplikácie extrakcie dát?
Zoznam oblastí, v ktorých sa data mining často využíva, obsahuje:
# 1) Analýza finančných údajov: Ťažba dát je široko používaná v bankovníctve, investíciách, úverových službách, hypotékach, automobilových pôžičkách a poistných a akciových investíciách. Údaje zhromaždené z týchto zdrojov sú úplné, spoľahlivé a sú vysoko kvalitné. To umožňuje systematickú analýzu údajov a ich dolovanie.
# 2) Maloobchod a telekomunikačný priemysel: Maloobchodný sektor zhromažďuje obrovské množstvo údajov o predaji, histórii nakupovania zákazníkov, preprave tovaru, spotrebe a službách. Maloobchodná ťažba dát pomáha identifikovať nákupné správanie zákazníkov, vzorce a trendy pri nakupovaní zákazníkov, zlepšovať kvalitu služieb zákazníkom, lepšie udržiavanie zákazníkov a spokojnosť.
# 3) Veda a technika: Počítačová veda a inžinierstvo v oblasti ťažby dát môžu pomôcť monitorovať stav systému, zlepšovať výkon systému, izolovať chyby softvéru, odhaľovať plagiát softvéru a rozpoznávať poruchy systému.
# 4) Detekcia a prevencia narušenia: Narušenie je definované ako akákoľvek skupina akcií, ktoré ohrozujú integritu, dôvernosť alebo dostupnosť sieťových prostriedkov. Metódy dolovania dát môžu pomôcť v systéme detekcie a prevencie narušenia zvýšiť jeho výkon.
Aká je fáza analýzy v sdlc?
# 5) Systémy odporúčajúcich: Systémy odporúčaní pomáhajú spotrebiteľom vydávať odporúčania výrobkov, ktoré sú pre používateľov zaujímavé.
Výzvy na dolovanie dát
Nižšie sú uvedené rôzne výzvy spojené s ťažbou dát.
- Ťažba dát vyžaduje rozsiahle databázy a zber údajov, ktoré sa ťažko spravujú.
- Proces ťažby dát vyžaduje odborníkov na doménu, ktorých hľadanie je opäť ťažké.
- Integrácia z heterogénnych databáz je zložitý proces.
- Postupy na úrovni organizácie je potrebné upraviť, aby sa mohli využívať výsledky dolovania údajov. Reštrukturalizácia procesu si vyžaduje úsilie a náklady.
Záver
Data Mining je iteračný proces, pri ktorom je možné zdokonaliť proces ťažby a integrovať nové údaje, aby sa dosiahli efektívnejšie výsledky. Data Mining spĺňa požiadavku efektívnej, škálovateľnej a flexibilnej analýzy dát.
Možno to považovať za prirodzené hodnotenie informačných technológií. Ako proces zisťovania vedomostí dokončujú proces získavania údajov úlohy prípravy a ťažby údajov.
Procesy dolovania dát je možné vykonávať na akomkoľvek druhu dát, ako sú databázové dáta a pokročilé databázy, ako sú časové rady atď. Proces dolovania dát má svoje vlastné problémy.
Zostaňte naladení na náš nadchádzajúci tutoriál a dozviete sa viac o príkladoch dolovania dát !!
Výukový program PREV | NEXT Tutorial
Odporúčané čítanie
- Ťažba dát: Proces, techniky a hlavné problémy v analýze dát
- Techniky dolovania dát: Algoritmus, metódy a najlepšie nástroje na dolovanie dát
- 10 najlepších nástrojov na mapovanie údajov, ktoré sú užitočné v procese ETL (ZOZNAM 2021)
- Top 10 nástrojov na návrh databázy na zostavenie komplexných dátových modelov
- Data Mining vs. Machine Learning vs. Artificial Intelligence vs. Deep Learning
- Top 15 najlepších bezplatných nástrojov na dolovanie dát: najkomplexnejší zoznam
- Testujte koncepciu, proces a stratégiu správy údajov
- Parametrizácia údajov JMeter pomocou užívateľom definovaných premenných