data mining process
Tento podrobný výukový program pre dolovanie dát vysvetľuje, čo je dolovanie dát, vrátane procesov a techník používaných pri analýze dát:
Poďme pochopiť význam pojmu ťažba na príklade ťažby zlata z hornín, ktorá sa nazýva ťažba zlata. Tu je užitočná vec „zlato“, preto sa jej hovorí ťažba zlata.
Podobne sa vynášanie užitočných informácií z veľkého množstva údajov označuje ako dolovanie znalostí a ľudovo sa nazýva dolovanie dát. Pod pojmom užitočné informácie označujeme údaje, ktoré nám môžu pomôcť pri predpovedaní výstupu.
Napríklad zistenie trendov nákupu konkrétnej veci (napríklad železa) od konkrétnej vekovej skupiny ( Príklad: 40-70 rokov).
=>POSUNÚŤ NADOLzobraziť celý zoznam 7 podrobných návodov na ťažbu údajov pre začiatočníkov
Čo sa dozviete:
mysql vs sql server vs Oracle
- Zoznam výukových programov na ťažbu dát
- Prehľad tutoriálov v tejto sérii dolovania dát
- Čo je dolovanie dát?
- Aké druhy údajov je možné vyťažiť?
- Aké techniky sa používajú pri ťažbe dát?
- Hlavné problémy v analýze údajov
- Záver
Zoznam výukových programov na ťažbu dát
Výukový program č. 1: Ťažba dát: Proces, techniky a hlavné problémy v analýze dát (Tento návod)
Výukový program č. 2: Techniky dolovania dát: Algoritmus, metódy a najlepšie nástroje na dolovanie dát
Výukový program č. 3: Proces ťažby dát: zúčastnené modely, kroky procesu a výzvy
Výukový program č. 4: Príklady dolovania dát: Najčastejšie aplikácie dolovania dát 2019
Výukový program č. 5: Príklady algoritmu rozhodovacieho stromu v dolovaní dát
Výukový program č. 6: Apriori algoritmus v dolovaní dát: implementácia s príkladmi
Výukový program č. 7: Algoritmus rastu častých vzorov (FP) pri dolovaní dát
Prehľad tutoriálov v tejto sérii dolovania dát
Návod | Čo sa naučíte |
---|---|
Tutorial_ # 7: | Algoritmus rastu častých vzorov (FP) pri dolovaní dát Toto je podrobný návod na algoritmus častého rastu vzorov, ktorý predstavuje databázu vo forme stromu FP. Tu je tiež vysvetlené porovnanie rastu FP Vs Apriori. |
Tutorial_ # 1: | Ťažba dát: Proces, techniky a hlavné problémy v analýze dát V tomto výučbe podrobnej ťažby dát sa dozviete, čo je dolovanie dát, vrátane postupov a techník používaných pri analýze dát. |
Tutorial_ # 2: | Techniky dolovania dát: Algoritmus, metódy a najlepšie nástroje na dolovanie dát Tento výukový program o technikách dolovania dát vysvetľuje algoritmy, nástroje a metódy na dolovanie dát na extrakciu užitočných údajov. |
Tutorial_ # 3: | Proces ťažby dát: zúčastnené modely, kroky procesu a výzvy Tento výukový program o procese ťažby údajov pokrýva modely, kroky a výzvy spojené s procesom ťažby údajov. |
Výukový program č. 4: | Príklady dolovania dát: Najčastejšie aplikácie dolovania dát 2019 Najobľúbenejšie príklady ťažby dát v reálnom živote sú popísané v tomto výučbe. Dozviete sa viac o aplikácii na dolovanie dát v oblasti financií, marketingu, zdravotníctva a CRM. |
Výukový program č. 5: | Príklady algoritmu rozhodovacieho stromu v dolovaní dát Tento podrobný výukový program vysvetľuje všetko o algoritme rozhodovacieho stromu v dolovaní dát. Dozviete sa tu Príklady rozhodovacieho stromu, Algoritmus a klasifikácia. |
Výukový program č. 6: | Apriori algoritmus v dolovaní dát: implementácia s príkladmi Toto je jednoduchý výukový program o aprioriho algoritme na vyhľadanie častých položiek v dolovaní údajov. Tiež sa dozviete kroky v apriori a pochopíte, ako to funguje. |
Čo je dolovanie dát?
Po dolovaní dát je dnes veľký dopyt, pretože pomáha podnikom študovať, ako sa môže zvýšiť predaj ich produktov. Môžeme to pochopiť na príklade módneho obchodu, ktorý zaregistruje každého svojho zákazníka, ktorý si kúpi položku v ich obchode.
Na základe údajov poskytnutých zákazníkom, ako sú vek, pohlavie, príjmová skupina, povolanie atď., Bude obchod schopný zistiť, ktorý typ zákazníkov nakupuje rôzne produkty. Tu vidíme, že meno zákazníka je zbytočné, pretože nemôžeme predpovedať trend nákupu podľa mena, či daná osoba kúpi určitý produkt alebo nie.
Užitočné informácie tak možno zistiť pomocou vekovej skupiny, pohlavia, príjmovej skupiny, profesie atď. Vyhľadanie vedomostí alebo zaujímavého vzoru v dátach je „Data Mining“. Ďalšie pojmy, ktoré sa dajú použiť v danom mieste, sú ťažba znalostí z dát, extrakcia znalostí, analýza dát, analýza vzorov atď.
Ďalším pojmom, ktorý sa populárne používa pri dolovaní dát, je Knowledge Discovery from Data alebo KDD.
Proces analýzy údajov
Proces zisťovania znalostí je postupnosťou nasledujúcich krokov:
- Čistenie údajov: Týmto krokom sa zo vstupných údajov odstráni šum a nekonzistentné údaje.
- Integrácia údajov: Tento krok kombinuje viac zdrojov údajov. Čistenie dát a integrácia dát spolu vytvárajú predbežné spracovanie dát. Predspracované údaje sa potom uložia do dátového skladu.
- Výber dát: V týchto krokoch sa vyberú údaje z analytickej úlohy.
- Transformácia údajov: V tomto kroku sa na transformáciu údajov do užitočnej formy na ťažbu použijú rôzne techniky agregácie údajov a súhrnu údajov.
- Ťažba dát: V tomto kroku sa dátové vzory extrahujú použitím inteligentných metód.
- Hodnotenie vzoru: Extrahované dátové vzory sa vyhodnocujú a rozpoznávajú podľa mier zaujímavosti.
- Reprezentácia znalostí: Na predstavenie získaných poznatkov používateľom sa používajú techniky vizualizácie a znázornenia znalostí.
Kroky 1 až 4 prechádzajú fázou predspracovania údajov. Tu je dolovanie dát predstavované ako jeden krok, ale vzťahuje sa na celý proces zisťovania znalostí.
Môžeme teda povedať, že analýza údajov je proces zisťovania zaujímavých vzorcov a poznatkov z veľkého množstva údajov. Zdroje údajov môžu zahŕňať databázy, dátové sklady, sieť WWW, ploché súbory a ďalšie informačné súbory.
Aké druhy údajov je možné vyťažiť?
Najzákladnejšie formy údajov na ťažbu sú databázové údaje, údaje dátového skladu a transakčné údaje. Techniky dolovania údajov sa dajú použiť aj na iné formy, ako sú dátové toky, sekvenované údaje, textové údaje a priestorové údaje.
# 1) Údaje databázy: Systém správy databázy je sada vzájomne súvisiacich údajov a sada softvérových programov na správu a prístup k údajom. Systém relačnej databázy je kolekcia tabuliek a každá tabuľka pozostáva zo sady atribútov a n-tic.
Ťažba relačných databáz vyhľadáva trendy a dátové vzory Napr . kreditné riziko zákazníkov na základe veku, príjmu a predchádzajúceho kreditného rizika. Ťažba tiež môže zistiť odchýlky od očakávaných Napr. výrazné zvýšenie ceny položky.
# 2) Údaje dátového skladu: Dátový sklad je zbierka informácií zhromaždených z viacerých zdrojov údajov uložených v zjednotenej schéme na jednom mieste. DW je modelovaný ako multidimenzionálna dátová štruktúra zvaná dátová kocka, ktorá má bunky a dimenzie a poskytuje predpočítanie a rýchlejší prístup k údajom.
Dolovanie údajov sa vykonáva v štýle OLAP kombináciou dimenzií na rôznych úrovniach podrobnosti.
# 3) Transakčné údaje: Transakčné údaje zachytávajú transakciu. Obsahuje ID transakcie a zoznam položiek použitých pri transakcii.
# 4) Ostatné druhy údajov: Medzi ďalšie údaje patria: časové údaje, priestorové údaje, hypertextové údaje a multimediálne údaje.
Aké techniky sa používajú pri ťažbe dát?
Data Mining je doména zameraná na aplikácie. Mnoho metód, ako sú štatistika, strojové učenie, rozpoznávanie vzorov, vyhľadávanie informácií, vizualizácia atď., Ovplyvňuje vývoj metód analýzy údajov.
Poďme sa tu baviť o niektorých z nich !!
Štatistika
Štúdium zberu, analýzy, interpretácie a prezentácie údajov je možné vykonať pomocou štatistických modelov. Napríklad , na modelovanie šumu a chýbajúcich údajov je možné použiť štatistiku, potom sa tento model môže použiť vo veľkej množine údajov na identifikáciu šumu a chýbajúcich hodnôt v údajoch.
Strojové učenie
ML sa používa na zlepšenie výkonu na základe údajov. Hlavnou oblasťou výskumu je, aby sa počítačové programy automaticky naučili rozpoznávať zložité vzorce a prijímať inteligentné rozhodnutia na základe údajov.
Strojové učenie sa zameriava na presnosť a dolovanie údajov sa zameriava na efektívnosť a škálovateľnosť metód ťažby na veľkej množine údajov, komplexných údajoch atď.
Strojové učenie je troch typov:
- Učenie pod dohľadom: Súbor cieľových údajov je známy a stroj je trénovaný podľa cieľových hodnôt.
- Učenie bez dozoru: Cieľové hodnoty nie sú známe a stroje sa učia samy.
- Učenie s čiastočným dohľadom: Používa obidve techniky učenia sa pod dohľadom a bez dozoru.
Získavanie informácií (IR)
Je to veda o vyhľadávaní dokumentov alebo informácií v dokumentoch.
ako používať súbor .torrent
Používa dva princípy:
- Údaje, ktoré sa majú prehľadať, sú neštruktúrované.
- Dotazy sú tvorené hlavne kľúčovými slovami.
Pomocou analýzy údajov a IR môžeme nájsť hlavné témy v zbierke dokumentov a tiež hlavné témy obsiahnuté v každom dokumente.
Hlavné problémy v analýze údajov
S dolovaním dát súvisí množstvo problémov, ktoré sú uvedené nižšie:
Metodika ťažby
- Pretože existuje veľa aplikácií, stále sa objavujú nové úlohy ťažby. Tieto úlohy môžu používať tú istú databázu rôznymi spôsobmi a vyžadovať vývoj nových techník ťažby údajov.
- Pri hľadaní vedomostí vo veľkých súboroch údajov musíme preskúmať multidimenzionálny priestor. Aby ste našli zaujímavé vzory, je potrebné použiť rôzne kombinácie rozmerov.
- Neisté, hlučné a neúplné údaje môžu niekedy viesť k chybnému odvodeniu.
Interakcia používateľa
- Proces analýzy údajov by mal byť vysoko interaktívny. Pre uľahčenie procesu ťažby je dôležité, aby bola interaktívna s používateľmi.
- Znalosti o doméne, základné znalosti, obmedzenia atď. By mali byť súčasťou procesu ťažby údajov.
- Poznatky objavené pri ťažbe údajov by mali byť použiteľné pre ľudí. Systém by mal prijať expresívne zastúpenie znalostí, užívateľsky prívetivé vizualizačné techniky atď.
Efektívnosť a škálovateľnosť
- Algoritmy na dolovanie údajov by mali byť účinné a škálovateľné, aby efektívne extrahovali zaujímavé údaje z veľkého množstva údajov v úložiskách údajov.
- Široká distribúcia dát, zložitosť výpočtu motivuje k vývoju paralelných a distribuovaných algoritmov náročných na dáta.
Rozmanitosť typov databáz
- Konštrukcia efektívnych a efektívnych nástrojov na analýzu údajov pre rôzne aplikácie, široké spektrum dátových typov od neštruktúrovaných údajov, časových údajov, hypertextových údajov, multimediálnych údajov a kódu softvérového programu zostáva náročnou a aktívnou oblasťou výskumu.
Sociálny dopad
- Zverejnenie použitia údajov a potenciálne porušenie súkromia jednotlivca a ochrana práv sú oblasťami, ktoré je potrebné riešiť.
Záver
Data Mining pomáha pri rozhodovaní a analýze veľkého množstva údajov. V dnešnej dobe je to najbežnejšia obchodná technika. Umožňuje automatickú analýzu údajov a identifikuje populárne trendy a správanie.
Analýzu údajov je možné kombinovať so strojovým učením, štatistikami, umelou inteligenciou atď., Čo umožňuje pokročilú analýzu údajov a štúdium správania.
Pri dolovaní údajov by sa mali brať do úvahy rôzne faktory, ako napríklad náklady na extrakciu informácií a vzory z databáz (je potrebné použiť zložité algoritmy, ktoré si vyžadujú odborné zdroje), typ informácií (pretože historické údaje nemusia byť rovnaké ako v skutočnosti). v súčasnosti, takže analýza nebude užitočná).
Dúfame, že tento návod obohatil svoje vedomosti o koncepcii Data Mining !!
Odporúčané čítanie
- 10 najlepších nástrojov na analýzu údajov pre dokonalú správu údajov (ZOZNAM 2021)
- Data Mining vs. Machine Learning vs. Artificial Intelligence vs. Deep Learning
- 10 najlepších nástrojov na mapovanie údajov, ktoré sú užitočné v procese ETL (ZOZNAM 2021)
- Čo sú údaje z testu? Testujte techniky prípravy dát s príkladom
- Parametrizácia údajov JMeter pomocou užívateľom definovaných premenných
- Top 15 najlepších bezplatných nástrojov na dolovanie dát: najkomplexnejší zoznam
- 10+ najlepších nástrojov na zber údajov so stratégiami zhromažďovania údajov
- Funkcia údajového fondu v IBM Rational Quality Manager pre správu testovacích údajov