data mining techniques
Tento podrobný výukový program o technikách dolovania dát vysvetľuje algoritmy, nástroje na dolovanie dát a metódy na extrakciu užitočných údajov:
V tomto Výukové programy hĺbkovej analýzy dát pre všetkých , preskúmali sme všetko o dolovaní dát v našom predchádzajúcom tutoriáli.
V tomto výučbe sa dozvieme o rôznych technikách používaných pri extrakcii údajov. Ako vieme, že dolovanie dát je konceptom extrakcie užitočných informácií z veľkého množstva dát, niektoré techniky a metódy sa na extrahovanie užitočných informácií používajú na veľké množiny dát.
Tieto techniky majú v zásade formu metód a algoritmov použitých na súbory údajov. Niektoré z techník dolovania údajov zahŕňajú Ťažba častých vzorov, združenie a korelácia, klasifikácia, zhlukovanie, zisťovanie odľahlých hodnôt a niektoré pokročilé techniky, ako je štatistická, vizuálna a zvuková ťažba údajov.
Pre techniky ťažby dát sa spravidla používajú relačné databázy, transakčné databázy a dátové sklady. Existujú však aj niektoré pokročilé techniky ťažby komplexných údajov, ako sú časové rady, symbolické sekvencie a biologické sekvenčné údaje.
Čo sa dozviete:
- Účel postupov ťažby údajov
- Zoznam techník extrakcie dát
- Najlepšie algoritmy na dolovanie dát
- Metódy extrakcie dát
- Najlepšie nástroje na dolovanie dát
- Záver
- Odporúčané čítanie
Účel postupov ťažby údajov
Vďaka obrovskému množstvu dát, ktoré sa každý deň ukladajú, majú podniky v súčasnosti záujem zistiť z nich trendy. Techniky extrakcie údajov pomáhajú pri konverzii nespracovaných údajov na užitočné poznatky. Na ťažbu veľkého množstva údajov je potrebný softvér, pretože je nemožné, aby človek manuálne prešiel veľkým objemom údajov.
Softvér na dolovanie dát analyzuje vzťah medzi rôznymi položkami vo veľkých databázach, ktoré môžu pomôcť v rozhodovacom procese, dozvedieť sa viac o zákazníkoch, vytvoriť marketingové stratégie, zvýšiť predaj a znížiť náklady.
Zoznam techník extrakcie dát
Technika dolovania dát, ktorá sa má použiť, závisí od perspektívy našej analýzy dát.
Poďme si teda predstaviť rôzne techniky, ako je možné extrakciu dát vykonať rôznymi spôsobmi:
# 1) Častá ťažba vzorov / analýza asociácie
Tento typ techniky dolovania dát vyhľadáva opakujúce sa vzťahy v danej množine údajov. Bude hľadať zaujímavé asociácie a korelácie medzi rôznymi položkami v databáze a identifikovať vzor.
Príklad, by bola „Analýza nákupného košíka“: zistiť, „ktoré produkty si zákazníci pravdepodobne kúpia spoločne v obchode?“ ako je chlieb a maslo.
Prihláška: Navrhovanie umiestnenia výrobkov na pultoch obchodov, marketing, krížový predaj výrobkov.
otázky a odpovede z databázového rozhovoru pdf
Vzory môžu byť reprezentované vo forme asociačných pravidiel. Pravidlo asociácie hovorí, že podpora a dôvera sú parametre na zistenie užitočnosti priradených položiek. Transakcie, pri ktorých boli obidve položky zakúpené naraz, sú známe ako podpora.
Transakcie, pri ktorých zákazníci kúpili obidve položky, ale jednu za druhou, sú dôveryhodné. Vyťažený vzor by sa považoval za zaujímavý, ak má a minimálny prah podpory a minimálny prah spoľahlivosti hodnotu. O prahových hodnotách rozhodujú odborníci na doménu.
Chlieb => maslo (podpora = 2%, spoľahlivosť - 60%)
Vyššie uvedené vyhlásenie je príkladom pravidla asociácie. To znamená, že existuje 2% transakcia, ktorá kúpila chlieb s maslom spoločne, a existuje 60% zákazníkov, ktorí si kúpili chlieb rovnako ako maslo.
Kroky na implementáciu analýzy asociácie:
- Nájdenie častých položiek. Položka znamená množinu položiek. Sada položiek obsahujúca položky k je sada položiek k. Frekvencia množiny položiek je počet transakcií, ktoré obsahujú množinu položiek.
- Generovanie silných asociačných pravidiel z častých položiek. Silnými asociačnými pravidlami máme na mysli splnenie minimálnej prahovej podpory a dôvery.
Existujú rôzne časté metódy ťažby položiek, ako napríklad Apriori Algorithm, Pattern Growth Approach a Mining using the Vertical Data Format. Táto technika je všeobecne známa ako analýza trhového košíka.
# 2) Korelačná analýza
Korelačná analýza je iba rozšírením pravidiel asociácie. Parametre podpory a dôveryhodnosti môžu používateľom niekedy priniesť nezaujímavé vzory.
Príkladom na podporu vyššie uvedeného tvrdenia môže byť: z 1000 analyzovaných transakcií 600 obsahovalo iba chlieb, zatiaľ čo 750 obsahovalo maslo a 400 obsahovalo chlieb aj maslo. Predpokladajme, že minimálna podpora pre spustenie pravidla asociácie je 30% a minimálna spoľahlivosť 60%.
Hodnota podpory 400/1 000 = 40% a hodnota spoľahlivosti = 400/600 = 66% spĺňa prahovú hodnotu. Vidíme však, že pravdepodobnosť nákupu masla je 75%, čo je viac ako 66%. To znamená, že chlieb a maslo majú negatívnu koreláciu, pretože nákup jedného by viedol k zníženiu nákupu druhého. Výsledky klamú.
Z vyššie uvedeného príkladu je podpora a dôvera doplnená o ďalšie meranie zaujímavosti, t. J. Korelačnú analýzu, ktorá pomôže pri ťažbe zaujímavých vzorov.
A => B (podpora, spoľahlivosť, korelácia).
Korelačné pravidlo sa meria pomocou podpory, spoľahlivosti a korelácie medzi množinami položiek A a B. Korelácia sa meria pomocou Lift a Chi-Square.
(vzpieram: Ako hovorí samotné slovo, funkcia Lift predstavuje mieru, do akej prítomnosť jednej množiny položiek zvyšuje výskyt ďalších množín položiek.
Vzťah medzi výskytom A a B možno merať pomocou:
c ++ generuje náhodné číslo medzi 1 a 10
Zdvih (A, B) = P (A U B) / P (A). P (B).
Keď to je<1, then A and B are negatively correlated.
Ak je> 1. Potom A a B sú pozitívne korelované, čo znamená, že výskyt jedného znamená výskyt druhého.
Ak je = 1, potom medzi nimi nie je žiadna korelácia.
ii) námestie Chi: Toto je ďalšie korelačné opatrenie. Meria štvorcový rozdiel medzi pozorovanou a očakávanou hodnotou pre slot (pár A a B) vydelený očakávanou hodnotou.
Ak je> 1, potom je v negatívnom vzťahu.
# 3) Klasifikácia
Klasifikácia pomáha pri vytváraní modelov dôležitých tried údajov. Model alebo klasifikátor je skonštruovaný tak, aby predpovedal označenia tried. Štítky sú definované triedy so samostatnými hodnotami ako „áno“ alebo „nie“, „bezpečné“ alebo „riskantné“. Je to typ kontrolovaného učenia, pretože trieda štítkov je už známa.
Klasifikácia údajov je dvojstupňový proces:
- Krok učenia: Model je tu zostrojený. Na údaje, ktoré sa majú analyzovať, sa použije vopred definovaný algoritmus s poskytnutým štítkom triedy a zostavia sa pravidlá klasifikácie.
- Krok klasifikácie: Model sa používa na predikciu označení triedy pre dané údaje. Presnosť pravidiel klasifikácie sa odhaduje na základe údajov z testu, ktoré sa v prípade zistenia presnosti použijú na klasifikáciu nových n-tíc údajov.
Položky v množine položiek budú priradené k cieľovým kategóriám na predpovedanie funkcií na úrovni štítka triedy.
Prihláška: Banky, ktoré identifikujú žiadateľov o úver ako ľudí s nízkym, stredným alebo vysokým rizikom, podnikateľov navrhujúcich marketingové kampane na základe vekovej skupiny. “
# 4) Indukcia rozhodovacieho stromu
Metóda indukcie rozhodovacích stromov spadá pod Klasifikačnú analýzu. Rozhodovací strom je štruktúra podobná stromu, ktorá je ľahko pochopiteľná, jednoduchá a rýchla. V tomto predstavuje každý nelistový uzol test na atribúte a každá vetva predstavuje výsledok testu a listový uzol predstavuje štítok triedy.
Hodnoty atribútov v n-tici sa testujú proti rozhodovaciemu stromu od koreňa po listový uzol. Rozhodovacie stromy sú populárne, pretože to nevyžaduje žiadne znalosti domény. Môžu predstavovať viacrozmerné údaje. Rozhodovacie stromy je možné ľahko previesť na klasifikačné pravidlá.
Prihláška: Rozhodovacie stromy sa konštruujú v medicíne, výrobe, výrobe, astronómii atď. Príklad je uvedený nižšie:
# 5) Bayesova klasifikácia
Bayesova klasifikácia je ďalšou metódou klasifikačnej analýzy. Bayesov klasifikátor predpovedá pravdepodobnosť, že daná n-tica patrí do konkrétnej triedy. Vychádza z Bayesovej vety, ktorá je založená na pravdepodobnosti a teórii rozhodovania.
Bayesova klasifikácia pracuje na zadnej pravdepodobnosti a predchádzajúcej pravdepodobnosti pre rozhodovací proces. Zadnou pravdepodobnosťou sa hypotéza skladá z danej informácie, t. J. Sú známe hodnoty atribútov, zatiaľ čo pre predchádzajúcu pravdepodobnosť sú hypotézy uvedené bez ohľadu na hodnoty atribútov.
# 6) Klastrová analýza
Je to technika rozdelenia množiny údajov do klastrov alebo skupín objektov. Klastrovanie sa vykonáva pomocou algoritmov. Je to typ učenia bez dozoru, pretože informácie na štítku nie sú známe. Klastrové metódy identifikujú údaje, ktoré sú si navzájom podobné alebo sa líšia, a robí sa analýza charakteristík.
Klastrová analýza môže byť použitá ako úvodný krok k použitiu rôznych ďalších algoritmov, ako je charakterizácia, výber podmnožiny atribútov atď. Klastrovú analýzu možno použiť aj na detekciu odľahlých hodnôt, ako sú vysoké nákupy v transakciách s kreditnými kartami.
Aplikácie: Rozpoznávanie obrázkov, vyhľadávanie na webe a zabezpečenie.
# 7) Detekcia odľahlých hodnôt
Proces hľadania dátových objektov, ktoré sa vyznačujú mimoriadnym správaním od ostatných objektov, sa nazýva odľahlá detekcia. Detekcia odľahlých hodnôt a klastrová analýza spolu súvisia. Odľahlé metódy sú kategorizované na štatistické, proximitné, klastrové a klasifikačné.
Existujú rôzne typy odľahlých hodnôt, niektoré z nich sú:
- Globálna odľahlá hodnota: Údajový objekt sa významne odchýlil od zvyšku súboru údajov.
- Kontextová odľahlá hodnota: Závisí to od určitých faktorov, ako je deň, čas a miesto. Ak sa údajový objekt významne odchyľuje s ohľadom na kontext.
- Kolektívna odľahlá hodnota: Keď sa skupina dátových objektov chová odlišne od celej množiny údajov.
Prihláška: Zistenie rizika podvodu s kreditnou kartou, detekcia novinky atď.
# 8) Postupné vzory
V tomto type dolovania dát je rozpoznaný trend alebo konzistentné vzorce. Pochopenie nákupného správania zákazníkov a následné vzory používajú obchody na vystavenie svojich výrobkov na regáloch.
Prihláška: Príklad elektronického obchodu, keď sa pri kúpe položky A ukáže, že položka B sa často kupuje za položku A, ktorá sa pozerá na minulú históriu nákupu.
# 9) Regresná analýza
Tento typ analýzy je kontrolovaný a identifikuje, ktoré množiny položiek medzi rôznymi vzťahmi súvisia alebo sú navzájom nezávislé. Môže predvídať tržby, zisk, teplotu, predpovedať ľudské správanie atď. Má hodnotu súboru údajov, ktorá je už známa.
Keď je zadaný vstup, regresný algoritmus porovná vstup a očakávanú hodnotu a na získanie presného výsledku sa vypočíta chyba.
Prihláška: Porovnanie snáh o marketing a vývoj produktov.
Najlepšie algoritmy na dolovanie dát
Techniky dolovania dát sa používajú pomocou algoritmov, ktoré sú za nimi. Tieto algoritmy bežia na softvéri na extrakciu údajov a sú aplikované na základe obchodných potrieb.
Niektoré z algoritmov, ktoré organizácie často používajú na analýzu súborov údajov, sú definované nižšie:
rozdiel medzi portom vpred a portom
- K znamená: Je to populárna technika klastrovej analýzy, pri ktorej je skupina podobných položiek zoskupená dohromady.
- Algoritmus apriori: Je to častá technika ťažby položiek a v asociačných pravidlách sa na ňu vzťahujú transakčné databázy. Zistí časté sady položiek a zvýrazní všeobecné trendy.
- K Najbližší sused: Táto metóda sa používa na klasifikáciu a regresnú analýzu. Najbližší sused k sa lenivo učí, kde ukladá údaje o tréningu a keď prídu nové neoznačené údaje, klasifikuje vstupné údaje.
- Bayesove lode: Je to skupina jednoduchých pravdepodobnostných klasifikačných algoritmov, ktoré predpokladajú, že vlastnosti každého dátového objektu sú na sebe nezávislé. Je to aplikácia Bayesovej vety.
- AdaBoost: Jedná sa o meta-algoritmus strojového učenia, ktorý sa používa na zlepšenie výkonu. Adaboost je citlivý na hlučné dáta a odľahlé hodnoty.
Metódy extrakcie dát
Ďalej sú vysvetlené niektoré pokročilé metódy dolovania údajov na spracovanie zložitých typov údajov.
Údaje v dnešnom svete sú rôzneho typu, od jednoduchých až po zložité údaje. Na ťažbu komplexných dátových typov, ako sú časové rady, viacrozmerné, priestorové a multimediálne údaje, sú potrebné pokročilé algoritmy a techniky.
Niektoré z nich sú opísané nižšie:
- KLIKNUTIE: Bola to prvá metóda klastrovania, pomocou ktorej sa klastre našli vo viacrozmernom podpriestore.
- P3C: Je to známa klastrová metóda pre stredné až vysoké multidimenzionálne údaje.
- Jazero: Je to metóda založená na k-prostriedkoch zameraná na zoskupovanie údajov strednej a vysokej dimenzie. Algoritmus rozdelí údaje na k disjunktnú množinu prvkov odstránením možných odľahlých hodnôt.
- CURLER: Je to korelačný klastrový algoritmus, ktorý zaznamenáva lineárne aj nelineárne korelácie.
Najlepšie nástroje na dolovanie dát
Data Mining Tools sú softvér používaný na ťažbu dát. Nástroje spúšťajú algoritmy na koncovom serveri. Tieto nástroje sú na trhu k dispozícii ako otvorený zdrojový kód, slobodný softvér a licencovaná verzia.
Niektoré z nástrojov na extrakciu údajov zahŕňajú:
# 1) RapidMiner
RapidMiner je softvérová platforma s otvoreným zdrojovým kódom pre analytické tímy, ktorá spája prepracovanie údajov, strojové učenie a prediktívne nasadenie modelu. Tento nástroj sa používa na vykonávanie analýzy dolovania dát a vytváranie dátových modelov. Má veľké množiny pre klasifikáciu, klastrovanie, ťažbu asociačných pravidiel a regresné algoritmy.
# 2) Oranžová
Je to open-source nástroj obsahujúci balík na vizualizáciu a analýzu údajov. Oranžovú je možné importovať do ľubovoľného fungujúceho prostredia pythonu. Je vhodný pre nových výskumných pracovníkov a malé projekty.
# 3) JAZYK
KEEL (Extrakcia znalostí založená na evolučnom učení) je open-source ( GPLv3 ) Softvérový nástroj Java, ktorý možno použiť na veľké množstvo rôznych úloh zisťovania znalostných údajov.
# 4) SPSS
IBM SPSS Modeler je softvérová aplikácia na dolovanie dát a analýzu textu od spoločnosti IBM. Používa sa na zostavenie prediktívnych modelov a vykonávanie ďalších analytických úloh.
# 5) KNIME
Je to bezplatný nástroj s otvoreným zdrojovým kódom obsahujúci balík na čistenie a analýzu údajov, špecializované algoritmy v oblasti analýzy sentimentu a analýzy sociálnych sietí. KNIME môže do jednej analýzy integrovať údaje z rôznych zdrojov. Má rozhranie s programami Java, Python a R. Programming.
Dôležitá otázka: Čím sa líši klasifikácia od predikcie?
Klasifikácia je zoskupenie údajov. Príkladom klasifikácie je zoskupenie podľa vekovej skupiny, zdravotného stavu atď. Zatiaľ čo predpoveď odvodzuje výsledok pomocou utajovaných údajov.
Príklad Prediktívnej analýzy predpovedá záujmy na základe vekovej skupiny, liečby zdravotného stavu. Predikcia je známa aj ako odhad súvislých hodnôt.
Dôležitý termín: Prediktívne dolovanie dát
Prediktívne dolovanie údajov sa vykonáva s cieľom predpovedať alebo predpovedať určité trendy v údajoch pomocou nástrojov Business Intelligence a ďalších údajov. Pomáha podnikom mať lepšiu analytiku a prijímať lepšie rozhodnutia. Prediktívna analýza sa často kombinuje s prediktívnou ťažbou dát.
Prediktívna ťažba dát zisťuje údaje potrebné na analýzu. Prediktívna analýza využíva dáta na predpovedanie výsledku.
Záver
V tomto tutoriáli sme diskutovali o rôznych technikách dolovania dát, ktoré môžu pomôcť organizáciám a podnikom nájsť najužitočnejšie a najrelevantnejšie informácie. Tieto informácie sa používajú na vytvorenie modelov, ktoré predpovedajú správanie zákazníkov, aby na ne mohli podniky reagovať.
Po prečítaní všetkých vyššie uvedených informácií o technikách dolovania údajov je možné ešte lepšie určiť ich dôveryhodnosť a uskutočniteľnosť. Medzi techniky extrakcie dát patrí práca s dátami, preformátovanie dát, reštrukturalizácia dát. Formát potrebných informácií je založený na technike a analýze, ktorá sa má vykonať.
Nakoniec všetky techniky, metódy a systémy na dolovanie dát pomáhajú pri objavovaní nových kreatívnych inovácií.
Výukový program PREV | NEXT Tutorial
Odporúčané čítanie
- Ťažba dát: Proces, techniky a hlavné problémy v analýze dát
- 10 najlepších nástrojov na modelovanie údajov na správu zložitých návrhov
- Top 15 najlepších bezplatných nástrojov na dolovanie dát: najkomplexnejší zoznam
- 10+ najlepších nástrojov na zber údajov so stratégiami zhromažďovania údajov
- Top 10 nástrojov na návrh databázy na zostavenie komplexných dátových modelov
- 10+ najlepších nástrojov na správu údajov na splnenie vašich požiadaviek na údaje v roku 2021
- Data Mining vs. Machine Learning vs. Artificial Intelligence vs. Deep Learning
- Najlepšie 14 NAJLEPŠÍCH nástrojov na správu údajov o testoch v roku 2021