weka explorer visualization
V tomto výučbe sa dozviete, ako vykonať vizualizáciu údajov, klastrovú analýzu K-means a ťažbu asociačných pravidiel pomocou nástroja WEKA Explorer:
V Predchádzajúci návod , dozvedeli sme sa o množine údajov WEKA, klasifikátore a algoritme J48 pre rozhodovací strom.
Ako sme už videli predtým, WEKA je nástroj na dolovanie dát s otvoreným zdrojovým kódom používaný mnohými výskumníkmi a študentmi na vykonávanie mnohých úloh strojového učenia. Používatelia môžu tiež zostavovať svoje metódy strojového učenia a experimentovať so vzorovými súbormi údajov poskytnutými v adresári WEKA.
Vizualizáciu údajov v WEKA je možné vykonať pomocou vzorových súborov údajov alebo súborov údajov vytvorených používateľom vo formáte .arff, .csv.
=> Prečítajte si celú sériu školení o strojovom učení
Mining Association Rule Mining sa vykonáva pomocou algoritmu Apriori. Je to jediný algoritmus poskytovaný spoločnosťou WEKA na vykonávanie častej ťažby vzorov.
V WEKA je veľa algoritmov na vykonávanie klastrovej analýzy, ako napríklad FartherestFirst, FilteredCluster a HierachicalCluster atď. Z nich použijeme SimpleKmeans, čo je najjednoduchšia metóda klastrovania.
Čo sa dozviete:
- Ťažba pravidiel združenia pomocou prieskumníka WEKA
- Algoritmus K-means pomocou aplikácie WEKA Explorer
- Implementujte vizualizáciu údajov pomocou WEKA
- Záver
Ťažba pravidiel združenia pomocou prieskumníka WEKA
Pozrime sa, ako implementovať Mining Rule asociácií pomocou nástroja WEKA Explorer.
Ťažba združených pravidiel
Je vyvinutý a navrhnutý Srikantom a Aggarwalom v roku 1994. Pomáha nám nájsť vzory v dátach. Jedná sa o proces dolovania dát, pri ktorom sa zisťujú prvky, ktoré sa vyskytujú spoločne, alebo prvky, ktoré navzájom súvisia.
b strom a b + strom
Medzi aplikácie pravidiel asociácie patrí Market Basket Analysis, na analýzu položiek zakúpených v jednom košíku; Cross Marketing, aby sme spolupracovali s inými podnikmi, čo zvyšuje hodnotu nášho obchodného produktu, ako sú predajca vozidiel a ropná spoločnosť.
Asociačné pravidlá sú vyťažené po nájdení častých množín položiek vo veľkej množine údajov. Tieto súbory údajov sa zisťujú pomocou ťažobných algoritmov, ako sú Apriori a FP Growth. Ťažba častých položiek ťaží dáta pomocou opatrení podpory a dôveryhodnosti.
Podpora a dôvera
podpora meria pravdepodobnosť, že sa v jednej transakcii zakúpia dve položky naraz, napríklad chlieb s maslom. Dôvera je opatrenie, ktoré uvádza pravdepodobnosť toho, že sa zakúpia dve položky jedna za druhou, ale nie spoločne, napríklad antivírusový softvér pre laptop a počítač.
Predpokladá sa, že podpora minimálnych prahových hodnôt a minimálne prahové hodnoty spoľahlivosti slúžia na orezanie transakcií a zistenie najčastejšie sa vyskytujúcej množiny položiek.
Implementácia pomocou aplikácie WEKA Explorer
WEKA obsahuje implementáciu Apriori algoritmus pre pravidlá združovania učiacich sa. Apriori pracuje iba s binárnymi atribútmi, kategorickými údajmi (nominálne údaje), takže ak množina údajov obsahuje akékoľvek číselné hodnoty, najskôr ich preveďte na nominálne hodnoty.
Apriori zistí všetky pravidlá s minimálnou podporou a prahom dôvery.
Postupujte podľa nasledujúcich pokynov:
# 1) Pripravte si súbor údajov súboru Excel a pomenujte ho ako „ apriori.csv „.
#dva) Otvorte prehliadač WEKA a na karte Predbežné spracovanie vyberte súbor „apriori.csv“.
# 3) Súbor sa teraz načíta v aplikácii WEKA Explorer.
# 4) Odstráňte pole Transakcia začiarknutím políčka a kliknutím na Odstrániť, ako je to znázornené na obrázku nižšie. Teraz uložte súbor ako „aprioritest.arff“.
# 5) Prejdite na kartu Pridružený. Pravidlá aprílu je možné odtiaľto ťažiť.
# 6) Kliknutím na Vybrať nastavíte parametre podpory a spoľahlivosti. Tu je možné nastaviť rôzne parametre:
- „ lowerBoundMinSupport “A„ upperBoundMinSupport ”, Toto je interval úrovne podpory, v ktorom bude náš algoritmus fungovať.
- Delta je prírastok do podpory. V tomto prípade je 0,05 prírastok podpory od 0,1 do 1.
- metricType môžu byť „Dôvera“, „Výťah“, „Páka“ a „Presvedčenie“. To nám hovorí, ako hodnotíme pravidlá asociácie. Spravidla sa vyberá dôvera.
- numRules udáva počet asociačných pravidiel, ktoré sa majú vyťažiť. Predvolene je nastavená na 10.
- úroveň významnosti zobrazuje, aký je význam úrovne spoľahlivosti.
# 7) Textové pole vedľa tlačidla na výber zobrazuje „ Apriori-N-10-T-0-C-0,9-D 0,05-U1,0-M0,1-S-1,0-c-1 ”, Ktorý zobrazuje zhrnuté pravidlá nastavené pre algoritmus na karte nastavení.
# 8) Kliknite na tlačidlo Štart. Pravidlá asociácie sa generujú na pravom paneli. Tento panel sa skladá z 2 častí. Prvým je algoritmus, ktorý je vybraný na spustenie množiny údajov. Druhá časť zobrazuje informácie Apriori.
Rozumieme informáciám o chode na pravom paneli:
- Schéma nás použila Apriori.
- Inštancie a atribúty: Má 6 inštancií a 4 atribúty.
- Minimálna podpora a minimálna dôvera sú 0,4, respektíve 0,9. Zo 6 prípadov sa nachádzajú 2 prípady s minimálnou podporou,
- Počet cyklov vykonaných pre pravidlo asociácie ťažby je 12.
- Generované veľké množiny položiek sú 3: L (1), L (2), L (3), ale tieto nie sú zoradené, pretože ich veľkosť je 7, 11 a 5.
- Nájdené pravidlá sú zoradené podľa poradia. Výklad týchto pravidiel je nasledovný:
- Maslo T 4 => Pivo F 4: znamená zo 6, 4 prípadov, že pri masle platí, že pivo platí. To dáva silné spojenie. Úroveň spoľahlivosti je 0,1.
Výkon
Pravidlá asociácie je možné vyťažiť pomocou aplikácie WEKA Explorer s algoritmom Apriori Algorithm. Tento algoritmus sa dá použiť na všetky typy súborov údajov dostupné v adresári WEKA, ako aj na ďalšie súbory údajov vytvorené používateľom. Podporu a spoľahlivosť a ďalšie parametre je možné nastaviť pomocou okna Algoritmus.
Algoritmus K-means pomocou aplikácie WEKA Explorer
Pozrime sa, ako implementovať algoritmus K-means pre klastrovanie pomocou aplikácie WEKA Explorer.
Čo je klastrová analýza
Klastrové algoritmy sú algoritmy učenia bez dozoru, ktoré sa používajú na vytvorenie skupín údajov s podobnými vlastnosťami. Agreguje objekty s podobnosťami do skupín a podskupín, čo vedie k rozdeleniu súborov údajov. Klastrová analýza je proces rozdelenia súborov údajov do podmnožín. Tieto podmnožiny sa nazývajú zhluky a množina zhlukov sa nazýva zhlukovanie.
Klastrová analýza sa používa v mnohých aplikáciách, ako je rozpoznávanie obrázkov, rozpoznávanie vzorov, vyhľadávanie na webe a zabezpečenie, v obchodných inteligenciách, ako je zoskupovanie zákazníkov s podobnými vkusmi.
Čo je to K-zhlukovanie
K znamená, že klastrovanie je najjednoduchší algoritmus klastrovania. V algoritme K-klastrovania je dátová sada rozdelená do K-klastrov. Objektívna funkcia sa používa na zistenie kvality oddielov tak, aby podobné objekty boli v jednom klastri a odlišné objekty v iných skupinách.
Pri tejto metóde sa zistilo, že ťažisko klastra predstavuje klaster. Ťažisko sa berie ako stred klastra, ktorý sa počíta ako stredná hodnota bodov v klastri. Teraz sa kvalita zhlukovania zisťuje meraním euklidovskej vzdialenosti medzi bodom a stredom. Táto vzdialenosť by mala byť maximálna.
Ako funguje K-Mean Clustering Algorithm
Krok 1: Vyberte hodnotu K, kde K je počet zhlukov.
Krok 2: Iterujte každý bod a priraďte k nemu zhluk, ktorý má najbližší stred. Keď je každý prvok iterovaný, vypočítajte ťažisko všetkých klastrov.
Krok č. 3: Iterujte každý prvok z množiny údajov a vypočítajte euklidovskú vzdialenosť medzi bodom a ťažiskom každého klastra. Ak sa v klastri nachádza nejaký bod, ktorý nie je najbližšie k nemu, potom ho znova priraďte k najbližšiemu klastru a po vykonaní tohto postupu ku všetkým bodom v množine údajov znova vypočítajte ťažisko každého klastra.
Krok č. 4: Vykonajte krok č. 3, kým medzi dvoma po sebe nasledujúcimi iteráciami nebude nové priradenie.
Implementácia klastrov K-means pomocou WEKA
Kroky implementácie pomocou Weky sú tieto:
# 1) Otvorte WEKA Explorer a kliknite na Open File na karte Preprocess. Vyberte množinu údajov „vote.arff“.
#dva) Prejdite na kartu „Klaster“ a kliknite na tlačidlo „Vybrať“. Vyberte metódu zoskupovania ako „SimpleKMeans“.
# 3) Vyberte možnosť Nastavenia a potom nastavte nasledujúce polia:
- Funkcia vzdialenosti ako Euklidián
- Počet zhlukov ako 6. S väčším počtom zhlukov sa zníži súčet štvorcových chýb.
- Vysiate ako 10. dňa
Kliknite na OK a spustite algoritmus.
# 4) Kliknite na Štart v ľavom paneli. Výsledky algoritmu sa zobrazia na bielej obrazovke. Poďme analyzovať informácie o chode:
- Schéma, vzťah, inštancie a atribúty popisujú vlastnosť množiny údajov a použitú metódu klastrovania. V takom prípade má dátová sada vote.arff 435 inštancií a 13 atribútov.
- S klastrom Kmeans je počet iterácií 5.
- Súčet štvorcovej chyby je 1098,0. Táto chyba sa zníži s nárastom počtu klastrov.
- 5 finálnych klastrov s centroidmi je znázornených vo forme tabuľky. V našom prípade sú centroidy klastrov 168,0, 47,0, 37,0, 122,0,33,0 a 28,0.
- Klastrované inštancie predstavujú počet a percento celkových inštancií spadajúcich do klastra.
# 5) Vyberte možnosť „Vyhodnotenia tried až klastrov“ a kliknite na tlačidlo Štart.
Algoritmus priradí štítku triedy klastru. Klaster 0 predstavuje republikánov a Klaster 3 predstavuje demokratov. Nesprávne zoskupená inštancia je 39,77%, čo sa dá znížiť ignorovaním nedôležitých atribútov.
# 6) Ignorovať nedôležité atribúty. Kliknite na tlačidlo „Ignorovať atribúty“ a vyberte atribúty, ktoré sa majú odstrániť.
# 7) Na karte „Vizualizácia“ si môžete vizualizovať výsledok algoritmu klastrovania. Prejdite na kartu a kliknite na ľubovoľné políčko. Posuňte chvenie na maximum.
- Os X a Y predstavuje atribút.
- Modrá farba predstavuje štítok triedy demokrat a červená farba predstavuje štítok triedy republikán.
- Jitter sa používa na prezeranie klastrov.
- Kliknutím na políčko na pravej strane okna môžete zmeniť atribút súradnice x a zobraziť zoskupenie vzhľadom na ďalšie atribúty.
Výkon
K znamená, že klastrovanie je jednoduchá metóda klastrovej analýzy. Počet zhlukov je možné nastaviť pomocou karty nastavení. Ťažisko každého klastra sa počíta ako priemer všetkých bodov v klastroch. S nárastom počtu klastrov sa znižuje súčet štvorcových chýb. Objekty v klastri vykazujú podobné vlastnosti a vlastnosti. Klastre predstavujú štítky triedy.
Implementujte vizualizáciu údajov pomocou WEKA
Vizualizácia údajov
Metóda reprezentácie údajov prostredníctvom grafov a grafov s cieľom jasného pochopenia údajov je vizualizácia údajov.
Existuje mnoho spôsobov, ako reprezentovať údaje. Niektoré z nich sú nasledujúce:
# 1) Vizualizácia pixelov: Tu farba pixelu predstavuje hodnotu dimenzie. Farba pixelu predstavuje zodpovedajúce hodnoty.
# 2) Geometrické znázornenie: Multidimenzionálne súbory údajov sú reprezentované v 2D, 3D a 4D bodových grafoch.
# 3) Vizualizácia na základe ikon: Údaje sú znázornené pomocou Chernoffových tvárí a panáčikov. Černoffove tváre využívajú schopnosť ľudskej mysle rozpoznávať tvárové vlastnosti a rozdiely medzi nimi. Panáčik používa 5 panáčikov na reprezentáciu viacrozmerných údajov.
# 4) Hierarchická vizualizácia údajov: Množiny údajov sú reprezentované pomocou stromových máp. Predstavuje hierarchické údaje ako množinu vnorených trojuholníkov.
Vizualizácia údajov pomocou nástroja WEKA Explorer
Vizualizácia údajov pomocou WEKA sa vykonáva na množine údajov IRIS.arff.
Jedná sa o tieto kroky:
# 1) Prejdite na kartu Predbežné spracovanie a otvorte množinu údajov IRIS.arff.
#dva) Sada údajov má 4 atribúty a 1 štítok triedy. Atribúty v tejto množine údajov sú:
- Samostatná dĺžka: Typ - číselný
- Sepalwidth: Typ- číselný
- Petalength: Typovo-číselné
- Šírka petal: Typovo-číselné
- Trieda: Typový nominál
# 3) Ak chcete vizualizovať množinu údajov, prejdite na kartu Vizualizácia. Na karte sa zobrazujú atribúty plot matrix. Atribúty množiny údajov sú označené na osi x a y, zatiaľ čo inštancie sú vykreslené. Políčko s atribútom osi x a atribútom osi y je možné zväčšiť.
# 4) Kliknite na rámček pozemku pre zväčšenie. Napríklad, x: petallength a y: petalwidth. Štítky triedy sú znázornené v rôznych farbách.
- Štítok triedy - Iris-setosa: modrá farba
- Štítok triedy - Iris-versicolor: červená
- Označenie triedy-Iris-virginica-zelená
Tieto farby je možné meniť. Ak chcete zmeniť farbu, kliknite na štítok triedy v dolnej časti, zobrazí sa farebné okno.
# 5) Kliknite na grafe na inštanciu predstavovanú symbolom „x“. Poskytne podrobnosti inštancie. Napríklad:
tímový serverový agilný projektový manažment
- Číslo inštancie: 91
- Sepalength: 5.5
- Sepalwidth: 2.6
- Petalength: 4.4
- Šírka petal: 1.2
- Trieda: Iris-versicolor
Niektoré body v grafe vyzerajú tmavšie ako iné body. Tieto body predstavujú 2 alebo viac inštancií s rovnakou menovkou triedy a rovnakou hodnotou atribútov vykreslených v grafe, ako je šírka a dĺžka petal.
Obrázok nižšie predstavuje bod s 2 inštančnými informáciami.
# 6) Atribúty osi X a Y je možné zmeniť na pravom paneli v grafe Vizualizácia. Užívateľ si môže prezerať rôzne grafy.
# 7) Jitter sa používa na pridanie náhodnosti do deja. Niekedy sa body prekrývajú. S chvením predstavujú tmavšie škvrny viac prípadov.
# 8) Ak chcete získať jasnejší prehľad o množine údajov a odstrániť odľahlé hodnoty, môže používateľ vybrať inštanciu z rozbaľovacej ponuky. Kliknite na rozbaľovaciu ponuku „vybrať inštanciu“. Vyberte možnosť Obdĺžnik. Vďaka tomu bude môcť používateľ vyberať body v grafe vykreslením obdĺžnika.
# 9) Kliknite na „Odoslať“. Zobrazia sa iba vybrané body množiny údajov a ostatné body sa vylúčia z grafu.
Na nasledujúcom obrázku sú zobrazené body z vybraného obdĺžnikového tvaru. Dej predstavuje body s iba 3 štítkami triedy. Užívateľ môže kliknúť na „Uložiť“, aby uložil súbor údajov, alebo na „Obnoviť“, aby vybral inú inštanciu. Dataset sa uloží do samostatného súboru .ARFF.
Výkon:
Vizualizácia dát pomocou WEKA je zjednodušená pomocou krabicového grafu. Užívateľ si môže pozrieť ľubovoľnú úroveň podrobnosti. Atribúty sú vynesené na os X a y, zatiaľ čo inštancie sú vynesené proti osi X a Y. Niektoré body predstavujú viac inštancií, ktoré sú reprezentované bodmi s tmavou farbou.
Záver
WEKA je efektívny nástroj na dolovanie údajov, ktorý umožňuje vykonávať mnoho úloh v oblasti dolovania údajov, ako aj experimentovať s novými metódami na množinách údajov. WEKA bola vyvinutá na Katedre informatiky University of Waikato na Novom Zélande.
Dnešný svet je zahltený dátami priamo od nákupu v supermarkete až po bezpečnostné kamery v našej domácnosti. Data mining využíva tieto nespracované dáta a prevádza ich na informácie, aby mohol predpovedať. WEKA pomocou algoritmu Apriori pomáha pri ťažbe asociačných pravidiel v množine údajov. Apriori je častý algoritmus ťažby vzorov, ktorý počíta počet výskytov množiny položiek v transakcii.
Klastrová analýza je technika na zisťovanie zhlukov údajov, ktoré predstavujú podobné vlastnosti. WEKA poskytuje mnoho algoritmov na vykonávanie klastrovej analýzy, z ktorých sa veľmi často používajú jednoduché kmene.
Vizualizáciu údajov v WEKA je možné vykonať na všetkých súboroch údajov v adresári WEKA. Surový súbor údajov je možné prezerať a ďalšie výsledné súbory údajov iných algoritmov, ako je klasifikácia, klastrovanie a asociácia, je možné vizualizovať pomocou nástroja WEKA.
=> Navštívte tu exkluzívnu sériu strojového učenia
Odporúčané čítanie
- Výukový program Weka - Ako sťahovať, inštalovať a používať nástroj Weka
- Datová sada, klasifikátor a algoritmus J48 pre rozhodovací strom WEKA
- 15 NAJLEPŠÍCH nástrojov a softvéru na vizualizáciu údajov v roku 2021
- Výukový program D3.js - Rámec vizualizácie údajov pre začiatočníkov
- Výukový program vizualizácie dát D3.js - tvary, graf, animácia
- 7 princípov testovania softvéru: zhlukovanie defektov a Paretov princíp
- Ťažba dát: Proces, techniky a hlavné problémy v analýze dát
- Techniky dolovania dát: Algoritmus, metódy a najlepšie nástroje na dolovanie dát