Prieskumník WEKA: Vizualizácia, klastrovanie, ťažba asociačných pravidiel

weka explorer visualization

Vyskúšajte Náš Nástroj Na Odstránenie Problémov

Vyberte Operačný Systém Vyberte Program Projekcie (Voliteľne)

Popíšte Svoj Problém

V tomto výučbe sa dozviete, ako vykonať vizualizáciu údajov, klastrovú analýzu K-means a ťažbu asociačných pravidiel pomocou nástroja WEKA Explorer:

V Predchádzajúci návod , dozvedeli sme sa o množine údajov WEKA, klasifikátore a algoritme J48 pre rozhodovací strom.

Ako sme už videli predtým, WEKA je nástroj na dolovanie dát s otvoreným zdrojovým kódom používaný mnohými výskumníkmi a študentmi na vykonávanie mnohých úloh strojového učenia. Používatelia môžu tiež zostavovať svoje metódy strojového učenia a experimentovať so vzorovými súbormi údajov poskytnutými v adresári WEKA.

Vizualizáciu údajov v WEKA je možné vykonať pomocou vzorových súborov údajov alebo súborov údajov vytvorených používateľom vo formáte .arff, .csv.

=> Prečítajte si celú sériu školení o strojovom učení

Prieskumník WEKA

Mining Association Rule Mining sa vykonáva pomocou algoritmu Apriori. Je to jediný algoritmus poskytovaný spoločnosťou WEKA na vykonávanie častej ťažby vzorov.

V WEKA je veľa algoritmov na vykonávanie klastrovej analýzy, ako napríklad FartherestFirst, FilteredCluster a HierachicalCluster atď. Z nich použijeme SimpleKmeans, čo je najjednoduchšia metóda klastrovania.

Čo sa dozviete:

Ťažba pravidiel združenia pomocou prieskumníka WEKA
Algoritmus K-means pomocou aplikácie WEKA Explorer
Implementujte vizualizáciu údajov pomocou WEKA
- Vizualizácia údajov
- Vizualizácia údajov pomocou nástroja WEKA Explorer
Záver
- Odporúčané čítanie

Ťažba pravidiel združenia pomocou prieskumníka WEKA

Pozrime sa, ako implementovať Mining Rule asociácií pomocou nástroja WEKA Explorer.

Ťažba združených pravidiel

Je vyvinutý a navrhnutý Srikantom a Aggarwalom v roku 1994. Pomáha nám nájsť vzory v dátach. Jedná sa o proces dolovania dát, pri ktorom sa zisťujú prvky, ktoré sa vyskytujú spoločne, alebo prvky, ktoré navzájom súvisia.

b strom a b + strom

Medzi aplikácie pravidiel asociácie patrí Market Basket Analysis, na analýzu položiek zakúpených v jednom košíku; Cross Marketing, aby sme spolupracovali s inými podnikmi, čo zvyšuje hodnotu nášho obchodného produktu, ako sú predajca vozidiel a ropná spoločnosť.

Asociačné pravidlá sú vyťažené po nájdení častých množín položiek vo veľkej množine údajov. Tieto súbory údajov sa zisťujú pomocou ťažobných algoritmov, ako sú Apriori a FP Growth. Ťažba častých položiek ťaží dáta pomocou opatrení podpory a dôveryhodnosti.

Podpora a dôvera

podpora meria pravdepodobnosť, že sa v jednej transakcii zakúpia dve položky naraz, napríklad chlieb s maslom. Dôvera je opatrenie, ktoré uvádza pravdepodobnosť toho, že sa zakúpia dve položky jedna za druhou, ale nie spoločne, napríklad antivírusový softvér pre laptop a počítač.

Predpokladá sa, že podpora minimálnych prahových hodnôt a minimálne prahové hodnoty spoľahlivosti slúžia na orezanie transakcií a zistenie najčastejšie sa vyskytujúcej množiny položiek.

Implementácia pomocou aplikácie WEKA Explorer

WEKA obsahuje implementáciu Apriori algoritmus pre pravidlá združovania učiacich sa. Apriori pracuje iba s binárnymi atribútmi, kategorickými údajmi (nominálne údaje), takže ak množina údajov obsahuje akékoľvek číselné hodnoty, najskôr ich preveďte na nominálne hodnoty.

Apriori zistí všetky pravidlá s minimálnou podporou a prahom dôvery.

Postupujte podľa nasledujúcich pokynov:

# 1) Pripravte si súbor údajov súboru Excel a pomenujte ho ako „ apriori.csv „.

súbor programu Excel

#dva) Otvorte prehliadač WEKA a na karte Predbežné spracovanie vyberte súbor „apriori.csv“.

Vyberte súbor „apriori.csv“

# 3) Súbor sa teraz načíta v aplikácii WEKA Explorer.

Súbor bol načítaný

# 4) Odstráňte pole Transakcia začiarknutím políčka a kliknutím na Odstrániť, ako je to znázornené na obrázku nižšie. Teraz uložte súbor ako „aprioritest.arff“.

Odstrániť transakciu

uložiť aprioritest

# 5) Prejdite na kartu Pridružený. Pravidlá aprílu je možné odtiaľto ťažiť.

# 6) Kliknutím na Vybrať nastavíte parametre podpory a spoľahlivosti. Tu je možné nastaviť rôzne parametre:

„ lowerBoundMinSupport “A„ upperBoundMinSupport ”, Toto je interval úrovne podpory, v ktorom bude náš algoritmus fungovať.
Delta je prírastok do podpory. V tomto prípade je 0,05 prírastok podpory od 0,1 do 1.
metricType môžu byť „Dôvera“, „Výťah“, „Páka“ a „Presvedčenie“. To nám hovorí, ako hodnotíme pravidlá asociácie. Spravidla sa vyberá dôvera.
numRules udáva počet asociačných pravidiel, ktoré sa majú vyťažiť. Predvolene je nastavená na 10.
úroveň významnosti zobrazuje, aký je význam úrovne spoľahlivosti.

Parametre podpory a dôvery

# 7) Textové pole vedľa tlačidla na výber zobrazuje „ Apriori-N-10-T-0-C-0,9-D 0,05-U1,0-M0,1-S-1,0-c-1 ”, Ktorý zobrazuje zhrnuté pravidlá nastavené pre algoritmus na karte nastavení.

Spolupracovník

# 8) Kliknite na tlačidlo Štart. Pravidlá asociácie sa generujú na pravom paneli. Tento panel sa skladá z 2 častí. Prvým je algoritmus, ktorý je vybraný na spustenie množiny údajov. Druhá časť zobrazuje informácie Apriori.

Apriori informácie

Rozumieme informáciám o chode na pravom paneli:

Schéma nás použila Apriori.
Inštancie a atribúty: Má 6 inštancií a 4 atribúty.
Minimálna podpora a minimálna dôvera sú 0,4, respektíve 0,9. Zo 6 prípadov sa nachádzajú 2 prípady s minimálnou podporou,
Počet cyklov vykonaných pre pravidlo asociácie ťažby je 12.
Generované veľké množiny položiek sú 3: L (1), L (2), L (3), ale tieto nie sú zoradené, pretože ich veľkosť je 7, 11 a 5.
Nájdené pravidlá sú zoradené podľa poradia. Výklad týchto pravidiel je nasledovný:
- Maslo T 4 => Pivo F 4: znamená zo 6, 4 prípadov, že pri masle platí, že pivo platí. To dáva silné spojenie. Úroveň spoľahlivosti je 0,1.

Výkon

Pravidlá asociácie je možné vyťažiť pomocou aplikácie WEKA Explorer s algoritmom Apriori Algorithm. Tento algoritmus sa dá použiť na všetky typy súborov údajov dostupné v adresári WEKA, ako aj na ďalšie súbory údajov vytvorené používateľom. Podporu a spoľahlivosť a ďalšie parametre je možné nastaviť pomocou okna Algoritmus.

Algoritmus K-means pomocou aplikácie WEKA Explorer

Pozrime sa, ako implementovať algoritmus K-means pre klastrovanie pomocou aplikácie WEKA Explorer.

Čo je klastrová analýza

Klastrové algoritmy sú algoritmy učenia bez dozoru, ktoré sa používajú na vytvorenie skupín údajov s podobnými vlastnosťami. Agreguje objekty s podobnosťami do skupín a podskupín, čo vedie k rozdeleniu súborov údajov. Klastrová analýza je proces rozdelenia súborov údajov do podmnožín. Tieto podmnožiny sa nazývajú zhluky a množina zhlukov sa nazýva zhlukovanie.

Klastrová analýza sa používa v mnohých aplikáciách, ako je rozpoznávanie obrázkov, rozpoznávanie vzorov, vyhľadávanie na webe a zabezpečenie, v obchodných inteligenciách, ako je zoskupovanie zákazníkov s podobnými vkusmi.

Čo je to K-zhlukovanie

K znamená, že klastrovanie je najjednoduchší algoritmus klastrovania. V algoritme K-klastrovania je dátová sada rozdelená do K-klastrov. Objektívna funkcia sa používa na zistenie kvality oddielov tak, aby podobné objekty boli v jednom klastri a odlišné objekty v iných skupinách.

Pri tejto metóde sa zistilo, že ťažisko klastra predstavuje klaster. Ťažisko sa berie ako stred klastra, ktorý sa počíta ako stredná hodnota bodov v klastri. Teraz sa kvalita zhlukovania zisťuje meraním euklidovskej vzdialenosti medzi bodom a stredom. Táto vzdialenosť by mala byť maximálna.

Ako funguje K-Mean Clustering Algorithm

Krok 1: Vyberte hodnotu K, kde K je počet zhlukov.

Krok 2: Iterujte každý bod a priraďte k nemu zhluk, ktorý má najbližší stred. Keď je každý prvok iterovaný, vypočítajte ťažisko všetkých klastrov.

Krok č. 3: Iterujte každý prvok z množiny údajov a vypočítajte euklidovskú vzdialenosť medzi bodom a ťažiskom každého klastra. Ak sa v klastri nachádza nejaký bod, ktorý nie je najbližšie k nemu, potom ho znova priraďte k najbližšiemu klastru a po vykonaní tohto postupu ku všetkým bodom v množine údajov znova vypočítajte ťažisko každého klastra.

Krok č. 4: Vykonajte krok č. 3, kým medzi dvoma po sebe nasledujúcimi iteráciami nebude nové priradenie.

Implementácia klastrov K-means pomocou WEKA

Kroky implementácie pomocou Weky sú tieto:

# 1) Otvorte WEKA Explorer a kliknite na Open File na karte Preprocess. Vyberte množinu údajov „vote.arff“.

hlasovať.arff

#dva) Prejdite na kartu „Klaster“ a kliknite na tlačidlo „Vybrať“. Vyberte metódu zoskupovania ako „SimpleKMeans“.

SimpleKmeans

# 3) Vyberte možnosť Nastavenia a potom nastavte nasledujúce polia:

Funkcia vzdialenosti ako Euklidián
Počet zhlukov ako 6. S väčším počtom zhlukov sa zníži súčet štvorcových chýb.
Vysiate ako 10. dňa

Kliknite na OK a spustite algoritmus.

Kmeans Nastavenia

# 4) Kliknite na Štart v ľavom paneli. Výsledky algoritmu sa zobrazia na bielej obrazovke. Poďme analyzovať informácie o chode:

Schéma, vzťah, inštancie a atribúty popisujú vlastnosť množiny údajov a použitú metódu klastrovania. V takom prípade má dátová sada vote.arff 435 inštancií a 13 atribútov.
S klastrom Kmeans je počet iterácií 5.
Súčet štvorcovej chyby je 1098,0. Táto chyba sa zníži s nárastom počtu klastrov.
5 finálnych klastrov s centroidmi je znázornených vo forme tabuľky. V našom prípade sú centroidy klastrov 168,0, 47,0, 37,0, 122,0,33,0 a 28,0.
Klastrované inštancie predstavujú počet a percento celkových inštancií spadajúcich do klastra.

Spustiť informácie

Kmeans informácie

# 5) Vyberte možnosť „Vyhodnotenia tried až klastrov“ a kliknite na tlačidlo Štart.

Algoritmus priradí štítku triedy klastru. Klaster 0 predstavuje republikánov a Klaster 3 predstavuje demokratov. Nesprávne zoskupená inštancia je 39,77%, čo sa dá znížiť ignorovaním nedôležitých atribútov.

Vyhodnocovanie tried do klastrov

# 6) Ignorovať nedôležité atribúty. Kliknite na tlačidlo „Ignorovať atribúty“ a vyberte atribúty, ktoré sa majú odstrániť.

# 7) Na karte „Vizualizácia“ si môžete vizualizovať výsledok algoritmu klastrovania. Prejdite na kartu a kliknite na ľubovoľné políčko. Posuňte chvenie na maximum.

Os X a Y predstavuje atribút.
Modrá farba predstavuje štítok triedy demokrat a červená farba predstavuje štítok triedy republikán.
Jitter sa používa na prezeranie klastrov.
Kliknutím na políčko na pravej strane okna môžete zmeniť atribút súradnice x a zobraziť zoskupenie vzhľadom na ďalšie atribúty.

Triedy

Výkon

K znamená, že klastrovanie je jednoduchá metóda klastrovej analýzy. Počet zhlukov je možné nastaviť pomocou karty nastavení. Ťažisko každého klastra sa počíta ako priemer všetkých bodov v klastroch. S nárastom počtu klastrov sa znižuje súčet štvorcových chýb. Objekty v klastri vykazujú podobné vlastnosti a vlastnosti. Klastre predstavujú štítky triedy.

Implementujte vizualizáciu údajov pomocou WEKA

Vizualizácia údajov

Metóda reprezentácie údajov prostredníctvom grafov a grafov s cieľom jasného pochopenia údajov je vizualizácia údajov.

Existuje mnoho spôsobov, ako reprezentovať údaje. Niektoré z nich sú nasledujúce:

# 1) Vizualizácia pixelov: Tu farba pixelu predstavuje hodnotu dimenzie. Farba pixelu predstavuje zodpovedajúce hodnoty.

PixelOriented

# 2) Geometrické znázornenie: Multidimenzionálne súbory údajov sú reprezentované v 2D, 3D a 4D bodových grafoch.

Bodový diagram

# 3) Vizualizácia na základe ikon: Údaje sú znázornené pomocou Chernoffových tvárí a panáčikov. Černoffove tváre využívajú schopnosť ľudskej mysle rozpoznávať tvárové vlastnosti a rozdiely medzi nimi. Panáčik používa 5 panáčikov na reprezentáciu viacrozmerných údajov.

Cheronoff

# 4) Hierarchická vizualizácia údajov: Množiny údajov sú reprezentované pomocou stromových máp. Predstavuje hierarchické údaje ako množinu vnorených trojuholníkov.

Stromové mapy

Vizualizácia údajov pomocou nástroja WEKA Explorer

Vizualizácia údajov pomocou WEKA sa vykonáva na množine údajov IRIS.arff.

Jedná sa o tieto kroky:

# 1) Prejdite na kartu Predbežné spracovanie a otvorte množinu údajov IRIS.arff.

#dva) Sada údajov má 4 atribúty a 1 štítok triedy. Atribúty v tejto množine údajov sú:

Samostatná dĺžka: Typ - číselný
Sepalwidth: Typ- číselný
Petalength: Typovo-číselné
Šírka petal: Typovo-číselné
Trieda: Typový nominál

Vizualizácia

# 3) Ak chcete vizualizovať množinu údajov, prejdite na kartu Vizualizácia. Na karte sa zobrazujú atribúty plot matrix. Atribúty množiny údajov sú označené na osi x a y, zatiaľ čo inštancie sú vykreslené. Políčko s atribútom osi x a atribútom osi y je možné zväčšiť.

Karta Vizualizácia

# 4) Kliknite na rámček pozemku pre zväčšenie. Napríklad, x: petallength a y: petalwidth. Štítky triedy sú znázornené v rôznych farbách.

Štítok triedy - Iris-setosa: modrá farba
Štítok triedy - Iris-versicolor: červená
Označenie triedy-Iris-virginica-zelená

Tieto farby je možné meniť. Ak chcete zmeniť farbu, kliknite na štítok triedy v dolnej časti, zobrazí sa farebné okno.

Karta Vizualizácia

Farebné okno

# 5) Kliknite na grafe na inštanciu predstavovanú symbolom „x“. Poskytne podrobnosti inštancie. Napríklad:

tímový serverový agilný projektový manažment

Číslo inštancie: 91
Sepalength: 5.5
Sepalwidth: 2.6
Petalength: 4.4
Šírka petal: 1.2
Trieda: Iris-versicolor

Niektoré body v grafe vyzerajú tmavšie ako iné body. Tieto body predstavujú 2 alebo viac inštancií s rovnakou menovkou triedy a rovnakou hodnotou atribútov vykreslených v grafe, ako je šírka a dĺžka petal.

Obrázok nižšie predstavuje bod s 2 inštančnými informáciami.

Podrobnosti inštancie

Príklady Weka

# 6) Atribúty osi X a Y je možné zmeniť na pravom paneli v grafe Vizualizácia. Užívateľ si môže prezerať rôzne grafy.

# 7) Jitter sa používa na pridanie náhodnosti do deja. Niekedy sa body prekrývajú. S chvením predstavujú tmavšie škvrny viac prípadov.

Jitter

# 8) Ak chcete získať jasnejší prehľad o množine údajov a odstrániť odľahlé hodnoty, môže používateľ vybrať inštanciu z rozbaľovacej ponuky. Kliknite na rozbaľovaciu ponuku „vybrať inštanciu“. Vyberte možnosť Obdĺžnik. Vďaka tomu bude môcť používateľ vyberať body v grafe vykreslením obdĺžnika.

Vyberte inštanciu

# 9) Kliknite na „Odoslať“. Zobrazia sa iba vybrané body množiny údajov a ostatné body sa vylúčia z grafu.

Na nasledujúcom obrázku sú zobrazené body z vybraného obdĺžnikového tvaru. Dej predstavuje body s iba 3 štítkami triedy. Užívateľ môže kliknúť na „Uložiť“, aby uložil súbor údajov, alebo na „Obnoviť“, aby vybral inú inštanciu. Dataset sa uloží do samostatného súboru .ARFF.

Obdĺžniková inštancia

Výkon:

Vizualizácia dát pomocou WEKA je zjednodušená pomocou krabicového grafu. Užívateľ si môže pozrieť ľubovoľnú úroveň podrobnosti. Atribúty sú vynesené na os X a y, zatiaľ čo inštancie sú vynesené proti osi X a Y. Niektoré body predstavujú viac inštancií, ktoré sú reprezentované bodmi s tmavou farbou.

Záver

WEKA je efektívny nástroj na dolovanie údajov, ktorý umožňuje vykonávať mnoho úloh v oblasti dolovania údajov, ako aj experimentovať s novými metódami na množinách údajov. WEKA bola vyvinutá na Katedre informatiky University of Waikato na Novom Zélande.

Dnešný svet je zahltený dátami priamo od nákupu v supermarkete až po bezpečnostné kamery v našej domácnosti. Data mining využíva tieto nespracované dáta a prevádza ich na informácie, aby mohol predpovedať. WEKA pomocou algoritmu Apriori pomáha pri ťažbe asociačných pravidiel v množine údajov. Apriori je častý algoritmus ťažby vzorov, ktorý počíta počet výskytov množiny položiek v transakcii.

Klastrová analýza je technika na zisťovanie zhlukov údajov, ktoré predstavujú podobné vlastnosti. WEKA poskytuje mnoho algoritmov na vykonávanie klastrovej analýzy, z ktorých sa veľmi často používajú jednoduché kmene.

Vizualizáciu údajov v WEKA je možné vykonať na všetkých súboroch údajov v adresári WEKA. Surový súbor údajov je možné prezerať a ďalšie výsledné súbory údajov iných algoritmov, ako je klasifikácia, klastrovanie a asociácia, je možné vizualizovať pomocou nástroja WEKA.

=> Navštívte tu exkluzívnu sériu strojového učenia

Prieskumník WEKA: Vizualizácia, klastrovanie, dolovanie pravidla asociácie

Ťažba pravidiel združenia pomocou prieskumníka WEKA

Ťažba združených pravidiel

Podpora a dôvera

Implementácia pomocou aplikácie WEKA Explorer

Algoritmus K-means pomocou aplikácie WEKA Explorer

Čo je klastrová analýza

Čo je to K-zhlukovanie

Ako funguje K-Mean Clustering Algorithm

Implementácia klastrov K-means pomocou WEKA

Implementujte vizualizáciu údajov pomocou WEKA

Vizualizácia údajov

Vizualizácia údajov pomocou nástroja WEKA Explorer

Záver

Odporúčané čítanie

Zaujímavé Články

Redakcia Choice

Evil Dead: The Game nedorazí na Nintendo Switch budúci týždeň

Spider-Man a Batman dominujú v zozname najpredávanejších superhrdinových hier všetkých čias

Fallout 76 si môžete tento týždeň bezplatne vyskúšať

Rozšírenie Back 4 Blood Tunnels of Terror DLC prichádza v apríli

Pixelový remaster Final Fantasy V prichádza 10. novembra

Sakurai uverejňuje svoju poslednú dennú obrazovku Smash Ultimate a dráždi niečo iné

The Elder Scrolls Online: The Thieves Guild's trailer je najmenej záludná vec

Tohtotýždňový stream remake Dead Space je celý o umení

Náhľad: Sand Land svieti, keď ste v nádrži

Halo: ODST Úspechy možno odhalené

Vianoce prichádzajú do Skyrimu (tak trochu) s týmto modom

Xbox Game Pass pridáva kooperatívneho miláčika It Takes Two, GTA: San Andreas v novembri

Skytex Softbox - the perfect solution for professional photography and videography.