weka dataset classifier
Tento výukový program vysvetľuje množinu údajov WEKA, klasifikátor a algoritmus J48 pre rozhodovací strom. Poskytuje tiež informácie o vzorových súboroch údajov ARFF pre server Weka:
V Predchádzajúci návod , dozvedeli sme sa o nástroji Weka Machine Learning, jeho funkciách a o tom, ako sťahovať, inštalovať a používať softvér Weka Machine Learning.
WEKA je knižnica algoritmov strojového učenia na riešenie problémov s dolovaním údajov o skutočných dátach. WEKA tiež poskytuje prostredie na vývoj mnohých algoritmov strojového učenia. Má súbor nástrojov na vykonávanie rôznych úloh dolovania údajov, ako je klasifikácia údajov, zhlukovanie údajov, regresia, výber atribútov, časté dolovanie množiny položiek atď.
Všetky tieto úlohy je možné vykonať na súbore sample.ARFF dostupnom v úložisku WEKA alebo si používatelia môžu pripraviť svoje dátové súbory. Vzorové súbory .arff sú súbory údajov, ktoré majú zabudované historické údaje zhromaždené výskumníkmi.
=> Prečítajte si celú sériu školení o strojovom učení
V tomto tutoriále uvidíme niektoré vzorové súbory údajov v WEKA a taktiež vykonáme dolovanie dát algoritmu rozhodovacieho stromu pomocou dátovej sady weather.arff.
Čo sa dozviete:
Preskúmanie dátových súborov WEKA
Nástroj strojového učenia WEKA poskytuje adresár niektorých vzorových súborov údajov. Tieto súbory údajov je možné priamo načítať do servera WEKA, aby používatelia mohli okamžite začať vyvíjať modely.
Dátové súbory WEKA je možné preskúmať z odkazu „C: Program Files Weka-3-8 data“. Dátové súbory sú vo formáte .arff.
Vzorové datasety WEKA
Niektoré vzorové súbory údajov nachádzajúce sa na WEKA sú uvedené v nasledujúcej tabuľke:
S.No. | Vzorové súbory údajov |
---|---|
7. | cukrovka.arff |
1. | letecká spoločnosť.arff |
2. | rakovina prsníka.arff |
3. | kontaktná šošovka.arff |
Štyri. | cpu.arff |
5. | cpu.with-vendor.arff |
6. | úver-g.arff |
8. | sklo.arff |
9. | hypotyreoid.arff |
10. | ionospehre.arff |
jedenásť. | iris.2D.arff |
12. | iris.arff |
13. | pracovná sila |
14. | ReutersCorn-train.arff |
pätnásť. | ReutersCorn-test.arff |
16. | ReutersGrain-train.arff |
17. | ReutersGrain-test.arff |
18. | segmentová výzva.arff |
19. | segment-test.arff |
dvadsať. | sója.arff |
dvadsaťjeden. | supermarket.aff |
22. | nevyvážený.arff |
2. 3. | hlasovať.arff |
24. | počasie.numerické.pol |
25. | počasie.menovitý.pol |
Pozrime sa na niektoré z nich:
kontaktná šošovka.arff
dataset contact-lens.arff je databáza na prispôsobenie kontaktných šošoviek. Daroval ho darca Benoit Julien v roku 1990.
Databáza: Táto databáza je úplná. Príklady použité v tejto databáze sú úplné a bez šumu. Databáza má 24 inštancií a 4 atribúty.
Atribúty: Všetky štyri atribúty sú nominálne. Nechýbajú žiadne hodnoty atribútov. Štyri atribúty sú tieto:
# 1) Vek pacienta: Atribút age môže nadobúdať hodnoty:
- mladý
- pred-presbyopický
- presbyopický
#dva) Predpis okuliarov: Tento atribút môže nadobúdať hodnoty:
- krátkozraký
- hypermetrop
# 3) Astigmatický: Tento atribút môže nadobúdať hodnoty
- č
- Áno
# 4) Rýchlosť produkcie sĺz: Hodnoty môžu byť
- znížený
- normálne
Trieda: Tu sú definované tri štítky triedy. Sú to:
- pacient by mal byť vybavený tvrdými kontaktnými šošovkami.
- pacient by mal byť vybavený mäkkými kontaktnými šošovkami.
- pacient by nemal byť vybavený kontaktnými šošovkami.
Distribúcia tried: Prípady, ktoré sú klasifikované do štítkov tried, sú uvedené nižšie:
Štítok triedy | Počet prípadov | |
---|---|---|
1. | Tvrdé kontaktné šošovky | 4 |
2. | Mäkké kontaktné šošovky | 5 |
3. | Žiadne kontaktné šošovky | pätnásť |
iris.arff
Dátový súbor iris.arff vytvoril v roku 1988 Michael Marshall. Je to databáza rastlín kosatca.
otázky a odpovede na otázky týkajúce sa dátových záznamov pre skúsených
Databáza: Táto databáza sa používa na rozpoznávanie vzorov. Súbor údajov obsahuje 3 triedy po 50 inštancií. Každá trieda predstavuje typ rastliny dúhovky. Jedna trieda je lineárne oddeliteľná od ostatných 2, ale druhé triedy nie sú lineárne oddeliteľné od seba navzájom. Predpovedá, ku ktorému druhu kvetu dúhovky patrí pozorovanie. Tomu sa hovorí datový súbor klasifikácie viacerých tried.
Atribúty: Má 4 numerické prediktívne atribúty a triedu. Nechýbajú žiadne atribúty.
Atribúty sú:
- sepal dĺžka v cm
- šírka sepalu v cm
- dĺžka okvetného lístka v cm
- šírka okvetného lístka v cm
- trieda:
- Iris Setosa
- Iris Versicolor
- Iris Virginica
Súhrnná štatistika:
Min | Max | Zlý | SD | Korelácia triedy | |
---|---|---|---|---|---|
sepal dĺžka | 4.3 | 7.9 | 5,84 | 0,83 | 0,7826 |
šírka sepalu | 2.0 | 4.4 | 3,05 | 0,43 | -0,4194 |
dĺžka okvetného lístka | 1.0 | 6.9 | 3,76 | 1,76 | 0,9490 (vysoká!) |
šírka okvetného lístka | 0,1 | 2.5 | 1.20 | 0,76 | 0,9565 (vysoká!) |
Distribúcia triedy: 33,3% pre každú z 3 tried
Niektoré ďalšie súbory údajov:
cukrovka.arff
Databáza tohto súboru údajov je Pima Indians Diabetes. Tento súbor údajov predpovedá, či je pacient v nasledujúcich 5 rokoch náchylný na cukrovku. Pacienti v tomto súbore údajov sú všetky ženy vo veku najmenej 21 rokov z indického dedičstva Pima. Má 768 inštancií a 8 číselných atribútov plus triedu. Toto je dátový súbor binárnej klasifikácie, kde predikovaná výstupná premenná je nominálna a pozostáva z dvoch tried.
ionosféra.arff
Toto je populárny súbor údajov pre binárnu klasifikáciu. Inštancia v tomto súbore údajov popisuje vlastnosti radarových návratov z atmosféry. Používa sa na predpovedanie toho, kde má ionosféra nejakú štruktúru alebo nie. Má 34 číselných atribútov a triedu.
Atribút triedy je „dobrý“ alebo „zlý“, čo sa predpovedá na základe pozorovania 34 atribútov. Prijaté signály sú spracované funkciou autokorelácie, pričom ako argumenty sú použité časové impulzy a čísla impulzov.
Súbory regresných údajov
Súbory regresných údajov je možné stiahnuť z webovej stránky WEKA “ Zbierky súborov údajov “. Má 37 regresných problémov získaných z rôznych zdrojov. Stiahnutý súbor vytvorí numerický adresár s regresnými údajovými súbormi vo formáte .arff.
Populárne súbory údajov, ktoré sa nachádzajú v adresári, sú: Ekonomický súbor údajov Longley (longley.arff), súbor údajov o cene domu v Bostone (Housing.arff) a súbor údajov o spánku v cicavcoch (sleep.arff).
Pozrime sa teraz na to, ako identifikovať skutočné a nominálne atribúty v množine údajov pomocou prieskumníka WEKA.
Čo sú skutočné hodnoty a nominálne atribúty
Atribúty so skutočnou hodnotou sú číselné atribúty, ktoré obsahujú iba skutočné hodnoty. Sú to merateľné veličiny. Tieto atribúty je možné škálovať podľa intervalu, napríklad podľa teploty, alebo podľa mierky, ako je priemer, medián.
Nominálne atribúty predstavujú mená alebo určité vyjadrenie vecí. V takýchto atribútoch nie je poradie a predstavujú určitú kategóriu. Napríklad, farba.
Postupujte podľa krokov uvedených nižšie a použite WEKA na identifikáciu skutočných hodnôt a nominálnych atribútov v množine údajov.
# 1) Otvorte WEKA a v časti „Aplikácie“ vyberte „Prieskumník“.
#dva) Vyberte kartu „Predbežné spracovanie“. Kliknite na „Otvoriť súbor“. S používateľom WEKA máte prístup k vzorovým súborom WEKA.
# 3) Vyberte vstupný súbor z priečinka WEKA3.8 uloženého v lokálnom systéme. Vyberte preddefinovaný súbor .arff „credit-g.arff“ a kliknite na „Otvoriť“.
# 4) Na ľavom paneli sa otvorí zoznam atribútov. Štatistika vybraných atribútov sa zobrazí na pravom paneli spolu s histogramom.
Analýza súboru údajov:
Na ľavom paneli zobrazuje aktuálny vzťah:
- Názov vzťahu: german_credit je vzorový súbor.
- Inštancie: 1000 počet riadkov údajov v množine údajov.
- Atribúty: 21 atribútov v datasete.
Panel pod aktuálnym vzťahom zobrazuje názov atribútov.
Na pravom paneli zobrazia sa štatistické údaje vybraného atribútu. Vyberte ikonu atribút „checking_status“.
Ukazuje:
- Názov atribútu
- Chýba: Chýbajúce hodnoty atribútu v množine údajov. 0% v tomto prípade.
- Odlišný: Atribút má 4 odlišné hodnoty.
- Typ: Atribút je nominálneho typu, to znamená, že nemá žiadnu číselnú hodnotu.
- Počet: Spomedzi 1 000 inštancií je do každého stĺpca počtu zapísaný počet jednotlivých štítkov triedy.
- Histogram: Zobrazí atribút výstupnej triedy pre atribút. Označenie triedy v tomto súbore údajov je buď dobré, alebo zlé. Existuje 700 prípadov dobrého (označené modrou farbou) a 300 prípadov nesprávneho (vyznačené červenou farbou).
- Pre štítok<0, the instances for good or bad are almost the same in number.
- Pre štítok 0<= X<200, the instances with decision good are more than instances with bad.
- Podobne pre štítok> = 200 sa maximálne inštancie vyskytujú dobre a žiadny kontrolný štítok nemá viac inštancií s dobrým rozhodnutím.
Pre ďalší atribút „duration“.
Pravý panel zobrazuje:
- Názov: Toto je Názov atribútu.
- Typ: Typ atribútu je číselný.
- Chýba hodnota: Atribút nemá žiadnu chýbajúcu hodnotu.
- Odlišný: Má 33 odlišných hodnôt v 1 000 prípadoch. To znamená, že v 1 000 prípadoch má 33 odlišných hodnôt.
- Jedinečný: Má 5 jedinečných hodnôt, ktoré sa navzájom nezhodujú.
- Minimálna hodnota: Minimálna hodnota atribútu je 4.
- Maximálna hodnota: Maximálna hodnota atribútu je 72.
- Priemer: Mean pridáva všetky hodnoty vydelené inštanciami.
- Štandardná odchýlka: Štandardná odchýlka trvania atribútu.
- Histogram: Histogram zobrazuje trvanie 4 jednotiek, maximálny počet prípadov je pre dobrú triedu. Keď sa trvanie zvýši na 38 jednotiek, počet označení sa pre štítky dobrej triedy zníži. Trvanie dosahuje 72 jednotiek, ktoré majú iba jednu inštanciu, ktorá klasifikuje rozhodnutie ako zlé.
Trieda je znakom klasifikácie nominálneho typu. Má dve odlišné hodnoty: dobrý a zlý. Štítok dobrej triedy má 700 inštancií a štítok zlej triedy má 300 inštancií.
Ak chcete vizualizovať všetky atribúty množiny údajov, kliknite na položku „Vizualizovať všetko“.
# 5) Ak chcete zistiť iba číselné atribúty, kliknite na tlačidlo Filter. Odtiaľ kliknite na Vyberte -> WEKA> FILTRE -> Typ bez kontroly -> Odstrániť typ.
Filtre WEKA majú veľa funkcií na transformáciu hodnôt atribútov množiny údajov tak, aby bola vhodná pre dané algoritmy. Napríklad, numerická transformácia atribútov.
Filtrovanie nominálnych a skutočných atribútov z množiny údajov je ďalším príkladom použitia filtrov WEKA.
# 6) Kliknite na RemoveType na karte filtra. Otvorí sa okno editora objektov. Vyberte atribút typu „Odstrániť číselné atribúty“ a kliknite na OK.
# 7) Použite filter. Zobrazia sa iba číselné atribúty.
Atribút triedy je nominálneho typu. Klasifikuje výstup, a preto ho nemožno vymazať. Vidí to teda číselný atribút.
Výkon:
Identifikujú sa atribúty skutočných a nominálnych hodnôt v súbore údajov. Vizualizácia s označením triedy je videná vo forme histogramov.
Algoritmy klasifikácie rozhodovacích stromov podľa Weka
Teraz uvidíme, ako implementovať klasifikáciu rozhodovacieho stromu na množine údajov weather.nominal.arff pomocou klasifikátora J48.
počasie.menovitý.pol
Je to vzorový súbor údajov, ktorý je k dispozícii priamo od spoločnosti WEKA. Tento súbor údajov predpovedá, či je počasie vhodné na hranie kriketu. Sada údajov má 5 atribútov a 14 inštancií. Označenie triedy „prehrať“ klasifikuje výstup ako „áno“ alebo „nie“.
Čo je to rozhodovací strom
Rozhodovací strom je klasifikačná technika, ktorá sa skladá z troch komponentov koreňový uzol, vetva (hrana alebo odkaz) a listový uzol. Koreň predstavuje podmienku testu pre rôzne atribúty, vetva predstavuje všetky možné výsledky, ktoré sa v teste môžu nachádzať, a listové uzly obsahujú štítok triedy, do ktorej patrí. Koreňový uzol je na začiatku stromu, ktorý sa tiež nazýva vrchol stromu.
Klasifikátor J48
Jedná sa o algoritmus na generovanie rozhodovacieho stromu, ktorý je generovaný C4.5 (rozšírenie ID3). Je tiež známy ako štatistický klasifikátor. Na klasifikáciu rozhodovacích stromov potrebujeme databázu.
Kroky zahŕňajú:
# 1) Otvorte prieskumníka WEKA.
#dva) Vyberte súbor weather.nominal.arff z „výberu súboru“ pod možnosťou záložky predspracovanie.
# 3) Prejdite na kartu Klasifikácia na klasifikáciu neutajovaných údajov. Kliknite na tlačidlo „Vybrať“. Z toho vyberte „stromy -> J48“. Poďme sa tiež rýchlo pozrieť na ďalšie možnosti v tlačidle Vybrať:
- Bayes: Je to odhad hustoty pre numerické atribúty.
- Meta: Je to lineárna regresia s viacerými reakciami.
- Funkcie: Je to logistická regresia.
- Lenivý: Nastavuje entropiu zmesi automaticky.
- Pravidlo: Učí sa pravidlu.
- Stromy: Stromy klasifikujú údaje.
# 4) Kliknite na tlačidlo Štart. Výstup klasifikátora bude viditeľný na pravom paneli. Na paneli sa zobrazujú informácie o chode ako:
- Schéma: Použitý klasifikačný algoritmus.
- Inštancie: Počet riadkov údajov v množine údajov.
- Atribúty: Sada údajov má 5 atribútov.
- Počet listov a veľkosť stromu popisuje rozhodovací strom.
- Čas potrebný na zostavenie modelu: Čas na výstup.
- Úplná klasifikácia modelu J48 orezaná podľa atribútov a počtu inštancií.
# 5) Ak chcete vizualizovať strom, kliknite pravým tlačidlom myši na výsledok a vyberte možnosť vizualizovať strom.
Výkon :
Výstup je vo forme rozhodovacieho stromu. Hlavným atribútom je „výhľad“.
Ak je výhľad slnečný, potom strom ďalej analyzuje vlhkosť. Ak je vlhkosť vysoká, potom hracia trieda štítku = „áno“.
Ak je výhľad zamračený, štítok triedy, hra je „áno“. Počet prípadov, ktoré sa riadia klasifikáciou, je 4.
Ak je výhľad daždivý, prebieha ďalšia klasifikácia s cieľom analyzovať atribút „veterný“. Ak je veterno = pravda, hra = „nie“. Počet prípadov, ktoré sa riadia klasifikáciou outlook = veterno a veterno = pravda, je 2.
Záver
WEKA ponúka širokú škálu vzorových súborov údajov na použitie algoritmov strojového učenia. Používatelia môžu vykonávať úlohy strojového učenia, ako je klasifikácia, regresia, výber atribútov, asociácia na týchto vzorových súboroch údajov, a tiež sa môžu naučiť nástroj pomocou nich.
Prieskumník WEKA sa používa na vykonávanie niekoľkých funkcií, počnúc predspracovaním. Predbežné spracovanie vezme vstup ako súbor .arff, spracuje vstup a poskytne výstup, ktorý je možné použiť v iných počítačových programoch. V WEKA dáva výstup predspracovania atribúty prítomné v množine údajov, ktoré je možné ďalej použiť na štatistickú analýzu a porovnanie so štítkami tried.
WEKA taktiež ponúka veľa klasifikačných algoritmov pre rozhodovací strom. J48 je jeden z populárnych klasifikačných algoritmov, ktorý vydáva rozhodovací strom. Na karte Klasifikácia môže používateľ vizualizovať rozhodovací strom. Ak je rozhodovací strom príliš vyplnený, je možné jeho orezanie vykonať na karte Predbežný proces odstránením atribútov, ktoré nie sú potrebné, a spustiť proces klasifikácie znova.
=> Navštívte tu exkluzívnu sériu strojového učenia
Odporúčané čítanie
- Výukový program Weka - Ako sťahovať, inštalovať a používať nástroj Weka
- Ako písať zložité testovacie scenáre obchodnej logiky pomocou techniky rozhodovacej tabuľky
- Prieskumník WEKA: Vizualizácia, klastrovanie, dolovanie pravidla asociácie
- Príklady algoritmu rozhodovacieho stromu v dolovaní dát
- Konštrukty rozhodovania v C ++
- Dátová štruktúra stromu B a stromu B + v C ++
- Štruktúra dát binárneho stromu v C ++
- Dátová štruktúra stromu a haldy AVL v C ++