weka tutorial how download
Tento tutoriál WEKA vysvetľuje, čo je nástroj Weka Machine Learning, jeho funkcie a ako sťahovať, inštalovať a používať softvér Weka Machine Learning:
V Predchádzajúci návod , dozvedeli sme sa o Support Vector Machine v ML a súvisiacich konceptoch ako Hyperplane, Support Vectors & Applications of SVM.
Machine Learning je oblasť vedy, kde stroje fungujú ako umelo inteligentný systém. Stroje sa môžu učiť samy bez toho, aby vyžadovali akékoľvek výslovné kódovanie. Je to iteračný proces, ktorý pristupuje k údajom, učí sa sám a predpovedá výsledok. Na vykonávanie úloh strojového učenia je potrebných veľa nástrojov a skriptov.
WEKA je platforma strojového učenia pozostávajúca z mnohých nástrojov uľahčujúcich mnoho činností strojového učenia.
=> Prečítajte si celú sériu školení o strojovom učení
Čo sa dozviete:
- Čo je WEKA
- Záver
Čo je WEKA
Weka je open-source nástroj navrhnutý a vyvinutý vedcami / výskumníkmi z University of Waikato na Novom Zélande. WEKA znamená Waikato Environment for Knowledge Analysis. Je vyvinutá medzinárodnou vedeckou komunitou a distribuovaná na základe bezplatnej licencie GNU GPL.
WEKA je plne vyvinutá v prostredí Java. Poskytuje integráciu s databázou SQL pomocou pripojenia k databáze Java. Poskytuje mnoho algoritmov strojového učenia na implementáciu úloh ťažby dát. Tieto algoritmy je možné použiť buď priamo pomocou nástroja WEKA, alebo ich možno použiť v iných aplikáciách využívajúcich programovací jazyk Java.
Poskytuje veľa nástrojov na predspracovanie, klasifikáciu, klastrovanie, regresnú analýzu, vytváranie asociačných pravidiel, extrakciu funkcií a vizualizáciu údajov. Je to mocný nástroj, ktorý podporuje vývoj nových algoritmov v strojovom učení.
Prečo používať WEKA Machine Learning Tool
S WEKA sú algoritmy strojového učenia ľahko dostupné používateľom. Špecialisti ML môžu pomocou týchto metód extrahovať užitočné informácie z veľkého množstva údajov. Tu môžu špecialisti vytvoriť prostredie na vývoj nových metód strojového učenia a ich implementáciu do reálnych údajov.
WEKA používajú výskumní pracovníci v oblasti strojového učenia a aplikovaných vied na účely výučby. Je to efektívny nástroj na vykonávanie mnohých úloh ťažby údajov.
Sťahovanie a inštalácia WEKA
# 1) Stiahnite si softvér z tu .
aký je najlepší prevodník z youtube na mp3?
Skontrolujte konfiguráciu počítačového systému a z tejto stránky si stiahnite stabilnú verziu WEKA (momentálne 3,8).
#dva) Po úspešnom stiahnutí otvorte umiestnenie súboru a dvakrát kliknite na stiahnutý súbor. Zobrazí sa sprievodca Step Up. Kliknite na Ďalej.
# 3) Otvoria sa podmienky licenčnej zmluvy. Prečítajte si to dôkladne a kliknite na „Súhlasím“.
# 4) Podľa vašich požiadaviek vyberte komponenty, ktoré sa majú nainštalovať. Odporúča sa úplná inštalácia komponentov. Kliknite na Ďalej.
# 5) Vyberte cieľový priečinok a kliknite na Ďalej.
# 6) Potom sa spustí inštalácia.
# 7) Ak v systéme nie je nainštalovaná Java, najskôr sa nainštaluje Java.
# 8) Po dokončení inštalácie sa zobrazí nasledujúce okno. Kliknite na Ďalej.
# 9) Začiarknite políčko Spustiť Weka. Kliknite na Dokončiť.
# 10) Otvorí sa okno nástroja WEKA a Prieskumník.
#eleven) Príručku WEKA je možné stiahnuť z tu.
Grafické užívateľské rozhranie WEKA
GUI WEKA ponúka päť možností: Prieskumník, experimentátor, tok znalostí, Workbench a jednoduché CLI. Pochopme každú z nich jednotlivo.
# 1) Jednoduché CLI
Jednoduché CLI je Weka Shell s príkazovým riadkom a výstupom. Pomocou „help“ môžete vidieť prehľad všetkých príkazov. Jednoduché rozhranie CLI ponúka prístup ku všetkým triedam, ako sú klasifikátory, klastre a filtre atď.
Niektoré z jednoduchých príkazov CLI sú:
- Prestávka: Zastavenie aktuálneho vlákna
- Východ: Ukončite CLI
- Pomoc() : Na výstup vypíše pomoc pre zadaný príkaz
- -java weka.classifiers.trees.J48 -t c: /temp/iris.arff: Ak chcete vyvolať triedu WEKA, vložte pred ňu jazykom Java. Tento príkaz nasmeruje WEKA na načítanie triedy a jej vykonanie s danými parametrami. V tomto príkaze je vyvolaný klasifikátor J48 na množine údajov IRIS.
# 2) Prieskumník
Okná programu WEKA Explorer zobrazujú rôzne karty počnúc predspracovaním. Spočiatku je karta predspracovania aktívna, pretože najskôr je predspracovaná množina údajov, potom sa na ňu použijú algoritmy a skúma sa množina údajov.
Karty sú nasledujúce:
- Predspracovanie: Vyberte a upravte načítané údaje.
- Klasifikovať: Na dáta, ktoré budú dáta klasifikovať a regresovať, použite cvičné a testovacie algoritmy.
- Klaster: Z údajov vytvorte zhluky.
- Spolupracovník: Pravidlo asociácie pre údaje.
- Vyberte atribúty: Uplatňujú sa opatrenia na výber atribútov.
- Vizualizovať: Je vidno 2D znázornenie údajov.
- Stavový riadok: V najspodnejšej časti okna sa zobrazuje stavový riadok. Táto časť ukazuje, čo sa momentálne deje vo forme správy, napríklad načítavaného súboru. Kliknite pravým tlačidlom myši na toto, Pamäť informácie je vidieť, a tiež Bež odpadky zberateľ aby sa uvoľnilo miesto, je možné spustiť.
- Tlačidlo denníka: Ukladá denník všetkých akcií vo Weke s časovou značkou. Denníky sa po kliknutí na tlačidlo Denník zobrazia v samostatnom okne.
- Ikona vtáka WEKA: V pravom dolnom rohu je uvedený vták WEKA, ktorý predstavuje počet procesov bežiacich súčasne (x). Keď proces beží, vták sa bude pohybovať.
# 3) Experimentátor
Tlačidlo experimentátora WEKA umožňuje používateľom vytvárať, spúšťať a upravovať rôzne schémy v jednom experimente na množine údajov. Experimentátor má dva typy konfigurácie: Jednoduché a pokročilé. Obe konfigurácie umožňujú používateľom spúšťať experimenty lokálne a na vzdialených počítačoch.
- Tlačidlá „Otvoriť“ a „Nové“ otvoria nové okno experimentu, ktoré môžu používatelia vykonať.
- Výsledky: Nastavte cieľový súbor výsledkov zo súborov ARFF, JDFC a CSV.
- Typ experimentu: Používateľ si môže zvoliť medzi krížovou validáciou a percentuálnym rozdelením vlak / test. Užívateľ si môže vybrať medzi klasifikáciou a regresiou na základe použitej množiny údajov a klasifikátora.
- Datasety: Používateľ môže odtiaľto prechádzať a vyberať súbory údajov. Ak pracujete na rôznych strojoch, kliknite na začiarkavacie políčko relatívna cesta. Podporovaný formát súborov údajov je ARFF, C4.5, CSV, libsvm, bsi a XRFF.
- Iterácia: Predvolené počet iterácií je nastavený na 10. Dátové sady ako prvé a algoritmy ako prvé pomáhajú pri prepínaní medzi dátovou sadou a algoritmami, aby bolo možné spustiť algoritmy na všetkých datasetoch.
- Algoritmy: Nové algoritmy pridáva „Nové tlačidlo“. Užívateľ si môže zvoliť klasifikátor.
- Uložte experiment pomocou tlačidla Uložiť.
- Spustite experiment pomocou tlačidla Spustiť.
# 4) Tok znalostí
Tok znalostí ukazuje grafické znázornenie algoritmov WEKA. Užívateľ si môže vybrať komponenty a vytvoriť pracovný tok na analýzu súborov údajov. S údajmi je možné manipulovať dávkovo alebo inkrementálne. Môžu byť navrhnuté paralelné pracovné toky a každý bude prebiehať v samostatnom vlákne.
Dostupné sú rôzne komponenty Zdroje údajov, dátové šetriče, filtre, klasifikátory, klastre, hodnotenie a vizualizácia.
# 5) Pracovný stôl
WEKA má modul pracovného stola, ktorý obsahuje všetky GUI v jednom okne.
Vlastnosti aplikácie WEKA Explorer
# 1) Dataset
Dátový súbor sa skladá z položiek. Predstavuje objekt napríklad: v marketingovej databáze bude zastupovať zákazníkov a produkty. Súbory údajov sú popísané atribútmi. Sada údajov obsahuje n-tice údajov v databáze. Sada údajov má atribúty, ktoré môžu byť nominálne, číselné alebo reťazcové. Vo Weke je množina údajov predstavovaná znakom weka.core.Látky trieda.
Reprezentácia súboru údajov s 5 príkladmi:
@ údaje
slnečno, NEPRAVDA, 85,85, č
slnečný, PRAVDA, 80,90, č
zamračené, FALSE, 83,86, áno
upršané, NEPRAVDA, 70,96, áno
upršané, NEPRAVDA, 68,80, áno
Čo je to atribút?
Atribút je dátové pole predstavujúce charakteristiku dátového objektu. Napríklad, v databáze zákazníkov budú atribúty customer_id, customer_email, customer_address atď. Atribúty majú rôzne typy.
Tieto možné typy sú:
A) Nominálne atribúty: Atribút, ktorý súvisí s menom a má preddefinované hodnoty ako farba, počasie. Tieto atribúty sa nazývajú kategorické atribúty . Tieto atribúty nemajú poradie a ich hodnoty sa nazývajú aj enumerácie.
@attribute outlook {slnečný, zamračený, daždivý}: vyhlásenie o nominálnom atribúte.
B) Binárne atribúty: Tieto atribúty predstavujú iba hodnoty 0 a 1. Jedná sa o typ nominálnych atribútov iba s 2 kategóriami. Tieto atribúty sa tiež nazývajú Boolean.
C) Poradové atribúty: Atribúty, ktoré zachovávajú určité poradie alebo poradie medzi nimi, sú ordinálne atribúty. Postupné hodnoty nemožno predvídať, ale zachováva sa iba poradie. Príklad: veľkosť, známka a pod.
D) Číselné atribúty: Atribúty predstavujúce merateľné veličiny sú číselnými atribútmi. Predstavujú ich reálne čísla alebo celé čísla. Príklad: teplota, vlhkosť.
@ skutočná vlhkosť atribútu: deklarácia číselného atribútu
E) Atribúty reťazca: Tieto atribúty predstavujú zoznam znakov predstavovaných v úvodzovkách.
# 2) Formát údajov ARFF
WEKA pracuje na súbore ARFF na analýzu údajov. ARFF znamená Attribute Relation File Format. Má 3 sekcie: vzťah, atribúty a údaje. Každá sekcia sa začína znakom „@“.
Súbory ARFF majú atribúty údajov Nominal, Numeric, String, Date a Relational. Niektoré známe datasety strojového učenia sú v serveri WEKA prítomné ako ARFF.
Formát pre ARFF je:
@vzťah
@attribute
@ údaje
Príklad súboru ARFF je:
@relation weather @attribute outlook {sunny, overcast, rainy}: @attribute temperature real @attribute humidity real @attribute windy {TRUE, FALSE} @attribute play {yes, no} //class attribute: The class attribute represents the output. @data sunny, FALSE,85,85,no sunny, TRUE,80,90,no overcast, FALSE,83,86,yes rainy, FALSE,70,96,yes rainy, FALSE,68,80,yes
# 3) Formát údajov XRFF
XRFF je skratka pre XML atribút Relation File Format. Predstavuje údaje, ktoré môžu ukladať komentáre, atribúty a váhy inštancií. Má príponu .xrff a príponu súboru .xrff.gz (komprimovaný formát). Súbory XRFF predstavovali údaje vo formáte XML.
# 4) Pripojenie k databáze
Pomocou WEKA je ľahké pripojiť sa k databáze pomocou ovládača JDBC. Ovládač JDBC je potrebný na pripojenie k databáze, príklad:
MS SQL Server (com.microsoft.jdbc.sqlserver.SQLServerDriver)
Oracle (oracle.jdbc.driver.OracleDriver)
# 5) Klasifikátory
Na predikciu výstupných údajov obsahuje WEKA klasifikátory. Klasifikačné algoritmy dostupné na učenie sú rozhodovacie stromy, podporujúce vektorové stroje, klasifikátory založené na inštanciách a logistická regresia a Bayesovské siete. V závislosti na požiadavke použitia testu a testu môže užívateľ nájsť vhodný algoritmus na analýzu dát. Klasifikátory sa používajú na klasifikáciu súborov údajov na základe charakteristík atribútov.
# 6) Zhlukovanie
WEKA používa kartu Klaster na predpovedanie podobností v množine údajov. Na základe klastrovania môže užívateľ zistiť atribúty užitočné pre analýzu a ignorovať ďalšie atribúty. Dostupné algoritmy pre klastrovanie v WEKA sú k-means, EM, Cobweb, X-means a FarhtestFirst.
# 7) Združenie
Jediný algoritmus, ktorý je k dispozícii na zisťovanie asociačných pravidiel, je Apriori.
# 8) Atribútové opatrenia
WEKA používa 2 prístupy na najlepší výber atribútov na účely výpočtu:
- Pomocou algoritmu metódy vyhľadávania: Najlepšie - prvý, náhodný, vyčerpávajúci, genetický algoritmus a algoritmus klasifikácie.
- Používanie algoritmov metódy hodnotenia: Na základe korelácie, obal, zisk informácií, chí-kvadrát.
# 9) Vizualizácia
WEKA podporuje 2D reprezentáciu dát, 3D vizualizácie s rotáciou a 1D reprezentáciu jedného atribútu. Má možnosť „Jitter“ pre nominálne atribúty a „skryté“ dátové body.
Ďalšie hlavné vlastnosti WEKA sú:
- Je to open-source nástroj s grafickým užívateľským rozhraním vo forme „Prieskumník“, „Experimentátor“ a „Tok znalostí“.
- Je nezávislý na platforme.
- Obsahuje 49 nástrojov na predspracovanie údajov.
- WEKA obsahuje 76 klasifikačných a regresných algoritmov, 8 klastrových algoritmov
- Má 15 algoritmov výberu atribútov a 10 algoritmov výberu funkcií.
- Má 3 algoritmy na nájdenie pravidla asociácie.
- Pomocou WEKA môžu používatelia vyvinúť vlastný kód pre strojové učenie.
Záver
V tomto tutoriáli WEKA sme poskytli úvod do open-source softvéru strojového učenia WEKA a vysvetlili krok za krokom proces sťahovania a inštalácie. Videli sme tiež päť dostupných možností grafického používateľského rozhrania Weka, konkrétne Explorer, Experimenter, Flow znalostí, Workbench a Simple CLI.
Dozvedeli sme sa tiež o vlastnostiach WEKA s príkladmi. Medzi funkcie patrí dátová sada, formát údajov ARFF, pripojenie k databáze atď.
otázka na testovanie softvéru pre skúsených
=> Navštívte tu exkluzívnu sériu strojového učenia
Odporúčané čítanie
- Datová sada, klasifikátor a algoritmus J48 pre rozhodovací strom
- Prieskumník WEKA: Vizualizácia, klastrovanie, dolovanie pravidla asociácie
- 11 najpopulárnejších softvérových nástrojov pre strojové učenie v roku 2021
- Kompletný sprievodca umelou neurónovou sieťou v strojovom učení
- Data Mining vs. Machine Learning vs. Artificial Intelligence vs. Deep Learning
- Výukový program pre strojové učenie: Úvod do ML a jeho aplikácií
- Top 13 NAJ spoločností v oblasti strojového učenia (aktualizovaný zoznam 2021)
- Čo je podpora vektorového stroja (SVM) v strojovom učení