Masinõpe Osa 1: Juhendatud õpe

Õpieesmärgid

Selle õppetunni lõpuks oskate:

Selgitada, mis on juhendatud õpe ja milline on selle roll kaasaegses masinõppes.
Eristada klassifitseerimise ja regressiooni ülesandeid konkreetsete näidete abil.
Selgitada numbriliste ja kategooriliste andmete erinevust.
Kirjeldada ja mõista juhendatud õppe projekti töövoogu algusest lõpuni.

Mis on juhendatud õpe?

Juhendatud õpe on masinõppe tüüp, kus mudel õpib märgistatud andmekogumist – andmekogumil, mis sisaldab nii sisendandmeid (tunnuseid) kui ka õigeid väljundeid (märgistusi).

Eesmärk on õppida sisendite ja väljundite vahelist seost, nii et uue sisendi korral suudab mudel ennustada õige väljundi.

Näide:

Tunnus 1 (vanus)	Tunnus 2 (sissetulek)	Märgend (ostab toodet?)
25	30 000 €	Ei
45	55 000 €	Jah
30	40 000 €	Ei

Selles näites:

Tunnused on Vanus ja Sissetulek.
Märgend on "Ostab toodet?" (Jah või Ei).

Juhendatud õpe on nagu õpetaja olemasolu: õpetaja (andmekogum) annab õppimise ajal õiged vastused ja õpilane (mudel) õpib nende näidete põhjal.

Märgistatud andmete tüübid

Juhendatud õppes on kahte tüüpi andmeid:

Numbrilised andmed – andmed, mille väärtused on arvud. Näited: hind (245 000 €), kaal (3,2 kg), temperatuur (–5 °C). Sellise andmetüübi puhul on võimalik mõõta ja arvutada, näiteks võtta keskmist.
Kategoorilised andmed – andmed, mis kuuluvad kindlatesse kategooriatesse või olekutesse. Näited: sugu (mees/naine), looma tüüp (kass/koer/lind), e-posti staatus (rämpspost/mitte rämpspost). Kategooriate kogum on lõplik ja iga andmepunkt kuulub täpselt ühte kategooriasse.

Sellest tulenevad juhendatud õppe kaks põhitüüpi:

Regressioonimudelid – ennustavad numbrilist väärtust (nt looma kaal).
Klassifikatsioonimudelid – ennustavad kategooriat või olekut (nt looma liik: kass või koer).

Juhendatud õppe liigid

1. Klassifitseerimine

Klassifitseerimine on eraldi kategooriate või klassimärgiste ennustamine.

Näide: E-kirja klassifitseerimine rämpspostiks või tavapostiks.
Sisend: E-kirja tunnused, nagu sõnade esinemine, saatja aadress ja kirja pikkus.
Väljund: Kategooriline väärtus (nt "rämpspost" või "tavapost").

Kuidas see toimib:

Mudel õpib otsustuspiire, mis eraldavad erinevad klassid tunnuste ruumis.
Iga ennustus kuulub ühte eelnevalt määratletud kategooriast.

Reaalsed kasutusvaldkonnad:

Rämpsposti tuvastamine (rämpspost või mitte rämpspost)
Meditsiiniline diagnoos (haigus olemas või mitte)
Piltide liigitamine (näotuvastus, objektide äratundmine)
Finantspettuste avastamine
Sotsiaalmeedia sisu modereerimine (ebasobiva sisu tuvastamine)

2. Regressioon

Regressioon on pideva numbrilise väärtuse ennustamine, näiteks maja hinna või temperatuuri prognoosimine.

Näide: Maja hinna ennustamine selle suuruse, asukoha ja magamistubade arvu põhjal.
Sisend: Maja tunnused, nagu ruutmeetrid, asukoht ja ehitusaasta.
Väljund: Pidev väärtus (nt 245 000 €).

Kuidas see toimib:

Mudel õpib sobitama andmetega funktsiooni, mis ennustab numbrilist sihtmärki kõige paremini.
Ennustused võivad olla mis tahes reaalarvud.

Rakendused reaalses elus:

Aktsiahindade ennustamine
Kinnisvarahindade ennustamine
Müügitulemuste progoos
Energiatarbimise prognoosimine
Tarneaja hindamine
Ilmaprognoos

Juhendatud õppe töövoog

Et mudel hästi töötaks, peab kogu protsess olema läbimõeldud ja järk-järgult üles ehitatud. Allpool on kirjeldatud peamised sammud juhendatud õppe töövoos.

1. Andmete kogumine

Kõigepealt on vaja koguda andmed, mille põhjal mudel õpib. Andmed võivad pärineda väga erinevatest allikatest:

Sisseehitatud andmestikud masinõppe teekides, näiteks Scikit-learn.
Avalikud andmed, näiteks riiklikest andmeportaalidest.
Ettevõtte või organisatsiooni enda kogutud andmed.

Oluline on meeles pidada, et toorandmed ei ole enamasti kohe kasutuskõlblikud – need võivad sisaldada puuduvaid väärtusi, vigu või olla vales formaadis. Näiteks:

Kui tegemist on regressioonülesandega, peab sihtmuutuja olema arvuline.
Kui andmed on kategooriates (nt „koer”/„kass”), tuleb need andmete eeltöötluse käigus numbriliseks vormiks teisendada.

2. Andmete eeltöötlus

Andmete eeltöötlus on protsess, kus puhastatakse ja ette valmistatakse toorandmed mudeli treenimiseks. Selle etapi eesmärk on tagada, et mudel saaks kvaliteetse ja sobiva sisendi.

Tüüpilised sammud:

Andmete puhastamine – puuduvate väärtuste täitmine, vigade parandamine, mittevajalike veergude eemaldamine.
Andmete teisendamine – näiteks normaliseerimine (et kõik väärtused oleksid sarnases vahemikus), tunnuste valik, või arvutuste tegemine olemasolevatest tunnustest.
Andmete vähendamine – liigse info eemaldamine, et kiirendada mudeli tööd ja vähendada mälukasutust (nt 1400mm muudame 1.4m-ks).

3. Andmete jagamine

Kogu andmestik jagatakse tavaliselt kolmeks osaks:

Treenimisandmestik – mudeli õppimiseks.
Valideerimisandmestik – mudeli täpsuse kontrollimiseks treenimise ajal, et vältida üleõppimist.
Testandmestik – lõplikuks hindamiseks pärast treenimist.

info

Mõnikord kasutatakse valideerimisandmestikku ka testimiseks, kuid see ei ole hea tava, sest nii võib mudel olla liiga kohandatud konkreetsele valideerimisandmestikule.

4. Mudeli valimine

Masinõppes on palju erinevaid mudeleid, millest igaüks sobib eri tüüpi andmete ja probleemide jaoks:

Näiteks pilditöötluseks kasutatakse sageli sügavõppemudeleid.
Arvuliste andmete puhul võib kasutada lineaarset regressiooni või otsustuspuusid.
Tekstitöötluseks sobivad sageli loomuliku keele töötlemise mudelid.

Nendest mudelitüüpidest räägime lähemalt järgmises moodulis.

5. Mudeli treenimine

Selles etapis „õpetatakse” mudelit sisestades andmeid ja kasutades sobivat masinõppe algoritmi. Mudel õpib mustreid treeningandmetest ning püüab vähendada oma vigade hulka.

6. Mudeli hindamine

Kui mudel on valmis, tuleb hinnata selle kvaliteeti testandmestiku abil. Oluline on kasutada andmeid, mida mudel ei ole varem näinud, et hinnata tema võimet.

Hindamismeetrika

Õige hindamismõõdiku valimine oleneb lahendatava probleemi tüübist.

Täpsus

Definitsioon: Õigete ennustuste ja ennustuste koguarvu suhe.
Kasutatakse klassifitseerimisülesannete puhul.
Näide: Kui mudel klassifitseerib õigesti 90 objekti 100-st testvalimist, on täpsus 90%.

Ruutkeskmine viga (MSE)

Kujuta ette, et sa proovid palliga korvi visata. Ruutkeskmine viga (MSE) on nagu viis mõõta, kui kaugel su visked korvist maanduvad.

Suur viga tähendab, et su pallid lendavad korvist väga mööda.
Väike viga tähendab, et su pallid on korvile lähemal.

Masinõppes kasutab mudel seda viga, et õppida ja oma "viskeid" paremaks teha, kuni ta on andmetele võimalikult lähedal. Mida väiksem on MSE, seda täpsem on mudel.

Siin on ruutkeskmise vea valem

MSE = \frac{1}{n} \sum_{i=1}^n (y_i - \hat{y}_i)^2

Kujuta ette, et su mudel proovib korvi visata. See valem on nagu palli viskamise punktitabel.

$y_i$ on koht, kuhu pall pidi minema (ehk korv).
$\hat{y}_i$ on koht, kuhu pall tegelikult läks (su viske tabamus).
$(y_i - \hat{y}_i)^2$ näitab, kui kaugel sa korvist mööda viskasid. Me võtame sellest ruudu, et teada saada, kas viga on väike või suur.
Lõpuks arvutame kõikide visete vea kokku ja jagame visete arvuga, et saada keskmine viga.

Mida väiksem on MSE (ehk see number), seda paremini mudel viskab!

Segadusmaatriks

Segadusmaatriks (ingl. confusion matrix) on lihtne tabel, mis näitab, kui hästi üks ennustusmudel oma tööga hakkama sai. See võrdleb mudeli ennustusi tegelike tulemustega ja näitab täpselt, kus mudel "segadusse läks". Kokkuvõttes annab see kiire ja selge ülevaate, mis tüüpi vigu mudel teeb.

Kujutame ette, et su mudel proovib kasside ja koerte pilte sorteerida.

Õige positiivne (TP): Mudel nägi pildil kassi ja ütles õigesti: "See on kass!" See on super!
Õige negatiivne (TN): Mudel nägi koera pilti ja ütles õigesti: "See pole kass!" See on ka super!
Vale positiivne (FP): Mudel nägi koera pilti, aga arvas ekslikult: "See on kass!" See on viga.
Vale negatiivne (FN): Mudel nägi kassi pilti, aga arvas ekslikult: "See pole kass!" See on ka viga.

Maatriksi eesmärk on saada nii palju Õigeid positiivseid (TP) ja Õigeid negatiivseid (TN) kui võimalik. Mida rohkem mudel õigesti vastab, seda parem ta on.

Lühiküsimustik

Testi oma teadmisi kiire valikvastustega küsimustikuga!

Kokkuvõte

Juhendatud õpe on masinõppe liik, kus mudel õpib märgistatud andmete abil ennustusi tegema.

Selles peatükis õppisite, et juhendatud õpe jaguneb kaheks põhitüübiks:

Klassifitseerimine: Mudel ennustab, millisesse kategooriasse andmed kuuluvad (nt „kass” või „koer”).
Regressioon: Mudel ennustab pidevat numbriväärtust (nt maja hind).

Eduka projekti jaoks on vaja läbida kindel töövoog, mis algab andmete kogumisest ja lõpeb mudeli hindamisega.

Juhendatud õpe on aluseks paljudele igapäevastele rakendustele, alates rämpsposti filtreerimisest kuni tootesoovitusteni.

Õpieesmärgid​

Mis on juhendatud õpe?​

Märgistatud andmete tüübid​

Juhendatud õppe liigid​

1. Klassifitseerimine​

2. Regressioon​

Juhendatud õppe töövoog​

1. Andmete kogumine​

2. Andmete eeltöötlus​

3. Andmete jagamine​

4. Mudeli valimine​

5. Mudeli treenimine​

6. Mudeli hindamine​

Hindamismeetrika​

Täpsus​

Ruutkeskmine viga (MSE)​

Segadusmaatriks​

Lühiküsimustik​

Kokkuvõte​