Masinõpe Osa 2: Juhendamata õpe

Õpieesmärgid

Pärast selle peatüki läbimist oskad:

Selgitada, mis on juhendamata õpe ja kuidas see erineb juhendatud õppest.
Eristada juhendatud ja juhendamata õppe põhimõtteid.
Tuvastada peamised juhendamata õppe harud: klasterdamine, mõõtmete vähendamine ja generatiivne õppimine.
Rakendada teadmisi lihtsate näidete ja reaalsete kasutusjuhtude kaudu.
Tunda ära olukorrad, kus juhendamata õpe on kasulik ka sildistatud andmete juures (nt andmete eeltöötluseks).

Mis on juhendamata õpe?

Juhendamata õpe on masinõppe lähenemisviis, kus algoritmid otsivad mustreid ja struktuure ilma eelnevalt määratud siltide või sihtväärtusteta. Erinevalt juhendatud õppest, kus mudel prognoosib etteantud sihtväärtust, on siin eesmärk avastada, kuidas andmed ise on organiseeritud.

Näide: Kui meil on kasside ja koerte pildid ilma siltideta, ei saa me treenida mudelit, mis ütleb, kas uus pilt on kass või koer. Kuid me saame:

määrata, millised pildid on üksteisele sarnased;
grupeerida pildid nii, et koerad on ühes ja kassid teises grupis;
minna sügavamale ja grupeerida loomad ka tõu alusel.

Oluline on, et isegi kui meil on sildid olemas, võib juhendamata õppimine aidata andmeid eeltöödelda ja muuta juhendatud õppe meetodid tõhusamaks (nt mõõtmete vähendamine enne regressiooni või klassifitseerimist).

Juhendamata õppe kolm peamist haru

Klasterdamine – andmete jagamine sarnasteks gruppideks.
Mõõtmete vähendamine – andmete lihtsustamine tunnuste arvu vähendamise kaudu.
Generatiivne õppimine – uute andmepunktide loomine, mis sarnanevad algsete andmetega.

1. Klasterdamine

Klasterdamine tähendab andmepunktide rühmitamist nii, et sama klastri e. kobara sees on punktid omavahel sarnasemad kui erinevates klastrites olevad punktid.

Praktilised näited:

Turusegmentatsioon – klientide jaotamine ostukäitumise järgi.
Geneetika – liikide grupeerimine geenide sarnasuse alusel.
Meditsiiniline pildianalüüs – pildi jaotamine kudede tüüpide järgi.
E-kirjade grupeerimine kategooriatesse („isiklik“, „reklaam“, „sotsiaalne“).
Videosoovitused – kasutajate jagamine sarnasuse järgi, et pakkuda sobivaid videoid.

Levinud algoritmid:

K-keskmiste algoritm – jagab andmed rühmadesse, liigutades rühmade keskkohti seni, kuni rühmad paika jäävad.
Hierarhiline klasterdamine – loob rühmad kas väikestest suurteks (alt-üles) või suurtest väikesteks (ülalt-alla).
DBSCAN – leiab tihedalt koos olevad andmed ja jätab üksikud eraldi.
Gaussian Mixture Models (GMM) – andmed võivad kuuluda korraga mitmesse rühma, igaühesse teatud tõenäosusega.

2. Mõõtmete vähendamine

Mõõtmete vähendamine (Dimensionality Reduction) tähendab tunnuste arvu vähendamist, säilitades võimalikult palju infot. See tähendab, et kui andmestikus on palju muutujaid või tunnuseid (dimensions), siis mõõtmete vähendamise eesmärk on vähendada nende arvu, et andmeid oleks lihtsam analüüsida ja visualiseerida.

See aitab:

parandada visualiseerimist (nt 2D või 3D kujul);
vähendada arvutuskulu;
leevendada „mõõtmete needuse“ probleemi, mil kõrge dimensionaalsusega ruumis muutuvad andmepunktid üksteisest väga kaugeks;
eemaldada andmetest müra ja üleliigsed tunnused

Näide: Kui kinnisvaraandmestikus on 5 tunnust (suurus, magamistubade arv, vannitubade arv, kuritegevuse tase, kooli kaugus), siis:

esimesed kolm võivad moodustada „suuruse“ tunnuse;
viimased kaks võivad moodustada „naabruskonna kvaliteedi“ tunnuse.

Levinud meetodid:

Põhikomponentide analüüs (PCA) – loob uued komponendid, mis on originaaltunnuste lineaarsed kombinatsioonid.
Matrix Factorization ja SVD – vähendavad nii ridu kui veerge (nt Netflixi soovitussüsteem, pildikompressioon).

Mõõtmete vähendamine andmete lihtsustamiseks

3. Generatiivne õppimine

Generatiivne masinõpe loob uusi andmepunkte, mis meenutavad olemasolevaid andmeid. Näited:

Realistlike inimeste nägude loomine (GAN-id).
Uute maalide, muusika või tekstide genereerimine.
Treeningandmete loomine, kui tegelikke näiteid on vähe.

Tuntud algoritmid:

Generative Adversarial Networks (GANs) – kaks võrku, üks loob andmeid ja teine kontrollib, kas need on päris, võistlevad omavahel.
Variational Autoencoders (VAEs) – õpivad, kuidas andmed jagunevad, ja kasutavad seda uute sarnaste näidete loomiseks.
Restricted Boltzmann Machines (RBMs) – õpivad mustreid andmetes ja on kasulikud soovituste tegemisel.

Levinud väljakutsed ja piirangud

Klastrite arvu määramine – sageli tuleb rühmade hulk määrata enne analüüsi ning sobiva arvu leidmine käib katse-eksitusmeetodil.
Mõõtmete needus – kõrgedimensioonilises (paljude tunnustega) ruumis muutuvad andmed palju keerulisemaks ja intuitiivselt raskemini hallatavaks, mis omakorda mõjutab algoritmide täpsust, efektiivsust ja töökindlust.
Tulemuste tõlgendamine – masin võib leida mustreid, millel pole tegelikus elus mõtet.
Müra ja ebaühtlased andmed – võivad segada mudeli tööd.

Harjutus

Laen harjutuse andmeid…

Kokkuvõte

Juhendamata õpe leiab mustreid sildistamata andmetest ja selle peamised harud on:

Klasterdamine – andmete grupeerimine sarnasuse põhjal.
Mõõtmete vähendamine – tunnuste arvu vähendamine lihtsuse ja kiiruse nimel.
Generatiivne õppimine – uute sarnaste andmepunktide loomine.

Rakendused ulatuvad turundusest ja turvalisusest bioinformaatika, pildianalüüsi ja loominguliste rakendusteni.

Õpieesmärgid​

Mis on juhendamata õpe?​

Juhendamata õppe kolm peamist haru​

1. Klasterdamine​

2. Mõõtmete vähendamine​

3. Generatiivne õppimine​

Levinud väljakutsed ja piirangud​

Harjutus​

Kokkuvõte​