Masinõpe Osa 3: Stiimulõpe
Õpieesmärgid
Pärast selle peatüki läbimist oskate:
- Selgitada stiimulõppe põhimõisteid, nagu agent, keskkond, tasu ja strateegia.
- Tuua näiteid stiimulõppe rakendustest päriselus.
- Mõista ja rakendada uurimise ja ärakasutamise tasakaalu.
Põhimõisted
Stiimulõppe mõistmiseks on oluline omandada selle peamised terminid. Need kirjeldavad keskkonda, milles agent õpib ja tegutseb.
- Agent: Õppiv või otsuseid tegev üksus, näiteks robot, isesõitev auto või mängutegelane. Agent on süsteemi "aju".
- Keskkond: Kogu välismaailm, millega agent suhtleb, näiteks teelõik, labürint või mängulaud.
- Seisund: Konkreetne olukord keskkonnas teatud ajahetkel, näiteks roboti asukoht või malelaua seis.
- Tegevus: Agendi valik, mis muudab keskkonna seisundit, näiteks liikumine edasi, pööramine vasakule või nupule vajutamine.
- Tasu: Positiivne või negatiivne numbriline tagasiside, mille agent saab pärast tegevust. Eesmärk on suunata agendi tegevusi õiges suunas. Näiteks labürindist väljumine võib anda suure positiivse tasu, samas kui vastu seina minemine annab väikese negatiivse tasu.
- Strateegia: Agendi strateegia või reeglistik, mis määrab, millise tegevuse agent antud seisundis valib. Stiimulõppe peamine eesmärk on leida optimaalne strateegia, mis maksimeerib pikaajalist tasu.
- Episood: Tegevuste, seisundite ja tasude jada, mis algab algseisundist ja lõpeb lõppseisundis, näiteks mängu algus ja lõpp või labürindist väljumine.
- Väärtusfunktsioon: Hindab, kui hea on antud seisund või tegevus pikaajalise kogutasu seisukohalt. See aitab agendil valida tegevusi, mis ei too kasu ainult hetkel, vaid ka pikas perspektiivis.
Mis on stiimulõpe?
Stiimulõpe (ehk tugevdusõpe) on masinõppe haru, kus agent õpib tegutsema katse-eksituse teel, suheldes dünaamilise keskkonnaga. Erinevalt teistest masinõppe meetoditest ei vaja stiimulõpe märgistatud andmeid ega otsi andmetest peidetud mustreid. Selle asemel on õppeprotsess pidev tsükkel, kus agent saab keskkonnast tagasisidet tasude näol ja püüab oma käitumist optimeerida, et saavutada maksimaalne kogutasu.
Tsükkel toimub järgmiselt:
- Agent jälgib keskkonna hetkeseisundit.
- Lähtudes oma strateegiast, valib ta tegevuse.
- Agent teeb tegevuse ja keskkond reageerib, liikudes uude seisundisse ning andes agendile tasu.
- Agendi strateegiat uuendatakse, et tulevikus paremaid otsuseid teha.
Labürindi läbimine
Kujutlege, et treenite tehisintellekti-agenti leidma väljapääsu keerulisest labürindist. See näide illustreerib hästi stiimulõppe põhimõtteid.
- Agent: AI-tegelane, kes liigub labürindis.
- Keskkond: Labürint koos kõigi teede, seinte ja väljapääsuga.
- Tegevused: Agendi valikud: "liigu üles", "alla", "vasakule" või "paremale".
- Tasu: Positiivne või negatiivne tagasiside. Näiteks väljapääsu leidmine annab suure tasu (+100), vastu seina minemine väikese negatiivse tasu (-1) ning iga samm, mis ei vii kuhugi, võib anda veel väikese negatiivse tasu (-0.1), et minimeerida labürindi läbimiseks kuluvat aega.
- Strateegia: Agendi strateegia, mis kujuneb õppeprotsessi käigus. Alguses on strateegia juhuslik, kuid pärast mitmeid katseid õpib agent, millised tegevused viivad tasuni ja millised mitte. Aja jooksul kujuneb välja optimaalne strateegia, mis viib agendi labürindist kõige kiiremini välja.

See protsess sarnaneb inimese õppimisele: me teeme vigu ja õpime neist. Agent proovib erinevaid radu, saab tagasisidet ja kohandab oma käitumist, kuni leiab kõige efektiivsema lahenduse.
Uurimise ja ärakasutamise dilemma
Üks stiimulõppe olulisemaid väljakutseid on leida tasakaal uurimise ja ärakasutamise vahel.
- Uurimine: Agent proovib uusi tegevusi, et avastada potentsiaalselt paremaid strateegiaid ja koguda uusi teadmisi keskkonnast.
- Ärakasutamine: Agent kasutab seni teadaolevat parimat strateegiat, et saavutada maksimaalne tasu.
Dilemma seisneb selles: kas minna kindla peale ja kasutada teadaolevalt parimat lahendust või riskida ja proovida uut, mis võib viia veelgi parema tulemuseni, kuid võib ka ebaõnnestuda?
Näide: Kujutage ette, et treenite agenti müntide kogumise mängus. Agent teab rada, mis annab garanteeritult 5 münti. Kas ta peaks kasutama seda rada (ärakasutamine) või proovima uut, potentsiaalselt ohtlikumat rada, mis võib anda 10 münti või mitte midagi (uurimine)?
Rakendused päriselus
Stiimulõpe on leidnud laialdast rakendust mitmes valdkonnas:
- Robootika: Robotite liikumise, esemete haaramise ja droonide autonoomse navigeerimise õpetamine.
- Mängude tehisintellekt: Kasutatakse keeruliste mängude, nagu male, Go (AlphaGo), shōgi ja StarCraft, mängimiseks. Neist on saanud professionaalsel tasemel mängijad.
- Autonoomne liiklusjuhtimine: Foorisüsteemide optimeerimine, et vähendada liiklusummikuid.
- Soovitussüsteemid: Kasutajatele toodete, videote või muusika soovitamine, et maksimeerida rahulolu ja kaasatust.
- Tervishoid: Raviplaanide optimeerimine patsientide tervisliku seisundi parandamiseks.
Väljakutsed ja piirangud
Kuigi stiimulõpe on võimas, kaasnevad sellega ka märkimisväärsed väljakutsed:
- Ebaefektiivne õppimine: Stiimulõpe vajab optimaalse strateegia leidmiseks väga palju katseid. See on eriti probleemne reaalse maailma rakendustes, kus iga katse võib olla kulukas või ohtlik.
- Harv tasu: Kui tasud on harvad või hilinenud, võib õppimine olla väga aeglane või agent ei leia kunagi optimaalset lahendust.
- Ohutus: Reaalsetes rakendustes, näiteks isesõitvate autode puhul, võivad valed valikud põhjustada õnnetusi. Agent peab õppima turvaliselt.
- Arvutusvõimsuse nõudlikkus: Keerulised mudelid ja suured keskkonnad nõuavad märkimisväärseid ressursse.
Kokkuvõte
Stiimulõpe on masinõppe meetod, mis võimaldab agendil õppida katse-eksituse teel, suheldes keskkonnaga. See on suunatud pikaajalise tasu maksimeerimisele. Õppeprotsess tugineb tasakaalule uurimise ja ärakasutamise vahel, mis on agendi arenguks hädavajalik. Stiimulõpet kasutatakse edukalt robootikas, mängude AI-s ja paljudes teistes valdkondades. Siiski seisavad ees väljakutsed seoses õppimise efektiivsuse, ohutuse ja ressursinõudlusega.