Mi az a felügyelt gépi tanulás?
A felügyelt tanulás során a gépet jól "felcímkézett " adatok felhasználásával oktatja . Ez azt jelenti, hogy néhány adatot már a helyes válasz megcímkézett. Összehasonlítható a szupervízor vagy a tanár jelenlétében zajló tanulással.
A felügyelt tanulási algoritmus címkézett képzési adatokból tanul, segít megjósolni az előre nem látható adatok kimenetelét.
A pontos felügyelt gépi tanulási modellek sikeres felépítése, méretezése és üzembe helyezése időt és technikai szakértelmet igényel egy magasan képzett adattudósok csoportjától. Ezenkívül az adatkutatónak újjá kell építenie a modelleket, hogy megbizonyosodjon arról, hogy a megadott felismerések igazak maradnak-e az adatok változásáig.
Ebben az oktatóanyagban megtudhatja:
- Mi az a felügyelt gépi tanulás?
- Hogyan működik a felügyelt tanulás
- A felügyelt gépi tanulási algoritmusok típusai
- Felügyelt vagy felügyelet nélküli gépi tanulási technikák
- Kihívások a felügyelt gépi tanulásban
- A felügyelt tanulás előnyei:
- A felügyelt tanulás hátrányai
- A felügyelt tanulás legjobb gyakorlatai
Hogyan működik a felügyelt tanulás
Például egy gépet szeretne képezni, amely segít megjósolni, hogy meddig tart hazafelé a munkahelyéről. Itt kezdje meg egy címkézett adatkészlet létrehozásával. Ezek az adatok tartalmazzák
- Időjárási viszonyok
- A nap időszaka
- Ünnepek
Ezek a részletek az Ön inputjai. A kimenet az az időtartam, amely az adott napon hazafelé tartott.
Ösztönösen tudod, hogy ha kint esik az eső, akkor tovább tart a hazautazás. De a gépnek adatokra és statisztikákra van szüksége.
Nézzük meg, hogyan fejleszthet egy felügyelt tanulási modellt ennek a példának, amely segít a felhasználónak meghatározni az ingázás idejét. Az első dolog, amire szükséged van, egy edzéskészlet. Ez az edzéskészlet tartalmazza az ingázás teljes idejét és a megfelelő tényezőket, például az időjárást, az időt stb. Ez az edzéskészlet alapján a gépe láthatja, hogy közvetlen összefüggés van az eső mennyisége és a hazaérkezéshez szükséges idő között.
Tehát megállapítja, hogy minél többet esik, annál tovább fog vezetni, hogy visszatérjen otthonába. Láthatja a kapcsolatot a munka elhagyása és az úton töltött idő között is.
Minél közelebb vagy 18 óráig, annál tovább tart hazaérni. Előfordulhat, hogy a gép megtalálja a kapcsolatokat a címkézett adatokkal.
Ezzel kezdődik az adatmodell. Hatással van arra, hogy az eső hogyan befolyásolja az emberek vezetését. Azt is kezdi látni, hogy többen utaznak egy adott napszakban.
A felügyelt gépi tanulási algoritmusok típusai
Regresszió:
A regressziós technika egyetlen kimeneti értéket jósol meg edzésadatok felhasználásával.
Példa : A regresszió segítségével megjósolhatja a ház árát a képzési adatok alapján. A bemeneti változók a lokalitás, a ház mérete stb.
Erősségek : A kimenetek mindig valószínűségi értelmezéssel rendelkeznek, és az algoritmus szabályozható a túlillesztés elkerülése érdekében.
Gyengeségek : A logisztikai regresszió alulteljesíthetõ, ha több vagy nem lineáris döntési határ van. Ez a módszer nem rugalmas, ezért nem ragadja meg a bonyolultabb kapcsolatokat.
Logisztikus regresszió:
A diszkrét értékek becsléséhez használt logisztikai regressziós módszer független változók halmaza alapján. Segít megjósolni egy esemény előfordulásának valószínűségét azáltal, hogy adatokat illeszt egy logit függvénybe. Ezért logisztikai regressziónak is nevezik. Amint megjósolja a valószínűséget, kimeneti értéke 0 és 1 között van.
Íme néhány regressziós algoritmus
Osztályozás:
Az osztályozás a kimenet osztályon belüli csoportosítását jelenti. Ha az algoritmus két külön osztályba próbálja beírni a bemenetet, bináris osztályozásnak hívják. Több mint két osztály közötti választást többosztályos osztályozásnak nevezzük.
Példa : Annak meghatározása, hogy valaki lesz-e a hitel nemteljesítője.
Erősségek : Az osztályozó fa nagyon jól teljesít a gyakorlatban
Gyengeségek : A kötetlen, egyes fák hajlamosak a túlfeszültségre.
Íme néhány osztályozási algoritmus
Naiv Bayes osztályozók
A naiv Bayes-modell (NBN) könnyen felépíthető és nagyon hasznos nagy adatkészletekhez. Ez a módszer közvetlen aciklusos grafikonokból áll, egy szülővel és több gyermekkel. Függetlenséget feltételez a szülőtől elkülönített gyermekcsomópontok között.
Döntési fák
A döntési fák a példányt úgy osztályozzák, hogy a jellemző értéke alapján rendezik őket. Ebben a módszerben minden mód a példány jellemzője. Osztályozni kell, és minden elágazás olyan értéket képvisel, amelyet a csomópont felvehet. Ez egy széles körben alkalmazott technika az osztályozáshoz. Ebben a módszerben a besorolás egy fa, amelyet döntési fának nevezünk.
Segít megbecsülni a valós értékeket (egy autó vásárlásának költsége, a hívások száma, a teljes havi értékesítés stb.).
Támogatja a vektor gépet
A támogató vektorgép (SVM) egyfajta tanulási algoritmus, amelyet 1990-ben fejlesztettek ki. Ez a módszer a Vap Nik által bevezetett statisztikai tanuláselmélet eredményein alapul.
Az SVM gépek szintén szorosan kapcsolódnak a kernel funkcióihoz, ami a legtöbb tanulási feladat központi fogalma. A kernel keretrendszert és az SVM-et számos területen használják. Magában foglalja a multimédiás információk visszakeresését, a bioinformatikát és a mintafelismerést.
Felügyelt vagy felügyelet nélküli gépi tanulási technikák
Alapján | Felügyelt gépi tanulási technika | Felügyelet nélküli gépi tanulási technika |
Beviteli adat | Az algoritmusokat címkézett adatok felhasználásával képzik ki. | Algoritmusokat használnak olyan adatokkal szemben, amelyek nincsenek felcímkézve |
Számítási komplexitás | A felügyelt tanulás egyszerűbb módszer. | A felügyelet nélküli tanulás számítási szempontból bonyolult |
Pontosság | Nagyon pontos és megbízható módszer. | Kevésbé pontos és megbízható módszer. |
Kihívások a felügyelt gépi tanulásban
Itt vannak a felügyelt gépi tanulás kihívásai:
- Az irreleváns beviteli jellemző, hogy a jelenlegi képzési adatok pontatlan eredményeket adhatnak
- Az adatok előkészítése és az előzetes feldolgozás mindig kihívást jelent.
- A pontosság akkor szenved, ha lehetetlen, valószínűtlen és hiányos értékeket adnak meg edzésadatokként
- Ha az érintett szakértő nem áll rendelkezésre, akkor a másik megközelítés "durva erő". Ez azt jelenti, hogy gondolkodnia kell a megfelelő tulajdonságokkal (beviteli változók) a gép betanításához. Pontatlan lehet.
A felügyelt tanulás előnyei:
- A felügyelt tanulás lehetővé teszi, hogy adatokat gyűjtsön, vagy előállítson egy adatkimenetet a korábbi tapasztalatok alapján
- Segít a teljesítmény kritériumok optimalizálásában a tapasztalatok felhasználásával
- A felügyelt gépi tanulás segít megoldani a különböző típusú valós számítási problémákat.
A felügyelt tanulás hátrányai
- A döntési határ túlterhelt lehet, ha az edzéskészlete nem tartalmaz olyan példákat, amelyeket egy osztályban szeretne
- Az osztályozó képzésénél minden osztályból rengeteg jó példát kell kiválasztania.
- A nagy adatok osztályozása igazi kihívást jelenthet.
- A felügyelt tanuláshoz szükséges képzés sok számítási időt igényel.
A felügyelt tanulás legjobb gyakorlatai
- Mielőtt bármi mást tenne, el kell döntenie, hogy milyen adatokat kell használni képzési készletként
- El kell döntenie a megtanult függvény és a tanulási algoritmus felépítését.
- Gathere megfelelő eredményeket vagy emberi szakértőktől, vagy mérésekből
Összegzés
- A felügyelt tanulás során a gépet jól "felcímkézett" adatok felhasználásával oktatja.
- Olyan gépet szeretne képezni, amely segít megjósolni, mennyi időbe telik hazautaznia a munkahelyéről.
- A regresszió és az osztályozás a felügyelt gépi tanulási technikák két típusa.
- A felügyelt tanulás egyszerűbb, míg a felügyelet nélküli tanulás összetett módszer.
- A felügyelt tanulás legnagyobb kihívása az, hogy a képzési adatok jelen irreleváns beviteli funkciója pontatlan eredményeket adhat.
- A felügyelt tanulás legfőbb előnye, hogy lehetővé teszi adatok gyűjtését vagy a korábbi tapasztalatokból származó adatkimenet előállítását.
- Ennek a modellnek az a hátránya, hogy a döntési határ túlterhelt lehet, ha az edzéskészleten nincsenek olyan példák, amelyeket egy osztályban szeretne.
- A tanulás felügyeletének legjobb gyakorlataként először el kell döntenie, hogy milyen adatokat kell használni képzési készletként.