Felügyelet nélküli tanulás
A felügyelet nélküli tanulás olyan gépi tanulási technika, amelyben a felhasználóknak nem kell felügyelniük a modellt. Ehelyett lehetővé teszi, hogy a modell önállóan dolgozzon fel olyan minták és információk felfedezésére, amelyeket korábban nem fedeztek fel. Főleg a címkézetlen adatokkal foglalkozik.
Felügyelet nélküli tanulási algoritmusok
A felügyelet nélküli tanulási algoritmusok lehetővé teszik a felhasználók számára, hogy a felügyelt tanuláshoz képest bonyolultabb feldolgozási feladatokat hajtsanak végre. Bár a felügyelet nélküli tanulás kiszámíthatatlanabb lehet más természetes tanulási módszerekkel összehasonlítva. A felügyelet nélküli tanulási algoritmusok közé tartozik a klaszterezés, az anomáliák detektálása, az ideghálózatok stb.
Ebben az oktatóanyagban megtudhatja:
- Példa a felügyelet nélküli gépi tanulásra
- Miért nem felügyelt tanulás?
- A felügyelet nélküli tanulás típusai
- Csoportosítás
- Csoportosítás típusai
- Egyesület
- Felügyelt vagy felügyelet nélküli gépi tanulás
- A felügyelet nélküli gépi tanulás alkalmazásai
- A felügyelet nélküli tanulás hátrányai
Példa a felügyelet nélküli gépi tanulásra
Vegyük egy baba és a család kutyájának esetét.
Ismeri és azonosítja ezt a kutyát. Néhány héttel később egy családbarát hoz egy kutyát, és megpróbál játszani a babával.
Baby nem látta korábban ezt a kutyát. De sok olyan tulajdonságot felismer (2 fül, szem, 4 lábon járás), mint a kedvtelésből tartott kutyája. Az új állatot kutyaként azonosítja. Ez a felügyelet nélküli tanulás, ahol nem tanítják, hanem megtanulják az adatokból (ebben az esetben a kutyára vonatkozó adatokból). Ha ez felügyelt tanulás lenne, a család barátja azt mondta volna a babának, hogy ez egy kutya.
Miért nem felügyelt tanulás?
Itt vannak a legfőbb okok a felügyelet nélküli tanulás használatára:
- A felügyelet nélküli gépi tanulás mindenféle ismeretlen mintát talál az adatokban.
- A felügyelet nélküli módszerek segítenek megtalálni azokat a funkciókat, amelyek hasznosak lehetnek a kategorizáláshoz.
- Valós időben zajlik, így az összes bemeneti adatot elemezni és címkézni kell a tanulók jelenlétében.
- Könnyebb a címkézetlen adatok beszerzése a számítógépről, mint a címkézett adatok, amelyek manuális beavatkozást igényelnek.
A felügyelet nélküli tanulás típusai
A felügyelet nélküli tanulási problémák csoportosulási és társulási problémákra csoportosultak.
Csoportosítás
A klaszterezés fontos fogalom, ha a felügyelet nélküli tanulásról van szó. Főként egy struktúra vagy minta megkeresésével foglalkozik kategorizálatlan adatok gyűjteményében. A fürtözési algoritmusok feldolgozzák az adatait, és természetes fürtöket (csoportokat) keresnek, ha léteznek az adatokban. Azt is módosíthatja, hogy az algoritmusok hány klasztert azonosítsanak. Ez lehetővé teszi e csoportok részletességének beállítását.
Különböző típusú fürtök használhatók:
Exkluzív (particionálás)
Ebben a fürtözési módszerben az adatok úgy vannak csoportosítva, hogy egy adat csak egy fürthöz tartozzon.
Példa: K jelentése
Agglomeratív
Ebben a klaszterezési technikában minden adat egy fürt. A két legközelebbi klaszter közötti iteratív szakszervezetek csökkentik a klaszterek számát.
Példa: hierarchikus csoportosítás
Átfedés
Ebben a technikában fuzzy halmazokat használnak az adatok klaszterezéséhez. Minden pont két vagy több klaszterhez tartozhat, külön tagsági fokozattal.
Itt az adatok egy megfelelő tagsági értékhez lesznek társítva. Példa: Fuzzy C-eszközök
Valószínűségi
Ez a technika valószínűségi eloszlást használ a klaszterek létrehozásához
Példa: kulcsszavak követése
- "az ember cipője".
- "női cipő".
- "női kesztyű".
- "az ember kesztyűje".
két kategóriába sorolható: "cipő" és "kesztyű" vagy "férfi" és "nők".
Csoportosítás típusai
- Hierarchikus csoportosítás
- A K jelentése klaszterezés
- K-NN (k legközelebbi szomszédok)
- Főkomponens analízis
- Szinguláris érték felbontás
- Független alkatrészelemzés
Hierarchikus klaszterezés:
A hierarchikus klaszterezés olyan algoritmus, amely felépíti a klaszterek hierarchiáját. Minden adattal kezdődik, amely egy saját klaszterhez van hozzárendelve. Itt két közeli klaszter ugyanabban a klaszterben lesz. Ez az algoritmus akkor ér véget, amikor csak egy fürt van hátra.
K-jelentése klaszterezés
A K azt jelenti, hogy ez egy iteratív fürtözési algoritmus, amely segít megtalálni a legmagasabb értéket minden iterációhoz. Kezdetben kiválasztják a kívánt fürtök számát. Ebben a fürtözési módszerben az adatpontokat k csoportokba kell csoportosítania. A nagyobb k kisebb csoportokat jelent, ugyanolyan szemcsésséggel. Az alacsonyabb k nagyobb csoportokat jelent, kisebb részletességgel.
Az algoritmus kimenete egy "címkék" csoportja. Adatpontot rendel a k csoport egyikéhez. A k-csoportosításban az egyes csoportokat úgy definiálják, hogy minden csoporthoz létrehoznak egy centroidot. A centridák olyanok, mint a klaszter szíve, amely rögzíti a hozzájuk legközelebb eső pontokat és hozzáadja őket a klaszterhez.
A K-átlag klaszterezés további két alcsoportot határoz meg:
- Agglomeratív klaszterezés
- Dendrogram
Agglomerációs csoportosítás:
Ez a fajta K-jelentésű fürtözés fix számú fürtből indul. Minden adatot a klaszterek pontos számához rendel. Ez a fürtözési módszer nem igényli bemenetként a K klaszterek számát. Az agglomerációs folyamat úgy kezdődik, hogy az egyes adatokat egyetlen fürtként formálja.
Ez a módszer bizonyos távolságmérést alkalmaz, csökkenti a fürtök számát (minden egyes iterációban egyet) a folyamat egyesítésével. Végül van egy nagy klaszterünk, amely az összes objektumot tartalmazza.
Dendrogram:
A Dendrogram klaszterezési módszerben minden szint egy lehetséges fürtöt képvisel. A dendrogram magassága két csatlakozási klaszter közötti hasonlóság szintjét mutatja. Minél közelebb vannak a folyamat aljához, hasonlóbb a klaszter, amely a dendrogramból származó csoport megállapítása, amely nem természetes és többnyire szubjektív.
K- Legközelebbi szomszédok
A K- legközelebbi szomszéd a legegyszerűbb az összes gépi tanulási osztályozó közül. Abban különbözik a többi gépi tanulási technikától, hogy nem állít elő modellt. Ez egy egyszerű algoritmus, amely tárolja az összes rendelkezésre álló esetet, és az új példányokat a hasonlósági mutató alapján osztályozza.
Nagyon jól működik, ha a példák között távolság van. A tanulási sebesség lassú, ha az edzéskészlet nagy, és a távolság kiszámítása nem triviális.
Főkomponensek elemzése:
Abban az esetben, ha nagyobb dimenziós helyet szeretne. Ki kell választania a szóban forgó hely alapját, és csak a 200 legfontosabb pontszámot. Ez az alap főkomponensként ismert. Az Ön által kiválasztott részhalmaz egy új hely, amely mérete kicsi az eredeti térhez képest. A lehető legnagyobb mértékben megőrzi az adatok összetettségét.
Egyesület
Az asszociációs szabályok lehetővé teszik, hogy nagy adatbázisokban társításokat hozzon létre az adatobjektumok között. Ez a felügyelet nélküli technika a változók közötti érdekes összefüggések felfedezéséről szól nagy adatbázisokban. Például azok, akik új otthont vásárolnak, nagy valószínűséggel vesznek új bútorokat.
Egyéb példák:
- A rákos betegek egy alcsoportja a génexpressziós mérések alapján csoportosítva
- Vásárlói csoportok böngészési és vásárlási előzményeik alapján
- Filmcsoport a filmnézők által adott minősítés alapján
Felügyelt vagy felügyelet nélküli gépi tanulás
Paraméterek | Felügyelt gépi tanulási technika | Felügyelet nélküli gépi tanulási technika |
Beviteli adat | Az algoritmusokat címkézett adatok felhasználásával képzik ki. | Algoritmusokat használnak olyan adatokkal szemben, amelyek nincsenek felcímkézve |
Számítási komplexitás | A felügyelt tanulás egyszerűbb módszer. | A felügyelet nélküli tanulás számítási szempontból bonyolult |
Pontosság | Nagyon pontos és megbízható módszer. | Kevésbé pontos és megbízható módszer. |
A felügyelet nélküli gépi tanulás alkalmazásai
A felügyelet nélküli gépi tanulási technikák egyes alkalmazásai a következők:
- A fürtözés automatikusan megosztja az adatkészletet hasonlóságaik alapján
- A rendellenességek észlelése szokatlan adatpontokat fedezhet fel az adatkészletben. Hasznos csalárd ügyletek felkutatásához
- Az egyesületi bányászat azonosítja azokat az elemeket, amelyek gyakran együtt fordulnak elő az adatkészletben
- A látens változós modelleket széles körben használják az adatok előfeldolgozásához. Mint például az adathalmaz jellemzőinek számának csökkentése vagy az adatkészlet több összetevőre bontása
A felügyelet nélküli tanulás hátrányai
- Nem lehet pontos információt szerezni az adatok rendezéséről, és a kimenet, mivel a felügyelet nélküli tanulásban használt adatok címkézve vannak és nem ismertek
- Az eredmények pontatlansága azért van, mert a bemeneti adatokat nem ismerik, és az emberek nem címkézik előre. Ez azt jelenti, hogy a gépnek ezt magának kell megtennie.
- A spektrális osztályok nem mindig felelnek meg az információs osztályoknak.
- A felhasználónak időt kell fordítania az osztályozást követő osztályok értelmezésére és címkézésére.
- Az osztályok spektrális tulajdonságai is változhatnak az idő múlásával, így nem lehet ugyanaz az osztályinformáció, miközben egyik képről a másikra lép.
Összegzés
- A felügyelet nélküli tanulás egy gépi tanulási technika, ahol nincs szükség a modell felügyeletére.
- A felügyelet nélküli gépi tanulás segít mindenféle ismeretlen minta megtalálásában az adatokban.
- A klaszterezés és a társulás a felügyelet nélküli tanulás két típusa.
- A klaszterezési módszereknek négy típusa van: 1) kizáró 2) agglomeratív 3) átfedő 4) valószínűségi.
- Fontos klaszterezési típusok a következők: 1) hierarchikus klaszterezés 2) K-csoportosulás 3) K-NN 4) fő alkotóelem-elemzés 5) egyérték-bontás 6) független komponens-elemzés.
- Az asszociációs szabályok lehetővé teszik, hogy nagy adatbázisokban társításokat hozzon létre az adatobjektumok között.
- A felügyelt tanulás során az algoritmusokat felcímkézett adatok felhasználásával képzik, míg a Felügyelet nélküli tanulásban az algoritmusokat nem címkézett adatokkal használják.
- A rendellenességek észlelése fontos adatpontokat fedezhet fel az adatkészletben, amelyek hasznosak a csalárd tranzakciók megtalálásához.
- A felügyelet nélküli tanulás legnagyobb hátránya, hogy nem lehet pontos információkat szerezni az adatok rendezésével kapcsolatban.