Felügyelet nélküli gépi tanulás: Mi az, algoritmusok, példa

Tartalomjegyzék:

Anonim

Felügyelet nélküli tanulás

A felügyelet nélküli tanulás olyan gépi tanulási technika, amelyben a felhasználóknak nem kell felügyelniük a modellt. Ehelyett lehetővé teszi, hogy a modell önállóan dolgozzon fel olyan minták és információk felfedezésére, amelyeket korábban nem fedeztek fel. Főleg a címkézetlen adatokkal foglalkozik.

Felügyelet nélküli tanulási algoritmusok

A felügyelet nélküli tanulási algoritmusok lehetővé teszik a felhasználók számára, hogy a felügyelt tanuláshoz képest bonyolultabb feldolgozási feladatokat hajtsanak végre. Bár a felügyelet nélküli tanulás kiszámíthatatlanabb lehet más természetes tanulási módszerekkel összehasonlítva. A felügyelet nélküli tanulási algoritmusok közé tartozik a klaszterezés, az anomáliák detektálása, az ideghálózatok stb.

Ebben az oktatóanyagban megtudhatja:

  • Példa a felügyelet nélküli gépi tanulásra
  • Miért nem felügyelt tanulás?
  • A felügyelet nélküli tanulás típusai
  • Csoportosítás
  • Csoportosítás típusai
  • Egyesület
  • Felügyelt vagy felügyelet nélküli gépi tanulás
  • A felügyelet nélküli gépi tanulás alkalmazásai
  • A felügyelet nélküli tanulás hátrányai

Példa a felügyelet nélküli gépi tanulásra

Vegyük egy baba és a család kutyájának esetét.

Ismeri és azonosítja ezt a kutyát. Néhány héttel később egy családbarát hoz egy kutyát, és megpróbál játszani a babával.

Baby nem látta korábban ezt a kutyát. De sok olyan tulajdonságot felismer (2 fül, szem, 4 lábon járás), mint a kedvtelésből tartott kutyája. Az új állatot kutyaként azonosítja. Ez a felügyelet nélküli tanulás, ahol nem tanítják, hanem megtanulják az adatokból (ebben az esetben a kutyára vonatkozó adatokból). Ha ez felügyelt tanulás lenne, a család barátja azt mondta volna a babának, hogy ez egy kutya.

Miért nem felügyelt tanulás?

Itt vannak a legfőbb okok a felügyelet nélküli tanulás használatára:

  • A felügyelet nélküli gépi tanulás mindenféle ismeretlen mintát talál az adatokban.
  • A felügyelet nélküli módszerek segítenek megtalálni azokat a funkciókat, amelyek hasznosak lehetnek a kategorizáláshoz.
  • Valós időben zajlik, így az összes bemeneti adatot elemezni és címkézni kell a tanulók jelenlétében.
  • Könnyebb a címkézetlen adatok beszerzése a számítógépről, mint a címkézett adatok, amelyek manuális beavatkozást igényelnek.

A felügyelet nélküli tanulás típusai

A felügyelet nélküli tanulási problémák csoportosulási és társulási problémákra csoportosultak.

Csoportosítás

A klaszterezés fontos fogalom, ha a felügyelet nélküli tanulásról van szó. Főként egy struktúra vagy minta megkeresésével foglalkozik kategorizálatlan adatok gyűjteményében. A fürtözési algoritmusok feldolgozzák az adatait, és természetes fürtöket (csoportokat) keresnek, ha léteznek az adatokban. Azt is módosíthatja, hogy az algoritmusok hány klasztert azonosítsanak. Ez lehetővé teszi e csoportok részletességének beállítását.

Különböző típusú fürtök használhatók:

Exkluzív (particionálás)

Ebben a fürtözési módszerben az adatok úgy vannak csoportosítva, hogy egy adat csak egy fürthöz tartozzon.

Példa: K jelentése

Agglomeratív

Ebben a klaszterezési technikában minden adat egy fürt. A két legközelebbi klaszter közötti iteratív szakszervezetek csökkentik a klaszterek számát.

Példa: hierarchikus csoportosítás

Átfedés

Ebben a technikában fuzzy halmazokat használnak az adatok klaszterezéséhez. Minden pont két vagy több klaszterhez tartozhat, külön tagsági fokozattal.

Itt az adatok egy megfelelő tagsági értékhez lesznek társítva. Példa: Fuzzy C-eszközök

Valószínűségi

Ez a technika valószínűségi eloszlást használ a klaszterek létrehozásához

Példa: kulcsszavak követése

  • "az ember cipője".
  • "női cipő".
  • "női kesztyű".
  • "az ember kesztyűje".

két kategóriába sorolható: "cipő" és "kesztyű" vagy "férfi" és "nők".

Csoportosítás típusai

  • Hierarchikus csoportosítás
  • A K jelentése klaszterezés
  • K-NN (k legközelebbi szomszédok)
  • Főkomponens analízis
  • Szinguláris érték felbontás
  • Független alkatrészelemzés

Hierarchikus klaszterezés:

A hierarchikus klaszterezés olyan algoritmus, amely felépíti a klaszterek hierarchiáját. Minden adattal kezdődik, amely egy saját klaszterhez van hozzárendelve. Itt két közeli klaszter ugyanabban a klaszterben lesz. Ez az algoritmus akkor ér véget, amikor csak egy fürt van hátra.

K-jelentése klaszterezés

A K azt jelenti, hogy ez egy iteratív fürtözési algoritmus, amely segít megtalálni a legmagasabb értéket minden iterációhoz. Kezdetben kiválasztják a kívánt fürtök számát. Ebben a fürtözési módszerben az adatpontokat k csoportokba kell csoportosítania. A nagyobb k kisebb csoportokat jelent, ugyanolyan szemcsésséggel. Az alacsonyabb k nagyobb csoportokat jelent, kisebb részletességgel.

Az algoritmus kimenete egy "címkék" csoportja. Adatpontot rendel a k csoport egyikéhez. A k-csoportosításban az egyes csoportokat úgy definiálják, hogy minden csoporthoz létrehoznak egy centroidot. A centridák olyanok, mint a klaszter szíve, amely rögzíti a hozzájuk legközelebb eső pontokat és hozzáadja őket a klaszterhez.

A K-átlag klaszterezés további két alcsoportot határoz meg:

  • Agglomeratív klaszterezés
  • Dendrogram

Agglomerációs csoportosítás:

Ez a fajta K-jelentésű fürtözés fix számú fürtből indul. Minden adatot a klaszterek pontos számához rendel. Ez a fürtözési módszer nem igényli bemenetként a K klaszterek számát. Az agglomerációs folyamat úgy kezdődik, hogy az egyes adatokat egyetlen fürtként formálja.

Ez a módszer bizonyos távolságmérést alkalmaz, csökkenti a fürtök számát (minden egyes iterációban egyet) a folyamat egyesítésével. Végül van egy nagy klaszterünk, amely az összes objektumot tartalmazza.

Dendrogram:

A Dendrogram klaszterezési módszerben minden szint egy lehetséges fürtöt képvisel. A dendrogram magassága két csatlakozási klaszter közötti hasonlóság szintjét mutatja. Minél közelebb vannak a folyamat aljához, hasonlóbb a klaszter, amely a dendrogramból származó csoport megállapítása, amely nem természetes és többnyire szubjektív.

K- Legközelebbi szomszédok

A K- legközelebbi szomszéd a legegyszerűbb az összes gépi tanulási osztályozó közül. Abban különbözik a többi gépi tanulási technikától, hogy nem állít elő modellt. Ez egy egyszerű algoritmus, amely tárolja az összes rendelkezésre álló esetet, és az új példányokat a hasonlósági mutató alapján osztályozza.

Nagyon jól működik, ha a példák között távolság van. A tanulási sebesség lassú, ha az edzéskészlet nagy, és a távolság kiszámítása nem triviális.

Főkomponensek elemzése:

Abban az esetben, ha nagyobb dimenziós helyet szeretne. Ki kell választania a szóban forgó hely alapját, és csak a 200 legfontosabb pontszámot. Ez az alap főkomponensként ismert. Az Ön által kiválasztott részhalmaz egy új hely, amely mérete kicsi az eredeti térhez képest. A lehető legnagyobb mértékben megőrzi az adatok összetettségét.

Egyesület

Az asszociációs szabályok lehetővé teszik, hogy nagy adatbázisokban társításokat hozzon létre az adatobjektumok között. Ez a felügyelet nélküli technika a változók közötti érdekes összefüggések felfedezéséről szól nagy adatbázisokban. Például azok, akik új otthont vásárolnak, nagy valószínűséggel vesznek új bútorokat.

Egyéb példák:

  • A rákos betegek egy alcsoportja a génexpressziós mérések alapján csoportosítva
  • Vásárlói csoportok böngészési és vásárlási előzményeik alapján
  • Filmcsoport a filmnézők által adott minősítés alapján

Felügyelt vagy felügyelet nélküli gépi tanulás

Paraméterek Felügyelt gépi tanulási technika Felügyelet nélküli gépi tanulási technika
Beviteli adat Az algoritmusokat címkézett adatok felhasználásával képzik ki. Algoritmusokat használnak olyan adatokkal szemben, amelyek nincsenek felcímkézve
Számítási komplexitás A felügyelt tanulás egyszerűbb módszer. A felügyelet nélküli tanulás számítási szempontból bonyolult
Pontosság Nagyon pontos és megbízható módszer. Kevésbé pontos és megbízható módszer.

A felügyelet nélküli gépi tanulás alkalmazásai

A felügyelet nélküli gépi tanulási technikák egyes alkalmazásai a következők:

  • A fürtözés automatikusan megosztja az adatkészletet hasonlóságaik alapján
  • A rendellenességek észlelése szokatlan adatpontokat fedezhet fel az adatkészletben. Hasznos csalárd ügyletek felkutatásához
  • Az egyesületi bányászat azonosítja azokat az elemeket, amelyek gyakran együtt fordulnak elő az adatkészletben
  • A látens változós modelleket széles körben használják az adatok előfeldolgozásához. Mint például az adathalmaz jellemzőinek számának csökkentése vagy az adatkészlet több összetevőre bontása

A felügyelet nélküli tanulás hátrányai

  • Nem lehet pontos információt szerezni az adatok rendezéséről, és a kimenet, mivel a felügyelet nélküli tanulásban használt adatok címkézve vannak és nem ismertek
  • Az eredmények pontatlansága azért van, mert a bemeneti adatokat nem ismerik, és az emberek nem címkézik előre. Ez azt jelenti, hogy a gépnek ezt magának kell megtennie.
  • A spektrális osztályok nem mindig felelnek meg az információs osztályoknak.
  • A felhasználónak időt kell fordítania az osztályozást követő osztályok értelmezésére és címkézésére.
  • Az osztályok spektrális tulajdonságai is változhatnak az idő múlásával, így nem lehet ugyanaz az osztályinformáció, miközben egyik képről a másikra lép.

Összegzés

  • A felügyelet nélküli tanulás egy gépi tanulási technika, ahol nincs szükség a modell felügyeletére.
  • A felügyelet nélküli gépi tanulás segít mindenféle ismeretlen minta megtalálásában az adatokban.
  • A klaszterezés és a társulás a felügyelet nélküli tanulás két típusa.
  • A klaszterezési módszereknek négy típusa van: 1) kizáró 2) agglomeratív 3) átfedő 4) valószínűségi.
  • Fontos klaszterezési típusok a következők: 1) hierarchikus klaszterezés 2) K-csoportosulás 3) K-NN 4) fő alkotóelem-elemzés 5) egyérték-bontás 6) független komponens-elemzés.
  • Az asszociációs szabályok lehetővé teszik, hogy nagy adatbázisokban társításokat hozzon létre az adatobjektumok között.
  • A felügyelt tanulás során az algoritmusokat felcímkézett adatok felhasználásával képzik, míg a Felügyelet nélküli tanulásban az algoritmusokat nem címkézett adatokkal használják.
  • A rendellenességek észlelése fontos adatpontokat fedezhet fel az adatkészletben, amelyek hasznosak a csalárd tranzakciók megtalálásához.
  • A felügyelet nélküli tanulás legnagyobb hátránya, hogy nem lehet pontos információkat szerezni az adatok rendezésével kapcsolatban.