Mondatok címkézése
A mondat címkézése tágabb értelemben az ige, főnév stb. Címkéinek hozzáadására utal a mondat kontextusában. A POS tagek azonosítása bonyolult folyamat. Így a POS általános címkézése manuálisan nem lehetséges, mivel egyes szavak a mondat felépítésének megfelelően eltérő (kétértelmű) jelentéssel bírhatnak. A szöveg konvertálása lista formájában fontos lépés a címkézés előtt, mivel a listában szereplő egyes szavak hurokba vannak sorolva és egy adott címkéhez számítva. Kérjük, olvassa el az alábbi kódot, hogy jobban megértse
import nltktext = "Hello Guru99, You have to build a very good site, and I love visiting your site."sentence = nltk.sent_tokenize(text)for sent in sentence:print(nltk.pos_tag(nltk.word_tokenize(sent)))
KIMENET
[('Hello', 'NNP'), ('Guru99', 'NNP'), (',', ','), ('You', 'PRP'), ('have', 'VBP'), ('build', 'VBN'), ('a', 'DT'), ('very', 'RB'), ('good', 'JJ'), ('site', 'NN'), ('and', 'CC'), ('I', 'PRP'), ('love', 'VBP'), ('visiting', 'VBG'), ('your', 'PRP$'), ('site', 'NN'), ('.', '.')]
Kód Magyarázat
- Kód az nltk importálásához (Természetes nyelvű eszköztár, amely olyan részmodulokat tartalmaz, mint a mondat tokenizálása és a szó tokenize.)
- Szöveg, amelynek címkéit ki kell nyomtatni.
- Mondatjelzés
- Mert a hurok megvalósításra kerül, ahol a szavak tokenizálva vannak a mondatból, és az egyes szavak címkéit kinyomtatják.
A Corpus-ban kétféle POS-címkéző létezik:
- Szabályalapú
- Sztochasztikus POS címkék
1. Szabályalapú POS címkéző: A kétértelmű jelentéssel bíró szavak esetében a kontextuális információk alapján szabályalapú megközelítést alkalmaznak. Ez az előző vagy a következő szó jelentésének ellenőrzésével vagy elemzésével történik. Az információkat a szó környezetéből vagy önmagában elemzik. Ezért a szavakat egy adott nyelv nyelvtani szabályai, például nagybetű és írásjelek jelölik. pl. Brill címkézője.
2. Sztochasztikus POS címkéző: Különböző megközelítéseket, például gyakoriságot vagy valószínűséget alkalmaznak ebben a módszerben. Ha egy szót többnyire egy adott címkével látnak el az edzéskészletben, akkor a tesztmondatban az adott címkét kapják. A szócímke nemcsak a saját címkéjétől függ, hanem az előző címkétől is. Ez a módszer nem mindig pontos. Egy másik módszer egy adott címke előfordulásának valószínűségének kiszámítása egy mondatban. Így a végső címkét úgy számolják ki, hogy egy adott címkével ellenőrizzük a szó legnagyobb valószínűségét.
Rejtett Markov modell:
A címkézési problémák a HMM segítségével is modellezhetők. A bemeneti tokeneket megfigyelhető szekvenciának tekinti, míg a címkéket rejtett állapotnak tekintik, és a cél a rejtett állapot-szekvencia meghatározása. Például x = x 1 , x 2 ,…, x n, ahol x jelzősorozat, míg y = y 1 , y 2 , y 3 , y 4 … y n a rejtett szekvencia.
Hogyan működik a HMM modell?
A HMM csatlakozási elosztást használ, amely P (x, y), ahol x a bemeneti szekvencia / token szekvencia, és y a tag szekvencia.
Az x címke szekvenciája argmax y1… .yn p (x1, x2,… .xn, y1, y2, y3,…) lesz. A szövegből kategorizáltuk a címkéket, de az ilyen címkék statisztikája létfontosságú. Tehát a következő rész ezeket a címkéket számolja meg a statisztikai vizsgálatokhoz.