Mærkning af problemer og skjult Markov-model

Indholdsfortegnelse:

Anonim

Mærkning af sætninger

Mærkning af sætning i bredere forstand henviser til tilføjelsen af ​​etiketter til verbet, substantiv osv. I sætningens sammenhæng. Identifikation af POS-tags er en kompliceret proces. Generisk tagging af POS er således ikke manuelt, da nogle ord kan have forskellige (tvetydige) betydninger alt efter sætningens struktur. Konvertering af tekst i form af en liste er et vigtigt trin inden tagging, da hvert ord på listen sløjpes og tælles for et bestemt tag. Se nedenstående kode for at forstå det bedre

import nltktext = "Hello Guru99, You have to build a very good site, and I love visiting your site."sentence = nltk.sent_tokenize(text)for sent in sentence:print(nltk.pos_tag(nltk.word_tokenize(sent)))

PRODUKTION

[('Hello', 'NNP'), ('Guru99', 'NNP'), (',', ','), ('You', 'PRP'), ('have', 'VBP'), ('build', 'VBN'), ('a', 'DT'), ('very', 'RB'), ('good', 'JJ'), ('site', 'NN'), ('and', 'CC'), ('I', 'PRP'), ('love', 'VBP'), ('visiting', 'VBG'), ('your', 'PRP$'), ('site', 'NN'), ('.', '.')]

Kode Forklaring

  1. Kode til import af nltk (værktøjssæt til naturligt sprog, der indeholder undermoduler, såsom sætningstokenisering og ordtokenisering).
  2. Tekst hvis tags skal udskrives.
  3. Sætningstokenisering
  4. For loop implementeres, hvor ord tokeniseres fra sætning, og tag for hvert ord udskrives som output.

I Corpus er der to typer POS-taggers:

  • Regelbaseret
  • Stokastiske POS-taggers

1. Regelbaseret POS-tagger: For ordene, der har tvetydig betydning, anvendes regelbaseret tilgang på baggrund af kontekstuelle oplysninger. Det gøres ved at kontrollere eller analysere betydningen af ​​det foregående eller det følgende ord. Information analyseres fra det omgivende af ordet eller i sig selv. Derfor er ord mærket af de grammatiske regler for et bestemt sprog, såsom store og små bogstaver. fx Brills tagger.

2.Stokastisk POS-tagger: Forskellige tilgange såsom frekvens eller sandsynlighed anvendes under denne metode. Hvis et ord for det meste er mærket med et bestemt mærke i træningssættet, får det det specifikke mærke i testsætningen. Ordmærket afhænger ikke kun af sit eget mærke, men også af det forrige mærke. Denne metode er ikke altid nøjagtig. En anden måde er at beregne sandsynligheden for forekomst af et specifikt tag i en sætning. Således beregnes det endelige mærke ved at kontrollere den højeste sandsynlighed for et ord med et bestemt mærke.

Skjult Markov-model:

Mærkningsproblemer kan også modelleres ved hjælp af HMM. Det behandler input-tokens som en observerbar sekvens, mens tags betragtes som skjulte tilstande, og målet er at bestemme den skjulte tilstandssekvens. For eksempel x = x 1 , x 2 , ..., x n hvor x er en sekvens af tokens, mens y = y 1 , y 2 , y 3 , y 4 ... y n er den skjulte sekvens.

Hvordan fungerer HMM-modellen?

HMM bruger sammenføjningsfordeling, der er P (x, y), hvor x er indgangssekvensen / tokensekvensen, og y er mærkesekvensen.

Tagssekvens for x vil være argmax y1… .yn p (x1, x2,… .xn, y1, y2, y3,…). Vi har kategoriseret tags fra teksten, men statistik for sådanne tags er afgørende. Så den næste del tæller disse tags til statistisk undersøgelse.