Sådan downloades & Installer NLTK på Windows / Mac

Indholdsfortegnelse:

Anonim

I denne vejledning lærer du -

  • Installation af NLTK i Windows
  • Installation af Python i Windows
  • Installation af NLTK i Mac / Linux
  • Installation af NLTK gennem Anaconda
  • NLTK-datasæt
  • Sådan downloades alle pakker med NLTK
  • Kørsel af NLP Script
  • Sådan køres NLTK Script

Installation af NLTK i Windows

I denne del lærer vi, hvordan man konfigurerer NLTK via terminal (kommandoprompt i windows).

Instruktionerne nedenfor er baseret på den antagelse, at du ikke har python installeret. Så det første trin er at installere python.

Installation af Python i Windows:

Trin 1) Gå til linket https://www.python.org/downloads/ , og vælg den nyeste version til windows.

Bemærk : Hvis du ikke vil downloade den nyeste version, kan du besøge downloadfanen og se alle udgivelser.

Trin 2) Klik på den downloadede fil

Trin 3) Vælg Tilpas installation

Trin 4) Klik på NÆSTE

Trin 5) I næste skærmbillede

  1. Vælg de avancerede indstillinger
  2. Giv en brugerdefineret installationsplacering. I mit tilfælde vælges en mappe på C-drev for nem betjening
  3. Klik på Installer

Trin 6) Klik på knappen Luk, når installationen er udført.

Trin 7) Kopier stien til din Scripts-mappe.

Trin 8) I Windows kommandoprompt

  • Naviger til placeringen af ​​pip-mappen
  • Indtast kommando for at installere NLTK
    pip3 install nltk
  • Installationen skal udføres med succes

BEMÆRK : Til Python2 skal du bruge commandpip2 install nltk

Trin 9) I Windows Start-menu skal du søge på og åbne PythonShell

Trin 10) Du kan kontrollere, om installationen er nøjagtig ved at levere nedenstående kommando

import nltk

Hvis du ikke ser nogen fejl, er installationen fuldført.

Installation af NLTK i Mac / Linux

Installation af NLTK i Mac / Unix kræver python-pakkehåndterings-pip for at installere nltk. Hvis pip ikke er installeret, skal du følge nedenstående instruktioner for at fuldføre processen

Trin 1) Opdater pakkeindekset ved at skrive nedenstående kommando

sudo apt update

Trin2) Installation af pip til Python 3:

sudo apt install python3-pip

Du kan også installere pip ved hjælp af easy_install.

sudo apt-get install python-setuptools python-dev build-essential 

Nu er easy_install installeret. Kør nedenstående kommando for at installere pip

sudo easy_install pip

Trin 3) Brug følgende kommando til at installere NLTK

sudo pip install -U nltksudo pip3 install -U nltk

Installation af NLTK gennem Anaconda

Trin 1) Installer venligst anaconda (som også kan bruges til at installere forskellige pakker) ved at besøge https://www.anaconda.com/products/individual og vælg hvilken version af python du skal installere til anaconda.

Bemærk: Se denne vejledning for detaljerede trin til installation af anaconda

Trin 2) I Anaconda-prompten,

  1. Indtast kommando
    conda install -c anaconda nltk
  2. Gennemgå pakkeopgraderingen, nedgrader, installer oplysninger, og indtast ja
  3. NLTK downloades og installeres

NLTK-datasæt

NLTK-modulet har mange datasæt til rådighed, som du skal downloade for at bruge. Mere teknisk kaldes det corpus . Nogle af eksemplerne er stopord , gutenberg , framenet_v15 , large_grammars og så videre.

Sådan downloades alle pakker med NLTK

Trin 1) Kør Python-tolk i Windows eller Linux

Trin 2)

  1. Indtast kommandoerne
import nltknltk.download ()
  1. NLTK-downloadet vindue åbnes. Klik på knappen Download for at downloade datasættet. Denne proces tager tid baseret på din internetforbindelse

BEMÆRK: Du kan ændre downloadplaceringen ved at klikke på File> Change Download Directory

Trin 3) Brug følgende kode til at teste de installerede data

>>> from nltk.corpus import brown>>>brown.words()

['The', 'Fulton', 'County', 'Grand', 'Jury', 'sagde', ...]

Kørsel af NLP Script

Vi skal diskutere, hvordan NLP-script udføres på vores lokale pc. Der er mange biblioteker til naturlig sprogbehandling til stede på markedet. Så det at vælge et bibliotek afhænger af, om det passer til dine behov. Her er listen over NLP-biblioteker.

Sådan køres NLTK Script

Trin 1) Kopier koden i din foretrukne kodeditor, og gem filen som " NLTKsample.py "

from nltk.tokenize import RegexpTokenizertokenizer = RegexpTokenizer(r'\w+')filterdText=tokenizer.tokenize('Hello Guru99, You have build a very good site and I love visiting your site.')print(filterdText)

Kode Forklaring:

  1. I dette program var målet at fjerne alle typer tegnsætninger fra den givne tekst. Vi importerede "RegexpTokenizer", som er et modul af NLTK. Det fjerner alt udtryk, symbol, karakter, numerisk eller andre ting, hvad du vil.
  2. Du har lige sendt det almindelige udtryk til modulet "RegexpTokenizer".
  3. Desuden tokeniserede vi ordet ved hjælp af "tokenize" -modulet. Outputtet er gemt i variablen "filterdText".
  4. Og trykte dem ved hjælp af "print ()."

Trin2) I kommandoprompten

  • Naviger til det sted, hvor du har gemt filen
  • Kør kommandoen Python NLTKsample.py

Dette viser output som:

['Hello', 'Guru99', 'You', 'have', 'build', 'a', 'very', 'good', 'site', 'and', 'I', 'love', ' besøger ',' din ',' side ']