Python: tokenizar palabras

La tokenización de palabras es el proceso de dividir una gran parte de texto en palabras. Este es un requisito en las tareas de procesamiento del lenguaje natural donde cada palabra debe capturarse y someterse a un análisis adicional, como clasificarlas y contarlas para un estado de ánimo específico, etc. El kit de herramientas de lenguaje natural (NLTK) es una biblioteca que se utiliza para lograr este objetivo.. Instale NLTK antes de continuar con el programa Python de tokenización de palabras.

conda install -c anaconda nltk

A continuación, usamos word_tokenize un método para dividir un párrafo en palabras separadas.

import nltk

word_data = "It originated from the idea that there are readers who prefer learning new skills from the comforts of their drawing rooms"
nltk_tokens = nltk.word_tokenize(word_data)
print (nltk_tokens)

Cuando ejecutamos el código anterior, da el siguiente resultado.

['It', 'originated', 'from', 'the', 'idea', 'that', 'there', 'are', 'readers', 
'who', 'prefer', 'learning', 'new', 'skills', 'from', 'the',
'comforts', 'of', 'their', 'drawing', 'rooms']

Tokenización de ofertas

También podemos tokenizar oraciones en un párrafo como tokenizamos palabras. Usamos el método sent_tokenize para alcanzar esta meta. A continuación se muestra un ejemplo.

import nltk
sentence_data = "Sun rises in the east. Sun sets in the west."
nltk_tokens = nltk.sent_tokenize(sentence_data)
print (nltk_tokens)

Cuando ejecutamos el código anterior, da el siguiente resultado.

['Sun rises in the east.', 'Sun sets in the west.']

🚫