La tokenización de palabras es el proceso de dividir una gran parte de texto en palabras. Este es un requisito en las tareas de procesamiento del lenguaje natural donde cada palabra debe capturarse y someterse a un análisis adicional, como clasificarlas y contarlas para un estado de ánimo especÃfico, etc. El kit de herramientas de lenguaje natural (NLTK) es una biblioteca que se utiliza para lograr este objetivo.. Instale NLTK antes de continuar con el programa Python de tokenización de palabras.
conda install -c anaconda nltk
A continuación, usamos word_tokenize un método para dividir un párrafo en palabras separadas.
import nltk word_data = "It originated from the idea that there are readers who prefer learning new skills from the comforts of their drawing rooms" nltk_tokens = nltk.word_tokenize(word_data) print (nltk_tokens)
Cuando ejecutamos el código anterior, da el siguiente resultado.
['It', 'originated', 'from', 'the', 'idea', 'that', 'there', 'are', 'readers', 'who', 'prefer', 'learning', 'new', 'skills', 'from', 'the', 'comforts', 'of', 'their', 'drawing', 'rooms']
También podemos tokenizar oraciones en un párrafo como tokenizamos palabras. Usamos el método sent_tokenize para alcanzar esta meta. A continuación se muestra un ejemplo.
import nltk sentence_data = "Sun rises in the east. Sun sets in the west." nltk_tokens = nltk.sent_tokenize(sentence_data) print (nltk_tokens)
Cuando ejecutamos el código anterior, da el siguiente resultado.
['Sun rises in the east.', 'Sun sets in the west.']
🚫