👉 Python: manejo de datos no estructurados - Tutoriales y Cursos Gratuitos

Python: manejo de datos no estructurados

Los datos que ya están en formato de filas y columnas, o que se pueden convertir fácilmente en filas y columnas para que luego puedan caber bien en la base de datos, se conocen como datos estructurados. Algunos ejemplos son archivos CSV, TXT, XLS, etc. Estos archivos tienen un delimitador y un ancho fijo o variable, donde los valores faltantes se representan como espacios entre delimitadores. Pero a veces obtenemos datos en los que las líneas no tienen un ancho fijo o son solo archivos HTML, de imagen o PDF. Estos datos se conocen como datos no estructurados. Si bien un archivo HTML se puede procesar procesando etiquetas HTML, es posible que una fuente de Twitter o un documento de texto simple de una fuente de noticias no tenga etiquetas para procesar sin un delimitador. En tal escenario, usamos varias funciones integradas de varias bibliotecas de Python para procesar el archivo.

Leer datos

En el siguiente ejemplo, tomamos un archivo de texto y lo leemos, dividiendo cada línea en él. Luego, podemos dividir la salida en las siguientes líneas y palabras. El archivo fuente es un archivo de texto que contiene varios párrafos que describen el lenguaje Python.

filename="pathinput.txt"  

with open(filename) as fn:  

# Read each line
   ln = fn.readline()

# Keep count of lines
   lncnt = 1
   while ln:
       print("Line {}: {}".format(lncnt, ln.strip()))
       ln = fn.readline()
       lncnt += 1

Cuando ejecutamos el código anterior, da el siguiente resultado.

Line 1: Python is an interpreted high-level programming language for general-purpose programming. Created by Guido van Rossum and first released in 1991, Python has a design philosophy that emphasizes code readability, notably using significant whitespace. It provides constructs that enable clear programming on both small and large scales.
Line 2: Python features a dynamic type system and automatic memory management. It supports multiple programming paradigms, including object-oriented, imperative, functional and procedural, and has a large and comprehensive standard library.
Line 3: Python interpreters are available for many operating systems. CPython, the reference implementation of Python, is open source software and has a community-based development model, as do nearly all of its variant implementations. CPython is managed by the non-profit Python Software Foundation.

Contando la frecuencia de palabras

Podemos contar la frecuencia de palabras en el archivo usando la función de contador como se muestra a continuación.

from collections import Counter

with open(r'pathinput2.txt') as f:
               p = Counter(f.read().split())
               print(p)

Cuando ejecutamos el código anterior, da el siguiente resultado.

Counter({'and': 3, 'Python': 3, 'that': 2, 'a': 2, 'programming': 2, 'code': 1, '1991,': 1, 'is': 1, 'programming.': 1, 'dynamic': 1, 'an': 1, 'design': 1, 'in': 1, 'high-level': 1, 'management.': 1, 'features': 1, 'readability,': 1, 'van': 1, 'both': 1, 'for': 1, 'Rossum': 1, 'system': 1, 'provides': 1, 'memory': 1, 'has': 1, 'type': 1, 'enable': 1, 'Created': 1, 'philosophy': 1, 'constructs': 1, 'emphasizes': 1, 'general-purpose': 1, 'notably': 1, 'released': 1, 'significant': 1, 'Guido': 1, 'using': 1, 'interpreted': 1, 'by': 1, 'on': 1, 'language': 1, 'whitespace.': 1, 'clear': 1, 'It': 1, 'large': 1, 'small': 1, 'automatic': 1, 'scales.': 1, 'first': 1})

Python: manejo de datos no estructurados