Python procesa datos de varios formatos principalmente a través de dos bibliotecas, Pandas y Numpy. Ya hemos visto las caracterÃsticas importantes de estas dos bibliotecas en los capÃtulos anteriores. En este capÃtulo, veremos algunos ejemplos básicos de cada biblioteca sobre cómo trabajar con datos.
El objeto más importante definido en NumPy es una matriz N-dimensional llamada ndarray. Describe una colección de artÃculos similares. Se puede acceder a los elementos de una colección mediante un Ãndice de base cero. Se puede crear una instancia de la clase ndarray mediante los diversos procedimientos de creación de matrices que se describen más adelante en el tutorial. Un ndarray básico se crea usando una función de matriz en NumPy como esta:
numpy.array
A continuación se muestran algunos ejemplos de procesamiento de Numpy Data.
# more than one dimensions import numpy as np a = np.array([[1, 2], [3, 4]]) print a
El resultado se ve asÃ:
[[1, 2] [3, 4]]
# minimum dimensions import numpy as np a = np.array([1, 2, 3,4,5], ndmin = 2) print a
El resultado se ve asÃ:
[[1, 2, 3, 4, 5]]
# dtype parameter import numpy as np a = np.array([1, 2, 3], dtype = complex) print a
El resultado se ve asÃ:
[ 1.+0.j, 2.+0.j, 3.+0.j]
Pandas procesa datos a través de Serie,Marco de datos, y Panel… Veremos varios ejemplos de cada uno de ellos.
Una serie es una matriz etiquetada unidimensional capaz de almacenar datos de cualquier tipo (enteros, cadenas, flotantes, objetos Python, etc.). Las etiquetas de los ejes se denominan colectivamente Ãndices. Se puede crear una serie de pandas usando el siguiente constructor:
pandas.Series( data, index, dtype, copy)
Aquà estamos creando una serie a partir de una matriz Numpy.
#import the pandas library and aliasing as pd import pandas as pd import numpy as np data = np.array(['a','b','c','d']) s = pd.Series(data) print s
Su Salida como sigue –
0 a 1 b 2 c 3 d dtype: object
Un marco de datos es una estructura de datos bidimensional, es decir, los datos se alinean en forma tabular por filas y columnas. Pandas DataFrame se puede crear usando el siguiente constructor:
pandas.DataFrame( data, index, columns, dtype, copy)
Ahora creemos un DataFrame indexado usando matrices.
import pandas as pd data = {'Name':['Tom', 'Jack', 'Steve', 'Ricky'],'Age':[28,34,29,42]} df = pd.DataFrame(data, index=['rank1','rank2','rank3','rank4']) print df
Su Salida como sigue –
Age Name rank1 28 Tom rank2 34 Jack rank3 29 Steve rank4 42 Ricky
Y panel es un contenedor de datos 3D. PerÃodo, término Panel de datos proviene de la econometrÃa y es parcialmente responsable del nombre pandas – panel de datos)-desde.
El panel se puede crear utilizando el siguiente constructor:
pandas.Panel(data, items, major_axis, minor_axis, dtype, copy)
En el siguiente ejemplo, estamos creando un panel a partir de objetos DataFrame.
#creating an empty panel import pandas as pd import numpy as np data = {'Item1' : pd.DataFrame(np.random.randn(4, 3)), 'Item2' : pd.DataFrame(np.random.randn(4, 2))} p = pd.Panel(data) print p
Su Salida como sigue –
<class 'pandas.core.panel.Panel'> Dimensions: 2 (items) x 4 (major_axis) x 5 (minor_axis) Items axis: 0 to 1 Major_axis axis: 0 to 3 Minor_axis axis: 0 to 4
🚫