Python: operaciones de datos

Python procesa datos de varios formatos principalmente a través de dos bibliotecas, Pandas y Numpy. Ya hemos visto las características importantes de estas dos bibliotecas en los capítulos anteriores. En este capítulo, veremos algunos ejemplos básicos de cada biblioteca sobre cómo trabajar con datos.

Operaciones de datos en Numpy

El objeto más importante definido en NumPy es una matriz N-dimensional llamada ndarray. Describe una colección de artículos similares. Se puede acceder a los elementos de una colección mediante un índice de base cero. Se puede crear una instancia de la clase ndarray mediante los diversos procedimientos de creación de matrices que se describen más adelante en el tutorial. Un ndarray básico se crea usando una función de matriz en NumPy como esta:

numpy.array 

A continuación se muestran algunos ejemplos de procesamiento de Numpy Data.

Ejemplo 1

# more than one dimensions 
import numpy as np 
a = np.array([[1, 2], [3, 4]]) 
print a

El resultado se ve así:

[[1, 2] 
 [3, 4]]

Ejemplo 2

# minimum dimensions 
import numpy as np 
a = np.array([1, 2, 3,4,5], ndmin = 2) 
print a

El resultado se ve así:

[[1, 2, 3, 4, 5]]

Ejemplo 3

# dtype parameter 
import numpy as np 
a = np.array([1, 2, 3], dtype = complex) 
print a

El resultado se ve así:

[ 1.+0.j,  2.+0.j,  3.+0.j]

Operaciones con datos en pandas

Pandas procesa datos a través de Serie,Marco de datos, y Panel… Veremos varios ejemplos de cada uno de ellos.

Serie pandas

Una serie es una matriz etiquetada unidimensional capaz de almacenar datos de cualquier tipo (enteros, cadenas, flotantes, objetos Python, etc.). Las etiquetas de los ejes se denominan colectivamente índices. Se puede crear una serie de pandas usando el siguiente constructor:

pandas.Series( data, index, dtype, copy)

Ejemplo

Aquí estamos creando una serie a partir de una matriz Numpy.

#import the pandas library and aliasing as pd
import pandas as pd
import numpy as np
data = np.array(['a','b','c','d'])
s = pd.Series(data)
print s

Su Salida como sigue –

0   a
1   b
2   c
3   d
dtype: object

Marco de datos de pandas

Un marco de datos es una estructura de datos bidimensional, es decir, los datos se alinean en forma tabular por filas y columnas. Pandas DataFrame se puede crear usando el siguiente constructor:

pandas.DataFrame( data, index, columns, dtype, copy)

Ahora creemos un DataFrame indexado usando matrices.

import pandas as pd
data = {'Name':['Tom', 'Jack', 'Steve', 'Ricky'],'Age':[28,34,29,42]}
df = pd.DataFrame(data, index=['rank1','rank2','rank3','rank4'])
print df

Su Salida como sigue –

         Age    Name
rank1    28      Tom
rank2    34     Jack
rank3    29    Steve
rank4    42    Ricky

Panel de pandas

Y panel es un contenedor de datos 3D. Período, término Panel de datos proviene de la econometría y es parcialmente responsable del nombre pandas – panel de datos)-desde.

El panel se puede crear utilizando el siguiente constructor:

pandas.Panel(data, items, major_axis, minor_axis, dtype, copy)

En el siguiente ejemplo, estamos creando un panel a partir de objetos DataFrame.

#creating an empty panel
import pandas as pd
import numpy as np

data = {'Item1' : pd.DataFrame(np.random.randn(4, 3)), 
        'Item2' : pd.DataFrame(np.random.randn(4, 2))}
p = pd.Panel(data)
print p

Su Salida como sigue –

<class 'pandas.core.panel.Panel'>
Dimensions: 2 (items) x 4 (major_axis) x 5 (minor_axis)
Items axis: 0 to 1
Major_axis axis: 0 to 3
Minor_axis axis: 0 to 4

🚫