Python – pandas

Pandas es una biblioteca de Python de código abierto que se utiliza para el procesamiento y análisis de datos de alto rendimiento utilizando sus poderosas estructuras de datos. Python con pandas se utiliza en una variedad de campos académicos y comerciales, que incluyen finanzas, economía, estadísticas, publicidad, análisis web y más. Con Pandas, podemos seguir cinco pasos típicos en el procesamiento y análisis de datos, independientemente de su origen: cargar, organizar, administrar, modelar y analizar los datos.

A continuación se muestran algunas de las características importantes de Pandas que se utilizan específicamente para la manipulación y el análisis de datos.

Características clave de Pandas

  • DataFrame rápido y eficiente con indexación predeterminada e indexación individual.
  • Herramientas para cargar datos en objetos de datos en la memoria desde diferentes formatos de archivo.
  • Conciliación de datos y procesamiento integrado de datos faltantes.
  • Remodelación y rotación de conjuntos de fechas.
  • Cortar, indexar y dividir grandes conjuntos de datos basados ​​en etiquetas.
  • Las columnas de la estructura de datos se pueden eliminar o insertar.
  • Agrupar por datos para agregación y transformación.
  • Fusión y fusión de datos de alto rendimiento.
  • Funcionalidad de series de tiempo.

Pandas se ocupa de las siguientes tres estructuras de datos:

  • Serie
  • Marco de datos

Estas estructuras de datos se construyen sobre una matriz Numpy, lo que las hace rápidas y eficientes.

Tamaño y descripción

La mejor manera de pensar en estas estructuras de datos es que la estructura de datos de dimensiones superiores es el contenedor de su estructura de datos de dimensiones inferiores. Por ejemplo, DataFrame es un contenedor de Series, Panel es un contenedor de DataFrame.

Estructura de datos Dimensiones (editar) Descripción
Serie uno Matriz homogénea, etiquetada como 1D, de tamaño inmutable.
Marcos de datos 2 Una estructura de tabla etiquetada genérica, redimensionable y bidimensional con columnas potencialmente heterogéneas.

DataFrame se usa ampliamente y es la estructura de datos más importante.

Serie

Una serie es una matriz unidimensional, similar a una estructura con datos homogéneos. Por ejemplo, la siguiente serie es una colección de números enteros 10, 23, 56,…

diez 23 56 17 52 61 años 73 90 26 72

Destacados de la serie

  • Datos homogéneos
  • Tamaño inmutable
  • Valores de datos modificados

Marco de datos

DataFrame es una matriz bidimensional con datos heterogéneos. Por ejemplo,

Nombre Edad Suelo Clasificación
Steve 32 Masculino 3,45
Leah 28 años mujer 4.6
Vin 45 Masculino 3.9
Katie 38 mujer 2,78

La tabla muestra los datos de la fuerza de ventas de la organización con su calificación de desempeño general. Los datos se presentan en filas y columnas. Cada columna representa un atributo y cada fila representa a una persona.

Tipo de datos de columna

Los tipos de datos de las cuatro columnas son los siguientes:

Columna Un tipo
Nombre Un hilo
Edad Entero
Suelo Un hilo
Clasificación Nadar

Puntos clave del marco de datos

  • Datos heterogéneos
  • Redimensionable
  • Datos variables

En los siguientes capítulos, veremos muchos ejemplos del uso de la biblioteca Python de pandas con datos.

🚫