👉 Python - pandas - Tutoriales y Cursos Gratuitos

Python – pandas

Pandas es una biblioteca de Python de código abierto que se utiliza para el procesamiento y análisis de datos de alto rendimiento utilizando sus poderosas estructuras de datos. Python con pandas se utiliza en una variedad de campos académicos y comerciales, que incluyen finanzas, economía, estadísticas, publicidad, análisis web y más. Con Pandas, podemos seguir cinco pasos típicos en el procesamiento y análisis de datos, independientemente de su origen: cargar, organizar, administrar, modelar y analizar los datos.

A continuación se muestran algunas de las características importantes de Pandas que se utilizan específicamente para la manipulación y el análisis de datos.

Características clave de Pandas

DataFrame rápido y eficiente con indexación predeterminada e indexación individual.
Herramientas para cargar datos en objetos de datos en la memoria desde diferentes formatos de archivo.
Conciliación de datos y procesamiento integrado de datos faltantes.
Remodelación y rotación de conjuntos de fechas.
Cortar, indexar y dividir grandes conjuntos de datos basados en etiquetas.
Las columnas de la estructura de datos se pueden eliminar o insertar.
Agrupar por datos para agregación y transformación.
Fusión y fusión de datos de alto rendimiento.
Funcionalidad de series de tiempo.

Pandas se ocupa de las siguientes tres estructuras de datos:

Serie
Marco de datos

Estas estructuras de datos se construyen sobre una matriz Numpy, lo que las hace rápidas y eficientes.

Tamaño y descripción

La mejor manera de pensar en estas estructuras de datos es que la estructura de datos de dimensiones superiores es el contenedor de su estructura de datos de dimensiones inferiores. Por ejemplo, DataFrame es un contenedor de Series, Panel es un contenedor de DataFrame.

Estructura de datos	Dimensiones (editar)	Descripción
Serie	uno	Matriz homogénea, etiquetada como 1D, de tamaño inmutable.
Marcos de datos	2	Una estructura de tabla etiquetada genérica, redimensionable y bidimensional con columnas potencialmente heterogéneas.

DataFrame se usa ampliamente y es la estructura de datos más importante.

Serie

Una serie es una matriz unidimensional, similar a una estructura con datos homogéneos. Por ejemplo, la siguiente serie es una colección de números enteros 10, 23, 56,…

diez

61 años

Destacados de la serie

Datos homogéneos
Tamaño inmutable
Valores de datos modificados

Marco de datos

DataFrame es una matriz bidimensional con datos heterogéneos. Por ejemplo,

Nombre	Edad	Suelo	Clasificación
Steve	32	Masculino	3,45
Leah	28 años	mujer	4.6
Vin	45	Masculino	3.9
Katie	38	mujer	2,78

La tabla muestra los datos de la fuerza de ventas de la organización con su calificación de desempeño general. Los datos se presentan en filas y columnas. Cada columna representa un atributo y cada fila representa a una persona.

Tipo de datos de columna

Los tipos de datos de las cuatro columnas son los siguientes:

Columna	Un tipo
Nombre	Un hilo
Edad	Entero
Suelo	Un hilo
Clasificación	Nadar

Puntos clave del marco de datos

Datos heterogéneos
Redimensionable
Datos variables

En los siguientes capítulos, veremos muchos ejemplos del uso de la biblioteca Python de pandas con datos.

Python – pandas

Python – pandas

Características clave de Pandas

Tamaño y descripción

Serie

Destacados de la serie

Marco de datos

Tipo de datos de columna

Puntos clave del marco de datos

En Este Curso