Python: medición de la tendencia central

Matemáticamente, la tendencia central se refiere a la medición del centro o distribución de la ubicación de los valores de un conjunto de datos. Da una idea del valor promedio de los datos en el conjunto de datos y también muestra cuán ampliamente están dispersos los valores en el conjunto de datos. Esto, a su vez, ayuda a evaluar las posibilidades de que una nueva entrada coincida con el conjunto de datos existente y, por lo tanto, la probabilidad de éxito.

Hay tres indicadores principales de la tendencia central que se pueden calcular utilizando los métodos de la biblioteca Python de pandas.

  • El promedio es el promedio de los datos y es la división de la suma de los valores por el número de valores.

  • La mediana es la media de la distribución cuando los valores se ordenan en orden ascendente o descendente.

  • La moda es el valor más común en la distribución.

Cálculo de la media y la mediana.

Las funciones de pandas se pueden usar directamente para calcular estos valores.

import pandas as pd

#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack',
   'Lee','Chanchal','Gasper','Naviya','Andres']),
   'Age':pd.Series([25,26,25,23,30,29,23,34,40,30,51,46]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8,3.78,2.98,4.80,4.10,3.65])}

#Create a DataFrame
df = pd.DataFrame(d)
print "Mean Values in the Distribution"
print df.mean()
print "*******************************"
print "Median Values in the Distribution"
print df.median()

Su Salida como sigue –

Mean Values in the Distribution
Age       31.833333
Rating     3.743333
dtype: float64
*******************************
Median Values in the Distribution
Age       29.50
Rating     3.79
dtype: float64

Modo de diseño

El modo puede estar disponible o no en la distribución dependiendo de si los datos son continuos o hay valores que tienen la frecuencia máxima. Para averiguar el modo, tomamos una distribución simple a continuación. Aquí tenemos el valor que tiene la frecuencia máxima en la distribución.

import pandas as pd

#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack',
   'Lee','Chanchal','Gasper','Naviya','Andres']),
   'Age':pd.Series([25,26,25,23,30,25,23,34,40,30,25,46])}
#Create a DataFrame
df = pd.DataFrame(d)

print df.mode()

Su Salida como sigue –

chartprop2.png

     Age      Name
0   25.0    Andres
1    NaN  Chanchal
2    NaN    Gasper
3    NaN      Jack
4    NaN     James
5    NaN       Lee
6    NaN    Naviya
7    NaN     Ricky
8    NaN     Smith
9    NaN     Steve
10   NaN       Tom
11   NaN       Vin

🚫