Matemáticamente, la tendencia central se refiere a la medición del centro o distribución de la ubicación de los valores de un conjunto de datos. Da una idea del valor promedio de los datos en el conjunto de datos y también muestra cuán ampliamente están dispersos los valores en el conjunto de datos. Esto, a su vez, ayuda a evaluar las posibilidades de que una nueva entrada coincida con el conjunto de datos existente y, por lo tanto, la probabilidad de éxito.
Hay tres indicadores principales de la tendencia central que se pueden calcular utilizando los métodos de la biblioteca Python de pandas.
El promedio es el promedio de los datos y es la división de la suma de los valores por el número de valores.
La mediana es la media de la distribución cuando los valores se ordenan en orden ascendente o descendente.
La moda es el valor más común en la distribución.
Las funciones de pandas se pueden usar directamente para calcular estos valores.
import pandas as pd #Create a Dictionary of series d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack', 'Lee','Chanchal','Gasper','Naviya','Andres']), 'Age':pd.Series([25,26,25,23,30,29,23,34,40,30,51,46]), 'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8,3.78,2.98,4.80,4.10,3.65])} #Create a DataFrame df = pd.DataFrame(d) print "Mean Values in the Distribution" print df.mean() print "*******************************" print "Median Values in the Distribution" print df.median()
Su Salida como sigue –
Mean Values in the Distribution Age 31.833333 Rating 3.743333 dtype: float64 ******************************* Median Values in the Distribution Age 29.50 Rating 3.79 dtype: float64
El modo puede estar disponible o no en la distribución dependiendo de si los datos son continuos o hay valores que tienen la frecuencia máxima. Para averiguar el modo, tomamos una distribución simple a continuación. Aquà tenemos el valor que tiene la frecuencia máxima en la distribución.
import pandas as pd #Create a Dictionary of series d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack', 'Lee','Chanchal','Gasper','Naviya','Andres']), 'Age':pd.Series([25,26,25,23,30,25,23,34,40,30,25,46])} #Create a DataFrame df = pd.DataFrame(d) print df.mode()
Su Salida como sigue –
Age Name 0 25.0 Andres 1 NaN Chanchal 2 NaN Gasper 3 NaN Jack 4 NaN James 5 NaN Lee 6 NaN Naviya 7 NaN Ricky 8 NaN Smith 9 NaN Steve 10 NaN Tom 11 NaN Vin
🚫