Python: medición de la varianza

En estadística, la varianza es una medida de qué tan lejos está un valor en un conjunto de datos de la media. En otras palabras, muestra cuán dispersos están los valores. Se mide utilizando la desviación estándar. Otro método comúnmente utilizado es la asimetría.

Ambos se calculan utilizando funciones disponibles en la biblioteca de pandas.

Medición de la desviación estándar

La desviación estándar es la raíz cuadrada de la varianza. La varianza es la desviación estándar de los valores en el conjunto de datos de la media. En Python, calculamos este valor usando la función std () de la biblioteca de pandas.

import pandas as pd

#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack',
   'Lee','Chanchal','Gasper','Naviya','Andres']),
   'Age':pd.Series([25,26,25,23,30,25,23,34,40,30,25,46]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8,3.78,2.98,4.80,4.10,3.65])}

#Create a DataFrame
df = pd.DataFrame(d)

# Calculate the standard deviation
print df.std()

Su Salida como sigue –

Age       7.265527
Rating    0.661628
dtype: float64

Medir la asimetría

Se utiliza para determinar si los datos son simétricos o distorsionados. Si el índice está entre -1 y 1, entonces la distribución es simétrica. Si el índice no es mayor que -1, entonces se desplaza hacia la izquierda, y si no es menor que 1, se desplaza hacia la derecha.

import pandas as pd

#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack',
   'Lee','Chanchal','Gasper','Naviya','Andres']),
   'Age':pd.Series([25,26,25,23,30,25,23,34,40,30,25,46]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8,3.78,2.98,4.80,4.10,3.65])}

#Create a DataFrame
df = pd.DataFrame(d)
print df.skew()

Su Salida como sigue –

Age       1.443490
Rating   -0.153629
dtype: float64

Por lo tanto, la clasificación por edad es simétrica, mientras que la clasificación por edad está sesgada a la derecha.

🚫