En estadÃstica, la varianza es una medida de qué tan lejos está un valor en un conjunto de datos de la media. En otras palabras, muestra cuán dispersos están los valores. Se mide utilizando la desviación estándar. Otro método comúnmente utilizado es la asimetrÃa.
Ambos se calculan utilizando funciones disponibles en la biblioteca de pandas.
La desviación estándar es la raÃz cuadrada de la varianza. La varianza es la desviación estándar de los valores en el conjunto de datos de la media. En Python, calculamos este valor usando la función std () de la biblioteca de pandas.
import pandas as pd #Create a Dictionary of series d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack', 'Lee','Chanchal','Gasper','Naviya','Andres']), 'Age':pd.Series([25,26,25,23,30,25,23,34,40,30,25,46]), 'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8,3.78,2.98,4.80,4.10,3.65])} #Create a DataFrame df = pd.DataFrame(d) # Calculate the standard deviation print df.std()
Su Salida como sigue –
Age 7.265527 Rating 0.661628 dtype: float64
Se utiliza para determinar si los datos son simétricos o distorsionados. Si el Ãndice está entre -1 y 1, entonces la distribución es simétrica. Si el Ãndice no es mayor que -1, entonces se desplaza hacia la izquierda, y si no es menor que 1, se desplaza hacia la derecha.
import pandas as pd #Create a Dictionary of series d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack', 'Lee','Chanchal','Gasper','Naviya','Andres']), 'Age':pd.Series([25,26,25,23,30,25,23,34,40,30,25,46]), 'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8,3.78,2.98,4.80,4.10,3.65])} #Create a DataFrame df = pd.DataFrame(d) print df.skew()
Su Salida como sigue –
Age 1.443490 Rating -0.153629 dtype: float64
Por lo tanto, la clasificación por edad es simétrica, mientras que la clasificación por edad está sesgada a la derecha.
🚫