Los gráficos de puntos son similares a los gráficos de lÃneas, que se utilizan comúnmente para trazar gráficos. Los gráficos de dispersión muestran cuánto se relaciona una variable con otra. La relación entre variables se llama correlación, que se usa comúnmente en métodos estadÃsticos. Usaremos el mismo conjunto de datos llamado Iris, que incluye muchas variaciones entre cada variable. Este es un conjunto de datos bien conocido que proporciona medidas en centÃmetros de largo y ancho de sépalo variable, asà como largo y ancho de pétalo, para 50 flores de cada una de las 3 especies de iris. Las especies se llaman Iris setosa, versicolor y virginica.
Los siguientes pasos se utilizan para generar diagramas de dispersión con el paquete «ggplot2»:
Para crear un diagrama de dispersión básico, ejecute el siguiente comando:
> # Basic Scatter Plot > ggplot(iris, aes(Sepal.Length, Petal.Length)) + + geom_point()
Podemos cambiar la forma de los puntos con una propiedad llamada forma en la función geom_point ().
> # Change the shape of points > ggplot(iris, aes(Sepal.Length, Petal.Length)) + + geom_point(shape=1)
Podemos agregar color a los puntos, que se agregarán a los diagramas de dispersión requeridos.
> ggplot(iris, aes(Sepal.Length, Petal.Length, colour=Species)) + + geom_point(shape=1)
En este ejemplo, hemos creado los colores según las especies mencionadas en las leyendas. En la zona mencionada, las tres especies se distinguen sin ambigüedades.
Ahora nos centraremos en establecer relaciones entre variables.
> ggplot(iris, aes(Sepal.Length, Petal.Length, colour=Species)) + + geom_point(shape=1) + + geom_smooth(method=lm)
geom_smooth La función ayuda a que la plantilla se superponga y modele las variables requeridas.
El método del atributo «lm» menciona una lÃnea de regresión que debe desarrollarse.
> # Add a regression line > ggplot(iris, aes(Sepal.Length, Petal.Length, colour=Species)) + + geom_point(shape=1) + + geom_smooth(method=lm)
También podemos agregar una lÃnea de regresión sin región de confianza sombreada con la siguiente sintaxis:
># Add a regression line but no shaded confidence region > ggplot(iris, aes(Sepal.Length, Petal.Length, colour=Species)) + + geom_point(shape=1) + + geom_smooth(method=lm, se=FALSE)
Las áreas sombreadas representan cosas distintas a las áreas de confianza.
Los gráficos de fluctuación incluyen efectos especiales que se pueden utilizar para representar gráficos dispersos. El jitter no es más que un valor aleatorio que se asigna a los puntos para separarlos como se indica a continuación:
> ggplot(mpg, aes(cyl, hwy)) + + geom_point() + + geom_jitter(aes(colour = class))
🚫