Un diagrama de caja es una representación gráfica de grupos de datos numéricos a través de sus cuartiles. Los diagramas de caja también pueden tener lÃneas que se extienden verticalmente desde rectángulos (bigotes) que indican variabilidad fuera de los cuartiles superior e inferior. La parte inferior y superior del rectángulo son siempre el primer y tercer cuartil, y la barra dentro del rectángulo es siempre el segundo cuartil (mediana). En SAS, se crea un diagrama de caja simple usando PROC SGPLOT y se crea un cuadro de cuadro con paneles utilizando PROCEDIMIENTO SGPANEL…
Tenga en cuenta que creamos un conjunto de datos llamado CARS1 en el primer ejemplo y usamos el mismo conjunto de datos para todos los conjuntos de datos posteriores. Este conjunto de datos permanece en la biblioteca de trabajo hasta el final de la sesión SAS.
La sintaxis básica para crear un diagrama de caja en SAS es:
PROC SGPLOT DATA = DATASET; VBOX VARIABLE / category = VARIABLE; RUN; PROC SGPANEL DATA = DATASET;; PANELBY VARIABLE; VBOX VARIABLE> / category = VARIABLE; RUN;
A continuación se muestra la descripción de los parámetros utilizados:
CONJUNTO DE DATOS es el nombre del conjunto de datos que se está utilizando.
VARIABLE es el valor utilizado para construir el diagrama de caja.
En un diagrama de caja simple, seleccionamos una variable de un conjunto de datos y otra para formar una categorÃa. Los valores de la primera variable se dividen en tantos grupos como valores diferentes haya en la segunda variable.
En el siguiente ejemplo, seleccionamos la variable potencia como la primera variable y la ingresamos como la variable de categorÃa. Por lo tanto, obtenemos diagramas de caja de la distribución de los valores de caballos de fuerza para cada tipo de automóvil.
PROC SQL; create table CARS1 as SELECT make, model, type, invoice, horsepower, length, weight FROM SASHELP.CARS WHERE make in ('Audi','BMW') ; RUN; PROC SGPLOT DATA = CARS1; VBOX horsepower / category = type; title 'Horsepower of cars by types'; RUN;
Cuando ejecutamos el código anterior, obtenemos el siguiente resultado:
Podemos dividir gráficos de variables rectangulares en muchos paneles verticales (columnas). Cada panel contiene diagramas de caja para todas las variables categóricas. Pero los diagramas de caja se agrupan aún más utilizando otra tercera variable que divide el gráfico en varios paneles.
En el siguiente ejemplo, hemos panelado el gráfico usando la variable make. Dado que hay dos valores de marca diferentes, terminamos con dos barras verticales.
PROC SGPANEL DATA = CARS1; PANELBY MAKE; VBOX horsepower / category = type; title 'Horsepower of cars by types'; RUN;
Cuando ejecutamos el código anterior, obtenemos el siguiente resultado:
Podemos dividir gráficos de variables rectangulares en muchos paneles horizontales (filas). Cada panel contiene diagramas de caja para todas las variables categóricas. Pero los diagramas de caja se agrupan aún más utilizando otra tercera variable que divide el gráfico en varios paneles. En el siguiente ejemplo, hemos panelado el gráfico usando la variable make. Como hay dos valores de make diferentes, terminamos con dos barras horizontales.
PROC SGPANEL DATA = CARS1; PANELBY MAKE / columns = 1 novarname; VBOX horsepower / category = type; title 'Horsepower of cars by types'; RUN;
Cuando ejecutamos el código anterior, obtenemos el siguiente resultado:
🚫