SAS – gráficos de dispersión

Un diagrama de dispersión es un tipo de diagrama que utiliza los valores de dos variables trazadas en un plano cartesiano. Suele utilizarse para averiguar la relación entre dos variables. En SAS utilizamos PROCEDIMIENTO SGSCATTER para crear diagramas de dispersión.

Tenga en cuenta que creamos un conjunto de datos llamado CARS1 en el primer ejemplo y usamos el mismo conjunto de datos para todos los conjuntos de datos posteriores. Este conjunto de datos permanece en la biblioteca de trabajo hasta el final de la sesión SAS.

Sintaxis

La sintaxis básica para crear un diagrama de dispersión en SAS es:

PROC sgscatter  DATA = DATASET;
   PLOT VARIABLE_1 * VARIABLE_2
   / datalabel = VARIABLE group = VARIABLE;
RUN;

A continuación se muestra la descripción de los parámetros utilizados:

  • CONJUNTO DE DATOS este es el nombre del conjunto de datos.

  • VARIABLE es una variable utilizada en el conjunto de datos.

Diagrama de dispersión simple

En un diagrama de dispersión simple, seleccionamos dos variables de un conjunto de datos y las agrupamos por una tercera variable. También podemos etiquetar datos. El resultado muestra cómo las dos variables se encuentran dispersas Plano cartesiano.

Ejemplo

PROC SQL;
create table CARS1 as
SELECT make, model, type, invoice, horsepower, length, weight
FROM 
SASHELP.CARS
WHERE make in ('Audi','BMW')
;
RUN;

TITLE 'Scatterplot - Two Variables';
PROC sgscatter  DATA = CARS1;
   PLOT horsepower*Invoice 
   / datalabel = make group = type grid;
   title 'Horsepower vs. Invoice for car makers by types';
RUN; 

Cuando ejecutamos el código anterior, obtenemos el siguiente resultado:

sactter_plot1

Gráfico de dispersión de pronóstico

podemos usar un parámetro de puntuación para predecir la fuerza de la correlación entre valores dibujando una elipse alrededor de los valores. Usamos parámetros de procedimiento adicionales para dibujar una elipse como se muestra a continuación.

Ejemplo

proc sgscatter data = cars1; 
compare y = Invoice  x = (horsepower length)  
         / group = type  ellipse =(alpha = 0.05 type = predicted); 
title
'Average Invoice vs. horsepower for cars by length'; 
title2
'-- with 95% prediction ellipse --'
; 
format
Invoice dollar6.0;
run;

Cuando ejecutamos el código anterior, obtenemos el siguiente resultado:

sactter_plot_eliipse

Matriz de dispersión

También podemos obtener un diagrama de dispersión de más de dos variables agrupándolas en pares. En el siguiente ejemplo, observamos tres variables y construimos una matriz de diagrama de dispersión. Obtenemos 3 pares de la matriz resultante.

Ejemplo

PROC sgscatter  DATA = CARS1;
   matrix horsepower invoice length
   / group = type;

   title 'Horsepower vs. Invoice vs. Length for car makers by types';
RUN; 

Cuando ejecutamos el código anterior, obtenemos el siguiente resultado:

sactter_plot_matrix

🚫