Un diagrama de dispersión es un tipo de diagrama que utiliza los valores de dos variables trazadas en un plano cartesiano. Suele utilizarse para averiguar la relación entre dos variables. En SAS utilizamos PROCEDIMIENTO SGSCATTER para crear diagramas de dispersión.
Tenga en cuenta que creamos un conjunto de datos llamado CARS1 en el primer ejemplo y usamos el mismo conjunto de datos para todos los conjuntos de datos posteriores. Este conjunto de datos permanece en la biblioteca de trabajo hasta el final de la sesión SAS.
La sintaxis básica para crear un diagrama de dispersión en SAS es:
PROC sgscatter DATA = DATASET; PLOT VARIABLE_1 * VARIABLE_2 / datalabel = VARIABLE group = VARIABLE; RUN;
A continuación se muestra la descripción de los parámetros utilizados:
CONJUNTO DE DATOS este es el nombre del conjunto de datos.
VARIABLE es una variable utilizada en el conjunto de datos.
En un diagrama de dispersión simple, seleccionamos dos variables de un conjunto de datos y las agrupamos por una tercera variable. También podemos etiquetar datos. El resultado muestra cómo las dos variables se encuentran dispersas Plano cartesiano.
PROC SQL; create table CARS1 as SELECT make, model, type, invoice, horsepower, length, weight FROM SASHELP.CARS WHERE make in ('Audi','BMW') ; RUN; TITLE 'Scatterplot - Two Variables'; PROC sgscatter DATA = CARS1; PLOT horsepower*Invoice / datalabel = make group = type grid; title 'Horsepower vs. Invoice for car makers by types'; RUN;
Cuando ejecutamos el código anterior, obtenemos el siguiente resultado:
podemos usar un parámetro de puntuación para predecir la fuerza de la correlación entre valores dibujando una elipse alrededor de los valores. Usamos parámetros de procedimiento adicionales para dibujar una elipse como se muestra a continuación.
proc sgscatter data = cars1; compare y = Invoice x = (horsepower length) / group = type ellipse =(alpha = 0.05 type = predicted); title 'Average Invoice vs. horsepower for cars by length'; title2 '-- with 95% prediction ellipse --' ; format Invoice dollar6.0; run;
Cuando ejecutamos el código anterior, obtenemos el siguiente resultado:
También podemos obtener un diagrama de dispersión de más de dos variables agrupándolas en pares. En el siguiente ejemplo, observamos tres variables y construimos una matriz de diagrama de dispersión. Obtenemos 3 pares de la matriz resultante.
PROC sgscatter DATA = CARS1; matrix horsepower invoice length / group = type; title 'Horsepower vs. Invoice vs. Length for car makers by types'; RUN;
Cuando ejecutamos el código anterior, obtenemos el siguiente resultado:
🚫