SAS: subconjunto de conjuntos de datos

Un subconjunto de un conjunto de datos SAS significa extraer una parte de un conjunto de datos seleccionando menos variables o menos casos, o ambos. Mientras que un subconjunto de las variables se realiza con MANTENER y SOLTAR operador, un subconjunto de observaciones se realiza utilizando ELIMINAR declaración.

Además, los datos generados por la operación de subconjunto se almacenan en un nuevo conjunto de datos que se puede utilizar para análisis adicionales. La submutación se utiliza principalmente para analizar una parte de un conjunto de datos sin utilizar variables u observaciones que pueden no ser relevantes para el análisis.

Subconjunto de variables

En este método, recuperamos solo algunas variables del conjunto de datos completo.

Sintaxis

La sintaxis básica para las variables de subconjunto en SAS es:

KEEP var1 var2 ... ;
DROP var1 var2 ... ;

A continuación se muestra la descripción de los parámetros utilizados:

  • var1 y var2 son los nombres de las variables del conjunto de datos que desea conservar o eliminar.

Ejemplo

Considere el siguiente conjunto de datos SAS que contiene información sobre las personas de una organización. Si solo estamos interesados ​​en obtener los valores de Nombre y Departamento del conjunto de datos, podemos usar el código a continuación.

DATA Employee; 
   INPUT empid ename $ salary DEPT $ ; 
DATALINES; 
1 Rick 623.3 	IT 		 
2 Dan 515.2 	OPS	
3 Mike 611.5 	IT 	
4 Ryan 729.1    HR 
5 Gary 843.25   FIN 
6 Tusar 578.6   IT 
7 Pranab 632.8  OPS
8 Rasmi 722.5   FIN 
;
RUN;
DATA OnlyDept;
   SET Employee;
   KEEP ename DEPT;
   RUN;
   PROC PRINT DATA = OnlyDept; 
RUN; 

Cuando se ejecuta el código anterior, obtenemos el siguiente resultado.

subconjunto1

Se puede obtener el mismo resultado descartando variables innecesarias. El siguiente código ilustra esto.

DATA Employee; 
   INPUT empid ename $ salary DEPT $ ; 
DATALINES; 
1 Rick 623.3 	IT 		 
2 Dan 515.2 	OPS	
3 Mike 611.5 	IT 	
4 Ryan 729.1    HR 
5 Gary 843.25   FIN 
6 Tusar 578.6   IT 
7 Pranab 632.8  OPS
8 Rasmi 722.5   FIN 
;
RUN;
DATA OnlyDept;
   SET Employee;
   DROP empid salary;
   RUN;
   PROC PRINT DATA = OnlyDept; 
RUN; 

Subconjunto de observaciones

En este método, recuperamos solo algunos casos de todo el conjunto de datos.

Sintaxis

Estamos usando PROC FREQ, que realiza un seguimiento de las observaciones seleccionadas para el nuevo conjunto de datos.

La sintaxis para observar subparámetros es:

IF Var Condition THEN DELETE ;

A continuación se muestra la descripción de los parámetros utilizados:

  • Var es el nombre de la variable según el valor de los casos que se eliminarán utilizando la condición especificada.

Ejemplo

Considere el siguiente conjunto de datos SAS que contiene información sobre las personas de una organización. Si solo nos interesan los datos sobre empleados con salarios superiores a 700, usamos el siguiente código.

DATA Employee; 
   INPUT empid name $ salary DEPT $ ; 
DATALINES; 
1 Rick 623.3	IT 		 
2 Dan 515.2 	OPS	
3 Mike 611.5 	IT 	
4 Ryan 729.1    HR 
5 Gary 843.25   FIN 
6 Tusar 578.6   IT 
7 Pranab 632.8  OPS
8 Rasmi 722.5   FIN 
;
RUN;
DATA OnlyDept;
   SET Employee;
   IF salary < 700 THEN DELETE;
   RUN;
   PROC PRINT DATA = OnlyDept; 
RUN; 

Cuando se ejecuta el código anterior, obtenemos el siguiente resultado.

subconjunto2

🚫