Regresión logística en Python Рreestructuración de datos

Siempre que una organizaci√≥n realiza una encuesta, intenta recopilar la mayor cantidad de informaci√≥n posible del cliente, con la idea de que esta informaci√≥n ser√° √ļtil para la organizaci√≥n de una forma u otra en un momento posterior. Para solucionar el problema actual, debemos obtener informaci√≥n que est√© directamente relacionada con nuestro problema.

Mostrar todos los campos

Ahora veamos c√≥mo seleccionar los campos de datos que nos son √ļtiles. Ejecute la siguiente declaraci√≥n en su editor de c√≥digo.

In [6]: print(list(df.columns))

Ver√° el siguiente resultado:

['age', 'job', 'marital', 'education', 'default', 'housing', 'loan', 
'contact', 'month', 'day_of_week', 'duration', 'campaign', 'pdays', 
'previous', 'poutcome', 'emp_var_rate', 'cons_price_idx', 'cons_conf_idx', 
'euribor3m', 'nr_employed', 'y']

La salida muestra los nombres de todas las columnas de la base de datos. La √ļltima columna ¬ęy¬Ľ es un valor booleano que indica si este cliente tiene un dep√≥sito a plazo en el banco. Los valores de este campo son ¬ęy¬Ľ o ¬ęn¬Ľ. Puede leer la descripci√≥n y el prop√≥sito de cada columna en el archivo Banks-name.txt que se carg√≥ como parte de los datos.

Elimina campos no deseados

Al examinar los nombres de las columnas, se dar√° cuenta de que algunos de los campos son irrelevantes para el problema en cuesti√≥n. Por ejemplo, campos como mes, d√≠a_ de la semana, campa√Īa, etc. son in√ļtiles para nosotros. Eliminaremos estos campos de nuestra base de datos. Para soltar una columna, usamos el comando soltar como se muestra a continuaci√≥n:

In [8]: #drop columns which are not needed.
   df.drop(df.columns[[0, 3, 7, 8, 9, 10, 11, 12, 13, 15, 16, 17, 18, 19]], 
   axis = 1, inplace = True)

El comando dice que la columna numerada 0, 3, 7, 8 y así sucesivamente se descarta. Para asegurarse de que el índice esté seleccionado correctamente, utilice la siguiente declaración:

In [7]: df.columns[9]
Out[7]: 'day_of_week'

Esto imprime el nombre de la columna para el índice dado.

Después de eliminar las columnas innecesarias, verifique los datos utilizando la declaración principal. La salida de la pantalla se muestra aquí:

In [9]: df.head()
Out[9]:
      job   marital  default  housing  loan  poutcome    y
0     blue-collar    married  unknown yes no nonexistent 0
1     technician     married  no    no    no nonexistent 0
2     management     single   no    yes   no success     1
3     services       married  no    no    no nonexistent 0
4     retired        married  no    yes   no success     1

Ahora solo tenemos los campos que creemos que son importantes para analizar y predecir datos. Importancia Especialista en datos aparece en la imagen en esta etapa. El científico de datos debe seleccionar las columnas apropiadas para construir el modelo.

Por ejemplo, el tipo Trabajo aunque a primera vista no convence a todo el mundo para que se incluya en la base de datos, esta ser√° un √°rea muy √ļtil. No todos los tipos de clientes abrir√°n un AP. Es posible que las personas de bajos ingresos no abran TD, mientras que las personas de mayores ingresos suelen mantener su dinero extra en TD. Por tanto, el tipo de trabajo se vuelve muy importante en este escenario. Asimismo, seleccione cuidadosamente las columnas que crea que ser√°n relevantes para su an√°lisis.

En el próximo capítulo, prepararemos nuestros datos para construir un modelo.

ūüöę