Regresión logística en Python: obtener datos

Este capítulo analiza en detalle los pasos de adquisición de datos para realizar una regresión logística en Python.

Descarga de un conjunto de datos

Si no ha descargado el conjunto de datos UCI mencionado anteriormente, desc√°rguelo ahora desde aqu√≠… Haga clic en la carpeta de datos. Ver√° la siguiente pantalla –

Bases de datos de aprendizaje autom√°tico

Descargue el archivo bank.zip desde el enlace proporcionado. El archivo zip contiene los siguientes archivos:

Banco

Usaremos el archivo bank.csv para desarrollar nuestro modelo. El archivo bank-names.txt contiene una descripción de la base de datos que necesitará más adelante. Bank-full.csv contiene un conjunto de datos mucho más grande que puede usar para un desarrollo más complejo.

Aquí hemos incluido el archivo bank.csv en el archivo zip fuente descargable. Este archivo contiene campos separados por comas. También hicimos algunos cambios en el archivo. Para la formación, se recomienda utilizar el archivo incluido en el archivo zip con el código fuente del proyecto.

Cargando datos

Para cargar datos del archivo CSV que acaba de copiar, ingrese la siguiente declaración y ejecute el código.

In [2]: df = pd.read_csv('bank.csv', header=0)

También podrá verificar los datos cargados ejecutando la siguiente declaración de código:

IN [3]: df.head()

Después de ejecutar el comando, verá el siguiente resultado:

Datos descargados

Esencialmente, imprimi√≥ las primeras cinco l√≠neas de los datos descargados. Examine 21 columnas. Solo usaremos algunas de estas columnas para dise√Īar nuestro modelo.

A continuaci√≥n, necesitamos borrar los datos. Los datos pueden contener varias l√≠neas con Yaya… Para eliminar tales l√≠neas, use el siguiente comando:

IN [4]: df = df.dropna()

Afortunadamente, bank.csv no contiene cadenas de NaN, por lo que este paso no es necesario en nuestro caso. Sin embargo, en la mayoría de los casos, estas cadenas son difíciles de encontrar en una base de datos enorme. Por lo tanto, siempre es más seguro ejecutar la declaración anterior para borrar los datos.

Nota – Puede verificar f√°cilmente el tama√Īo de los datos en cualquier momento usando las siguientes instrucciones –

IN [5]: print (df.shape)
(41188, 21)

El n√ļmero de filas y columnas se imprimir√° en la salida como se muestra en la segunda l√≠nea de arriba.

Lo siguiente que debe hacer es verificar que cada columna coincida con el modelo que estamos intentando construir.

ūüöę