Regresión logística en Python: particionamiento de datos

Tenemos unos cuarenta mil registros. Si usamos todos los datos para construir el modelo, no tendremos ning√ļn dato para probar. Por lo general, dividimos todo el conjunto de datos en dos, digamos 70/30 por ciento. Usamos el 70% de los datos para construir el modelo y el resto para verificar la precisi√≥n del pron√≥stico del modelo que creamos. Puede utilizar una relaci√≥n de divisi√≥n diferente seg√ļn sus necesidades.

Creando una matriz de funciones

Antes de dividir los datos, dividimos los datos en dos matrices X e Y. La matriz X contiene todas las funciones (columnas de datos) que queremos analizar, y la matriz Y es una matriz unidimensional de valores booleanos, que es el salida de la predicción. Para entender esto, ejecutemos el código.

Primero, ejecute la siguiente declaración de Python para crear una matriz X:

In [17]: X = data.iloc[:,1:]

Leer el contenido X usar cabeza imprimir varios registros originales. La siguiente pantalla muestra el contenido de la matriz X.

In [18]: X.head ()

Entradas iniciales

La matriz contiene varias filas y 23 columnas.

Luego crearemos una matriz de salida que contenga ¬ęa¬ęvalores.

Crea una matriz de salida

Para crear una matriz para la columna de valor predicho, use la siguiente declaración de Python:

In [19]: Y = data.iloc[:,0]

Explore su contenido llamando cabeza… La salida de pantalla a continuaci√≥n muestra el resultado:

In [20]: Y.head()
Out[20]: 0   0
1    0
2    1
3    0
4    1
Name: y, dtype: int64

Ahora, divida los datos usando el siguiente comando:

In [21]: X_train, X_test, Y_train, Y_test = train_test_split(X, Y, random_state=0)

Esto crear√° cuatro matrices llamadas X_train, Y_train, X_test y Y_test… Como antes, puede verificar el contenido de estas matrices usando el comando head. Usaremos las matrices X_train e Y_train para entrenar nuestro modelo y las matrices X_test e Y_test para pruebas y validaci√≥n.

Ahora estamos listos para construir nuestro clasificador. Veremos esto en el próximo capítulo.

ūüöę