Weka – preprocesamiento de datos

Los datos recopilados en el campo contienen muchas cosas no deseadas que conducen a un análisis incorrecto. Por ejemplo, los datos pueden contener campos vacíos, pueden contener columnas que no son relevantes para el análisis actual, etc. Por lo tanto, los datos deben procesarse previamente para cumplir con los requisitos del tipo de análisis que está buscando. Esto se hace en el módulo de preprocesamiento.

Para demostrar las funciones de preprocesamiento disponibles, usaremos Tiempo la base de datos proporcionada con la instalación.

Usando Abrir documento … opción bajo Procesamiento preliminar seleccionar etiqueta weather-nominal.arff expediente.

Clima nominal

Cuando abre el archivo, su pantalla se parece a la que se muestra aquí:

Weka Explore

Esta pantalla nos dice algunas cosas sobre los datos cargados, que se describen más adelante en este capítulo.

Entendiendo los datos

Primero echemos un vistazo al resaltado Actitud actual ventana adicional. Muestra el nombre de la base de datos cargada actualmente. Puede deducir dos puntos de esta subventana:

  • Un total de 14 copias: el número de filas de la tabla.

  • La tabla contiene 5 atributos, campos que se discutirán en las siguientes secciones.

En el lado izquierdo, observe Atributos una ventana adicional que muestra varios campos en la base de datos.

Atributos de Weka

A Tiempo La base de datos contiene cinco campos: apariencia, temperatura, humedad, viento y juego. Cuando selecciona un atributo de esta lista haciendo clic en él, se muestra información adicional sobre el atributo en sí a la derecha.

Primero seleccionemos el atributo de temperatura. Cuando haga clic en él, verá la siguiente pantalla:

Atributo de temperatura

a Atributo seleccionado en la subventana, puede observar lo siguiente:

  • Se muestran el nombre y el tipo del atributo.

  • Escriba para la temperatura atributo Nominal

  • habitación Desaparecidos el valor es cero.

  • Hay tres significados diferentes sin un significado único.

  • La tabla debajo de esta información muestra los valores nominales para este campo: caliente, moderado y frío.

  • También muestra la cantidad y el porcentaje de peso para cada valor nominal.

En la parte inferior de la ventana, verá una representación visual. clase valores.

Si hace clic en Render todo , podrá ver todas las funciones en una ventana como se muestra aquí –

Render todo

Eliminar atributos

A menudo, los datos que desea utilizar para construir su modelo contienen muchos campos irrelevantes. Por ejemplo, una base de datos de clientes puede contener su número de teléfono móvil, que es importante para analizar su calificación crediticia.

Eliminar atributos

Para eliminar los atributos, selecciónelos y haga clic en Borrar boton de abajo.

Los atributos seleccionados se eliminarán de la base de datos. Después de completar el preprocesamiento de los datos, puede guardarlos para construir el modelo.

A continuación, aprenderá a preprocesar datos aplicando filtros a esos datos.

Aplicar filtros

Algunas técnicas de aprendizaje automático, como la minería de reglas de asociación, requieren datos categóricos. Para ilustrar el uso de filtros, usaremos weather-numeric.arff una base de datos que contiene dos numérico atributos – la temperatura y humedad

Los convertiremos a nominal aplicando un filtro a nuestros datos sin procesar. Haga clic en elegir botón en Filtrar subventana y seleccione el siguiente filtro –

weka -> filtros -> controlado -> atributo -> Discretizar

Weka discretizar

Haga clic en Usar botón y explorar la temperatura y / o humedad atributo. Notará que han cambiado de tipos numéricos a nominales.

Atributo de humedad

Veamos ahora otro filtro. Digamos que desea elegir los mejores atributos para definir tocar… Seleccione y aplique el siguiente filtro:

weka -> filtros -> controlado -> atributo -> AttributeSelection

Notará que elimina los atributos de temperatura y humedad de la base de datos.

Seleccionar atributos de Weka

Una vez que esté satisfecho con el procesamiento preliminar de sus datos, guarde los datos haciendo clic en el botón Ahorrar … botón. Utilizará este archivo guardado para construir su modelo.

En el próximo capítulo, exploraremos la construcción de modelos utilizando varios algoritmos de aprendizaje automático predefinidos.

🚫