KNIME – Exploración del flujo de trabajo

Si verifica los nodos en el flujo de trabajo, verá que contiene lo siguiente:

  • Lector de archivos,

  • Administrador de color

  • Terrible

  • Estudiante de árbol de decisión

  • Predictor de árbol de decisión

  • Puntaje

  • Mesa interactiva

  • Gráfico de dispersión

  • Estadísticas

Es fácil de ver en Circuito ver como se muestra aquí –

Circuito

Cada nodo proporciona una funcionalidad específica en el flujo de trabajo. Ahora veremos cómo configurar estos nodos para lograr la funcionalidad deseada. Tenga en cuenta que solo discutiremos los nodos que son relevantes para nosotros en el contexto actual de exploración del flujo de trabajo.

Lector de archivos

El nodo Lector de archivos se muestra en la captura de pantalla siguiente:

Lector de archivos

En la parte superior de la ventana, hay una descripción proporcionada por el creador del flujo de trabajo. Informa que este nodo está leyendo un conjunto de datos de adultos. Nombre del archivo adult.csv como puede ver en la descripción debajo del símbolo de nodo. EN Lector de archivos tiene dos salidas – una va a Administrador de color nodo y el otro va a Estadísticas nodo.

Si hace clic derecho Administrador de archivos, el menú emergente aparecerá de la siguiente manera:

Administrador de archivos

EN Melodía una opción de menú le permite configurar el nodo. EN Ejecutar el menú inicia el nodo. Tenga en cuenta que si el nodo ya se ha iniciado y está en verde, este menú está desactivado. También tenga en cuenta la disponibilidad Editar descripción de nota opción del menú. Esto le permite escribir una descripción para su sitio.

Ahora seleccione Melodía en el menú, muestra una pantalla que contiene datos del archivo adult.csv como se muestra en la captura de pantalla aquí –

Archivo CSV para adultos

Cuando ejecute este nodo, los datos se cargarán en la memoria. Todo el código de carga de datos está oculto para el usuario. Ahora puede apreciar la utilidad de dichos nodos, sin necesidad de codificación.

Nuestro siguiente nodo es Administrador de color

Administrador de color

Por favor seleccione Administrador de color nodo e ingrese su configuración haciendo clic derecho sobre él. Aparece el cuadro de diálogo de ajuste de color. Por favor seleccione ingreso una columna de la lista desplegable.

Su pantalla se verá así:

Administrador de color

Tenga en cuenta que existen dos restricciones. Si el ingreso es inferior a 50K, el punto de datos se volverá verde y, si es mayor, se volverá rojo. Verá las asignaciones de puntos de datos cuando miremos el diagrama de dispersión más adelante en este capítulo.

Terrible

En el aprendizaje automático, generalmente dividimos todos los datos disponibles en dos partes. La mayoría se utilizan para entrenar el modelo y menos para probar. Se utilizan diferentes estrategias para separar los datos.

Para definir la división que desea, haga clic derecho en Terrible nodo y seleccione Melodía opción. Verá la siguiente pantalla –

Terrible

En este caso, el desarrollador de modelado del sistema utilizó Relativo (%) y los datos se dividen en una proporción de 80:20. Durante la división, los puntos de datos se seleccionan al azar. Esto asegurará que los datos de su prueba no estén sesgados. En el caso del muestreo lineal, es posible que el 20% restante de los datos utilizados para las pruebas no representen correctamente los datos de entrenamiento porque pueden estar completamente sesgados durante la recopilación.

Si está seguro de que la aleatoriedad está garantizada durante la recopilación de datos, puede elegir el muestreo lineal. Cuando sus datos estén listos para entrenar el modelo, páselos al siguiente nodo, que es Estudiante de árbol de decisión

Estudiante de árbol de decisión

EN Estudiante de árbol de decisión node, como su nombre indica, utiliza datos de entrenamiento y crea un modelo. Consulte la configuración de este nodo que se muestra en la captura de pantalla a continuación:

Estudiante de árbol de decisión

Cómo ves Clase es un ingreso… Por lo tanto, el árbol se construirá en base a la columna de ingresos, que es lo que estamos tratando de lograr en este modelo. Queremos dividir a las personas con ingresos de más o menos de 50 mil.

Después de lanzar con éxito este nodo, su modelo está listo para probar.

Predictor de árbol de decisión

El nodo del Predictor de árbol de decisión aplica el modelo desarrollado al conjunto de datos de prueba y agrega predicciones del modelo.

Predictor de árboles

La salida del predictor va a dos nodos diferentes: Bombardero y Gráfico de dispersión… A continuación, consideraremos el resultado de la predicción.

Bombardero

Este nodo genera matriz de confusión… Para verlo, haga clic derecho en el nodo. Verá el siguiente menú emergente:

Bombardero

Haga clic en el icono Vista: Matriz de confusión elemento de menú y la matriz aparecerá en una ventana separada como se muestra en la captura de pantalla aquí –

Matriz de confusión

Esto indica que la precisión de nuestro modelo es del 83,71%. Si eso no le conviene, puede jugar con otros parámetros al construir el modelo, especialmente si desea revisar y limpiar sus datos.

Gráfico de dispersión

Para ver un diagrama de dispersión de la distribución de los datos, haga clic con el botón derecho en el icono Gráfico de dispersión nodo y seleccione el elemento del menú Vista interactiva: gráfico de dispersión… Verá la siguiente trama:

Gráfico de dispersión

En el gráfico, dos puntos de diferentes colores, rojo y azul, muestran la distribución de personas de grupos con diferentes ingresos en función del umbral de 50 mil. Estos fueron los colores establecidos en nuestro Administrador de color nodo. La distribución se refiere a la edad, como se muestra en la abscisa. Puede elegir una función diferente para el eje x cambiando la configuración del nodo.

Aquí está el diálogo de configuración donde hemos seleccionado estado familiar como característica del eje de abscisas.

Estado familiar

Con esto concluye nuestra discusión del modelo predefinido proporcionado por KNIME. Le sugerimos que aborde los otros dos nodos (Estadísticas y Tabla interactiva) en el Modelo de autoaprendizaje.

Pasemos ahora a la parte más importante del tutorial: crear su propio modelo.

🚫