KNIME: construye tu propio modelo

En este capítulo, creará su propio modelo de aprendizaje automático para clasificar plantas en función de varios rasgos observados. Usaremos el conocido Iris conjunto de datos de Repositorio de aprendizaje automático de la UCI para esto. El conjunto de datos contiene tres clases diferentes de plantas. Entrenaremos nuestro modelo para clasificar una planta desconocida en una de estas tres clases.

Comenzaremos creando un nuevo flujo de trabajo en KNIME para crear nuestros modelos de aprendizaje automático.

Creación de flujo de trabajo

Para crear un nuevo flujo de trabajo, seleccione el siguiente elemento del menú en el espacio de trabajo de KNIME.

File → New

Verá la siguiente pantalla –

Creación de flujo de trabajo

Por favor seleccione Nuevo flujo de trabajo KNIME opción y haga clic en Siguiente botón. En la siguiente pantalla, se le pedirá que ingrese el nombre deseado para el flujo de trabajo y la carpeta de destino para guardarlo. Ingrese esta información como desee y haga clic en Fin para crear un nuevo espacio de trabajo.

Se agregará un nuevo espacio de trabajo con el nombre dado a Ambiente de trabajo ver como aquí –

Creación de espacio de trabajo

Ahora agregará varios nodos a este espacio de trabajo para crear su modelo. Antes de agregar nodos, debe descargar y preparar Iris conjunto de datos para nuestro uso.

Preparando un conjunto de datos

Descargue el conjunto de datos de iris del Repositorio de aprendizaje automático de la UCI Descargar el conjunto de datos de Iris… El archivo iris.data descargado está en formato CSV. Le haremos algunos cambios para agregar los nombres de las columnas.

Abra el archivo descargado en su editor de texto favorito y agregue la siguiente línea al principio.

sepal length, petal length, sepal width, petal width, class

Cuando nuestro Lector de archivos El nodo lee este archivo, acepta automáticamente los campos anteriores como nombres de columna.

Ahora comenzará a agregar varios nodos.

Agregar un lector de archivos

Ir Repositorio de nodos ver, ingrese «archivo» en el cuadro de búsqueda para encontrar Lector de archivos nodo. Esto se puede ver en la captura de pantalla a continuación:

Agregar un lector de archivos

Seleccione y haga doble clic en el icono Lector de archivos para agregar un nodo al espacio de trabajo. Alternativamente, puede usar la función de arrastrar y soltar para agregar un nodo al escenario. Después de agregar un nodo, deberá configurarlo. Haga clic derecho en el nodo y seleccione Melodía opción del menú. Hiciste esto en la lección anterior.

Después de cargar el archivo de datos, la pantalla de configuración se ve así.

Agregar un archivo de datos

Para cargar un conjunto de datos, haga clic en el icono Navegar y seleccione la ubicación del archivo iris.data. El nodo cargará el contenido del archivo, que se muestra en la parte inferior de la ventana de configuración. Después de confirmar que el archivo de datos está ubicado y cargado correctamente, haga clic en el icono OK para cerrar el cuadro de diálogo de configuración.

Ahora agregará una anotación a este nodo. Haga clic derecho en el nodo y seleccione Anotación del nuevo flujo de trabajo opción del menú. Aparecerá un campo de anotación en la pantalla, como se muestra en la siguiente captura de pantalla:

Anotación de flujo de trabajo

Haga clic dentro del cuadro y agregue la siguiente anotación:

Reads iris.data

Haga clic en cualquier lugar fuera del cuadro para salir del modo de edición. Cambie el tamaño y coloque un cuadro alrededor del nodo como desee. Finalmente, haga doble clic en el icono Nodo 1 el texto debajo del nodo para cambiar esta línea a lo siguiente:

Loads data

En este punto, su pantalla se verá así:

Datos de iris

Ahora agregaremos un nuevo nodo para dividir nuestro conjunto de datos cargado en entrenamiento y prueba.

Agregar un nodo dividido

en Repositorio de nodos en el cuadro de búsqueda ingrese algunos caracteres para encontrar Terrible nodo como se muestra en la captura de pantalla a continuación –

Encuentra la separación

Agrega un nodo a nuestro espacio de trabajo. Establezca su configuración de la siguiente manera:

Relative (%) : 95
Draw Randomly

La siguiente captura de pantalla muestra las opciones de configuración.

Opciones de configuración

Luego, establezca una conexión entre los dos nodos. Para hacer esto, haga clic en la salida Lector de archivos nodo, mantenga presionado el botón del mouse, aparecerá una línea de banda elástica, arrástrela a la entrada Terrible nodo, suelte el botón del ratón. Ahora se establece una conexión entre los dos nodos.

Agregue una anotación, cambie la descripción, coloque el nodo y la vista de la anotación como desee. En este punto, su pantalla debería verse así:

División del lector de archivos

A continuación, agregaremos k-significa nodo.

Agregar un nodo k-means

Por favor seleccione k-significa nodo del repositorio y agréguelo al espacio de trabajo. Si desea repasar sus conocimientos sobre el algoritmo k-means, simplemente busque su descripción en la Vista de descripción del escritorio. Esto se muestra en la captura de pantalla a continuación:

K significa

Por cierto, puede ver la descripción de los distintos algoritmos en la ventana de descripción antes de tomar la decisión final de cuál usar.

Abra el cuadro de diálogo de configuración del nodo. Usaremos valores predeterminados para todos los campos como se muestra aquí –

Diálogo de configuración

Hacer clic OK para aceptar los valores predeterminados y cerrar el cuadro de diálogo.

Establezca la anotación y la descripción de la siguiente manera:

  • Resumen: Clasificar agrupaciones

  • Descripción: realizar agrupaciones

Conecte la salida superior Terrible nodo en la entrada k-significa nodo. Mueva sus elementos y su pantalla debería verse así:

Nodo de división

A continuación, agregaremos Propósito del clúster nodo.

Agregar un asignado de clúster

EN Propósito del clúster asigna nuevos datos a un conjunto de prototipos existente. Se necesitan dos entradas: un modelo prototipo y una tabla de datos que contiene los datos de entrada. Mire la descripción del nodo en el cuadro de descripción, que se muestra en la captura de pantalla a continuación:

Agregar un asignado de clúster

Por lo tanto, para este nodo, debe realizar dos conexiones:

  • Salida del modelo de clúster PMML Terrible nodo → Prototipos de entrada Propósito del clúster

  • Salida del segundo tramo Terrible nodo -> Datos de entrada Propósito del clúster

Estas dos conexiones se muestran en la siguiente captura de pantalla:

Propósito del clúster

EN Propósito del clúster no requiere configuración especial. Simplemente acepte los valores predeterminados.

Ahora agregue una anotación y una descripción a este nodo. Reorganiza tus nodos. Tu pantalla debería verse así:

Administrador de formularios

Esto completa nuestro agrupamiento. Necesitamos visualizar la salida gráficamente. Para esto agregaremos un diagrama de dispersión. Configuraremos los colores y las formas de manera diferente para las tres clases en el diagrama de dispersión. De esta forma filtraremos la salida k-significa nodo primero a través Administrador de color nodo y luego a través Administrador de formularios nodo.

Agregar un administrador de color

Encontrar Administrador de color nodo en el repositorio. Agréguelo al área de trabajo. Deje la configuración predeterminada. Tenga en cuenta que debe abrir el cuadro de diálogo de configuración y hacer clic en OK aceptar los valores predeterminados. Establecer el texto descriptivo para el nodo

Haga una conexión desde la toma de corriente k-significa en la entrada Administrador de color… En este punto, su pantalla se verá así:

Pantalla del administrador de color

Agregar un administrador de formularios

Encontrar Administrador de formularios en el repositorio y agréguelo al espacio de trabajo. Deja su configuración predeterminada. Como en el caso anterior, debe abrir el cuadro de diálogo de configuración y hacer clic en OK para establecer los valores predeterminados. Establecer una conexión desde la salida Administrador de color entrar Administrador de formularios… Proporcione una descripción del nodo.

Tu pantalla debería verse así:

Agregar un administrador de formularios

Ahora agregará el último nodo a nuestro modelo, y este es un diagrama de dispersión.

Agregar un diagrama de dispersión

Encontrar Gráfico de dispersión nodo en el repositorio y agréguelo al espacio de trabajo. Conectar salida Administrador de formularios en la entrada Gráfico de dispersión… Deje la configuración predeterminada. Proporcione una descripción.

Finalmente, agregue la anotación de grupo a los tres nodos recién agregados.

Resumen: Visualización

Mueva los nodos como desee. En este punto, su pantalla debería verse así.

Visualización de anotaciones

Esto completa la tarea de construir el modelo.

🚫