Información del dataset: info_dataset
Datos de entrenamiento: iris_train.csv
Datos de test: iris_test.csv
Al ser un entrenamiento también proporcionamos las soluciones
Cada entrada en este conjunto de datos representa una planta de iris.
- El conjunto de datos consta de 150 filas en total, divididas equitativamente (se trata de un dataset equilibrado) entre tres tipos (o clases) diferentes de plantas iris:
- Iris-setosa
- Iris-versicolor
- Iris-virginica
Variables del dataset:
Cada entrada (o fila) en el conjunto de datos incluye las siguientes variables:
- Longitud del sépalo (en cm)
- Anchura del sépalo (en cm)
- Longitud del pétalo (en cm)
- Anchura del pétalo (en cm)
Estas cuatro variables se utilizan para describir las propiedades físicas de las flores iris.
Variable objetivo:
- La variable objetivo es la clase de planta de iris, esta indica la especie de iris, Puede ser: Iris-setosa, Iris-versicolor o Iris-virginica.
El objetivo del entrenamiento es crear un modelo de aprendizaje supervisado utilizando el algoritmo k-NN (k-Nearest Neighbors) para predecir el tipo de iris (especie) al que pertenece una planta según sus características. Como es un dataset equilibrado se utilizará la tasa de acierto como métrica de evaluación. A la hora de tomar decisiones creando o evaluando ten en cuenta de que se trata de un dataset pequeño.
Como se trata de un entrenamiento, es un proceso de autoevaluación. En este apartado tienes disponible las etiquetas del dataset test, es decir, los valores que tienes que predecir. Para saber si tu predicción es correcta tienes que utilizar tus predicciones y las etiquetas reales junto con la tasa de acierto.
Etiquetas reales (solucion) del dataset: iris_labels.csv
Comparación de predicciones con las etiquetas reales:
-
- Cada ejemplo en el conjunto de prueba tiene una etiqueta real (la especie de iris a la que pertenece).
- Comparas la predicción del modelo para cada ejemplo con la etiqueta real de ese ejemplo.
- Esto te permite determinar cuántas predicciones fueron correctas (es decir, cuántas veces el modelo predijo la especie correcta).
Cálculo de la tasa de acierto:
-
- La tasa de acierto es una métrica que se utiliza para evaluar la precisión del modelo.
- Se calcula como el número de predicciones correctas dividido por el número total de ejemplos en el conjunto de prueba, multiplicado por 100 para obtener un porcentaje.
- La fórmula es: Tasa de Acierto=(Nuˊmero de Predicciones CorrectasNuˊmero Total de Ejemplos en el Conjunto de Prueba)×100\text{Tasa de Acierto} = \left( \frac{\text{Número de Predicciones Correctas}}{\text{Número Total de Ejemplos en el Conjunto de Prueba}} \right) \times 100Tasa de Acierto=(Nuˊmero Total de Ejemplos en el Conjunto de PruebaNuˊmero de Predicciones Correctas)×100
Interpretación de la tasa de acierto:
-
- Una tasa de acierto del 100% significa que el modelo predijo correctamente la especie de iris para todos los ejemplos en el conjunto de prueba.
- Una tasa de acierto más baja indica que el modelo cometió errores en algunas de las predicciones.
Ejemplo
Supongamos que tienes un conjunto de prueba con 50 ejemplos. Después de aplicar el modelo k-NN, descubres que predijo correctamente la especie de iris en 45 de esos 50 ejemplos.
Entonces, la tasa de acierto sería:
Tasa de Acierto=(4550)×100=90%\text{Tasa de Acierto} = \left( \frac{45}{50} \right) \times 100 = 90\%Tasa de Acierto=(5045)×100=90%
Esto significa que el modelo tiene una precisión del 90% en el conjunto de prueba.
La tasa de acierto debería estar entorno al %100, se trata de un dataset bastante pequeño y equilibrado. En estos casos no es raro que podamos llegar a un acierto total. Pero OJO en la vida real (en problemas mas ajustados a la realidad) una tasa tan alta sería indicativo de que hemos sobreajustado el modelo a los datos que le hemos dado para entrenar. Esto significa que el modelo que hemos conseguido no será capaz de generalizar con datos nuevos o situaciones ligeramente diferentes y el modelo no será útil.