AidTec surge en 2023 como una Startup Universitaria con un firme propósito: desarrollar soluciones que optimicen las labores del campo, haciéndolo más sostenible para sus productores. Como parte de sus proyectos de investigación sobre la calidad del terreno, y cómo esta afecta al producto final, el vino, se embarcan en un estudio de la predicción de calidades del vino, basado en algunos parámetros que se miden en laboratorio.
Esta información es parte de un proyecto mayor que buscará la relación entre la calidad del vino y su correlación con los datos del terreno y la planta.
Conoce a AidTec Solutions y su labor en el mundo del campo, donde apuestan por la sostenibilidad, a través de su Web y su LinkedIn.
Acompáñanos en este reto en el que, mediante un modelo predictivo, se busca obtener el algoritmo con mayor porcentaje de acierto, capaz de predecir la nota de calidad que obtendrá cada vino.
Los datos para la realización del modelo de predicción de calidades se encuentran en los siguientes datasets:
- Datos de entrenamiento: calidad_vino_AT _train
- Datos de test sobre los que aplicar el algoritmo: calidad_vino_AT_test
La información contenida en cada una de las muestras es la siguiente:
- Muestra_ID: número identificador único para cada muestra estudiada en laboratorio. Cada muestra de vino es única y ha sido tomada de una única botella.
- Color: blanco (variedad de uva blanca) vs tinto (variedad de uva negra). Se distinguen entre estos dos tipos de vino.
- Año (year): año del embotellado y de la toma de la muestra (se realiza el mismo año). Se cuenta con datos desde 2019 hasta 2023.
Además se incluyen todos los parámetros medidos en laboratorio y tomados a través de las muestras, con sus unidades y descripción:
Parámetro | Unidad de Medida | Definición |
Acidez Fija | g/L (gramos por litro) | Cantidad de ácidos estables en el vino, excluyendo ácidos volátiles como el ácido carbónico y acético. |
Acidez Volátil | g/L (gramos por litro) | Cantidad de ácidos que pueden evaporarse fácilmente, como el ácido acético. Puede indicar posibles defectos en la vinificación. |
Ácido Cítrico | g/L (gramos por litro) | Ácido presente en las uvas, a veces añadido en la vinificación para ajustar la acidez. |
Azúcar Residual | g/L (gramos por litro) | Azúcar que queda sin fermentar en el vino después de la fermentación. Afecta la dulzura del vino. |
Cloruros | mg/L (miligramos por litro) | Proviene del terroir y el agua usada en la vinificación. A altos niveles puede aportar un sabor salino. |
Dióxido de Azufre Libre | mg/L (miligramos por litro) | Parte del dióxido de azufre total que no está ligado y actúa como conservante y antioxidante. |
Dióxido de Azufre Total | mg/L (miligramos por litro) | Incluye el SO2 libre y el que está ligado a otros compuestos. Importante para la conservación del vino. |
Densidad | g/cm³ (gramos por centímetro cúbico) | Relación entre la masa y el volumen del vino; influenciada por el alcohol y azúcares residuales. |
pH | Unidad de pH (sin unidad) | Mide la acidez o alcalinidad del vino; esencial para la estabilidad y color del vino. |
Sulfatos | mg/L (miligramos por litro) | Pueden provenir del agua o aditivos utilizados en la vinificación. Afecta el sabor y conservación. |
Alcohol | % Vol. (porcentaje de volumen) | Proporción de alcohol en el vino. Es un indicador del cuerpo y la textura del vino. |
Todo ello, se analiza para obtener el parámetro de la calidad, que explicamos en detalle a continuación
- Calidad: indicador numérico, del 0 al 10, que indica cuánto de buena se considera la muestra de ese vino, por su variedad, su añada y los parámetros que lo componen. Gracias al conocimiento de los técnicos, este parámetro se asignaba de forma manual, y lo que se quiere es obtener un modelo predictivo capaz de estimar para cada muestra el valor de esa calidad, basado en el histórico de datos.
A la hora de analizar los datos deben tenerse en cuenta algunos puntos clave:
- Cada una de las muestras (registros de las muestras) ha sido tomada de una única botella en las mismas condiciones y momento del proceso (tras el embotellado). Por tanto, todas las muestras están sujetas al mismo proceso, ya que se trata de vinos de año.
- Es importante analizar en profundidad los datos en busca de posibles errores, que puedan afectar al modelo, y gestionarlos de forma correcta para que no afecten. Se recomienda realizar un EDA previo, que se incluirá en el informe.
- Es importante realizar un análisis de cuáles son las variables más representativas en la decisión de la asignación de la calidad.
- Es importante establecer cuáles son los valores máximos y mínimos admisibles para cada parámetro.
- Aplica transformaciones de variables si fuera necesario.
- Normaliza la información antes de realizar el modelo y toma decisiones que documentarás en el informe final.
El objetivo de este reto es doble:
- Desarrollar un modelo de clasificación capaz de predecir con los datos de las muestras del 2024 cuál será la calidad de dichas muestras, tomando como referencia datos entre 2019 y 2023.
- Desarrollar un informe explicativo donde se desarrollen las conclusiones sobre variables que más influyentes en los resultados y el por qué, así como el análisis previo de los datos y sus descriptivos.
Evaluar el modelo de clasificación será sencillo a través del archivo de test que te proporcionamos en el apartado de “Datos”. Para ello, deberás:
- Entrenar tu modelo con los datos de entrenamiento (train), habiendo identificado las variables que consideras representativas y que afectan al modelo.
- Utiliza el archivo de Test para aplicar la clasificación al 100% de los datos no etiquetados que encontrarás en este archivo. Si tu entrenamiento ha sido bueno, estamos seguros de que conseguirás un modelo con un porcentaje de acierto altísimo.
- Deberás subir a Kopuru en un ZIP la siguiente información:
- CSV de los resultados aplicando el modelo desarrollado a los datos de test. Guarda el CSV con el nombre “CalidadVinoAT_TU NOMBRE_v01.csv”. Si quieres subir una nueva versión porque has conseguido mejorar tu resultado, recuerda subirlo de nuevo, pero indicando que se trata de una versión distinta en el nombre: “CalidadVinoAT_TU NOMBRE_v02.csv”
- Archivo con el código desarrollado, en un “.py” por ejemplo. Este no se utilizará para la evaluación, pero si para comprobar que realmente has desarrollado el código desde cero en caso de resultar ganador, o para subirlo a la plataforma y que puedas compartirlo con el resto de usuarios.
- Adjunta un PDF donde incluyas:
- Documentación del modelo
- Descriptivo de los datos inicial (EDA)
- Una explicación de por qué tu solución es la mejor y las decisiones clave que has tomado para desarrollar tu modelo.
Evaluaremos todas las soluciones subidas antes de la fecha de cierre del reto, por lo tanto, estate atento y no dejes pasar la fecha. Recuerda que puedes subir tantas soluciones como consideres para mejorar tu modelo, ya que en este caso las evaluaremos todas.
Cuando tengamos los resultados, los subiremos en el apartado de “Resultados”, donde podrás ver el ranking de posición obtenido frente al resto de participantes. Aparecerás con tu nombre y la inicial de tu apellido en dicho ranking.
Una vez finalizado el plazo de entrega, y cuando llegue la fecha de publicación de resultados, publicaremos los datos completos y el ranking, donde podrás ver en qué posición has quedado y su has sido el vencedor.
Recuerda que para participar, debes tener claros los siguientes puntos:
- Para participar en un reto es indispensable registrarse en Kopuru como miembro de la comunidad. Esto podrás realizarlo directamente en nuestro apartado de perfil.
- Es indispensable leer las bases antes de hacer la entrega, de cara a cumplir con los requisitos antes de hacer cualquier entrega, y asegurar que esta pueda ser evaluada.
- Los datos de entrenamiento (train) son los que debes utilizar para entrenar tu modelo. Identifica las variables necesarias y haz un análisis previo de la información para evaluar la calidad de los datos. A modo de consejo, te recomendamos que antes de hacer un borrado de registros, valores si las variables afectan realmente o no a tu modelo (no pierdas información importante por el camino).
- Los datos de test son datos limpios y el CSV resultado debe contener todos los registros que aparecen en el CSV, con su clasificación de calidad aplicada gracias a tu modelo. Si en la subida de datos identificamos que esta información no está completa y faltan registros en el archivo de test, enviaremos un aviso a los participantes avisando de que su CSV de resultado no está completo.
- Cuando te inscribes en el reto, aceptas las condiciones de privacidad de los datos, que implican la no difusión de estos con fines ajenos a la resolución de este reto. Cada inscripción está asociada con un usuario físico. Es imprescindible cumplir con las consideraciones éticas de privacidad, de lo contrario, y si se demuestra que no se han cumplido las buenas prácticas en el manejo de datos, se procederá a descalificar al miembro participante.
- Es indispensable subir en un ZIP los dos archivos principales: el CSV con los resultados etiquetados, y el archivo con el código. El primero será el que Kopuru evalúe, y el segundo, el que se revisará en caso de ser ganador, para validar la solución (además de ser la solución entregada a la empresa). Deberás además añadir un PFD con las conclusiones y explicaciones solicitadas en el apartado de descripción del reto. Se valorará muy positivamente, sobre todo en caso de empates.
- Si el ZIP entregado no contiene uno de los dos archivos principales (el CSV de resultados o el archivo de código), esta entrega no podrá ser evaluada, y figurará como entrega no presentada. Es responsabilidad del participante leer atentamente este apartado y cumplir con las especificaciones solicitadas.
- Si tras haberse inscrito en el reto, se decide no seguir con la participación, se pide a los participantes que anulen su suscripción, de manera que quede constancia de que su resultado no va a ser subido, y podamos ceder esa plaza a otro participante interesado.
- El ganador del reto y el ranking de resultados se publicarán el día de publicación de resultados, indicado en la información del reto.
- El archivo de subida no debe superar los 10Mb de extensión. Si esto ocurre, contactar con info@kopuru.com para mitigar el problema.
- Ante cualquier duda que surja en la resolución del reto, puedes contactar con nosotros a través de info@kopuru.com
Estos son los resultados del reto realizado para AidTec Solutions. Sabemos que no era nada fácil, pero, los datos reales de empresa, nunca lo son.
Felicidades a todos los participantes y al ganador por enfrentaros a este reto!
Revisa tus insignias y puntuaciones en tu perfil tras la participación en este desafío! Estas más cerca de convertirte en todo un experto.