Datasets
Dataset de entrenamiento: train_set_efEnergetica.csv
Dataset de prueba: test_set_efEnergetica.csv
El dataset contiene información sobre 768 edificios simulados en Ecotect, cada uno descrito por ocho características principales relacionadas con su diseño y construcción. Originalmente se proporcionan dos respuestas continuas:
- Heating Load (Carga de Calefacción): Indica la cantidad de energía necesaria para calentar el edificio.
- Cooling Load (Carga de Refrigeración): Indica la cantidad de energía necesaria para refrigerar el edificio.
Nueva Variable Objetivo Binaria:
Para simplificar el problema en un contexto de clasificación binaria, definiremos una nueva variable objetivo:
- Target: Esta variable binaria se determinará utilizando un umbral combinado de la carga de calefacción y refrigeración. Un edificio será etiquetado como eficiente (1) si tanto su carga de calefacción como refrigeración están por debajo del promedio, indicando que el edificio requiere menos energía en ambos aspectos. Por otro lado, será etiquetado como no eficiente (0) si alguna de las dos cargas está por encima del promedio, indicando una necesidad relativamente alta de energía para calefacción o refrigeración.
Variables del dataset
Variable | Role | Type | Description | Missing Values |
X1 | Feature | Continuous | Relative Compactness | No |
X2 | Feature | Continuous | Surface Area | No |
X3 | Feature | Continuous | Wall Area | No |
X4 | Feature | Continuous | Roof Area | No |
X5 | Feature | Continuous | Overall Height | No |
X6 | Feature | Integer | Orientation | No |
X7 | Feature | Continuous | Glazing Area | No |
X8 | Feature | Integer | Glazing Area Distribution | No |
target | Target | Integer | Binary Classification Target (0: efficient, 1: deficient) | No |
El objetivo de este desafío es desarrollar un modelo de clasificación binaria que pueda predecir con precisión si un edificio será energéticamente eficiente o no, utilizando las características proporcionadas del edificio.
- Analiza bien la información
- Genera un modelo predictivo y entrénalo
- Obtén resultados y evalúalos
⚠️⚠️¡Este reto tiene PREMIO! Si tu solución es la mejor te llevaras una tarjeta de regalo de 150€ en Amazon ⚠️⚠️
Métrica de Evaluación:
Se utilizará la métrica de accuracy (tasa de acierto) para evaluar el rendimiento del modelo. Esta métrica mide la proporción de predicciones correctas realizadas por el modelo sobre el total de predicciones realizadas, proporcionando una medida clara de qué tan bien el modelo predecir la eficiencia energética de los edificios.
Además de implementar el modelo de clasificación binaria, se puede utilizar la herramienta SHAP (SHapley Additive exPlanations) para proporcionar explicaciones sobre las decisiones del modelo. SHAP permitirá analizar tanto a nivel global como local cómo cada característica afecta las predicciones del modelo, proporcionando una comprensión detallada de los factores determinantes en las predicciones y cómo estas se ven afectadas por diferentes variables.
Formato de entrega:
- Un archivo csv con una sola columna.
-
- Nombre de la columna: target
-
- Contenido de la columna: predicciones de las etiquetas del dataset test.
-
- ¡IMPORTANTE! El orden de la columna debe ser el mismo orden del dataset test dado en el enunciado.
- Ejemplo visual del csv
target |
1 |
0 |
… |
- Gráficos de barras o de dispersión (opcional): Si se utiliza SHAP, hace falta entregar uno o varios gráficos que muestren los valores SHAP (SHapley Additive exPlanations) para cada una de las variables predictoras principales del modelo. Estos gráficos son útiles para visualizar cómo cada variable contribuye a las predicciones del modelo de manera individual y le proporcionan robustez a la solución.
⚠️IMPORTANTE⚠️ Este reto tiene PREMIO, si tu solución es la mejor te llevaras una tarjeta de regalo de 150€ en Amazon
Recuerda que para participar, debes tener claros los siguientes puntos:
- Para participar en un reto es indispensable registrarse en Kopuru como miembro de la comunidad. Esto podrás realizarlo directamente en nuestro apartado de perfil.
- Es indispensable leer las bases antes de hacer la entrega, de cara a cumplir con los requisitos antes de hacer cualquier entrega, y asegurar que esta pueda ser evaluada.
- Los datos de entrenamiento (train) son los que debes utilizar para entrenar tu modelo. Identifica las variables necesarias y haz un análisis previo de la información para evaluar la calidad de los datos. A modo de consejo, te recomendamos que antes de hacer un borrado de registros, valores si las variables afectan realmente o no a tu modelo (no pierdas información importante por el camino).
🎉El ganador del reto ha sido (ruido de tambores): dbpolob 🎉
Estate atento porque durante esta semana mandaremos una newsletter explicando la solución ganadora, si no quieres perdértelo, ¡no dudes en inscribirte!
Felicidades a todos, ha estado increíblemente reñido y esperamos veros en nuestro nuevo reto CTR!
En este grafico podéis ver los resultados de todos los participantes.
Como nos tomamos muy enserio la privacidad, aquellos que en su usuario no utilizan un nombre diferente a su nombre de pila han sido pseudo-anonimizados.