Modelo de aprendizaje supervisado para investigación del Párkinson

"Descubre cómo el aprendizaje supervisado revela diferencias de sexo y el impacto de las terapias hormonales en pacientes con Parkinson en este último estudio de investigación"

Hoy os traemos el que para nosotros en un artículo muy especial: Maitane estuvo realizando sus prácticas de Ingeniería Informática con el equipo de Kopuru. Durante su estancia, además de ayudarnos a darle un giro 360 a Kopuru, pudo desarrollar su interesantísimo Trabajo de Fin de Grado, donde aplica el uso de los datos en la investigación médica del Parkinson. Y por supuesto, nosotros (con todo el orgullo) no podemos dejar de dar visibilidad a su increíble trabajo, que esperamos, os apasione tanto como a nosotros.

“Soy Maitane Gomez, estudiante de ingeniería informática en computación y actualmente estoy realizando mi TFG sobre las diferencias de sexo en el Parkinson. Se trata de un proyecto con perspectiva de genero que pretende, mediante el aprendizaje automático, demostrar que existen infinidad de mejoras en la salud femenina.”

Maitane Gómez: colaboradora con Kopuru desde junio de 2023

El Párkinson es la segunda enfermedad neurodegenerativa más común hoy en día y se manifiesta tanto en síntomas motores, como en síntomas no motores. Su complejidad radica precisamente en sus diversas manifestaciones y la variedad de síntomas que puede presentar. Su particularidad y sus características la hacen muy compleja de estudiar y entender. Existe un debate actual sobre el papel del sexo en el desarrollo de la enfermedad de Parkinson.

A pesar de que la enfermedad afecta al doble de hombres que de mujeres, son ellas las que experimentan una tasa de mortalidad significativamente más elevada (aunque es cierto que esto puede ser explicado por su mayor esperanza de vida) y una progresión más rápida de la enfermedad. Es importante mencionar que también son menos propensas a recibir apoyo de cuidadores familiares y amigos, lo que las vuelve más vulnerables y dependientes de cuidadores remunerados. Además, presentan síntomas distintivos y respuestas diferentes a tratamientos y procedimientos médicos del párkinson, como terapias farmacológicas y el procedimiento de estimulación cerebral profunda, cuando se comparan con los hombres. 

Analizar las diferencias de sexo y el impacto de las terapias hormonales en pacientes con Párkinson 

La literatura evidencia diferencias entre hombres y mujeres debido a factores fisiopatológicos, ambientales y genéticos, que pueden influir en la susceptibilidad a diversas enfermedades, incluyendo trastornos neurodegenerativos como el párkinson y el alzhéimer. Lamentablemente, estas variaciones han sido en gran medida pasadas por alto en las etapas de investigación preclínicas y clínicas, posiblemente debido a la resistencia a emplear animales hembra en estudios preclínicos y a la baja participación de mujeres en ensayos clínicos, donde su acceso es limitado. Un ejemplo claro de este hecho, está en el informe sobre la retirada de medicamentos que se hizo en EE. UU entre 1997 y 2000 por la Administración de Alimentos y Medicamentos, que reveló que 8 de los 10 medicamentos retirados presentaban mayores riesgos en las mujeres. 

Un estudio retrospectivo observacional que analizó datos de Medicare (un programa gubernamental de seguro de salud para personas mayores y discapacitadas en EEUU), reveló que tanto las mujeres como las personas afroamericanas tienen menos probabilidades de recibir atención especializada de neurólogos. Todo lo mencionado anteriormente desemboca en que la calidad de vida de las mujeres se vea gravemente afectada y sea, una vez más, inferior a la de los hombres con párkinson. 

Las diferencias relacionadas con el sexo en el párkinson (EP), tanto en síntomas motores como no motores, en las respuestas a los tratamientos y en los factores de riesgo, respaldan la idea de que el desarrollo de la enfermedad podría implicar mecanismos patogénicos distintos, y a pesar de que la población femenina con EP es bastante extensa, los estudios que consideran el sexo femenino como una variable crucial es escasos en las investigaciones. 

Si nos centramos en la salud femenina, actualmente, entre los pocos tratamientos accesibles para paliar los síntomas menopáusicos están las terapias hormonales. Estas terapias no están exentas de controversia, ya que el beneficio que aportan no parece justificar el riesgo que suponen de padecer una enfermedad neurodegenerativa. 

¿Existen evidencias?

A día de hoy, todavía no existe una explicación sobre qué causa el párkinson, y no hay una relación directa, genética o de estilo de vida, a la que se le pueda atribuir. Pero los investigadores, al observar la cantidad de mujeres que sufren de demencia y alzhéimer en comparación con los hombres, (que una vez más puede ser a causa de la longevidad), han puesto el foco en la terapia hormonal post-menopáusica como posible causante. 

Cuando hablamos de alzhéimer muchas veces también hablamos de párkinson, sus investigaciones han sido tanto contrarias como complementarias, pero en el estudio “Postmenopausal hormone therapy and Alzheimer’s disease, dementia, and Parkinson’s disease: A systematic review and time-response meta-analysis” realizado en 2020 por Wu, M. et al, se mostró una relación directa significativa entre el uso de ciertas terapias hormonales y la enfermedad de Alzheimer, demencia y párkinson, en mujeres menopáusicas. 

Todo lo mencionado anteriormente subraya la necesidad de enfoques innovadores que tomen en cuenta todas estas diferencias para mejorar el tratamiento del Parkinson.  

Origen del estudio aplicando Aprendizaje Supervisado

Este estudio se ha realizado con la base de datos Fox Insight, se trata de una base de datos en línea de autoreporte creada por la Fundación Michael J. Fox en 2017 para recopilar información sobre la enfermedad de Parkinson [4]. Surgió para abordar la falta de acceso a información diversa en la investigación sobre el Parkinson, causada por limitaciones en la representación de minorías. 

Aunque pueden surgir dudas sobre la fiabilidad de los proyectos que utilizan bases de datos de auto reporte, el estudio comparativo “Comparación de una Cohorte de Investigación de la Enfermedad de Parkinson en Línea con Cohortes Evaluadas en Persona” realizado por Chahine et al. en 2020 [2] concluyó que la investigación utilizando datos en línea autorregistrados sobre la enfermedad de Parkinson no solo es factible, sino que también presenta características similares a las realizadas en persona. 

Objetivo

Este proyecto tiene tres objetivos: examinar el contenido y las oportunidades proporcionadas por FOX Insight para la investigación de la enfermedad de Parkinson, extrayendo objetivamente datos para dos bases de datos completas sin valores faltantes, incluyendo el máximo número posible de variables y pacientes; determinar mediante el aprendizaje automático supervisado, si la enfermedad de Parkinson afecta de manera diferente a hombres y mujeres; y analizar el impacto que puede tener en mujeres con Parkinson tomar cualquier forma de terapia hormonal durante o después de la menopausia durante al menos seis meses. 

Análisis de la base de datos de FOX Insight 

La base de datos de Fox Insight, disponible en https://foxden.michaeljfox.org/, alberga a 125.000 pacientes registrados y cuenta con una batería de más de 7.000 preguntas. Sin embargo, la complejidad en su rendimiento y gestión, complica cualquier intento de investigación. 

El diseño actual de la base de datos presenta limitaciones en el acceso y manipulación de datos debido a un filtrado ineficiente. Es necesario navegar manualmente a través de más de 7.000 variables, con redundancia en las preguntas y complicaciones en el manejo de respuestas de opción múltiple. Esto, junto con la falta de normalización de datos, complica el preprocesamiento. 

Además, la extensa estructura del cuestionario obstaculiza la superposición de usuarios, dificultando la generación de la base de datos y resaltando una vez más que la mayor parte del tiempo en este tipo de investigaciones se destina al manejo de los datos. 

Creación de bases de datos y metodología 

Se crearon dos bases de datos con pacientes de Parkinson. Una es una base de datos general que incluye pacientes de ambos sexos con el máximo número de preguntas comunes respondidas. La otra es específica para mujeres, conteniendo información adicional sobre la salud femenina. La base general fue creada a partir de un algoritmo y la específica, fue una variación de la general. 

Inicialmente, el algoritmo selecciona cuatro variables (Edad, Sexo, Educación e InitPDDiag, el diagnóstico inicial de Parkinson positivo para todos en este estudio) y elimina los valores nulos y duplicados. Luego, incorpora secuencialmente variables ordenadas por su tamaño no nulo, asegurando que tengan un tamaño mínimo de 1000 pacientes, y revierte los pasos si al agregar una variable se reduce el tamaño por debajo de ese umbral. 

El resultado de la ejecución fue la base general (189 variables, 1526 pacientes, 799 hombres, 727 mujeres) y la variable objetivo es ‘Sex’. Cabe señalar que una de las variables eliminadas fue InitPDDiag, porque todos los pacientes tenían valores positivos, dejando claro que la base de datos general no tiene ningún paciente de control. Pero sí tiene una distribución casi equitativa de hombres y mujeres, con 799 hombres y 727 mujeres. Esta distribución proporciona la oportunidad perfecta para centrar el estudio en investigar si hay diferencias en la forma en la que el Parkinson les afecta. 

¿Cómo crear base de datos especifica?

Partiendo de la base de datos ya existente, se agregó la variable objetivo ‘rp4’ que responde a la pregunta: “¿has tomado algún reemplazo hormonal durante o después de la menopausia por al menos seis meses?”, y se eliminaron todos los pacientes masculinos y femeninos sin respuesta en ella. 

El siguiente paso fue analizar si con los datos obtenidos, era posible realizar la investigación que teníamos en mente. La forma más sencilla era comprobar la distribución en la variable objetivo ‘rp4’: el resultado fue que 68 sí habían tomado reemplazos hormonales y 60 no. Una vez más, la base de datos estaba prácticamente equilibrada y nos daba el escenario perfecto para realizar el estudio. 

Metodología empleada en el análisis

Para la predicción de las bases de datos, se probaron 4 algoritmos: Random Forest, XGBoost, SVM y Perceptrón. Para cada uno de ellos, se utilizaron dos heurísticos en la preselección de variables: Random Forest Feature Selection y Correlation Feature Selection, utilizando el algoritmo SelecktBest. Ademas para la validación se utilizó k-fold cross validation y para la optimización se realizó una búsqueda de hiperparametros en cada clasificador. 

En la base general, la métrica utilizada para evaluar tanto la selección de hiperparámetros como la selección del heurístico fue la tasa de acierto o “accuracy”, ya que se considera una de las más robustas y recomendadas si la base de datos tiene un tamaño considerable y clases equilibradas, que es justo lo que ocurre con esta base de datos. Para la validación, en ambos casos, se utilizó 10 fold cross validation, y, en cuanto a la optimización de hiperparámetros, en este caso, el ajuste no mejoró los resultados de ningún modelo, por lo que los clasificadores estudiados no se configuraron con hiperparámetros específicos. 

Al ser la base específica, una base de datos con un número bastante inferior a la general, se consideró que enfocarse más en la capacidad de separación de las clases (área bajo la curva o ROC AUC) era más importante que centrarse en la precisión general del modelo (Accuracy). Por eso, tanto la elección de hiperparámetros (RandomizedSearchCV) como la elección en el estudio de los heurísticos se hizo con una métrica diferente a la general. 

También se optó por emplear una validación cruzada de 5 folds en lugar de 10, dado que, al tratarse de un conjunto de datos más reducido, la utilización de 10 folds para el conjunto de prueba podría resultar demasiado limitada, propiciando el riesgo de sobreajuste del modelo. 

¿Qué RESULTADOS se obtuvieron?

En el estudio general, el mejor resultado lo obtuvo el clasificador SVM con el heurístico de Random Forest Feature Selection, la tasa de acierto fue del 75%. Para la base de datos del estudio específico, el algoritmo con mejor tasa fue el perceptrón lineal con el heurístico de correlación obteniendo una tasa de 77%. 

En ambos casos, se analizaron las variables que tienen el mayor impacto en la decisión del clasificador. En el caso de la general, el clasificador tiende a favorecer a las mujeres en situaciones donde la ansiedad (NonMoveAnxious), la autoestima (MoodWorth), el dolor muscular (LivePDPain) y las complicaciones para tragar o masticar (NonMoveSwall) son más altos. 

Por otro lado, se inclina hacia los hombres cuando se registra un mayor nivel de incontinencia urinaria (NonMoveUrinePM) y un menor cambio en el deseo sexual (NonMoveSex). En el estudio específico, el clasificador considera que el paciente ha tomado reemplazo hormonal si tiene una mayor incontinencia urinaria (NonMoveUrine), un menor cambio en el deseo sexual (NonMoveSex), menos dificultades para mantenerse despierto (NonMoveAwake) y una mayor sensación de depresión (NonMoveFeel). 

Conclusión

Estos hallazgos enfatizan la importancia de considerar las diferencias de sexo y las terapias hormonales en el manejo de los síntomas del Parkinson, dando forma a futuras investigaciones para enfoques de tratamiento personalizados. Además, las técnicas computacionales juegan un papel crucial en la investigación imparcial, facilitando el análisis eficiente de grandes conjuntos de datos. 

En nuestra plataforma, te ofrecemos acceso exclusivo a una amplia gama de herramientas, recursos y datos especializados que te ayudarán a profundizar en el análisis de datos entre otras muchas cosas. 

¡No te pierdas esta oportunidad de formar parte de nuestra comunidad y contribuir al avance del conocimiento! Regístrate ahora y comienza a explorar todo lo que nuestra plataforma tiene para ofrecerte: realizar retos, buscar empleo, estar al día etc.

"¿Eres un apasionado de la IA? Únete a nosotros como colaborador y comparte tus ideas con nuestra comunidad de lectores. El siguiente artículo, puede ser el tuyo." Anímate, Comparte, ¡Disfruta!

Scroll al inicio