Pipeline para la detección del trastorno específico del lenguaje (SLI) a partir de transcripciones de narrativas espontáneas

Santiago Arena, Antonio Quintero-Rincón,
Departamento de Ciencia de Datos, Laboratorio de ciencia de Datos e Inteligencia Artificial
Universidad Católica de Argentina (UCA)
Buenos Aires, Argentina
[email protected], [email protected]
Abstract

El Trastorno Específico del Lenguaje (SLI) es un trastorno que afecta la comunicación y puede afectar tanto la comprensión como la expresión. Este estudio se centra en la detección eficaz del SLI en niños, empleando transcripciones de narrativas espontáneas tomadas en 1063 entrevistas. Para dicho fin, proponemos un pipeline de tres etapas en cascada. En la primera etapa, se hace una extracción de características y una reducción de dimensionalidad de los datos usando en conjunto, los métodos de Random Forest (RF) y correlación de Spearman. En la segunda etapa se estiman las variables más predictivas de la primera etapa usando regresión logística, las cuales son usadas en la última etapa, para detectar el trastorno SLI en niños a partir de transcripciones de narrativas espontáneas usando un clasificador de vecinos más cercanos. Los resultados revelaron una precisión del 97,13% en la identificación del SLI, destacándose aspectos como el largo de las respuestas, la calidad de sus enunciados y la complejidad del lenguaje. Este nuevo enfoque enmarcado en procesamiento natural del lenguaje, ofrece beneficios significativos al campo de la detección de SLI, al evitar complejas variables subjetivas y centrarse en métricas cuantitativas directamente relacionadas con el desempeño del niño.

Keywords Reducción de dimensionalidad  \cdot SLI  \cdot Random Forest  \cdot clasificación  \cdot k-NN  \cdot NLP

1 Introducción

El Trastorno Específico del Lenguaje (SLI por sus siglas en inglés, Specific Language Impairment), también llamado disfasia infantil, afecta entre el 2222 y el 11111111 porciento de los niños menores de 13131313 años, siendo caracterizado por deficiencias en el lenguaje, sin discapacidad o irregularidades mentales o física evidente. En otras palabras, es un trastorno que afecta la comunicación y puede afectar tanto la comprensión como la expresión [3]. Es más común en niños que en niñas, con un fuerte vínculo genético, dado que entre el 50%percent5050\%50 % y el 70%percent7070\%70 % de los niños con SLI tienen un miembro de la familia con esta afección [4]. Un niño con SLI a menudo tiene antecedentes de retraso en el desarrollo del lenguaje expresivo, presentando síntomas como dificultades en la construcción de oraciones, desarrollo del vocabulario, entablar conversaciones, comprender y seguir reglas gramaticales y/o comprender instrucciones habladas [5]. Un trastorno del lenguaje (SLI) ocurre cuando un niño muestra una incapacidad persistente para adquirir y usar habilidades lingüísticas, como se proyectaría según las expectativas normativas basadas en la edad [6]; este trastorno se considera primario o específico cuando no hay una explicación clara para estos retrasos en las habilidades lingüísticas. La mayoría de los niños identificados con trastorno primario del lenguaje al ingresar a la escuela seguirán teniendo habilidades lingüísticas significativamente deprimidas con el tiempo [7], mostrarán dificultades con la preparación para el jardín de infantes [8], y tendrán dificultades para aprender a leer [9], este último debido en parte a sus efectos en habilidades lingüísticas de nivel superior[10]. El trastorno del lenguaje en la primera infancia también está vinculado a un mayor riesgo de preocupaciones psiquiátricas, dificultades de atención, problemas socio-conductuales y discapacidades de aprendizaje en la adolescencia [11][12]. Dada la incidencia relativamente alta de esta discapacidad infantil y sus efectos significativos en numerosas áreas de desarrollo, existe un gran interés en garantizar una identificación precisa y una intervención temprana para los niños afectados en edad temprana [13].

En la literatura se destaca la importancia de detectar trastornos específicos del lenguaje en edades tempranas, basándose en asociaciones de los pacientes con déficits en diversos aspectos del lenguaje [13]. Así mismo, se destaca la importancia de distinguir SLI de otros trastornos, como el autismo, para mejorar la precisión diagnóstica [14]. Múltiples enfoques se han desarrollado utilizando diversas herramientas de ML para la clasificación de SLI en niños. Mac Farlane et al. [15] utiliza un esquema de redes neuronales para clasificar niños a través de índices de desempeño de 10101010 indicadores de confección personal, estos demostraron que es posible clasificar niños bilingües en los lenguajes de español e inglés. En el trabajo de Sharma et al. [4], se propuso un modelo que aprovecha datos directos de las transcripciones sin ningún procesamiento, utilizando redes neuronales convolucionales y aprendizaje profundo para segregar los pacientes entre SLI y desarrollo típico (TD). Kaushik et al. [16] aplica un método de detección de SLI denominado SLINet, donde a partir de una red neuronal convolucional 2D obtuvieron en 98989898 sujetos (54545454 SLI y 44444444 controles), una precisión del 99.09%percent99.0999.09\%99.09 % utilizando validación cruzada de diez pliegues. Por otra parte, Gray et al. [17] presentó un enfoque para la detección de SLI en niños donde utilizaron la fiabilidad de prueba/reprueba y el parámetro de precisión diagnóstica para evaluar el diagnóstico de SLI. Para este propósito, se realizó una evaluación en repetición de no-palabras, serie de dígitos, batería de evaluación Kaufman para Niños y el test de lenguaje expresivo fotográfico estructurado, los autores informaron una especificidad y sensibilidad del 100%percent100100\%100 % y 95%percent9595\%95 %, respectivamente con 44444444 niños en edad preescolar (22222222 SLI, 22222222 TD). Armon-Lotem y Meir [18] propusieron un método para la identificación de SLI en niños bilingües (hebreo, ruso), su estudio utilizó pruebas de repetición de dígitos, no-palabras y oraciones, logrando tasas de precisión, sensibilidad y especificidad del 94%percent9494\%94 %, 80%percent8080\%80 % y 97%percent9797\%97 %, respectivamente, para ambos idiomas en 230230230230 niños mono y bilingües (175175175175 TD, 55555555 SLI). Slogrove y Haar [19] aplicaron coeficientes cepstrales de frecuencia Mel de señales de voz para la detección de SLI. Alcanzaron una tasa de precisión del 99%percent9999\%99 %utilizando un clasificador Random Forest de forma aleatoria. Reddy et al. [20] utilizaron características de la fuente glotal, coeficientes cepstrales de frecuencia Mel y una red neuronal feed-forward para la detección de SLI en niños. Su estudio utilizó señales de habla de 54545454 pacientes con SLI y 44444444 niños con TD. Informaron una precisión del 98.82%percent98.8298.82\%98.82 % con selección de características. Oliva et al. [21] propusieron un método de detección de SLI utilizando técnicas de aprendizaje automático. En su estudio, se utilizaron datos cómo la longitud media de las emisiones, oraciones no gramaticales, uso correcto de: artículos, verbos, clíticos, argumentos temáticos y proporción de estructuras ditransitivas, entre otras, de 24 niños con SLI y 24 niños con TD, informaron tasas de sensibilidad y especificidad del 97%percent9797\%97 % y 100%percent100100\%100 %, respectivamente. SLI actualmente es un campo de estudio de interés en la comunidad científica, como se ha expuesto en el estado-del-arte. La literatura resalta la importancia de la detección temprana de trastornos específicos del lenguaje, como el SLI, y la necesidad de distinguirlo de otros trastornos para un diagnóstico preciso. Varios estudios han explorado enfoques de aprendizaje automático, como redes neuronales y análisis de características de voz, con resultados prometedores en la clasificación de SLI versus desarrollo típico. Además, la detección de SLI es de sumo interés en la automatización del proceso mediante técnicas de Procesamiento Natural del Lenguaje (NLP) y Maschinelles Lernen (ML) y en especial, en el diseño de instrumentos de medición que se basen en aspectos cuantitativos del diagnóstico del paciente [4]. Precisamente, este estudio se centra en niños diagnosticados con SLI y busca identificar marcadores lingüísticos que permitan una detección temprana y eficiente de este trastorno.

La presente investigación tiene como objetivo desarrollar un pipeline en cascada usando clásicas técnicas de ML, para detectar el trastorno SLI en niños a partir de transcripciones de narrativas espontáneas. Para ello, proponemos usar los métodos de Random Forest (RF) y correlación en conjunto, cómo selectores de características y así obtener una reducción de dimensionalidad de los datos. Luego con estos datos, se usa el modelo de regresión logística, con el objetivo de obtener solamente las variables más predictivas, para finalmente, usar un clasificador de vecinos más cercano para detectar SLI.

El artículo está organizado de la siguiente manera. La Sección 2 presenta la metodología propuesta, donde se introduce el esquema del pipeline, se explican conceptos clave como reducción de dimensionalidad, los modelos aplicados en el mismo y las métricas utilizadas para evaluar los resultados. Luego en la Sección 3, se detallan los resultados obtenidos en las distintas etapas del proceso. Se presentan los análisis y las interpretaciones correspondientes a cada paso del método propuesto, incluyendo la evaluación de la eficacia de las técnicas empleadas. Además, se discuten los hallazgos significativos y se comparan con resultados previos en la literatura, con el objetivo de validar y contextualizar los nuevos resultados obtenidos. Finalmente, en la Sección 4 se extraen conclusiones, se realizan comparaciones, se plantean limitaciones, fortalezas y se discute sobre trabajos futuros.

2 Metodología

El pipeline en cascada propuesto, se compone de tres etapas, ver Figura 1. En la primera etapa (letras de color azul), se hace una extracción de características y una reducción de dimensionalidad de los datos usando los métodos de Random Forest (RF) y correlación en conjunto, logrando reducir de 43434343 a 11111111 variables. En la segunda etapa (letras de color rojo), se busca hallar las variables más predictivas usando regresión logística, obteniéndose 6666 variables finales. Estas variables son usadas en la última etapa (color negro), para detectar el trastorno SLI en niños a partir de transcripciones de narrativas espontáneas usando k-NN. A continuación se introducen los métodos del pipeline propuesto, siguiendo la siguiente nomenclatura:

Sea X𝑋Xitalic_X la matriz que contiene los datos de tamaño N×V𝑁𝑉N\times Vitalic_N × italic_V, donde N𝑁Nitalic_N es cantidad de observaciones y V𝑉Vitalic_V la cantidad de variables. Note que x𝑥xitalic_x corresponde a una observación de una variables específica. Recordar que el objetivo final, es la detección del trastorno específico del lenguaje (SLI) partir de transcripciones de narrativas espontáneas, este objetivo se enmarca en un problema de clasificación binaria, por ende es necesario considerar dos clases C=0𝐶0C=0italic_C = 0 para un desarrollo típico normal y C=1𝐶1C=1italic_C = 1 para SLI.

2.1 Lenguaje de programación

La implementación de los siguientes métodos fueron realizados usando el lenguaje de programación RStudio 2023.09.1+494, Desert Sunflower Release, el cual está desarrollado para computación estadística y visualización de datos.

2.2 Base de Datos

La base de datos consiste en transcripciones de audio públicas de tres estudios diferentes, llamados: Conti-Ramsden 4444, ENNI y GILLUM. Se puede accesar libremente en [22].

El conjunto de datos Conti-Ramsden 4444 se recopiló para un estudio que evaluó la efectividad de las pruebas narrativas en adolescentes. Consiste en 99 muestras de desarrollo típico (TD) y 19 muestras de trastorno específico del lenguaje (SLI) de niños entre las edades de 13131313 y 16161616. Este contiene transcripciones de una tarea de narración basada en el libro de imágenes sin palabras. El conjunto de datos ENNI consta de 300300300300 muestras de desarrollo típico (TD) y 77777777 muestras de trastorno específico del lenguaje (SLI) de niños entre 4444 y 9999 años. A cada niño se le presentaron dos historias de imágenes sin palabras, una más complicada que la otra. El conjunto de datos de Gillam se basa en otra herramienta para la evaluación narrativa conocida como Test de Lenguaje Narrativo (TNL). Consiste en 250250250250 niños con trastornos del lenguaje (SLI) y 520520520520 TD de entre 5555 y 12121212 años.

Ingesta (62 variables)Datos: 43 variablesRandom Forest & CorrelaciónSi Gini >6absent6>6> 6 & Correlación >|0.1|absent0.1>|0.1|> | 0.1 |Datos: 11111111 característicasSi p-value >0.05absent0.05>0.05> 0.05Regresión Logística (RL) K-NN Detección SLI Limpieza inicialPrimer seleccióncriterios selecciónselección de característicasCriterio selecciónSe descartan6 características finalesMaximizarCorrer RLEvaluar p
Figure 1: Pipeline que ilustra la metodología propuesta.

Las bases de datos combinadas contiene 1163116311631163 observaciones y 62626262 variables. Dentro de estas variables se encuentra el diagnóstico correspondiente a cada niño, si este tiene un desarrollo típico o muestra SLI, esta variable corresponde a la variable objetivo. A modo de simplificación se decidió retirar aquellas variables que no fueron una métrica numérica medible, cómo puede ser un conteo de palabras o sílabas. De esta manera se cuentan con variables que registran el desempeño de un niño descomponiendo su narrativa en la calidad de sus enunciados, oraciones y palabras. Algunos ejemplos son la cantidad de palabras de relleno por oración, la cantidad de errores por palabra, el promedio de verbos en pasado sobre los verbos en infinitivo, el promedio de palabras,verbos o adjetivos por oración, entre otros. El objeto de estas observaciones consiste en evaluar la complejidad narrativa y en ella, poder predecir un desarrollo atípico en la misma. Escapa el objeto de la presente investigación indagar en profundidad sobre los patrones del lenguaje en niños y sus variantes; no obstante, se invita al lector a explorar los siguientes autores en la materia de análisis de narrativas y extracción de características [23, 24].

2.3 Extracción de características

Se entiende por Extracción o selección de características a la práctica de reducir a un conjunto de características con el objeto de mejorar una inducción [25]. Estos métodos se utilizan para obtener el subconjunto de características más relevantes del conjunto principal, dicho subconjunto será aquel que maximice una función criterio determinada [26]. En esta etapa se consideró la relación entre la habilidad narrativa y el lenguaje. Específicamente se considera como un método válido la medición de la competencia comunicativa de un individuo [27]. Para lograr esto, solo se consideraron las variables cuantitativas relacionadas con la narrativa de los niños, dejando fuera aquellas que no representan un dato concreto y medible. Esta selección fue hecha manualmente obteniéndose 43434343 variables iniciales. El siguiente paso fue aplicar un esquema para determinar la importancia de estas variables junto con su capacidad de predicción de la variable objetivo, dada por la variable grupo (ver Sección 2.2). Para dicho fin se usaron los métodos de Random Forest y Correlación.

Random Forest (RF): Es un modelo utilizado como un método de clasificación y regresión de propósito general. El enfoque, que combina varios árboles de decisión aleatorizados y agrega sus predicciones promediando, es lo suficientemente versátil como para ser aplicado a problemas a gran escala, se adapta fácilmente a diversas tareas de aprendizaje ad-hoc y proporciona medidas de importancia de variables [28]. Como clasificador binario, se centra en una votación mayoritaria entre los árboles de clasificación [29]. Esto significa que para una observación x𝑥xitalic_x, se predice Y=1𝑌1Y=1italic_Y = 1 si más de la mitad de los árboles individuales predicen Y=1𝑌1Y=1italic_Y = 1, y Y=0𝑌0Y=0italic_Y = 0 en caso contrario. Esto se puede expresar de la siguiente manera:

mM,n(x;θ1,,θM,\displaystyle m_{M},n(x;\theta_{1},\cdots,\theta_{M},italic_m start_POSTSUBSCRIPT italic_M end_POSTSUBSCRIPT , italic_n ( italic_x ; italic_θ start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , ⋯ , italic_θ start_POSTSUBSCRIPT italic_M end_POSTSUBSCRIPT , Dn)={1si 1Mj=1Mmn(x;θj,Dn)>120en otro caso\displaystyle D_{n})=\begin{cases}1&\text{si }\frac{1}{M}\sum_{j=1}^{M}m_{n}(x% ;\theta_{j},D_{n})>\frac{1}{2}\\ 0&\text{en otro caso}\end{cases}italic_D start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT ) = { start_ROW start_CELL 1 end_CELL start_CELL si divide start_ARG 1 end_ARG start_ARG italic_M end_ARG ∑ start_POSTSUBSCRIPT italic_j = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_M end_POSTSUPERSCRIPT italic_m start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT ( italic_x ; italic_θ start_POSTSUBSCRIPT italic_j end_POSTSUBSCRIPT , italic_D start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT ) > divide start_ARG 1 end_ARG start_ARG 2 end_ARG end_CELL end_ROW start_ROW start_CELL 0 end_CELL start_CELL en otro caso end_CELL end_ROW (1)

La función (1) calcula el voto mayoritario de M𝑀Mitalic_M modelos, cada uno con sus parámetros θ1,,θMsubscript𝜃1subscript𝜃𝑀\theta_{1},\cdots,\theta_{M}italic_θ start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , ⋯ , italic_θ start_POSTSUBSCRIPT italic_M end_POSTSUBSCRIPT, entrenados con el conjunto de datos Dnsubscript𝐷𝑛D_{n}italic_D start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT. La sumatoria calcula la media de las predicciones de cada modelo mn(x;θj,Dn)subscript𝑚𝑛𝑥subscript𝜃𝑗subscript𝐷𝑛m_{n}(x;\theta_{j},D_{n})italic_m start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT ( italic_x ; italic_θ start_POSTSUBSCRIPT italic_j end_POSTSUBSCRIPT , italic_D start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT ) para la entrada x𝑥xitalic_x sobre el conjunto de modelos M𝑀Mitalic_M. La función de decisión determina la clase final asignada a la instancia x𝑥xitalic_x, basada en si la media de las predicciones supera o no, el valor de 0.50.50.50.5 [30]. El número de árboles M𝑀Mitalic_M puede elegirse arbitrariamente grande, entonces, desde un punto de vista de modelado, en (1) M𝑀Mitalic_M puede tender a \infty, por lo tanto:

m,n(x;Dn)=Eθ[mn(x;θ,Dn)].subscript𝑚𝑛𝑥subscript𝐷𝑛subscript𝐸𝜃delimited-[]subscript𝑚𝑛𝑥𝜃subscript𝐷𝑛\displaystyle m_{\infty,n}(x;D_{n})=E_{\theta}[m_{n}(x;\theta,D_{n})].italic_m start_POSTSUBSCRIPT ∞ , italic_n end_POSTSUBSCRIPT ( italic_x ; italic_D start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT ) = italic_E start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT [ italic_m start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT ( italic_x ; italic_θ , italic_D start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT ) ] . (2)

En esta definición, Eθsubscript𝐸𝜃E_{\theta}italic_E start_POSTSUBSCRIPT italic_θ end_POSTSUBSCRIPT denota la esperanza con respecto al parámetro aleatorio θ𝜃\thetaitalic_θ, condicionado a Dnsubscript𝐷𝑛D_{n}italic_D start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT, entonces (2), se puede expresar como:

limMmM,n(x;θ1,,θM,Dn)=m,n(x;Dn)subscript𝑀subscript𝑚𝑀𝑛𝑥subscript𝜃1subscript𝜃𝑀subscript𝐷𝑛subscript𝑚𝑛𝑥subscript𝐷𝑛\displaystyle\lim_{M\rightarrow\infty}m_{M,n}(x;\theta_{1},\ldots,\theta_{M},D% _{n})=m_{\infty,n}(x;D_{n})roman_lim start_POSTSUBSCRIPT italic_M → ∞ end_POSTSUBSCRIPT italic_m start_POSTSUBSCRIPT italic_M , italic_n end_POSTSUBSCRIPT ( italic_x ; italic_θ start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , … , italic_θ start_POSTSUBSCRIPT italic_M end_POSTSUBSCRIPT , italic_D start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT ) = italic_m start_POSTSUBSCRIPT ∞ , italic_n end_POSTSUBSCRIPT ( italic_x ; italic_D start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT ) (3)

Luego se usa el criterio de árboles de clasificación y regresión (CART, por sus siglas en inglés Classification and Regression Trees) para realizar el ajuste binario. Básicamente, se define como una función de la impureza de Gini en cada nodo del árbol de decisión. Matemáticamente esta impureza se puede escribir como:

Gini=1i=1n(pi)2𝐺𝑖𝑛𝑖1superscriptsubscript𝑖1𝑛superscriptsubscript𝑝𝑖2\displaystyle Gini=1-\sum_{i=1}^{n}(p_{i})^{{2}}italic_G italic_i italic_n italic_i = 1 - ∑ start_POSTSUBSCRIPT italic_i = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_n end_POSTSUPERSCRIPT ( italic_p start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT ) start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT (4)

donde pisubscript𝑝𝑖p_{i}italic_p start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT es la probabilidad de que un objeto sea clasificado en una clase particular. Esta medida tiene en cuenta la proporción de clases en cada nodo y se utiliza para determinar la mejor manera de dividir el conjunto de datos en subconjuntos más puros. Se puede expresar como:

Lclass,n(j,z)subscript𝐿class𝑛𝑗𝑧\displaystyle L_{\text{class},n}(j,z)italic_L start_POSTSUBSCRIPT class , italic_n end_POSTSUBSCRIPT ( italic_j , italic_z ) =p0,n(A)p1,n(A)Nn(AL)Nn(A)p0,n(AL)p1,n(AL)absentsubscript𝑝0𝑛𝐴subscript𝑝1𝑛𝐴subscript𝑁𝑛𝐴𝐿subscript𝑁𝑛𝐴subscript𝑝0𝑛𝐴𝐿subscript𝑝1𝑛𝐴𝐿\displaystyle=p_{0,n}(A)p_{1,n}(A)-\frac{N_{n}(AL)}{N_{n}(A)}p_{0,n}(AL)p_{1,n% }(AL)= italic_p start_POSTSUBSCRIPT 0 , italic_n end_POSTSUBSCRIPT ( italic_A ) italic_p start_POSTSUBSCRIPT 1 , italic_n end_POSTSUBSCRIPT ( italic_A ) - divide start_ARG italic_N start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT ( italic_A italic_L ) end_ARG start_ARG italic_N start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT ( italic_A ) end_ARG italic_p start_POSTSUBSCRIPT 0 , italic_n end_POSTSUBSCRIPT ( italic_A italic_L ) italic_p start_POSTSUBSCRIPT 1 , italic_n end_POSTSUBSCRIPT ( italic_A italic_L )
Nn(AR)Nn(A)p0,n(AR)p1,n(AR)subscript𝑁𝑛𝐴𝑅subscript𝑁𝑛𝐴subscript𝑝0𝑛𝐴𝑅subscript𝑝1𝑛𝐴𝑅\displaystyle-\frac{N_{n}(AR)}{N_{n}(A)}p_{0,n}(AR)p_{1,n}(AR)- divide start_ARG italic_N start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT ( italic_A italic_R ) end_ARG start_ARG italic_N start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT ( italic_A ) end_ARG italic_p start_POSTSUBSCRIPT 0 , italic_n end_POSTSUBSCRIPT ( italic_A italic_R ) italic_p start_POSTSUBSCRIPT 1 , italic_n end_POSTSUBSCRIPT ( italic_A italic_R ) (5)

En (2.3), el nodo n𝑛nitalic_n consiste en un árbol de decisión, al considerar una división j𝑗jitalic_j con el umbral z𝑧zitalic_z. En ella:

  • p0,n(A)subscript𝑝0𝑛𝐴p_{0,n}(A)italic_p start_POSTSUBSCRIPT 0 , italic_n end_POSTSUBSCRIPT ( italic_A ) y p1,n(A)subscript𝑝1𝑛𝐴p_{1,n}(A)italic_p start_POSTSUBSCRIPT 1 , italic_n end_POSTSUBSCRIPT ( italic_A ) denotan las proporciones de las clases 00 y 1111 respectivamente en el nodo n𝑛nitalic_n.

  • Nn(AL)subscript𝑁𝑛𝐴𝐿N_{n}(AL)italic_N start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT ( italic_A italic_L ) y Nn(AR)subscript𝑁𝑛𝐴𝑅N_{n}(AR)italic_N start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT ( italic_A italic_R ) representan el número de instancias en las ramas izquierda (AL𝐴𝐿ALitalic_A italic_L) y derecha (AR𝐴𝑅ARitalic_A italic_R) del nodo n𝑛nitalic_n, después de aplicar la división j𝑗jitalic_j con el umbral z𝑧zitalic_z.

  • p0,n(AL)subscript𝑝0𝑛𝐴𝐿p_{0,n}(AL)italic_p start_POSTSUBSCRIPT 0 , italic_n end_POSTSUBSCRIPT ( italic_A italic_L ) y p1,n(AL)subscript𝑝1𝑛𝐴𝐿p_{1,n}(AL)italic_p start_POSTSUBSCRIPT 1 , italic_n end_POSTSUBSCRIPT ( italic_A italic_L ), indican las proporciones de las clases 00 y 1111 en la rama izquierda del nodo n𝑛nitalic_n después de la división.

  • p0,n(AR)subscript𝑝0𝑛𝐴𝑅p_{0,n}(AR)italic_p start_POSTSUBSCRIPT 0 , italic_n end_POSTSUBSCRIPT ( italic_A italic_R ) y p1,n(AR)subscript𝑝1𝑛𝐴𝑅p_{1,n}(AR)italic_p start_POSTSUBSCRIPT 1 , italic_n end_POSTSUBSCRIPT ( italic_A italic_R ) representan las proporciones de las clases 00 y 1111 en la rama derecha del nodo n𝑛nitalic_n después de la división.

La ecuación (2.3) se emplea para calcular la ganancia de información o la reducción de la impureza al dividir un nodo en dos ramas [28].

Coeficiente de correlación de Spearman (rssubscript𝑟𝑠r_{s}italic_r start_POSTSUBSCRIPT italic_s end_POSTSUBSCRIPT): Evalúa la relación monotónica entre dos variables, indicando cómo una variable cambia consistentemente cuando la otra aumenta o disminuye. rssubscript𝑟𝑠r_{s}italic_r start_POSTSUBSCRIPT italic_s end_POSTSUBSCRIPT está basado en el coeficiente de correlación de Spearman (disubscript𝑑𝑖d_{i}italic_d start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT), el cual denota la diferencia entre los rangos de las observaciones xisubscript𝑥𝑖x_{i}italic_x start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT e yisubscript𝑦𝑖y_{i}italic_y start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT, donde n𝑛nitalic_n es el número de observaciones. Los rangos de las observaciones, rg(xi)rgsubscript𝑥𝑖\text{rg}(x_{i})rg ( italic_x start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT ) y rg(yi)rgsubscript𝑦𝑖\text{rg}(y_{i})rg ( italic_y start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT ), son asignados a las variables xisubscript𝑥𝑖x_{i}italic_x start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT e yisubscript𝑦𝑖y_{i}italic_y start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT respectivamente.

rssubscript𝑟𝑠\displaystyle r_{s}italic_r start_POSTSUBSCRIPT italic_s end_POSTSUBSCRIPT =16i=1ndi2n(n21)absent16superscriptsubscript𝑖1𝑛superscriptsubscript𝑑𝑖2𝑛superscript𝑛21\displaystyle=1-\frac{6\sum_{i=1}^{n}d_{i}^{2}}{n(n^{2}-1)}= 1 - divide start_ARG 6 ∑ start_POSTSUBSCRIPT italic_i = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_n end_POSTSUPERSCRIPT italic_d start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT end_ARG start_ARG italic_n ( italic_n start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT - 1 ) end_ARG (6)

Este coeficiente proporciona un valor en el rango de 11-1- 1 a 1111, donde 11-1- 1 indica una correlación negativa perfecta, 00 indica ausencia de correlación, y 1111 indica una correlación positiva perfecta. El coeficiente de Spearman es útil dado que no asume una relación lineal entre las variables [31].

Regresión logística: Es un modelo de clasificación utilizado para predecir la probabilidad de que una variable categórica dependiente tenga un valor específico en función de una o más variables independientes [32]. La primera expresión, la función sigmoide, comúnmente utilizada en la regresión logística. Toma cualquier valor de entrada x𝑥xitalic_x y lo transforma en un valor entre 00 y 1111. Esto es útil para modelar probabilidades, ya que puede interpretarse como la probabilidad de que ocurra un evento binario dado un conjunto de características. Esta ocurrencia se entiende como P(y=k|x)𝑃𝑦conditional𝑘𝑥P(y=k|x)italic_P ( italic_y = italic_k | italic_x ), la probabilidad de que la observación pertenezca a la clase k𝑘kitalic_k dada la entrada x𝑥xitalic_x.

f(x)=11+exyP(y=k|𝐱)=e𝐱T𝐰kj=1Ke𝐱T𝐰jformulae-sequence𝑓𝑥11superscript𝑒𝑥y𝑃𝑦conditional𝑘𝐱superscript𝑒superscript𝐱𝑇subscript𝐰𝑘superscriptsubscript𝑗1𝐾superscript𝑒superscript𝐱𝑇subscript𝐰𝑗\displaystyle f(x)=\frac{1}{1+e^{-x}}\quad\text{y}\quad P(y=k|\mathbf{x})=% \frac{e^{\mathbf{x}^{T}\mathbf{w}_{k}}}{\sum_{j=1}^{K}e^{\mathbf{x}^{T}\mathbf% {w}_{j}}}italic_f ( italic_x ) = divide start_ARG 1 end_ARG start_ARG 1 + italic_e start_POSTSUPERSCRIPT - italic_x end_POSTSUPERSCRIPT end_ARG y italic_P ( italic_y = italic_k | bold_x ) = divide start_ARG italic_e start_POSTSUPERSCRIPT bold_x start_POSTSUPERSCRIPT italic_T end_POSTSUPERSCRIPT bold_w start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPT end_POSTSUPERSCRIPT end_ARG start_ARG ∑ start_POSTSUBSCRIPT italic_j = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_K end_POSTSUPERSCRIPT italic_e start_POSTSUPERSCRIPT bold_x start_POSTSUPERSCRIPT italic_T end_POSTSUPERSCRIPT bold_w start_POSTSUBSCRIPT italic_j end_POSTSUBSCRIPT end_POSTSUPERSCRIPT end_ARG (7)

Donde P(y=k|x)𝑃𝑦conditional𝑘𝑥P(y=k|x)italic_P ( italic_y = italic_k | italic_x ) es la probabilidad de que la variable de respuesta y𝑦yitalic_y tome el valor k𝑘kitalic_k dado el vector de características x𝑥xitalic_x, 𝐰ksubscript𝐰𝑘\mathbf{w}_{k}bold_w start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPT son los parámetros asociados con la clase k𝑘kitalic_k, 𝐱Tsuperscript𝐱𝑇\mathbf{x}^{T}bold_x start_POSTSUPERSCRIPT italic_T end_POSTSUPERSCRIPT representa la transposición del vector de características, y j=1Ksuperscriptsubscript𝑗1𝐾\sum_{j=1}^{K}∑ start_POSTSUBSCRIPT italic_j = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_K end_POSTSUPERSCRIPT denota la suma sobre todas las clases K𝐾Kitalic_K. En la sumatoria, j𝑗jitalic_j representa cada una de las K𝐾Kitalic_K clases distintas en el problema de clasificación. La función softmax garantiza que la suma de todas las probabilidades sea igual a 1, lo que la hace adecuada para problemas de clasificación multiclase [33, 34].

p𝑝pitalic_p-value o valor p𝑝pitalic_p: Es una medida estadística que indica la probabilidad de obtener resultados igualmente extremos o más extremos que los observados, bajo la suposición de que la hipótesis nula es verdadera. En el contexto de la regresión logística, el p-value se utiliza para evaluar la significancia estadística de cada coeficiente estimado en el modelo.

p-value=2×(1pnorm(|coeficiente|error estándar))p-value21pnormcoeficienteerror estándar\displaystyle\text{{$p$-value}}=2\times\left(1-\text{pnorm}\left(\frac{|\text{% coeficiente}|}{\text{error est\'{a}ndar}}\right)\right)italic_p italic_-value = 2 × ( 1 - pnorm ( divide start_ARG | coeficiente | end_ARG start_ARG error estándar end_ARG ) ) (8)

Donde pnorm es la función de distribución acumulativa normal estándar, coeficiente es el valor estimado del coeficiente del predictor en el modelo de regresión logística y error estándar es el error estándar asociado al coeficiente estimado [35].

Mediana (x~0.5subscript~𝑥0.5\tilde{x}_{0.5}over~ start_ARG italic_x end_ARG start_POSTSUBSCRIPT 0.5 end_POSTSUBSCRIPT): Es el valor que divide las observaciones en dos partes iguales de manera que al menos el 50%percent5050\%50 % de los valores sean mayores o iguales a la mediana y al menos el 50%percent5050\%50 % de los valores sean menores o iguales a la mediana. Se denota como x~0.5subscript~𝑥0.5\tilde{x}_{0.5}over~ start_ARG italic_x end_ARG start_POSTSUBSCRIPT 0.5 end_POSTSUBSCRIPT; luego, en términos de la función de distribución acumulada empírica, se cumple la condición F(x~0.5)=0.5𝐹subscript~𝑥0.50.5F(\tilde{x}_{0.5})=0.5italic_F ( over~ start_ARG italic_x end_ARG start_POSTSUBSCRIPT 0.5 end_POSTSUBSCRIPT ) = 0.5. Sean las n𝑛nitalic_n observaciones x1,x2,,xnsubscript𝑥1subscript𝑥2subscript𝑥𝑛x_{1},x_{2},\ldots,x_{n}italic_x start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , italic_x start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT , … , italic_x start_POSTSUBSCRIPT italic_n end_POSTSUBSCRIPT que pueden ser ordenadas como x(1)x(2)x(n)𝑥1𝑥2𝑥𝑛x(1)\leq x(2)\leq\ldots\leq x(n)italic_x ( 1 ) ≤ italic_x ( 2 ) ≤ … ≤ italic_x ( italic_n ). El cálculo de la mediana depende de si el número de observaciones n𝑛nitalic_n es impar o par. Cuando n𝑛nitalic_n es impar, entonces x~0.5subscript~𝑥0.5\tilde{x}_{0.5}over~ start_ARG italic_x end_ARG start_POSTSUBSCRIPT 0.5 end_POSTSUBSCRIPT es el valor medio ordenado. Cuando n𝑛nitalic_n es par, entonces x~0.5subscript~𝑥0.5\tilde{x}_{0.5}over~ start_ARG italic_x end_ARG start_POSTSUBSCRIPT 0.5 end_POSTSUBSCRIPTes la media aritmética de los dos valores medios ordenados [36].

x~0.5={x(n+12)si n es impar12(x(n2)+x(n2+1))si n es parsubscript~𝑥0.5cases𝑥𝑛12si 𝑛 es impar12𝑥𝑛2𝑥𝑛21si 𝑛 es par\displaystyle\tilde{x}_{0.5}=\begin{cases}x\left(\frac{n+1}{2}\right)&\text{si% }n\text{ es impar}\\ \frac{1}{2}\left(x\left(\frac{n}{2}\right)+x\left(\frac{n}{2}+1\right)\right)&% \text{si }n\text{ es par}\\ \end{cases}over~ start_ARG italic_x end_ARG start_POSTSUBSCRIPT 0.5 end_POSTSUBSCRIPT = { start_ROW start_CELL italic_x ( divide start_ARG italic_n + 1 end_ARG start_ARG 2 end_ARG ) end_CELL start_CELL si italic_n es impar end_CELL end_ROW start_ROW start_CELL divide start_ARG 1 end_ARG start_ARG 2 end_ARG ( italic_x ( divide start_ARG italic_n end_ARG start_ARG 2 end_ARG ) + italic_x ( divide start_ARG italic_n end_ARG start_ARG 2 end_ARG + 1 ) ) end_CELL start_CELL si italic_n es par end_CELL end_ROW (9)

Cuartiles: Son valores que dividen los datos en cuatro partes iguales. El primer cuartil, denotado como Q1subscript𝑄1Q_{1}italic_Q start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT, es el valor que deja el 25%percent2525\%25 % de los datos a su izquierda. El segundo cuartil es la mediana x~0.5subscript~𝑥0.5\tilde{x}_{0.5}over~ start_ARG italic_x end_ARG start_POSTSUBSCRIPT 0.5 end_POSTSUBSCRIPT. El tercer cuartil, denotado como Q3subscript𝑄3Q_{3}italic_Q start_POSTSUBSCRIPT 3 end_POSTSUBSCRIPT, es el valor que deja el 75%percent7575\%75 % de los datos a su izquierda. Para calcular el p𝑝pitalic_p-ésimo cuartil, denotado como Qpsubscript𝑄𝑝Q_{p}italic_Q start_POSTSUBSCRIPT italic_p end_POSTSUBSCRIPT, en una muestra ordenada de n𝑛nitalic_n observaciones es:

Qp=x(np100)subscript𝑄𝑝𝑥𝑛𝑝100\displaystyle Q_{p}=x\left(\frac{np}{100}\right)italic_Q start_POSTSUBSCRIPT italic_p end_POSTSUBSCRIPT = italic_x ( divide start_ARG italic_n italic_p end_ARG start_ARG 100 end_ARG ) (10)

2.4 k-vecinos más cercanos (k-NN)

K𝐾Kitalic_K-NN es un algoritmo de aprendizaje supervisado utilizado para la clasificación y regresión. En la clasificación K𝐾Kitalic_K-NN, se asigna una etiqueta de clase al punto de datos desconocido, basándose en la mayoría de las etiquetas de clase de los k𝑘kitalic_k puntos de datos más cercanos en el conjunto de entrenamiento [25, 37]. Usando el vector de características ΘCtsubscriptΘ𝐶𝑡\Theta_{Ct}roman_Θ start_POSTSUBSCRIPT italic_C italic_t end_POSTSUBSCRIPT, consideramos una clasificación en dos posibles clases c=0𝑐0c=0italic_c = 0 (Desarrollo típico) y c=1𝑐1c=1italic_c = 1 (SLI). La probabilidad de clasificar una muestra en una de las dos clases está dada por:

ρ(ΘCt|c=0)𝜌conditionalsubscriptΘ𝐶𝑡𝑐0\displaystyle\rho(\Theta_{Ct}|c=0)italic_ρ ( roman_Θ start_POSTSUBSCRIPT italic_C italic_t end_POSTSUBSCRIPT | italic_c = 0 ) =1N0nclass 0𝒩(ΘCt|ΘnCt,σ2I)absent1subscript𝑁0subscript𝑛class 0𝒩conditionalsubscriptΘ𝐶𝑡subscriptΘ𝑛𝐶𝑡superscript𝜎2𝐼\displaystyle=\frac{1}{N_{0}}\sum_{n\in\text{class }0}\mathcal{N}(\Theta_{Ct}|% \Theta_{nCt},\sigma^{2}I)= divide start_ARG 1 end_ARG start_ARG italic_N start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT end_ARG ∑ start_POSTSUBSCRIPT italic_n ∈ class 0 end_POSTSUBSCRIPT caligraphic_N ( roman_Θ start_POSTSUBSCRIPT italic_C italic_t end_POSTSUBSCRIPT | roman_Θ start_POSTSUBSCRIPT italic_n italic_C italic_t end_POSTSUBSCRIPT , italic_σ start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT italic_I )
=1N0(2πσ2)D/2nclass 0exp((ΘCtΘnCt)22σ2)absent1subscript𝑁0superscript2𝜋superscript𝜎2𝐷2subscript𝑛class 0superscriptsubscriptΘ𝐶𝑡subscriptΘ𝑛𝐶𝑡22superscript𝜎2\displaystyle=\frac{1}{N_{0}(2\pi\sigma^{2})^{D/2}}\sum_{n\in\text{class }0}% \exp\left(-\frac{(\Theta_{Ct}-\Theta_{nCt})^{2}}{2\sigma^{2}}\right)= divide start_ARG 1 end_ARG start_ARG italic_N start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT ( 2 italic_π italic_σ start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT ) start_POSTSUPERSCRIPT italic_D / 2 end_POSTSUPERSCRIPT end_ARG ∑ start_POSTSUBSCRIPT italic_n ∈ class 0 end_POSTSUBSCRIPT roman_exp ( - divide start_ARG ( roman_Θ start_POSTSUBSCRIPT italic_C italic_t end_POSTSUBSCRIPT - roman_Θ start_POSTSUBSCRIPT italic_n italic_C italic_t end_POSTSUBSCRIPT ) start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT end_ARG start_ARG 2 italic_σ start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT end_ARG ) (11)
ρ(ΘCt|c=1)𝜌conditionalsubscriptΘ𝐶𝑡𝑐1\displaystyle\rho(\Theta_{Ct}|c=1)italic_ρ ( roman_Θ start_POSTSUBSCRIPT italic_C italic_t end_POSTSUBSCRIPT | italic_c = 1 ) =1N1nclass 1𝒩(ΘCt|ΘnCt,σ2I)absent1subscript𝑁1subscript𝑛class 1𝒩conditionalsubscriptΘ𝐶𝑡subscriptΘ𝑛𝐶𝑡superscript𝜎2𝐼\displaystyle=\frac{1}{N_{1}}\sum_{n\in\text{class }1}\mathcal{N}(\Theta_{Ct}|% \Theta_{nCt},\sigma^{2}I)= divide start_ARG 1 end_ARG start_ARG italic_N start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT end_ARG ∑ start_POSTSUBSCRIPT italic_n ∈ class 1 end_POSTSUBSCRIPT caligraphic_N ( roman_Θ start_POSTSUBSCRIPT italic_C italic_t end_POSTSUBSCRIPT | roman_Θ start_POSTSUBSCRIPT italic_n italic_C italic_t end_POSTSUBSCRIPT , italic_σ start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT italic_I )
=1N1(2πσ2)D/2nclass 1exp((ΘCtΘnCt)22σ2)absent1subscript𝑁1superscript2𝜋superscript𝜎2𝐷2subscript𝑛class 1superscriptsubscriptΘ𝐶𝑡subscriptΘ𝑛𝐶𝑡22superscript𝜎2\displaystyle=\frac{1}{N_{1}(2\pi\sigma^{2})^{D/2}}\sum_{n\in\text{class }1}% \exp\left(-\frac{(\Theta_{Ct}-\Theta_{nCt})^{2}}{2\sigma^{2}}\right)= divide start_ARG 1 end_ARG start_ARG italic_N start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT ( 2 italic_π italic_σ start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT ) start_POSTSUPERSCRIPT italic_D / 2 end_POSTSUPERSCRIPT end_ARG ∑ start_POSTSUBSCRIPT italic_n ∈ class 1 end_POSTSUBSCRIPT roman_exp ( - divide start_ARG ( roman_Θ start_POSTSUBSCRIPT italic_C italic_t end_POSTSUBSCRIPT - roman_Θ start_POSTSUBSCRIPT italic_n italic_C italic_t end_POSTSUBSCRIPT ) start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT end_ARG start_ARG 2 italic_σ start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT end_ARG ) (12)

donde D𝐷Ditalic_D es la dimensión de la muestra ΘCtsubscriptΘ𝐶𝑡\Theta_{Ct}roman_Θ start_POSTSUBSCRIPT italic_C italic_t end_POSTSUBSCRIPT, N0subscript𝑁0N_{0}italic_N start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT y N1subscript𝑁1N_{1}italic_N start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT son los números de muestras de entrenamiento de la clase 00 y clase 1111, respectivamente, y σ2superscript𝜎2\sigma^{2}italic_σ start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT es la varianza. Usando la regla de Bayes para clasificar una nueva observación ΘCtsubscriptsuperscriptΘ𝐶𝑡\Theta^{*}_{Ct}roman_Θ start_POSTSUPERSCRIPT ∗ end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_C italic_t end_POSTSUBSCRIPT, obtenemos la siguiente ecuación:

ρ(c=0|ΘCt)𝜌𝑐conditional0subscriptsuperscriptΘ𝐶𝑡\displaystyle\rho(c=0|\Theta^{*}_{Ct})italic_ρ ( italic_c = 0 | roman_Θ start_POSTSUPERSCRIPT ∗ end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_C italic_t end_POSTSUBSCRIPT ) =ρ(ΘCt|c=0)ρ(c=0)ρ(ΘCt|c=0)ρ(c=0)+ρ(ΘCt|c=1)ρ(c=1),absent𝜌conditionalsubscriptsuperscriptΘ𝐶𝑡𝑐0𝜌𝑐0𝜌conditionalsubscriptsuperscriptΘ𝐶𝑡𝑐0𝜌𝑐0𝜌conditionalsubscriptsuperscriptΘ𝐶𝑡𝑐1𝜌𝑐1\displaystyle=\frac{\rho(\Theta^{*}_{Ct}|c=0)\rho(c=0)}{\rho(\Theta^{*}_{Ct}|c% =0)\rho(c=0)+\rho(\Theta^{*}_{Ct}|c=1)\rho(c=1)},= divide start_ARG italic_ρ ( roman_Θ start_POSTSUPERSCRIPT ∗ end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_C italic_t end_POSTSUBSCRIPT | italic_c = 0 ) italic_ρ ( italic_c = 0 ) end_ARG start_ARG italic_ρ ( roman_Θ start_POSTSUPERSCRIPT ∗ end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_C italic_t end_POSTSUBSCRIPT | italic_c = 0 ) italic_ρ ( italic_c = 0 ) + italic_ρ ( roman_Θ start_POSTSUPERSCRIPT ∗ end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_C italic_t end_POSTSUBSCRIPT | italic_c = 1 ) italic_ρ ( italic_c = 1 ) end_ARG , (13)

donde la máxima verosimilitud nos da ρ(c=0)=N0/(N0+N1)𝜌𝑐0subscript𝑁0subscript𝑁0subscript𝑁1\rho(c=0)=N_{0}/(N_{0}+N_{1})italic_ρ ( italic_c = 0 ) = italic_N start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT / ( italic_N start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT + italic_N start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT ) y ρ(c=1)=N1/(N0+N1)𝜌𝑐1subscript𝑁1subscript𝑁0subscript𝑁1\rho(c=1)=N_{1}/(N_{0}+N_{1})italic_ρ ( italic_c = 1 ) = italic_N start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT / ( italic_N start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT + italic_N start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT ). Sustituyendo en la ecuación (13), obtenemos la probabilidad ρ(c=0|ΘCt)𝜌𝑐conditional0subscriptΘ𝐶𝑡\rho(c=0|\Theta_{Ct})italic_ρ ( italic_c = 0 | roman_Θ start_POSTSUBSCRIPT italic_C italic_t end_POSTSUBSCRIPT ). La expresión para ρ(c=1|ΘCt)𝜌𝑐conditional1subscriptΘ𝐶𝑡\rho(c=1|\Theta_{Ct})italic_ρ ( italic_c = 1 | roman_Θ start_POSTSUBSCRIPT italic_C italic_t end_POSTSUBSCRIPT ) se puede derivar de manera similar. Para determinar qué clase es más probable, se evalúa la proporción entre las dos expresiones:

ρ(c=0|ΘCt)ρ(c=1|ΘCt)𝜌𝑐conditional0subscriptΘ𝐶𝑡𝜌𝑐conditional1subscriptΘ𝐶𝑡\displaystyle\frac{\rho(c=0|\Theta_{Ct})}{\rho(c=1|\Theta_{Ct})}divide start_ARG italic_ρ ( italic_c = 0 | roman_Θ start_POSTSUBSCRIPT italic_C italic_t end_POSTSUBSCRIPT ) end_ARG start_ARG italic_ρ ( italic_c = 1 | roman_Θ start_POSTSUBSCRIPT italic_C italic_t end_POSTSUBSCRIPT ) end_ARG =ρ(ΘCt|c=0)ρ(c=0)ρ(ΘCt|c=1)ρ(c=1),absent𝜌conditionalsubscriptsuperscriptΘ𝐶𝑡𝑐0𝜌𝑐0𝜌conditionalsubscriptsuperscriptΘ𝐶𝑡𝑐1𝜌𝑐1\displaystyle=\frac{\rho(\Theta^{*}_{Ct}|c=0)\rho(c=0)}{\rho(\Theta^{*}_{Ct}|c% =1)\rho(c=1)},= divide start_ARG italic_ρ ( roman_Θ start_POSTSUPERSCRIPT ∗ end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_C italic_t end_POSTSUBSCRIPT | italic_c = 0 ) italic_ρ ( italic_c = 0 ) end_ARG start_ARG italic_ρ ( roman_Θ start_POSTSUPERSCRIPT ∗ end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_C italic_t end_POSTSUBSCRIPT | italic_c = 1 ) italic_ρ ( italic_c = 1 ) end_ARG , (14)

Si la proporción es mayor que uno, ΘCtsubscriptΘ𝐶𝑡\Theta_{Ct}roman_Θ start_POSTSUBSCRIPT italic_C italic_t end_POSTSUBSCRIPT se clasifica como c=0𝑐0c=0italic_c = 0, de lo contrario se clasifica como c=1𝑐1c=1italic_c = 1. Es importante señalar que en el caso donde σ2superscript𝜎2\sigma^{2}italic_σ start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT es muy pequeño en (11), entonces tanto el numerador como el denominador estarán dominados por el término para el cual la muestra Θn0CtsubscriptΘ𝑛0𝐶𝑡\Theta_{n0Ct}roman_Θ start_POSTSUBSCRIPT italic_n 0 italic_C italic_t end_POSTSUBSCRIPT en la clase-0 o Θn1CtsubscriptΘ𝑛1𝐶𝑡\Theta_{n1Ct}roman_Θ start_POSTSUBSCRIPT italic_n 1 italic_C italic_t end_POSTSUBSCRIPT en la clase-1 están más cerca del punto ΘCtsubscriptΘ𝐶𝑡\Theta_{Ct}roman_Θ start_POSTSUBSCRIPT italic_C italic_t end_POSTSUBSCRIPT, tal que:

ρ(c=0|ΘCt)ρ(c=1|ΘCt)𝜌𝑐conditional0subscriptΘ𝐶𝑡𝜌𝑐conditional1subscriptΘ𝐶𝑡\displaystyle\frac{\rho(c=0|\Theta_{Ct})}{\rho(c=1|\Theta_{Ct})}divide start_ARG italic_ρ ( italic_c = 0 | roman_Θ start_POSTSUBSCRIPT italic_C italic_t end_POSTSUBSCRIPT ) end_ARG start_ARG italic_ρ ( italic_c = 1 | roman_Θ start_POSTSUBSCRIPT italic_C italic_t end_POSTSUBSCRIPT ) end_ARG =exp((ΘCtΘn0Ct)22σ2)ρ(c=0)/N0exp((ΘCtΘn1Ct)22σ2)ρ(c=1)/N1absentsuperscriptsubscriptsuperscriptΘ𝐶𝑡subscriptΘ𝑛0𝐶𝑡22superscript𝜎2𝜌𝑐0subscript𝑁0superscriptsubscriptΘ𝐶𝑡subscriptΘ𝑛1𝐶𝑡22superscript𝜎2𝜌𝑐1subscript𝑁1\displaystyle=\frac{\exp\left(-\frac{(\Theta^{*}_{Ct}-\Theta_{n0Ct})^{2}}{2% \sigma^{2}}\right)\rho(c=0)/N_{0}}{\exp\left(-\frac{(\Theta_{Ct}-\Theta_{n1Ct}% )^{2}}{2\sigma^{2}}\right)\rho(c=1)/N_{1}}= divide start_ARG roman_exp ( - divide start_ARG ( roman_Θ start_POSTSUPERSCRIPT ∗ end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_C italic_t end_POSTSUBSCRIPT - roman_Θ start_POSTSUBSCRIPT italic_n 0 italic_C italic_t end_POSTSUBSCRIPT ) start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT end_ARG start_ARG 2 italic_σ start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT end_ARG ) italic_ρ ( italic_c = 0 ) / italic_N start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT end_ARG start_ARG roman_exp ( - divide start_ARG ( roman_Θ start_POSTSUBSCRIPT italic_C italic_t end_POSTSUBSCRIPT - roman_Θ start_POSTSUBSCRIPT italic_n 1 italic_C italic_t end_POSTSUBSCRIPT ) start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT end_ARG start_ARG 2 italic_σ start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT end_ARG ) italic_ρ ( italic_c = 1 ) / italic_N start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT end_ARG
=exp((ΘCtΘn0Ct)22σ2)exp((ΘCtΘn1Ct)22σ2).absentsuperscriptsubscriptΘ𝐶𝑡subscriptΘ𝑛0𝐶𝑡22superscript𝜎2superscriptsubscriptsuperscriptΘ𝐶𝑡subscriptΘ𝑛1𝐶𝑡22superscript𝜎2\displaystyle=\frac{\exp\left(-\frac{(\Theta_{Ct}-\Theta_{n0Ct})^{2}}{2\sigma^% {2}}\right)}{\exp\left(-\frac{(\Theta^{*}_{Ct}-\Theta_{n1Ct})^{2}}{2\sigma^{2}% }\right)}.= divide start_ARG roman_exp ( - divide start_ARG ( roman_Θ start_POSTSUBSCRIPT italic_C italic_t end_POSTSUBSCRIPT - roman_Θ start_POSTSUBSCRIPT italic_n 0 italic_C italic_t end_POSTSUBSCRIPT ) start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT end_ARG start_ARG 2 italic_σ start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT end_ARG ) end_ARG start_ARG roman_exp ( - divide start_ARG ( roman_Θ start_POSTSUPERSCRIPT ∗ end_POSTSUPERSCRIPT start_POSTSUBSCRIPT italic_C italic_t end_POSTSUBSCRIPT - roman_Θ start_POSTSUBSCRIPT italic_n 1 italic_C italic_t end_POSTSUBSCRIPT ) start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT end_ARG start_ARG 2 italic_σ start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT end_ARG ) end_ARG . (15)

En el límite σ20superscript𝜎20\sigma^{2}\rightarrow 0italic_σ start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT → 0, ΘCtsubscriptΘ𝐶𝑡\Theta_{Ct}roman_Θ start_POSTSUBSCRIPT italic_C italic_t end_POSTSUBSCRIPT se clasifica como clase 0 si ΘCtsubscriptΘ𝐶𝑡\Theta_{Ct}roman_Θ start_POSTSUBSCRIPT italic_C italic_t end_POSTSUBSCRIPT tiene un punto en los datos de clase 00 que está más cerca que el punto más cercano en los datos de clase 1111. El método del vecino más cercano se recupera así como el caso límite de un modelo generativo probabilístico. El parámetro k𝑘kitalic_k se elige basado en N1/2superscript𝑁12N^{1/2}italic_N start_POSTSUPERSCRIPT 1 / 2 end_POSTSUPERSCRIPT, donde N𝑁Nitalic_N es el número de muestras en el conjunto de datos de entrenamiento. Para un tratamiento completo de las propiedades matemáticas del clasificador de k𝑘kitalic_k-vecinos más cercanos, remitimos al lector a [38, 39].

2.5 Validación cruzada quíntuple

La validación cruzada es un método utilizado para evaluar el rendimiento predictivo de un modelo de aprendizaje automático [40]. Consiste en dividir el conjunto de datos en subconjuntos de entrenamiento y prueba repetidamente, ajustando y evaluando el modelo en cada iteración. Esta dada por:

p¯=1ki=1kpi¯𝑝1𝑘superscriptsubscript𝑖1𝑘subscript𝑝𝑖\displaystyle\bar{p}=\frac{1}{k}\sum_{i=1}^{k}p_{i}over¯ start_ARG italic_p end_ARG = divide start_ARG 1 end_ARG start_ARG italic_k end_ARG ∑ start_POSTSUBSCRIPT italic_i = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_k end_POSTSUPERSCRIPT italic_p start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT (16)

donde k𝑘kitalic_k es el número de iteraciones de la validación cruzada, p¯¯𝑝\bar{p}over¯ start_ARG italic_p end_ARG es la precisión media, pisubscript𝑝𝑖p_{i}italic_p start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT es la precisión del modelo en la i𝑖iitalic_i-ésima iteración.

2.6 Métricas de evaluación

Se refieren a medidas utilizadas para evaluar el rendimiento de los modelos de aprendizaje automático. Estas métricas permiten cuantificar la calidad de las predicciones realizadas por un modelo en función de los datos de prueba [34]. A continuación se introducen las métricas usadas en este estudio.

Precisión: Es la proporción de instancias positivas clasificadas correctamente entre todas las instancias clasificadas como positivas por el modelo. Se calcula mediante la fórmula:

Precision=TPTP+FPPrecision𝑇𝑃𝑇𝑃𝐹𝑃\displaystyle\text{Precision}=\frac{TP}{TP+FP}Precision = divide start_ARG italic_T italic_P end_ARG start_ARG italic_T italic_P + italic_F italic_P end_ARG (17)

donde TP𝑇𝑃TPitalic_T italic_P es número de verdaderos positivos y FP es número de falsos positivos. Se entiende por TP a los casos en los que el modelo clasifica correctamente una instancia como positiva cuando realmente lo es. Por otra parte, FP𝐹𝑃FPitalic_F italic_P son los casos en los que el modelo clasifica incorrectamente una instancia como positiva cuando en realidad es negativa.

Recall positivo: Sensibilidad, es la proporción de instancias positivas clasificadas correctamente entre todas las instancias que realmente son positivas. Se calcula mediante la fórmula:

Recall=TPTP+FNRecall𝑇𝑃𝑇𝑃𝐹𝑁\displaystyle\text{Recall}=\frac{TP}{TP+FN}Recall = divide start_ARG italic_T italic_P end_ARG start_ARG italic_T italic_P + italic_F italic_N end_ARG (18)

con FN𝐹𝑁FNitalic_F italic_N siendo número de falsos negativos, donde modelo clasifica incorrectamente una instancia como negativa cuando en realidad es positiva. Por otra parte, los Falso Negativo (FN) son aquellos casos donde el modelo clasifica incorrectamente una instancia como negativa cuando en realidad es positiva.

Recall negativo: Especificidad, se refiere a la proporción de instancias negativas clasificadas correctamente entre todas las instancias que realmente son negativas. Se entiende como . Se calcula mediante la fórmula:

Neg-Recall=TNTN+FPNeg-Recall𝑇𝑁𝑇𝑁𝐹𝑃\displaystyle\text{Neg-Recall}=\frac{TN}{TN+FP}Neg-Recall = divide start_ARG italic_T italic_N end_ARG start_ARG italic_T italic_N + italic_F italic_P end_ARG (19)

F1-score: Es la media armónica de precisión y recall y proporciona un equilibrio entre ambas métricas. Se calcula mediante la fórmula:

F1=2×Precision×RecallPrecision+Recall𝐹12PrecisionRecallPrecisionRecall\displaystyle F1=2\times\frac{\text{Precision}\times\text{Recall}}{\text{% Precision}+\text{Recall}}italic_F 1 = 2 × divide start_ARG Precision × Recall end_ARG start_ARG Precision + Recall end_ARG (20)

área bajo la Curva, ROC𝑅𝑂𝐶ROCitalic_R italic_O italic_C: (AUC-ROC) es una medida de la capacidad discriminatoria de un modelo de clasificación binaria. Representa la probabilidad de que el modelo clasifique correctamente una instancia positiva al azar más alta que una instancia negativa al azar.

AUC=01Sensibilidadd(Especificidad)𝐴𝑈𝐶superscriptsubscript01Sensibilidad𝑑Especificidad\displaystyle AUC=\int_{0}^{1}\text{Sensibilidad}\cdot d(\text{Especificidad})italic_A italic_U italic_C = ∫ start_POSTSUBSCRIPT 0 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT 1 end_POSTSUPERSCRIPT Sensibilidad ⋅ italic_d ( Especificidad ) (21)

La ROC𝑅𝑂𝐶ROCitalic_R italic_O italic_C, tiene una relación directa con la sensibilidad y la especificidad, estas se calculan a partir de la matriz de confusión obtenida al evaluar el modelo con datos de prueba. [41, 42]

Error de raíz cuadrática media (RMSE𝑅𝑀𝑆𝐸RMSEitalic_R italic_M italic_S italic_E): Es una medida que cuantifica la diferencia entre los valores predichos por un modelo y los valores observados. Se calcula tomando la raíz cuadrada de la media de los cuadrados de las diferencias entre los valores observados y los valores predichos por el modelo. Esta métrica se utiliza para evaluar la precisión del modelo en términos de unidades de la variable dependiente.

RMSE=1ni=1n(yiy^i)2𝑅𝑀𝑆𝐸1𝑛superscriptsubscript𝑖1𝑛superscriptsubscript𝑦𝑖subscript^𝑦𝑖2\displaystyle RMSE=\sqrt{\frac{1}{n}\sum_{i=1}^{n}(y_{i}-\hat{y}_{i})^{2}}italic_R italic_M italic_S italic_E = square-root start_ARG divide start_ARG 1 end_ARG start_ARG italic_n end_ARG ∑ start_POSTSUBSCRIPT italic_i = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_n end_POSTSUPERSCRIPT ( italic_y start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT - over^ start_ARG italic_y end_ARG start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT ) start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT end_ARG (22)

Error medio absoluto (MAE𝑀𝐴𝐸MAEitalic_M italic_A italic_E): Es una medida que calcula la magnitud promedio de los errores en las predicciones de un modelo, sin tener en cuenta su dirección. Se obtiene calculando la media de las diferencias absolutas entre los valores observados y los valores predichos por el modelo. Esta métrica proporciona una medida de la magnitud promedio de los errores de predicción [34].

MAE=1ni=1n|yiy^i|𝑀𝐴𝐸1𝑛superscriptsubscript𝑖1𝑛subscript𝑦𝑖subscript^𝑦𝑖\displaystyle MAE=\frac{1}{n}\sum_{i=1}^{n}|y_{i}-\hat{y}_{i}|italic_M italic_A italic_E = divide start_ARG 1 end_ARG start_ARG italic_n end_ARG ∑ start_POSTSUBSCRIPT italic_i = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_n end_POSTSUPERSCRIPT | italic_y start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT - over^ start_ARG italic_y end_ARG start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT | (23)

R2superscript𝑅2R^{2}italic_R start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT: Es una medida que indica la proporción de la varianza en la variable dependiente que es predecible a partir de la(s) variable(s) independiente(s) en el modelo. Se calcula como 1111 menos la proporción de la varianza residual respecto a la varianza total. Un R2superscript𝑅2R^{2}italic_R start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT más alto indica un mejor ajuste del modelo a los datos observados [34].

R2=1i=1n(yiy^i)2i=1n(yiy¯)2superscript𝑅21superscriptsubscript𝑖1𝑛superscriptsubscript𝑦𝑖subscript^𝑦𝑖2superscriptsubscript𝑖1𝑛superscriptsubscript𝑦𝑖¯𝑦2\displaystyle R^{2}=1-\frac{\sum_{i=1}^{n}(y_{i}-\hat{y}_{i})^{2}}{\sum_{i=1}^% {n}(y_{i}-\bar{y})^{2}}italic_R start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT = 1 - divide start_ARG ∑ start_POSTSUBSCRIPT italic_i = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_n end_POSTSUPERSCRIPT ( italic_y start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT - over^ start_ARG italic_y end_ARG start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT ) start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT end_ARG start_ARG ∑ start_POSTSUBSCRIPT italic_i = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_n end_POSTSUPERSCRIPT ( italic_y start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT - over¯ start_ARG italic_y end_ARG ) start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT end_ARG (24)

Donde n𝑛nitalic_n es el número de observaciones, yisubscript𝑦𝑖y_{i}italic_y start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT es el valor observado, y^isubscript^𝑦𝑖\hat{y}_{i}over^ start_ARG italic_y end_ARG start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT es el valor predicho por el modelo para la i𝑖iitalic_i-ésima observación, e y¯¯𝑦\bar{y}over¯ start_ARG italic_y end_ARG es la media de los valores observados [34].

Error OOB𝑂𝑂𝐵OOBitalic_O italic_O italic_B: Se calcula utilizando la tasa de error (clasificación) o el error cuadrático medio (regresión) de las predicciones hechas en las muestras OOB (por sus siglas en inglés Out of the Bag Error). Para un problema de clasificación binaria, la fórmula del error OOB se puede expresar como:

Error OOB=1Ni=1NI(yiy^i)Error OOB1𝑁superscriptsubscript𝑖1𝑁𝐼subscript𝑦𝑖subscript^𝑦𝑖\displaystyle\text{Error OOB}=\frac{1}{N}\sum_{i=1}^{N}I(y_{i}\neq\hat{y}_{i})Error OOB = divide start_ARG 1 end_ARG start_ARG italic_N end_ARG ∑ start_POSTSUBSCRIPT italic_i = 1 end_POSTSUBSCRIPT start_POSTSUPERSCRIPT italic_N end_POSTSUPERSCRIPT italic_I ( italic_y start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT ≠ over^ start_ARG italic_y end_ARG start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT ) (25)

Donde N𝑁Nitalic_N es el número de muestras en el conjunto de datos, yisubscript𝑦𝑖y_{i}italic_y start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT es la etiqueta verdadera de la muestra i𝑖iitalic_i, y^isubscript^𝑦𝑖\hat{y}_{i}over^ start_ARG italic_y end_ARG start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT es la predicción del modelo para la muestra i𝑖iitalic_i, I𝐼Iitalic_I es una función indicadora que devuelve 1111 si la condición dentro de los paréntesis es verdadera, y 00 en caso contrario [35].

3 Resultados y discusión

En la presente sección se discuten los resultados hallados tras aplicar el pipeline propuesto siguiendo la Figura 1 de la Metodología, Sección 2. Todo sobre las 1063106310631063 observaciones y las 43434343 variables relacionadas con las narrativas espontáneas en niños, introducidas en la Sección 2.2.

La primera etapa consiste en reducir las cantidad de datos. Entonces, como primer instancia se necesitan estimar los parámetros del método RF, dado por la ecuación (1), para así determinar, cuáles son las variables más importantes de los datos. Recordar que RF como clasificador binario, se centra en la votación mayoritaria de los árboles, por lo tanto, es necesario estimar la cantidad árboles óptimos del método. Para dicho fin, se busca el valor óptimo OOB, ver ecuación (25), entre las 43434343 variables resultantes de limpiar los datos originales. La idea es encontrar el parámetro relacionado con el número de variables aleatorias, como candidatas en cada ramificación que registre el OOB óptimo. La Figura 2 muestra como varía el error OOB con el número de árboles y muestra cómo se comporta el modelo con respecto a cada clase de predicción. Observe los valores de los árboles son bastante constantes desde el valor 50505050, para el tipo 1111 y para OOB, más sin embargo, se estabilizan en el valor 500500500500. Teniendo el valor de la cantidad de árboles M𝑀Mitalic_M, es posible entonces, estimar el método RF para las clases C=0=normal𝐶0𝑛𝑜𝑟𝑚𝑎𝑙C=0=normalitalic_C = 0 = italic_n italic_o italic_r italic_m italic_a italic_l y C=1=SLI𝐶1𝑆𝐿𝐼C=1=SLIitalic_C = 1 = italic_S italic_L italic_I usando la ecuación (3).

La meta en esta etapa,  es encontrar la selección de características de mayor importancia y así hacer una primera reducción de dimensionaliad de los datos. Esta parte involucra el método RF con el atributo importancia, junto con el método del coeficiente de correlación con la variable objetivo. Este criterio de selección se compone de dos partes.

  1. 1.

    Criterio 1: Consiste en elegir aquellas variables que cumplan tener, una importancia superior al promedio aproximado entre la mediana y el tercer cuartil, cuyos valores son 4,5454,54 , 5 y 7,8787,87 , 8 respectivamente, ver ecuaciones (9) y (10). La razón de esta decisión consiste en aprovechar no solo el mejor 25%percent2525\%25 % de los datos (por delante del tercer cuartil), si no también, aquellas variables que se encontraban entre la mediana y el punto de corte del mencionado cuartil. Este enfoque permite aportar características de valor, que de otra forma hubiesen sido descartadas. En la Figura 3(a) es posible apreciar una importante aglomeración antes del punto de corte (linea rojaerde) entre la mediana y el tercer cuartil. Donde el eje X es el atributo importancia de RF y en el eje y, la correlación con la variable objetivo. Por otra parte en la figura 3(b) se aprecia la utilidad de la propuesta planteada, en tanto se identifican aquellas variables que no poseen una importancia significativa para el random forest (eje x). De esta manera, se conservan variables de importancia sin arrastrar consigo aquellas de menor atributo de importancia, las cuales se encuentran alrededor de la mediana, por la izquierda de la linea verde.

  2. 2.

    Criterio 2: Consiste en corroborar que aquellas variables cuyo coeficiente de Gini, dado por la ecuación (4), sea mayor a 6666. este valor se obtiene al aplicar la ecuación (2.3), y que tengan una correlación no-nula con la variable objetivo, es decir, una rs>|0.1|subscript𝑟𝑠0.1r_{s}>|0.1|italic_r start_POSTSUBSCRIPT italic_s end_POSTSUBSCRIPT > | 0.1 |, ver ecuación (6). Este enfoque detectó 13131313 variables como las más importantes, más, sin embargo, al analizar las correlaciones, se observó que todas las variables contaban con correlaciones válidas distintas de cero salvo dos, identificadas como Rellenos y Edad, cuyas correlaciones eran de 0.0150.0150.0150.015 y 0.0160.0160.0160.016 respectivamente. De esta manera se separan 11111111 variables que pasan a ser las características finales. En La Figura 3(b) se puede observar la importancia del atributo RF contra la correlación de la variable objetivo. Note como se crean dos líneas de intersección que hacen que se puedan separar las variables más importantes (puntos de color negro). La línea de corte en la correlación (línea de color rojo) y el atributo importancia (línea de color verde) permiten seleccionarlas características más importantes. Finalmente, se obtienen las siguientes 11 características: Verbos sin declinar, Media de los morfemas por oración, Errores de palabras, Promedio de sílabas por palabra, Frecuencia de tipos de palabras, Uso regular del pasado, Media de las palabras por oración, Número de etiquetas y número de palabras.

La siguiente etapa del pipeline consiste en evaluar la predictibilidad de las 11111111 características seleccionadas en la etapa anterior, aplicando el modelo de regresión logística de manera consecutiva, ver ecuación (7). Este enfoque, permite ir descartando aquellas variables que no consiguieran un p𝑝pitalic_p-value menor a 0.050.050.050.05, ver ecuación (8). El experimento se repite cíclicamente, hasta ya no poder conseguir descartar más características. Recordar que la variable objetivo en este caso es la que esta etiquetada ya sea como un TD o SLI. Este proceso permitió seleccionar un conjunto final de 6666 características relevantes para el análisis. En la Tabla 1 se detallan estas características: Relación de uso de verbos sin declinar ante los declinados, Longitud media de morfemas por oración, Errores de palabras identificados en las transcripciones, Promedio de sílabas por palabra, Frecuencia de tipos de palabras respecto al número total de palabras y uso regular del pasado. Además, en la tabla se presentan los estimados, errores estándar y valores z𝑧zitalic_z asociados a cada una de estas características, que son medidas fundamentales para comprender su contribución al modelo predictivo y su significancia estadística en la clasificación de niños con trastornos específicos del lenguaje (SLI).

Finalmente, considérese dos posibles clases c=0𝑐0c=0italic_c = 0 (Desarrollo típico, TD) y c=1𝑐1c=1italic_c = 1 (trastorno específico del lenguaje, SLI) para el vector de características ΘCtsubscriptΘ𝐶𝑡\Theta_{Ct}roman_Θ start_POSTSUBSCRIPT italic_C italic_t end_POSTSUBSCRIPT dado por las 6666 características dadas por al etapa anterior. Se propone usar 14141414-NN introducido en la Sección (2.4) como clasificador para detectar SLI a partir de transcripciones de narrativas espontáneas. A modo de ilustración, en la Figura 4, se puede apreciar una tendencia de los pacientes con SLI (Azul) con respecto a los pacientes con TD (Rojo), específicamente la relación entre las características Vocales por sílabas vs Morfemas. Se puede observar como la dispersión de los grupos están bastante superpuestos, lo que hace que el modelo 14-NN sea una buena opción de clasificación. El K seleccionado surge de aplicar la raíz cuadrada al numero de observaciones que componen el conjunto de entrenamiento, el cual es el 70%percent\%% de las 1063 observaciones que forman los datos [38].

Refer to caption
Figure 2: Comportamiento del modelo con respecto a cada clase de predicción. Observe como los árboles se empiezan a estabilizar a partir del valor 16161616 aproximadamente, para el tipo 1111 (Clase 1111) y OOB𝑂𝑂𝐵OOBitalic_O italic_O italic_B, mientras que para el tipo 00 (Clase 00), se empieza a estabilizar en 200200200200 aproximadamente. Esta inspección visual permite establecer el valor de los árboles en 500500500500.
Refer to caption
(a) Boxplot
Refer to caption
(b) Gráfico de dispersión
Figure 3: Comportamiento para el atributo de importancia de RF y correlación usando (a) Boxplot y (b) Gráfico de dispersión. Se puede observar los criterios de selección en rojo y verde en ambos gráficos. Siendo el de correlación nula en rojo y de atributo importancia de Random Forest mayor a seis, en verde. Los puntos grises consisten variables descartados, en tanto los negros, características
Table 1: Resultados de aplicar regresión logística. El ciclo de Regresiones termina al encontrar un conjunto de características que cumpla la condición de p𝑝pitalic_p-value <0.05absent0.05<0.05< 0.05. Se debe lograr ya no poder descartar elementos.
Características Estimados Std. error z𝑧zitalic_z value p>|z|𝑝zp>|\text{z}|italic_p > | z |
Verbos sin declinar 1.25727 0.28994 4.336 0absent0\approx 0≈ 0
Morfemas por oración -0.84605 0.08618 -9.817 0absent0\approx 0≈ 0
Errores 0.85750 0.11493 7.461 0absent0\approx 0≈ 0
Promedio silabas -2.64640 1.10947 -2.385 0.01707
Frecuencia de tipos -2.73838 0.91128 -3.005 0.00266
Pasado regular -0.05929 0.01623 -3.652 0.00026
Refer to caption
Figure 4: Relación entre Cantidad de Morfemas por Respuesta y promedio de silabas.

Los hiperparámetros de K𝐾Kitalic_K-NN se eligieron usando validación cruzada de 5555 pliegues, ecuación (16), dentro de un rango posible de valores menor a 27272727 (El cual surge de calcular N𝑁\sqrt{N}square-root start_ARG italic_N end_ARG, donde N es igual al número de observaciones usados en el entrenamiento de modelo, el cual es de 730730730730). De esta manera, el n𝑛nitalic_n que minimiza el promedio de error de MAE, RMSE y R2superscript𝑅2R^{2}italic_R start_POSTSUPERSCRIPT 2 end_POSTSUPERSCRIPT es igual a 14141414, ver ecuaciones (23), (22) y (24). Con este valor se procede a dividir los datos con una selección aleatoria entre entrenamiento y prueba de 70%percent7070\%70 % y 30%percent3030\%30 % respectivamente.

El modelo de clasificación de vecinos cercanos, optimizado con validación cruzada quíntuple, demostró una mejora considerable en su precisión, a raíz de las selecciones de características propuestas en el pipeline. Para demostrar la potencialidad de este enfoque, considérese las 11111111 características dadas por RF y correlación, contra las 6666 características dadas por el modelo de regresión logística. Como se puede observar en las Figuras 5(a) y 5(b), se destaca la capacidad del modelo para distinguir entre clases positivas que mostró un incremento importante, en particular en el caso de las clases negativas en donde la especificidad escaló de 0.220.220.220.22 con 11111111 características a 0.950.950.950.95 con 6666 características en la identificación de niños con dificultades en el lenguaje. Lo cual sugiere que el pipeline diseñado es una buena herramienta en la detección de SLI.

Para obtener una visión integral de la eficacia del modelo, se utilizaron las métricas de precisión, F1-score, sensibilidad y especificidad. Los resultados, respaldan su utilidad clínica para la detección temprana de SLI, con suficiente evidencia estadística para afirmar que, los resultados no son casuales. Cómo pueden verse en la Tabla 2, la combinación de métodos de selección de características permitió, a través de las métricas de predicción evaluadas, determinar que el pipeline sugerido, puede ser una buena herramienta de análisis.

Refer to caption
(a) 11111111 covariables
Refer to caption
(b) 6666 covariables
Figure 5: Resultados del modelo 14141414-NN para (a) 11 y (b) 6, covariables.
Table 2: Resultados del Modelo 14141414-NN propuesto.
características Resultados
Precisión F1-score Sensibilidad Especificidad
11 82.8% 33.1% 96.4% 22%
6 97.13% 98.74% 98.71% 95.06%

Además, cabe notar, que la reducción de dimensionalidad fue bastante óptima, pues se pasaron de 43434343 variables iniciales a 6666 finales. Es interesante notar que las métricas mejoraron ostensiblemente al usar solamente las 6666 variables propuestas. una sensibilidad del 98%percent9898\%98 % y una especificidad del 93%percent9393\%93 %, indican su capacidad para identificar tanto los casos positivos como los negativos con alta precisión. Por otro lado, el F1-Score, que combina precisión y recall, alcanza un valor del 98%percent9898\%98 % y 97%percent9797\%97 % respectivamente. Estos resultados son respaldados por la matriz de confusión presentada en la Tabla 3. La matriz se compone de los resultados del modelo en las predicciones de los valores de prueba, que componen el 30%percent3030\%30 % de los datos por un total de 314 observaciones. El modelo logró predecir correctamente 238 casos positivos y 67 casos negativos. Sin embargo, se observaron 5 falsos negativos y 4 falsos positivos en las predicciones. Estos resultados sugieren una mejora sustancial en la precisión al reducir el número de variables, con un F1-score mucho más alto usando 6666 características.

Table 3: Matriz de confusión de 14141414-NN con 6666 características. Note que, las celdas representan el conteo de TP,TN,FP y FN de la matriz de confusión del modelo 14141414-NN
Positivo (Predicho) Negativo (Predicho)
Positivo (Real) 238 5
Negativo (Real) 4 67

Los resultados obtenidos sugieren que la combinación de técnicas de selección de características, como Random Forest y regresión logística, puede ser una herramienta potente para mejorar la eficacia del modelo de clasificación. La reducción del conjunto de variables a seís destacó la relevancia de características específicas, como el uso de Verbos sin declinar, la media de morfemas por oración, los errores cometidos. el promedio de silabas por palabra, la frecuencia de tipos de palabras y el uso de verbos en pasado regular. En este contexto, surge la importancia de la toma de muestras de narrativas espontáneas de niños en el ámbito de la psiquiatría infantil. Para ello cobran suma importancia que existan metodologías que utilicen variables cuantitativas directamente relacionadas con el desempeño del niño, como pueden ser, el número de morfemas o el promedio de vocales por palabra. Este tipo de técnicas estandarizadas podrían motivar la toma de muestras en nuevos pacientes, dado que son escasas las bases de datos y resulta complejo de acceder a material de audio o transcripciones de niños.

La presente investigación se destaca por la simpleza del modelo, su precisión y su replicabilidad, en tanto no utiliza complejas variables que requieren del uso de indicadores abstractos de la psicología o herramientas de la fonoaudiologia, que lo vuelva al experimento complejo de replicar, o hasta incluso incompatible, con transcripciones en idioma inglés como español. Es interesante notar que el pipeline propuesto tiene la siguiente complejidad en términos de Big 𝒪𝒪\mathcal{O}caligraphic_O: El método Random Forest 𝒪(nlog(n)Vm)𝒪𝑛𝑛𝑉𝑚\mathcal{O}(n\log(n)Vm)caligraphic_O ( italic_n roman_log ( italic_n ) italic_V italic_m ), el coeficiente de correlación de Spearman 𝒪(n)𝒪𝑛\mathcal{O}(n)caligraphic_O ( italic_n ); regresión logística 𝒪(nV)𝒪𝑛𝑉\mathcal{O}(nV)caligraphic_O ( italic_n italic_V ) y el clasificador de k𝑘kitalic_k vecinos más cercanos 𝒪(knV)𝒪𝑘𝑛𝑉\mathcal{O}(knV)caligraphic_O ( italic_k italic_n italic_V ), donde V𝑉Vitalic_V es el tamaño de la características y m𝑚mitalic_m es la profundidad de los árboles. Esto sugiere que el pipeline no presenta una alta complejidad computacional.

La Tabla 4 muestra una comparación del pipeline propuesto, con otros trabajos del estado-de-arte, destacando su singularidad y eficacia en términos de sus métricas. Observe que los resultados son alentadores frente a modelos de alta complejidad como las redes neuronales o SVM.

Table 4: Comparación con algunos trabajos del estado-del arte en clasificación de SLI. DDT: Datos directos de transcripciones procesadas con técnicas de NLP, RNN: Redes neuronales recurrentes, CNN: Redes neuronales convolucionales, ANN: Redes neuronales artificiales, SVM: Support Vector Machines.
Método Características Precisión Ref
14141414-NN DDT 97.77%percent97.7797.77\%97.77 % Este trabajo
CNN DDT 99%percent9999\%99 % [4]
SLINet CNN 2D 99.09%percent99.0999.09\%99.09 % [24]
likelihood ratios Pruebas de repetición de dígitos, no-palabras y oraciones 94%percent9494\%94 % [18]
SVM, RF y RNN Señales de voz 99.00%percent99.0099.00\%99.00 % [19]
SVM y feed-forward neural network Fuente glotal y coeficientes cepstrales de frecuencia Mel 98.82%percent98.8298.82\%98.82 % [20]
Naive Bayes, SVM y ANN Longitud media de emisiones y estructuras gramaticales 79%percent7979\%79 %,80%percent8080\%80 % y 76%percent7676\%76 % [21]

4 Conclusiones

Este estudio se propuso un pipeline en cascada de 3333 etapas, que permite, a través de un enfoque simple y eficiente, la detección de SLI en niños. La precisión del modelo de 97.13%percent97.1397.13\%97.13 %, sugiere su viabilidad clínica como herramienta de detección temprana de SLI. En la primera etapa, se realizó una extracción de características y una reducción de dimensionalidad de los datos usando los métodos de Random Forest (RF) y correlación en conjunto, logrando reducir de 43434343 a 11111111 variables. En la segunda etapa, se estimaron las variables más predictivas usando regresión logística, obteniéndose 6666 variables finales de las 11111111 de la etapa anterior. Estas variables son usadas en la última etapa, para detectar el trastorno SLI en niños a partir de transcripciones de narrativas espontáneas. En resumen, el pipeline diseñado permitió reducir de 43434343 variables a 6666 variables, lo que da una luz en la detección de SLI.

El pipeline propuesto, presenta tres fortalezas notables. Es de baja complejidad computacional; presenta una reducción de dimensionalidad de los datos siguiendo criterios precisos a partir de los datos y permite un tratamiento de la información en varios estadios, permitiendo realizar una selección de las características que logran un gran nivel predictivo de la variable objetivo. La combinación de NLP y ML abre nuevas posibilidades para diagnósticos precisos y eficientes, con un potencial impacto en la identificación temprana y el diseño de intervenciones personalizadas. En cuanto a las limitaciones, se considera lo experimental del proyecto, en tanto no fue probado con otros tipos de datos; también la estimación del valor k𝑘kitalic_k del clasificador, puede ser óptimo o no, en muchos casos es un valor empírico que busca minimizar el error en la etapa de clasificación, por ende puede tener un rango de posibles valores. Resulta importante destacar en cuanto a las iteraciones de las regresiones que no siempre es conveniente proceder hasta hallar el mínimo conjunto posible de características. Dado que pueden ocurrir dos escenario. Uno donde se tiene un numero importante de variables que afectan en gran medida la capacidad del modelo de predecir la variable objetivo, y otro donde se tiene una selección reducida de características. En el primer caso se recomienda continuar efectuando regresiones con el fin de reducir la dimensión de trabajo. No obstante en el segundo caso, se puede optar por no correr otra regresión, en tanto se perderían variables de interés por una mejoría despreciable en el modelo. Esto queda sujeto al caso de uso y la consulta de un profesional en el área. Futuras investigaciones se centrarán en explorar la aplicación de este enfoque en poblaciones más amplias, evaluar su utilidad en entornos clínicos, adaptar el pipeline a varios tipos de datos, así como implementar esta metodología en otros campos.

5 Disponibilidad del software

El software utilizado en este estudio está disponible en la plataforma de desarrollo colaborativo https://github.com/SantiagoarenaDS/Pipeline-SLI-JAIIO2024, accessed: 2024-24-03

References

  • [1]
  • [2]
  • [3] Leonard, L.B.: Children with Specific Language Impairment. Bradford Books (2014)
  • [4] Sharma, Y., Singh, B.K.: One-dimensional convolutional neural network and hybrid deep-learning paradigm for classification of specific language impaired children using their speech. Computer Methods and Programs in Biomedicine 213, 106487 (2022) doi:10.1016/j.cmpb.2021.106487
  • [5] Barua, P.D., Aydemir, E., Dogan, S., Erten5, M., Kaysi, F., Tuncer, T., Fujita, H., Palmer, E., Acharya1, U.R.: Novel favipiravir pattern-based learning model for automated detection of specific language impairment disorder using vowels. Neural Computing and Applications (35), 6065–6077 (2023) doi:10.1007/s00521-022-07999-4
  • [6] Association, A.P.: Diagnostic and Statistical Manual of Mental Disorders, DSM-5TRsuperscript5TR5^{\text{TR}}5 start_POSTSUPERSCRIPT TR end_POSTSUPERSCRIPT. Amer Psychiatric Pub Inc (2022)
  • [7] Webster, R., Majnemer, A., Platt, R., Shevell, M.: The predictive value of a preschool diagnosis of developmental language impairment. Neurology 12(63), 2327–2331 (2004) doi:10.1212/01.wnl.0000147472.33670.b6
  • [8] Pentimonti, J.M., Murphy, K.A., Justice, L.M., Logan, J.A.R., Kaderavek, J.N.: School readiness of children with language impairment: predicting literacy skills from pre-literacy and social–behavioural dimensions. International Journal of Language & Communication Disorders 51(2), 148–161 (2016) doi:10.1111/1460-6984.12193
  • [9] Catts, H., Fey, M., Tomblin, J., Zhang, X.: A longitudinal investigation of reading outcomes in children with language impairments. Journal of Speech, Language, and Hearing Research 6(45), 1142–1157 (2002) doi:10.1044/1092-4388(2002/093)
  • [10] Hogan, T.F., Bridges, M.S., Justice, L.M., Cain, K.: Increasing higher level language skills to improve reading comprehension. Focus on Exceptional Children 44(3), 1–20 (2011) doi:10.17161/FOEC.V44I3.6688
  • [11] Beitchman, J.H., Brownlie, E.B., Inglis, A., Wild, J., Ferguson, B., Schachter, D., Lancee, W., Wilson, B., Mathews, R.: Seven-year follow-up of speech/language impaired and control children: psychiatric outcome. Journal of Child Psychology and Psychiatry 37(8), 961–970 (1996) doi:10.1097/00004583-199411000-00015
  • [12] Stanton-Chapman, T., Justice, L., Grant, S.L.: Social and behavioral characteristics of preschoolers with specific language impairment. Linguistics, Education, Psychology 1 (2007) doi:10.1177/02711214070270020
  • [13] Justice, L.M., Ahn, W.Y., Logan, J.A.R.: Identifying children with clinical language disorder: An application of machine-learning classification. Journal of Learning Disabilities 52(5), 351–365 (2019) doi:10.1177/0022219419845070
  • [14] Gabani, K., Solorio, T., Liu, Y., Hassanali, K., Dollaghan, C.A.: Exploring a corpus-based approach for detecting language impairment in monolingual English-speaking children. Artificial intelligence in medicine 53 3, 161–70 (2011) doi:10.1016/j.artmed.2011.08.001
  • [15] MacFarlane, H., Gorman, K., Ingham, R., Presmanes Hill, A., Papadakis, K., Kiss, G., van Santen, J.: Quantitative analysis of disfluency in children with autism spectrum disorder or language impairment. PLOS ONE 12(3), 1–20 (03 2017) doi:10.1371/journal.pone.0173936
  • [16] Kaushik, M., Baghel, N., Burget, R., Travieso, C.M., Dutta, M.K.: Slinet: Dysphasia detection in children using deep neural network. Biomedical Signal Processing and Control 68, 102798 (2021)
  • [17] Gray, S.: Diagnostic accuracy and test-retest reliability of nonword repetition and digit span tasks administered to preschool children with specific language impairment. J Commun Disord 36(2), 129–151 (2003) doi:10.1016/s0021-9924(03)00003-0
  • [18] Armon-Lotem, S., Meir, N.: Diagnostic accuracy of repetition tasks for the identification of specific language impairment (SLI) in bilingual children: evidence from Russian and Hebrew. Int J Lang Commun Disord 51(6), 715–731 (2016) doi:10.1111/1460-6984.12242
  • [19] Slogrove, K.J., van der Haar, D.: Specific language impairment detection through voice analysis. In: Abramowicz, W., Klein, G. (eds.) Business Information Systems. Lecture Notes in Business Information Processing, vol. 389. Springer, Cham (2020) doi:10.1007/978-3-030-53337-3_10
  • [20] Reddy, M.K., Alku, P., Rao, K.S.: Detection of specific language impairment in children using glottal source features. IEEE Access 8, 15273–15279 (2020) doi:10.1109/ACCESS.2020.2967224
  • [21] Oliva, J., Serrano, J.I., del Castillo, M.D., Ángel Iglesias: Computational cognitive modeling for the diagnosis of specific language impairment. In: et al., B.B. (ed.) Data and Knowledge for Medical Decision Support. IOS Press (2013)
  • [22] Child language data exchange system. https://childes.talkbank.org/, accessed: 2024-24-06
  • [23] Brown, R.: A first language: The early stages. George Allen & Unwin, London (1973)
  • [24] Bowen, C.: Brown’s stages of syntactic and morphological development. Retrieved from www. speech-language-therapy. com/index. php (1998)
  • [25] Wu, X., Kumar, V.: The Top Ten Algorithms in Data Mining. Chapman and Hall/CRC (2009)
  • [26] Violini, M.L.: Selección de características. Su aplicación a clasificación de texturas. Bachelor’s thesis, Universidad Nacional de La Plata (12 2014)
  • [27] Botting, N., Conti-Ramsden, G.: The role of language, social cognition, and social skill in the functional social outcomes of young adolescents with and without a history of SLI. British Journal of Developmental Psychology 26(2), 281–300 (2008) doi:10.1348/026151007X235891
  • [28] Biau, G., Scornet, E.: A random forest guided tour. TEST (25), 197–227 (2016) doi:10.1007/s11749-016-0481-7
  • [29] Quintero-Rincón, A., D’giano, C., Batatia, H.: A quadratic linear-parabolic model-based EEG classification to detect epileptic seizures. J Biomed Res. 34(3), 205–212 (2019) doi:10.7555/JBR.33.20190012
  • [30] Breiman, L.: Random forests. Machine Learning 45, 5–32 (2001) doi:10.1023/A:1010933404324
  • [31] Becker, R.A., Chambers, J.M., Wilks, A.R.: The New S Language. Wadsworth & Brooks/Cole (1988)
  • [32] Cheng, Q., Varshney, P., Arora, M.: Logistic regression for feature selection and soft classification of remote sensing data. IEEE Geoscience and Remote Sensing Letters 3(4), 491–494 (2006) doi:10.1109/LGRS.2006.877949
  • [33] Zakharov, R., Dupont, P.: Ensemble logistic regression for feature selection. In: Loog, M., Wessels, L., Reinders, M.J.T., de Ridder, D. (eds.) Pattern Recognition in Bioinformatics. pp. 133–144. Springer Berlin Heidelberg, Berlin, Heidelberg (2011) doi:10.1007/978-3-642-24855-9_12
  • [34] Flach, P.: Machine Learning, The Art and Science of Algorithms that Make Sense of Data. Cambridge (2012)
  • [35] James, G., Witten, D., Hastie, T., Tibshirani, R.: An Introduction to Statistical Learning: with Applications in R. Springer (2013)
  • [36] Heumann, C., Schomaker, M., Shalabh: Introduction to Statistics and Data Analysis: With Exercises, Solutions and Applications in R. Springer (2022)
  • [37] Quintero-Rincón, A., Muro, V., D’Giano, C., Prendes, J., Batatia, H.: Statistical model-based classification to detect patient-specific spike-and-wave in EEG signals. Computers 9(4),1–14 (2020) doi:10.3390/computers9040085
  • [38] Bishop, C.M.: Pattern Recognition and Machine Learning. Springer-Verlag New York, Inc., Secaucus, NJ, USA (2006)
  • [39] Barber, D.: Bayesian Reasoning and Machine Learning. Cambridge University Press (2012)
  • [40] Kohavi, R.: A study of cross-validation and bootstrap for accuracy estimation and model selection. In: International Joint Conference on Artificial Intelligence (1995)
  • [41] Krupinski, E.A.: Receiver operating characteristic (ROC) analysis. Frontline Learning Research 5(3), 31–42 (2017) doi:10.14786/flr.v5i2.250
  • [42] Hanley, J., McNeil, B.: The meaning and use of the area under a receiver operating characteristic (ROC) curve. Radiology 143(1), 29–36 (1982) doi:10.1148/radiology.143.1.7063747