Forma sugerida de citación:
Pérez-Aguilar, D.; Risco-Ramos, R. y Casaverde-Pacherrez, L. (2021). «Transfer learning en la clasificación binaria de imágenes térmicas». Ingenius. N.◦ 26, (julio-diciembre). pp. 71-86. doi: https://doi.org/ 10.17163/ings.n26.2021.07
1. Introducción
Actualmente la inteligencia artificial (IA) es una disciplina en auge que ha redefinido muchos de los procesos que se realizan en la industria, presentando aplicaciones muy diversas, las cuales abarcan el reconocimiento de objetos mediante visión artificial, reconocimiento y síntesis de voz, comprensión lectora, sistemas de traducción, comprensión del lenguaje, etc. [1]. La IA no es un término nuevo, pues existe desde hace muchos años; sin embargo, lo que ha cambiado en las últimas épocas es la potencia computacional, con la cual se pueden computar modelos mucho más complejos en un menor tiempo [2]. Se la define como un conjunto de algoritmos cuyo propósito es crear máquinas que emulen las capacidades de los seres humanos. Visto de otra manera, es un software que puede ser entre- nado para reconocer patrones y realizar predicciones, en algunos casos de manera más precisa que los seres humanos [3]. Dentro de la IA, encontramos términos como el machine learning (ML) y el deep learning (DL) [4].
machine learning (ML) o aprendizaje automático, es una rama de la IA que busca generalizar comportamientos de un conjunto de datos de entrada, es decir, que su objetivo es predecir comportamientos futuros basados en encontrar patrones dentro de grandes con- juntos de datos [5]. A su vez, el DL o aprendizaje profundo, forma parte del machine learning [6], cuyo objetivo es que los sistemas imiten el comportamiento y el razonamiento de las personas automáticamente; en otras palabras, que el ser humano esté involucrado lo menos posible en el proceso. Este objetivo se basa en el uso de redes neuronales artificiales (ANN), las cuales simulan la sinapsis del cerebro humano [7]. En la Figura1 se puede apreciar la estructura tradicional de una red neuronal artificial, en la que se incluyen la capa de entrada, capas ocultas y la capa de salida.
Además, se debe señalar que dentro de las ANN encontramos a las redes neuronales convolucionales (CNN), que son un tipo avanzado y de alto potencial del modelo clásico de red neuronal artificial, diseñadas para abordar problemas de mayor complejidad, y usa- das generalmente en la clasificación de imágenes [9].
En relación con la separación del set de datos, la técnica tipo hold-out[10] es una de las más utilizadas, y consiste en realizar una división de los datos en tres subconjuntos: el 60 % destinado a entrenamiento, el 20 % a validación y el 20 % restante a las pruebas del modelo, tal como se observa en la Figura 2. Sin embargo, este tipo de técnicas no puede considerarse suficiente para evaluar el rendimiento de los modelos, por lo que la bibliografía sugiere aplicar una validación cruzada con k-folds[11] a través de la división del set de datos aleatoriamente en k subconjuntos, de los cuales k - 1 se utilizan para entrenar el modelo, y uno para validarlo. Este mecanismo se debe repetir k veces en cada iteración, empleando distintos subconjuntos de validación, tal como se aprecia en la Figura 3. Finalmente, se recomienda realizar una comparación estadística de los resultados de cada modelo [12], en donde entran a tallar técnicas paramétricas como el análisis ANOVA, o no paramétricas como el test de Friedman [13].
Algunas investigaciones muestran que la aplicación de inteligencia artificial es útil en el sector eléctrico a través de la utilización de imágenes térmicas para automatizar la clasificación de las mismas [14]. Este tipo de imágenes son capturadas mediante el uso de cámaras infrarrojas, por lo que entra a tallar otro término relevante: la termografía, una técnica que permite captar la radiación infrarroja del espectro electromagnético, cuya ventaja principal es la no necesidad de tener contacto físico con el objeto o pieza a estudiar, con lo que, el operar de la maquinaria no se detiene [15].
La Figura 4 muestra un ejemplo de una imagen térmica de un equipo de alta tensión capturada desde tierra.
A continuación, se exponen las investigaciones más relevantes del uso de técnicas tradicionales de inteligencia artificial en la clasificación de imágenes térmicas. Un claro ejemplo es la propuesta de un sistema de reconocimiento automático para la clasificación de imágenes termográficas de una red de distribución de energía eléctrica [16], en donde se implementó una CNN y el algoritmo JSEG o segmentación J, el cual consiste en una reducción del número de colores y la fusión de los mismos basado en la similitud de las regiones de las imágenes [17]. Al igual que una investigación realizada en el Departamento de Tecnología de Chongqing, China [18], donde se aborda la visión por computadora mediante el uso de imágenes térmicas infrarrojas capturadas sin perturbar el funcionamiento de las subestaciones eléctricas. Para ello entrenaron un perceptrón multicapa o multilayer perceptron (MLP), el cual es un tipo de red neuronal artificial formado por diversas capas de neuronas intermedias u ocultas, utilizado para solucionar problemas que no se pueden separar linealmente [19].
En [20] se propone un enfoque semiautomático para evaluar la condición térmica de las instalaciones eléctricas de un edificio mediante el análisis de imágenes infrarrojas, utilizando un perceptrón multicapa (MLP) y el análisis de componentes principales (PCA); este último es una técnica estadística que tiene como finalidad simplificar la complejidad de la muestra mediante la selección o extracción de las características más representativas de los datos de entrada [21]; mientras que en [22], se expone un método de diagnóstico inteligente para clasificar diferentes condiciones de equipos eléctricos utilizando datos obtenidos de imágenes infrarrojas mediante el uso del algoritmo K-means, el cual se encarga de agrupar las imágenes de los equipos eléctricos a través del encuentro y clasificación de clústeres o grupos con características similares [23].
Las investigaciones mencionadas se centran en entrenar un modelo desde cero o de manera tradicional para un escenario específico; sin embargo, actualmente, existen técnicas que facilitan este proceso como el transfer learning (TF), el cual forma parte del deep learning y consiste en utilizar una red preentrenada, es decir, reusar la arquitectura y los pesos de un modelo en- trenado con grandes volúmenes de datos de entrada y aplicarlos a escenarios distintos con otros set de datos, buscando realizar clasificaciones más rápidas y utilizando menor carga computacional [24]. Un ejemplo de las bases de datos utilizadas para entrenar estos modelos es el caso de ImageNet, la cual contiene más de catorce millones de imágenes [25].
Uno de los paradigmas del transfer learning es el fine-tuning del modelo, el cual busca adaptarlo a un nuevo dominio de aplicación [26]; para ello se toma el modelo previamente entrenado y se varían algunos parámetros como la tasa de aprendizaje, teniendo como objetivo lograr mejoras significativas en las predicciones [27].
La revisión bibliográfica revela que existen diver- sas aplicaciones de transfer learning en sectores como (i) salud, mediante la clasificación de patologías en imágenes neurológicas [28], detección de objetos como pistolas o armas blancas en imágenes de rayos X [29] o cervicales [30], entre otros. (ii) En la agroindustria, como se observa en [31], donde se presenta una comparación de las arquitecturas de transfer learn- ing ResNet, Googlenet, VGG16, Alexnet y DenseNet, con la finalidad de clasificar un conjunto de datos que contiene imágenes de flores, demostrando que la arquitectura VGG16 previamente entrenada obtiene niveles de exactitud superiores a las demás. (iii) O en el sector alimenticio, como se expone en [32], donde se indica que las CNN son las técnicas de clasificación de imágenes más utilizadas, por lo que centran su investigación en la clasificación de alimentos con la finalidad de obtener un estilo de vida más saludable; para ello utilizan una base de datos de 500 imágenes, además de las arquitectas previamente entrenadas VGG16, VGG19, ResNet e IncceptionV3, siendo esta última la que obtuvo mejores resultados.
Sin embargo, al estudiar la aplicación de imágenes térmicas y técnicas de transfer learning en el sector eléctrico, nos encontramos con una escasez de las mis- mas. Siendo algunas de las más representativas el caso de [33], donde se propone un mecanismo de clasificación de imágenes térmicas de los sistemas de rodamientos de rotores; para ello modifican una red neuronal convolucional con el uso de transfer learning, no obstante, no especifica la arquitectura de TF utilizada. O como se detalla en [34], en donde se busca automatizar la supervisión del estado de la maquinaria industrial mediante el uso de imágenes térmicas y una CNN, indicando que una desventaja de esta última es la necesidad de contar con grandes volúmenes de datos para su entrenamiento, por lo que proponen el uso de la arquitectura VGG16 como método de reutilización de capas de la red neuronal.
Lo señalado en párrafos anteriores evidencia que las ventajas del uso de transfer learning no se están explotando en su totalidad en el sector eléctrico, ya que no existe un estudio que aplique diversas arquitecturas con el mismo set de datos, por lo que el objetivo del presente estudio es proponer una alternativa al uso tradicional de técnicas de inteligencia artificial mediante el análisis de once arquitecturas de transfer learning y el paradigma de autotuning, aplicadas a la clasificación binaria de imágenes térmicas en una red de distribución eléctrica.
2.Materiales y métodos
La Figura 5 representa la metodología seguida en la realización de la investigación, la cual parte de la recolección de datos de campo mediante la captura de imágenes térmicas; posteriormente se realiza el diseño de una arquitectura base en la que se incluyen distintas arquitecturas de transfer learning entrenadas previa- mente, cada una de ellas es entrenada y probada para finalmente comparar los resultados obtenidos. Todo este proceso se realizó con la ayuda del servicio en línea Google Colaboratory, a través del uso de Jupyter Notebooks [35].
2.1 Base de datos
La base de datos utilizada en este trabajo corresponde a 815 imágenes térmicas, pertenecientes a una empresa de distribución eléctrica peruana, clasificadas en dos categorías, subestaciones eléctricas y líneas de transmisión. Este conjunto de datos es superior en tamaño al utilizado en [18], [20], [22], [36] y [37]. Las imágenes fueron capturadas mediante la cámara infrarroja TP8S, cuyas especificaciones se aprecian en la Tabla1.
El procedimiento que la empresa de distribución eléctrica ha venido ejecutando incluye cinco fases que se detallan a continuación y se grafican en la Figura 6. (i) En primer lugar, se contrata a una empresa externa para la captura de imágenes térmicas, específicamente líneas de transmisión y subestaciones eléctricas, esto se realiza de forma semanal o mensual. (ii) La empresa de servicios entrega todas las imágenes a un especialista certificado en análisis de imágenes térmicas. (iii) El especialista debe clasificar manualmente las imágenes y dividirlas entre líneas de transmisión o equipos de subestaciones eléctricas, ya que requieren diferentes tipos de análisis. (iv) Luego el especialista procede al análisis de cada imagen y determina, de acuerdo con su conocimiento y experiencia, si en cada una hay evidencia de fallos presentada por la detección de algún punto caliente. (v) Finalmente, si el especialista detecta un punto caliente, prepara el informe respectivo y luego toma las medidas correctivas apropiadas.
El presente estudio se centró en automatizar la fase 3 del proceso mediante el uso de técnicas de transfer learning.
Las imágenes presentan una resolución de 384 × 288 píxeles. En la Figura 7 se aprecian algunos ejemplos de las imágenes típicas de equipos de líneas de transmisión, y en Figura 8 de subestaciones eléctricas las cuales representan las dos clases del modelo.
2.2 Set de datos
Para la realización de los experimentos se utilizaron 815 imágenes térmicas, divididas en tres conjuntos de datos con una división 60-20-20, conocido como una separación tipo hold-out (ver Figura 2). El 60 % de las imágenes se consideraron como datos de entrenamiento y el 20 % de validación, mientras que el 20 % restante, se incluye en los datos de prueba del modelo (ver Tabla 2), es decir, que este es entrenado y validado paralelamente para finalmente ser probado con imágenes nuevas que no han sido consideradas con anterioridad. En [39] se indica que los modelos que generalizan adecuadamente muestran métricas de exactitud y pérdida similares en el entrenamiento y validación, evitándose el sobreajuste.
2.3 Arquitecturas
En el estudio se consideraron once arquitecturas de modelos previamente entrenados mediante el uso del paquete TorchVision, el cual forma parte de PyTorch, que es una biblioteca de aprendizaje automático y de código abierto; ya que como se indica en [40], los modelos en PyTorch son más rápidos y fáciles de imple- mentar y entrenar. Las arquitecturas utilizadas fueron:
2.3.1. AlexNet
Red neuronal convolucional compuesta por ocho capas [41], cinco de las cuales son max-pooling, y las tres restantes, fully connected. Esta arquitectura fue entrenada con la función de activación ReLU (Rectified Linear Units) y la base de datos ImageNet. Como se observa en la Figura 9, la entrada de la red son las imágenes de 224 × 224 píxeles, las cuales se van transformando en cada una de las capas, hasta obtener como salida, la clasificación de mil categorías.
2.3.2. VGG16
Red compuesta por 16 capas y que también fue entrenada con la base de datos ImageNet [42], suponiendo mejoras en relación con la arquitectura AlexNet puesto que reemplaza los grandes filtros de los kernels por un conjunto de filtros de tamaño 3 × 3. La arquitectura de VGG16 se aprecia en la Figura 10.
2.3.3. VGG19
Red neuronal convolucional compuesta por 16 capas convolucionales [43], tres fully-connected, cinco Max-Pool y una SoftMax, con un aproximado de 143 millones de parámetros. La arquitectura de VGG19 se aprecia en la Figura 11.
2.3.4. ResNet
Arquitectura que busca que el incremento de capas se realice de manera distinta a la tradicional [44], por lo que agrega una conexión residual con una capa identidad, la cual pasa a la siguiente capa de manera directa mejorando considerablemente el entrenamiento del mo- delo. Un bloque tradicional de la arquitectura ResNet se observa en la Figura 12.
2.3.5. DenseNet
CNN en la que cada capa obtiene entradas adicionales de todas las capas anteriores y pasa sus propios mapas de características a todas las capas posteriores [45], es decir, que se concatenan cada una de las salidas de las capas anteriores con las posteriores, buscando contar con menor cantidad de parámetros y una mayor exactitud que redes como ResNet. La arquitectura de DenseNet se aprecia en la Figura 13.
2.3.6. GoogLeNet
Red neuronal desarrollada por Google con la finalidad de realizar clasificaciones de imágenes [46]. Esta CNN está basada en la arquitectura Inception [47], por lo que usa módulos que dan la posibilidad de elegir entre distintos tamaños de filtro convolucional en cada uno de los bloques. Un ejemplo del módulo inception se aprecia en la Figura 14.
2.3.7. MobileNet v2
Se basa en el uso de convoluciones separables en profundidad y utiliza una estructura residual invertida [49], donde la entrada y salida del bloque residual son capas delgadas de cuello de botella opuestas a los modelos residuales tradicionales que utilizan representaciones expandidas en la entrada, tal como se detalla en la Figura 15.
2.3.8. ResNeXt
Es una variante de ResNet que busca aumentar el número de caminos o rutas paralelas a la conexión residual [50], es decir, que ResNeXt es una CNN con múltiples ramas, tal como se observa en la Figura 16, la cual muestra un bloque con una cardinalidad de 32.
2.3.9. Wide ResNet
Es una red neuronal que presenta una variación a la arquitectura ResNet tradicional [51], disminuyendo la profundidad del modelo y aumentando el ancho de las redes residuales. Los bloques característicos dentro de esta CNN son: basic, bottleneck, basic-wide y wide-dropout. La Figura 17 muestra el detalle de este último.
2.3.10. MNASNet
Es una red neuronal convolucional, que al igual que MobileNet [52], diseñada y optimizada para dispositivos móviles y busca que el modelo obtenga un equilibrio entre latencia y precisión. En la Figura 18 se aprecia un ejemplo del diseño de una capa convolucional con un kernel de 5 × 5.
2.3.11. ShuffleNet
Es una CNN que presenta como componente principal una nueva operación de reorganización de canales [53], buscando que la información fluya con mayor facilidad en los mismos. En la Figura 19 se observa una unidad ShuffleNet, que es un elemento central dentro de esta arquitectura.
Finalmente, se elaboró la Tabla 3 mediante información proporcionada en el sitio web de TorchVision [54]; en ella se resumen las características de estas arquitecturas en relación con el peso en megabytes y número de parámetros que utilizan para el entrenamiento del modelo, resaltando que ShuffleNet es la única arquitectura que actualmente no permite el uso del parámetro de configuración de preentrenamiento, es decir, que su peso es cero megabytes.
2.4. Modelo
La Figura 20 muestra el diseño de la arquitectura base a utilizar. La primera sección corresponde a la capa de entrada, en la cual se incluyeron las imágenes de 328 × 288 píxeles. Posteriormente en el apartado denominado «Transfer learning model architecture» se agregaron las once arquitecturas, resaltando que la capa de clasificación de cada una de ellas fue editada para realizar una clasificación binaria ya que originalmente fueron diseñadas para clasificar aproximadamente mil imágenes. Finalmente, se tiene a la capa de salida que corresponde a las predicciones del modelo.
Debido a que no se encontró investigaciones que comparen este número de arquitecturas aplicadas a la termografía, y con la finalidad de realizar una comparación justa entre los modelos, se consideraron los mismos hiperparámetros en todas las pruebas realizadas. La elección de estos fue tomada sobre la base de experimentos empíricos, tal como se propone en [55, 56, 57], teniendo como base los valores de la Tabla4. Los resultados de los experimentos iniciales arrojaron que existe un punto de quiebre aproximadamente en la época número 20, en donde las curvas de entrenamiento y validación presentan una tendencia de separación, evidenciándose problemas de overfitting o sobreentrenamiento (ver Figura 21). Se concluye que los modelos obtienen mejores resultados según los hiperparámetros detallados en la Tabla 5 y es con estos datos con los que se ejecutaron las demás pruebas.
Los modelos mejoraron sus prestaciones al normalizar los datos de entrada calculando la desviación estándar y media de los conjuntos de datos. Además, a pesar de que el set de datos (815 imágenes) es superior a otras investigaciones como [18], [20], [22], [36] y [37] en las que la máxima cantidad de imágenes utilizada es 500. La bibliografía sugiere como buena práctica la aplicación de técnicas que contribuyan a la mejora de la calidad del entrenamiento, por lo que se utilizó Data Augmentation [58, 59] mediante las transformaciones random horizontal flip, random vertical flip y random rotation. La Figura 22 muestra algunos resultados de las transformaciones utilizadas
3. Resultados y discusión
Se realizó el entrenamiento de las once arquitecturas tomando los valores de la Tabla 5, obteniendo resultados de exactitud de cada uno de ellos, los cuales se muestran en la Tabla 6. Por otro lado, en la Tabla 7 se observan las tasas de pérdida de cada una de las arquitecturas. En función de estos resultados se aprecia que DenseNet obtiene un mayor grado de exactitud, mientras que VGG16 presenta una tasa de pérdida más baja. Un dato adicional a considerar es que ShuffleNet alcanza los peores resultados debido a que fue la única arquitectura sin entrenamiento previo, evidenciando que las arquitecturas previamente entrenadas, obtienen mejores resultados.
Investigaciones como [60], señalan que las métricas de exactitud y tasa de pérdida presentan un alto grado de subjetividad, por lo que se propone el uso de técnicas estadísticas para evaluar los resultados de las arquitecturas, específicamente F1-score, cuyo mecanismo de cálculo se observa en (1). Precision y Recall se obtienen de (2) y (3) respectivamente, donde TP representa a los verdaderos positivos, FP a los falsos positivos y FN a los falsos negativos. Los resultados se detallan en la Tabla 8, demostrando que la arquitectura VGG16 se ubica en primer lugar con el valor más alto de F1-score, el cual corresponde a 95.11 %.
El mecanismo de separación tipo hold-out puede no ser suficiente al comparar distintos modelos, es por ello por lo que con la finalidad de eliminar esta fuente de variabilidad se realizaron otros experimentos mediante validación cruzada con 5-folds (ver Figura 23) tal como se sugiere en [61], seguida de una comparación estadística de los resultados de cada modelo, de la misma forma como se realiza en [12]. Los resultados de la validación cruzada se pueden apreciar en la Tabla 9.
En relación con las pruebas estadísticas para evaluar el rendimiento de las arquitecturas, en primer lugar, se ejecutó 30 veces cada modelo, tal como se llevó a cabo en [12]. Posteriormente se realizó el análisis de residuos y de probabilidad normal evidenciándose que, según el primero, se podría aplicar una prueba paramétrica ya que los residuos presentan una dispersión similar (ver Figura 24). Sin embargo, al analizar el gráfico de probabilidad normal para verificar que los residuos se aproximen a una distribución normal, se aprecia que existen datos que se encuentran fuera del intervalo de confianza, con el coeficiente de Shapiro–Wilk igual a 0.932994 y un p-value igual a 0 (ver Figura 25). De igual manera, se realizó la transformación de los datos mediante la raíz cuadrada, sin embargo, estos siguen encontrándose fuera del intervalo de confianza.
Debido a que las poblaciones no se aproximan a una distribución normal, no se puede aplicar una prueba paramétrica; es por ello por lo que se hace necesario utilizar una prueba no paramétrica, específicamente el Test de Friedman en el que no se requiere cumplir la condición de normalidad o de homoestacidad (igualdad de varianzas). Mediante este análisis plasmado en la Tabla 10, se obtiene que el p-value es igual a cero, es decir, que existe diferencia entre las poblaciones, mostrando que VGG16 es superior a las demás arquitecturas.
Este mismo resultado se evidencia en el análisis de medias, en el que se aprecia que el intervalo de confianza que se ha construido tanto con el método Fisher LSD (Figura 26) como Tukey HSD (Figura 27), es superior en el caso de VGG16 ya que no se interseca con el de las otras arquitecturas. En el caso del análisis de medianas se observa que la arquitectura VGG16 es superior a la gran mayoría, pero presenta una pequeña intersección con las arquitecturas AlexNet y VGG19 (ver Figura 28).
Adicionalmente, se realizó el análisis de comparaciones múltiples mediante la prueba con múltiples rangos (ver Tabla 11), en donde si las «X» de los grupos homogéneos se encuentran en la misma columna las arquitecturas se comportan de manera similar, apreciándose que VGG16 es superior y diferente a las demás arquitecturas.
El presente artículo no pretende obtener un «mejor» modelo, sino plantear un mecanismo alternativo frente a las técnicas tradicionales de inteligencia artificial. Sin embargo, con fines académicos, se presentan los resultados del modelo que obtuvo prestaciones más altas, es decir, VGG16, cuya arquitectura original se aprecia en la Figura 10, por lo que la arquitectura final queda definida como se detalla en la Figura 29.
En esta arquitectura se aprecia que la entrada está representada por las imágenes de 328 × 288 píxeles, las cuales ingresan a la red neuronal convolucional previamente entrenada VGG16, compuesta por trece capas convoluciones seguidas por tres capas totalmente conectadas, las dos primeras presentan 4096 canales y la última 1000, por lo que esta fue editada para poder realizar una clasificación binaria (2 canales). Las capas ocultas utilizan la función de activación ReLU además de diversos kernels 3 × 3. Finalmente, se obtiene como salida la clasificación entre ambas clases, es decir, líneas y subestaciones.
Con este modelo se obtuvieron precisiones de 95.91 % y 91.41 % en el entrenamiento y validación (Figura 30). Esta arquitectura fue probada con nuevas imágenes pertenecientes al conjunto de datos de prueba, el resultado obtenido fue 94.43 % de exactitud para la categoría Líneas, y 92.81 % para las subestaciones. Esta se puede apreciar en la matriz de confusión plasmada en la Figura 31.
Se representó gráficamente la exactitud del modelo mediante la curva característica de operación del receptor (ROC), cuya área bajo la curva (AUC) muestra un valor del 94 %, lo cual es indicio de un alto rendimiento de la arquitectura propuesta en la clasificación de las imágenes térmicas (ver Figura 32).
Finalmente, en la Figura 33 se muestran algunos ejemplos de las predicciones del modelo. En el lado izquierdo del título de cada imagen se representa la clasificación real, y en el lado de la derecha, la obtenida por el modelo
4. Conclusiones
En este trabajo se han analizado once redes neuronales previamente entrenadas, mediante el uso del paradigma de transfer learning basado en el fine-tuning del modelo aplicado a la clasificación binaria de imágenes térmicas. El objetivo final no es encontrar un «mejor» modelo, sino plantear alternativas frente al uso de técnicas tradicionales de inteligencia artificial, buscando un ahorro de tiempo y carga computacional.
Los resultados de los modelos arrojan precisiones entre 79.14 % y 98.15 %, valores de F1-score entre 85.91 % y 95.11 % en las arquitecturas previamente entrenadas; estos resultados son indicio que el uso de técnicas de transfer learning supone una alternativa confiable como mecanismo de clasificación de imágenes térmicas en el sector eléctrico; sin embargo, se recomienda realizar un análisis específico en cada caso de aplicación particular.
El uso de data augmentation, transformaciones y normalización de las imágenes, son aspectos importantes para mejorar el rendimiento del modelo; mientras que la división del conjunto de datos en subconjuntos de entrenamiento, validación y pruebas mediante la técnica de tipo hold-out ayudó a evitar el sobreajuste, generalizar el modelo y, por lo tanto, realizar predicciones más precisas. Sin embargo, con la finalidad de realizar una comparación más justa, el estudio también incluyó la aplicación de una validación cruzada con 5-folds, además de la realización de un análisis estadístico mediante el test de Friedman.