INTRODUCCIÓN
Los análisis de datos principalmente se basan en técnicas estadísticas; sin embargo, a medida que la información almacenada crece considerablemente, los métodos estadísticos tradicionales han empezado a enfrentar problemas de eficiencia, valoración y de clasificación. La minería de datos (Graham, 2011), es una solución para el análisis de fenómenos no explícitos en bases de datos y la búsqueda de patrones ocultos entre estos, información que posteriormente puede ser utilizada en la predicción de comportamientos (Acosta et al., 2018), (Romero, 2018).
Una técnica en minería de datos son los árboles de decisión, mismos que se basan en algoritmos de clasificación (Pérez & González, 2018), los cuales son efectivos y de fácil interpretación. Se remontan a 1944, por una idea de Von Neuman (1903- 1958) utilizada en la teoría de juegos (Gastaldi et al., 1998). Esta técnica permite identificar la mejor opción de diversas alternativas y se muestra en forma gráfica, facilitando la decisión a tomar (Roche, 2009). Son una técnica de aprendizaje supervisado, la cual consiste en construir modelos para clasificar nuevas observaciones (Ruiz et al., 2019), o para interpretar la información y transformarla en conocimiento (Rodríguez y Camacho, 2018). Los árboles de decisión son muy utilizados para la predicción, pues al trabajar con datas que almacenan información pasada, permite realizar pronósticos (Quintero y Amézquita, 2003).
Los suelos son los principales recursos naturales del mundo, siendo el sistema edáfico uno de los ejes fundamentales para la producción de alimentos (Aguilera, 2020). El carbono del suelo (COS) es un componente que conforme se incrementa mejora la calidad y fertilidad del mismo; es por ello que el presente trabajo se enfocó en la clasificación del COS a nivel de la provincia de Chimborazo en zonas nativas o endémica, con el fin de determinar un modelo predictivo basado en datos históricos que permita conocer el comportamiento del COS en los diferentes ecosistemas, es así que para su descripción se emplearon variables que inciden directamente en sus niveles, considerándose: el Ecosistema (Villegas, 2013); sistema biológico constituido por una comunidad de organismos vivos y el medio físico, la Taxonomía (SIGTIERRAS, 2017); variable que indica la clasificación de los suelos en función de varios parámetros y propiedades, la Textura (Blanquer et al., 2010); muestra el contenido relativo de partículas de diferente tamaño, la Pendiente (Ministerio del Ambiente, 2013); el Declive del Terreno y la Inclinación (DEM) (López, 2002), la Altura sobre el nivel del mar a la que se realizó el punto de muestreo, y 4 índices espectrales: el Índice de resistencia atmosférica visible (García et al., 2020), mismo que resalta la vegetación en la parte visible del espectro, el Índice diferencial de agua normalizado (Delpino et al., 2018), empleado para evaluar cuerpos de agua cubierta, el Índice de área calcinada (Mena, 2017); mismo que identifica superficies de suelo desnudo en ambientes de baja intervención antrópica y el Índice de vegetación mejorado de dos bandas (Gilabert et al., 1997), el cual optimiza la respuesta espectral de la vegetación con alta densidad.
MATERIALES Y MÉTODOS
La zona de estudio fue la provincia de Chimborazo-Ecuador, localizada en el centro Sur del país; en la zona geográfica 17 (INEC, 2010). Se realizó una investigación exploratoria, cuasi experimental del tipo de inferencia inductiva, en un periodo transversal.
Los datos empleados para la construcción de los modelos de clasificación se obtuvieron a partir de la base proporcionada por el Ministerio de Agricultura y Ganadería (MAG), del Proyecto Regional de Cooperación de Capacitación de Mapeo de Suelos de la FAO. Para clasificar los niveles de COS se generó una variable categórica denominada Niveles, para lo cual se empleó la categorización realizada por Vela, López y Rodríguez (Vela et al., 2012); quienes en su investigación plantearon límites en los intervalos; en función de los valores máximos y mínimos de concentración de COS; tal como muestra la Tabla 1.
Se trabajó con una data de 591 observaciones que describen 10 variables, Tabla 2. Se consideró al COS como la variable predictora, las muestras fueron recolectadas mediante el método Walkley Black (Eyherabide et al., 2014); a través del cual se midió la densidad aparente (g.cm-3) y materia orgánica (%), con un factor de transformación de 1.725 en CO (%), para lo cual se empleó el método de barrenación. Las variables explicativas: ráster de Ecosistema, Taxonomía, Textura, Pendiente, DEM y los índices espectrales; éstas variables y los cuatro índices espectrales se obtuvieron a partir de las bandas de imagen Satelital Landsat 8 (Zhiminaicela et al., 2020) y su medición se realizó al tope de la atmósfera, para lo cual se utilizó el sistema de Información Geográfica y el Software Libre QSIG V.3.14.
Con el fin de seleccionar el algoritmo adecuado para el conjunto de datos, se aplicaron los modelos:
C5.0: Desarrollado por Ross Quinlan en 1993 (Quinlan, 1993), como una mejora del C4.5 el cual es una extensión del ID3, desarrollado en 1986 por el mismo autor (Quinlan, 1986). Se basan en el concepto de entropía a la hora de construir el árbol, misma que representa una medida de impureza o incertidumbre (Díaz et al., 2004), su ecuación es (ecuación 1):
donde 𝑆: es el conjunto de muestras, 𝑐: es el número de diferentes clasificaciones y 𝑝𝑖:es la proporción de ejemplos que hay de la clasificación 𝑖 en la muestra.
SMV: la técnica de máquinas de vectores de soporte se utiliza en clasificación y regresión (Cristianini y Shawe-Taylor, 2000), está basada en la idea de minimizar un límite superior del error de generalización en vez del principio de minimización de riesgo empírico (Remp). Emplea la ecuación (2):
donde: ∅(𝒙)∶𝑅𝑑→𝑅𝐻 (𝑑<𝐻) es una transformación del espacio dimensión. El vector 𝑤 define el hiperplano de separación en dicho espacio y 𝑏 representa el sesgo respecto al origen de coordenadas (Ureña et al., 2006).
CART: es un algoritmo de árbol binario completo que hace particiones de los datos y genera subconjuntos precisos y homogéneos (Bartolini et al., 2013). Con la idea de buscar particiones que discrimen o consigan nodos más puros se considera el Índice Gini (ecuación 3); (Haro, 2019), (Quinlan, 1993)
donde el índice de Gini, en el nodo t se puede formular de la siguiente manera (ecuación 4):
El estadístico utilizado para la selección del modelo adecuado fue el coeficiente de Kappa; mismo que se emplea para cuantificar el grado de acuerdo entre las observaciones, se caracteriza por corregir el factor azar. La escala fundamental para interpretar este coeficiente, se muestra en la Tabla 3 (López de Ulibarri y Pita, 1999).
En el estudio se utilizó el Software Estadístico Libre RStudio V.1.3.1 bajo la plataforma R V.3.6.3. Para la construcción del árbol de decisión se procedió a dividir la base de datos en conjuntos de entrenamiento y prueba (Ferreira et al., 2018), se utilizó el criterio de Houlduot mediante el cual se consideró el 70% de la data para el conjunto de entrenamiento y el restante 30% para el testing. Con el objetivo de generar un modelo óptimo se aplicó la técnica de Validación Cruzada (CV), misma que modifica los parámetros y garantiza que los resultados sean independientes de la partición entre los datos de prueba y de entrenamiento (Pérez, 2020).
La validación de los modelos se realizó a través de la matriz de confusión (Fawcett, 2006), la cual compara el conjunto de variables de la tabla testing con la predicción obtenida, versus el rango de COS a la que los datos realmente pertenecen (Haro et al., 2018). Las columnas determinan el número de predicciones de cada clase (rango de COS), y las filas representan las instancias clasificadas en la clase real. La Tabla 4 muestra la matriz de confusión para dos clases.
Las medidas de rendimiento (Haro et al., 2018) empleadas en el estudio fueron:
Precisión Global P (Exactitud); esta medida permite calcular la proporción de datos predichos correctamente VN y VP en relación a la suma de observaciones evaluadas, se calcula mediante la ecuación 5:
Error de Predicción (Error); esta tasa es la proporción de observaciones mal clasificadas y se calcula mediante la expresión (ecuación 6):
Después de la generación y selección del modelo se generó un mapa geo referencial del contenido de COS en la provincia de Chimborazo, empleándose el software geográfico QGIS.
RESULTADOS
La tabla 5 muestra las medidas de rendimiento de los modelos empleados en el estudio; se puede observar que el algoritmo CART es óptimo para el conjunto de datos, presenta una mayor precisión cuando es y no aplicada la técnica CV, mientras que el índice Kappa mostró un mayor rendimiento con CV, obteniendo un valor de 0.492; lo cual establece una fuerza de concordancia moderada.
En la Tabla 6 se observan las variables independientes posicionadas en una serie ordenada de acuerdo a su importancia, siendo Textura la variable predominante y el Índice de área calcinada (BI) como la variable sin importancia.
En la Figura 1 se observa el árbol de decisión construido tras el entrenamiento del algoritmo CART con los datos del MAG en la provincia de Chimborazo. El modelo generó TEXTURA como variable predominante con 15 reglas de decisión, de las cuales 5 representan a la clasificación del carbono como Muy Alto, 4 a la clasificación Alto, 4 a la clasificación Medio y 2 a la clasificación del carbono Bajo. Una de las reglas de decisión para la clasificación de carbono edáfico que arrojó el modelo fue: Si la muestra obtenida se encuentra en una Textura Media y Moderada (Textura = Media, Moderada) considerando el índice de resistencia atmosféricamente visible mayor o igual a 0.025 (VAR >= 0.025), con ecosistemas; Bosque Siempre Verde Montano y Herbazal (Ecosistema = BSV_Montano, Herbazal), entonces el carbono es Muy Alto
La tabla 7 muestra la matriz de confusión del modelo árbol de decisión. Se puede observar que de las 591 muestras 121 se clasificaron en el tipo de suelo Inceptisol con un nivel Muy Alto de COS, seguido por Mollisol con 113 datos clasificados en el mismo nivel.
Mediante el mapeo digital del COS, Figura 2, a): se puede observar la predicción de carbono edáfico generado a través de la técnica de árboles de decisión, se muestra un mapa con los niveles de COS representado de color de tierra. El tono más oscuro indica niveles Muy Altos de clasificación para el COS, en tanto que el color claro muestra la clasificación de COS como Bajo. Mediante la predicción del COS en toneladas por hectárea se obtuvo un mapa con los valores del carbono edáfico estableciendo un máximo de 358.92 Mg/ha y un mínimo de 19.23 Mg/ha
En la Figura 2, b) se visualizan las áreas de acuerdo a los niveles de carbono orgánico del suelo, en la provincia de Chimborazo. Se determinaron niveles de carbono edáfico Muy Altos en zonas nativas de bosque siempre Verde Montano Andino; ubicados al oeste de los cantones de Penipe, Chambo y Riobamba, en todo el territorio de los cantones de Pallatanga y Cumandá; se establecieron niveles Altos de COS en zonas de bosque siempre Verde Piemontano Andino, en la parte central de los cantones de Colta, Guamote, Alausí y Chunchi; se observó un nivel Medio en zonas con Arbustal y Herbazal; así como en la parte central del cantón Guano; además, se determinó un nivel Bajo en zonas Intervenidas, en la parte central del cantón Riobamba.
DISCUSION
Los resultados obtenidos en la investigación corroboraron que el tipo de suelo Inceptisol presentó un nivel Muy Alto de COS, esto se debe a que éste es un suelo joven que conserva su materia orgánica, y que de acuerdo a Martínez et al. (2008) es el tercero en acumular mayor cantidad; con un valor de 0,016 COS/Área, acorde a la clasificación de carbono orgánico en todo el mundo realizado por Edwars (Edwars y Bohlen, 1996), después le sigue el suelo Mollisol; mismo que tiene un gran impacto en los niveles de COS tal como lo determinan Novelli et al. (2013), en su estudio relacionado con la intensificación en el uso del suelo.
Las zonas de la provincia de Chimborazo con niveles de COS Muy Altos (> 215 Mg/ha) fueron las nativas de bosque siempre Verde Montano Andino, estos lugares se caracterizan por tener una vegetación de transición entre el bosque de niebla y el páramo, este resultado es confirmado por Loayza et al. (2020); donde se establece que los niveles de COS son favorecidos en tierras con mayor altitud, climas de bajas temperaturas y zonas húmedas de la Sierra ecuatoriana. Se evidenció niveles medios de COS en la zona Arbustal y Herbasal, es decir en los páramos de la provincia; lugares que presentan vegetación fragmentada, donde se mezclan suelos desnudos con herbazales y arbustos. Niveles Bajos de COS (< 80 Mg/ha) se localizaron en zonas Intervenidas, esto se debe a que existe una reducción del contenido de materia orgánica; y que de acuerdo a Cárdenas (Cárdenas, 2015) se manifiesta por el uso que se da al suelo, como la agricultura y ganadería; siendo éstas las principales fuentes económicas de la provincia de Chimborazo.
La implementación del árbol de clasificación para identificar niveles de COS en la provincia de Chimborazo fue una herramienta que caracterizó adecuadamente los suelos y zonas de estudio, pero un limitante fue el tamaño de la muestra; por lo que para futuras investigaciones es necesario incrementar la base de datos.
CONCLUSIONES
La técnica de árboles decisión mediante el algoritmo de clasificación CART, permitió identificar variables que inciden en los niveles de carbono edáfico en la provincia de Chimborazo, siendo éste un componente que determina la calidad de los suelos, ya que es fuente y almacenamiento de nutrientes, lo cual tiene incidencia directa en la flora y fauna de los ecosistemas. La Textura del suelo fue la variable predominante en el estudio, por lo que el contenido de partículas y sus tamaños son significativos en los niveles de carbono edáfico en la provincia de Chimborazo. Las zonas nativas o endémicas con nivel Muy Alto de COS, fueron las situadas en los cantones de Penipe, Chambo, Riobamba, Guamote, Pallatanga y Cumandá; poder identificar éstas áreas permitirá su protección y creación de políticas que conlleven a su conservación, pues el COS influye directamente en el cambio climático del planeta, así como en los ciclos del agua. Además, estudios de este tipo son de gran relevancia ya que siendo la agricultura una de las principales actividades económicas en la provincia de Chimborazo, el poder identificar las zonas con bajos niveles de COS ayudará a mejorar la calidad de los suelos; pues su degradación incide directamente en la pérdida de producción agrícola y por ende en la seguridad alimentaria.





























