I. INTRODUCCIÓN
El rendimiento estudiantil ha sido medido tradicionalmente por notas académicas, las cuales han sido un reflejo de los logros estudiantiles en los diferentes componentes del aprendizaje 1,2. Sin embargo, varios enfoques diferentes han surgido en los últimos años, por ejemplo, se ha buscado explicar el logro de los estudiantes mediante el uso de gráficos de control 3-5, también se puede usar la regresión múltiple y regresión logística para determinar las variables predictoras del rendimiento académico 6,7. Existen otros trabajos utilizando modelos de regresión multinivel para predecir calificaciones finales 8 o modelos de clasificación para predecir el rendimiento académico de los estudiantes 9. Por otra parte, los modelos TOBIT que relacionan características personales, entorno familiar, etc. con el rendimiento académico 10,11.
El presente trabajo pretende mostrar el monitoreo del rendimiento estudiantil a lo largo del tiempo, y realizar el control de calidad para el análisis de señales tempranas que indiquen que el resultado del rendimiento no se encuentra en los límites aceptables de control, permitiendo así tomar acciones correctivas a tiempo. Además, se usará el enfoque de monitoreo de dos variables para poder aplicar el concepto de profundidad de datos simplicial. Una ventaja del presente método es que no requiere normalidad en las distribuciones de los datos.
Este trabajo es, además, una aplicación de la metodología expuesta en 12 con dos variables, ya que estudios posteriores han demostrado que la profundidad simplicial es complicada al trabajar con más dimensiones 13.
II. MATERIALES Y MÉTODOS
Profundidad de datos
En el análisis multivariante el término profundidad se refiere al grado de centralidad de un punto con respecto a una distribución de probabilidad. De 13-15 se sigue que, fijada una distribución P en Rd, una profundidad es una función acotada Dp:Rd→R que asigna a cada punto de Rd su grado de centralidad respecto de P.
La profundidad simplicial (SD) es la probabilidad de que un punto esté en el simplex, cuyos vértices son d+1 observaciones independientes de una distribución P 16-17,
Donde X1, X2,…,X(d+1) son las observaciones independientes de P y “co” representa la envolvente convexa. La versión muestral de la SD se obtiene reemplazando P por su estimado muestral Pn o calculando la fracción de los símplices aleatorios de la muestra que contienen al punto x.
Gráficos de control para procesos multivariados
Los gráficos o cartas de control son herramientas usadas en la industria, ya que, con límites de control seleccionados adecuadamente, pueden detectar un desplazamiento de una distribución de calidad “buena” a una “mala”. Para procesos multivariados se disponen de varios tipos de cartas de control 18-21, entre ellas se tienen: la carta r (usada en este trabajo), la carta Q y la carta S. La idea principal es reducir cada medida multivariante a su ordenamiento relativo del centro hacia afuera inducido por profundidad de datos 22,23.
Sea k,(k≥1) el número de características de cada producto usadas para determinar la calidad del mismo. Sea G la distribución k-dimensional, y Y1,…Ym las m observaciones aleatorias de G, la muestra de referencia, y sean X1,X2 … las nuevas observaciones provenientes del proceso de manufactura. Se asume que las Xi’s siguen una distribución F. Ahora bien, basado en las observaciones Xi’s, se quiere determinar si la calidad del producto se ha deteriorado o si el proceso está fuera de control. Esto ocurriría si las Xi’s no siguen la distribución G(.). Por tanto, es necesario comparar las distribuciones F y G.
La profundidad de datos induce un ordenamiento del centro hacia afuera de los puntos de la muestra si se calcula la profundidad de todos los puntos y se los compara. Si se ordenan todas las profundidades DG(Yi )’s en orden ascendente y se usa Y(j); para denominar al punto de la muestra asociado con el j-ésimo valor de profundidad más pequeño, entonces Y(1), Y(2),…Y(m); son los estadísticos de orden de los Yi’s siendo Y(m); el punto más central. Se tiene Y~G, es decir, la variable aleatoria Y sigue la distribución G, si únicamente G es desconocida y se tiene la muestra {Y1,…Ym}, el rango se define 9:
Para construir la carta r primero se calcula {rG(X1), rG(X2),…} o {rGm(X1),rGm(X2),…} usando la Ecuación (2). El proceso es declarado fuera de control si rG(.) cae bajo α.
La carta r, con LCL=α, corresponde a una prueba de hipótesis de nivel α 18 con H0: F=G y Ha: existe un desplazamiento de localización y/o un incremento de escala desde G a F 5. H0 es rechazada cuando una observación cae bajo α. En 18 se presenta una proposición la cual, bajo la hipótesis H0, permite justificar la elección de los límites mencionados para CL=0.5 y LCL=α para la carta r.
Sistema Umbral
En el conjunto de datos es necesario delimitar un desempeño medio esperado, para seleccionar el conjunto de datos esperado, se seguirá el principio del Clúster Medio mostrado en el trabajo de 12, el cual establece que el escoger un clúster medio hace posible identificar en el total, desempeños que sean extraordinarios o fuera de lo ordinario. Por otra parte, en 18 se presenta un procedimiento de separación y filtrado para configurar el clúster medio. Primero se selecciona el 80% más profundo o más central de los datos y se forma una región convexa englobando a estas medidas, luego se considera al 80% de datos más profundos así seleccionados como el conjunto de referencia y a su región convexa como el umbral para identificar desempeños esperados y finalmente el 20% restante corresponderá al grupo de datos no representativos estructurado así: aproximadamente 10% como de atención requerida y 5% de cada uno de los extremos: inusualmente buenos o inusualmente malos.
Para efectos de la clasificación del desempeño, se considerarán los siguientes niveles: esperado, advertencia, de preocupación e informacional, los que son detallados en la siguiente sección.
Metodología
En esta sección se describen los datos, posteriormente se indica el procedimiento de separación del conjunto de referencia a ser comparado con los datos individuales, luego se explica el sistema umbral y finalmente se muestra el uso de la carta r. Este procedimiento se realizó en el lenguaje R con los paquetes qcr y fda.usc 24,25.
Los datos utilizados en este trabajo provienen de una institución que ha solicitado no se cite la fuente, debido a razones de sigilo educativo. Habrá dos grupos de análisis, el primer grupo de desempeño promedio por materia, utilizando la información de 7 materias en el período 2008 - 2015. El segundo grupo analizará el desempeño individual, es decir trabajaremos con la información de 15 estudiantes que cursaron materias de estadística en el período 2008 - 2011.
Las siglas de las materias son ficticias y son las siguientes: AES1, AES2, AES3, AES4, AES5, AES6 y AES7. Se utilizarán las variables nota promedio semestral (NPM) y el porcentaje de aprobación de alumnos semestral (PAM).
Los estudiantes se identifican con siglas ficticias: 8426, 8427, 8509, 6054, 6066, 6166, 6202, 6450, 6515, 6841, 7059, 7060, 7077, 7080, 7091. Las variables porcentaje de materias aprobadas (PMAE) y la nota promedio semestral (NPE) de cada estudiante fueron seleccionadas pues son variables de interés en otros trabajos realizados.
El procedimiento de separación del núcleo típico que se aplicará a las materias como a los estudiantes es el mismo. Primero se calculan y ordenan los valores de profundidad simplicial de todo el conjunto, seguido de la selección del 80% más profundo y se forma una región convexa a partir de estas medidas. El conjunto de referencia estará constituido por el 80% central seleccionado de esta manera. Cada materia y estudiante se compara con este conjunto de referencia para monitorear el desempeño.
![](/img/revistas/perfiles/v1n24//2477-9105-perfiles-1-24-00068-gf1.png)
Figura 1 Gráfico bivariado de la materia AES7 que representa los grupos considerados para la clasificación de desempeño dentro de cada materia.
A continuación, presentamos el análisis por materias. Los niveles considerados para la clasificación de desempeño dentro de cada materia son presentados a continuación y son ejemplificadas en la Figura 1. El nivel esperado, si las dos variables son comparables con el clúster medio (los círculos blancos dentro de la envolvente convexa). “Advertencia”, si los puntos se alejan un poco del clúster medio y generalmente una de las dos variables no es consistente con el conjunto de referencia (los cuadrados con una x fuera de la envolvente convexa). “De preocupación”, los puntos se alejan más del clúster medio y generalmente las dos variables son peores que las del conjunto de referencia (los asteriscos fuera de la envolvente convexa). “Informacional”, las dos variables son mejores que el conjunto de referencia y están en la parte superior derecha más alejados del clúster medio (los cuadrados blancos fuera de la envolvente convexa y en la parte superior de la misma).
![](/img/revistas/perfiles/v1n24//2477-9105-perfiles-1-24-00068-gf2.png)
Figura 2 Carta r de la materia AES7 que identifica seis puntos fuera de la envolvente convexa que caen bajo la línea LCL.
Durante el análisis por materias, se aplicará la carta r para monitorear las variables NPM y PAM. Los valores de las líneas de control en la carta r son las siguientes LCL=0.05 y CL=0.5, si G es la distribución de los datos del clúster medio o esperado, F la distribución monitoreada, se tiene la hipótesis H0: F=G versus Ha:G≠F. Si r< α =0.05 puede ser que los puntos corresponden a las condiciones de preocupación, de advertencia o informacional.
Por ejemplo, en la Figura 2, la carta r de la misma materia analizada en la sección anterior; se pueden apreciar los seis puntos fuera de la envolvente convexa que caen bajo la línea LCL. Estos son: el 2, 5, 6, 13, 14,15. Hay un punto esperado: el 11 que aparece bajo la línea LCL, pero es debido a que se encuentra en la frontera de la envolvente convexa. En todo caso, se mantiene la información mostrada en la Figura 1, los puntos 2, 5 y 6 son puntos de advertencia; el 13 es de preocupación y los puntos 14 y 15 son informacionales. Un proceso y análisis similar se puede llevar a cabo para los estudiantes, en este caso se consideran las variables PMAE y NPE.
III. RESULTADOS Y DISCUSIÓN
En esta sección se utilizan los datos de una materia y de un estudiante para el análisis de los resultados. Primero presentamos un análisis por materias, más específicamente una comparación de la materia AES2 con el clúster medio. En la Figura 3 se aprecia que hay 5 puntos fuera de la envolvente convexa, siendo tres de advertencia y dos de ellos informacionales (éstos últimos con cuadros en blanco). Los de advertencia nos indican que se debe prestar atención al desempeño de las materias y los informacionales muestran que ha ocurrido un desempeño superior al de referencia. Esta información se puede complementar con la que proporciona la carta r mostrada en la Figura 4. Además, se puede ver que hay 5 puntos (del 2 al 6) que están por debajo de la línea LCL, los cuales corresponden a los 5 puntos mostrados por el gráfico bivariado de la Figura 3. Por otro lado, los puntos 2, 5 y 6 corresponden a desempeños de advertencia, y el 3 y 4 a mejores desempeños que el de referencia.
![](/img/revistas/perfiles/v1n24//2477-9105-perfiles-1-24-00068-gf3.png)
Figura 3 Gráfico bivariado de AES2 que representa los grupos considerados para la clasificación de desempeño dentro de cada materia.
![](/img/revistas/perfiles/v1n24//2477-9105-perfiles-1-24-00068-gf4.png)
Figura 4 Carta r de la materia AES2, que identifica cinco puntos fuera de la envolvente convexa que caen bajo la línea LCL.
Finalmente, se presenta un análisis por estudiante, la Figura 5 muestra la comparación del estudiante 7091 con el clúster medio en cuanto al desempeño de las materias cursadas. Se puede apreciar que hay dos puntos fuera de la envolvente convexa: uno de preocupación y uno de advertencia. Lo mismo se puede apreciar en la Figura 6, en la carta r del estudiante.
IV. CONCLUSIONES
Las herramientas de control de la calidad se pueden considerar no solo para monitorizar procesos industriales sino también procesos relacionados con la educación, por ejemplo, la evaluación del desempeño estudiantil.
En nuestro caso, para monitorizar varias características del desempeño tales como el rendimiento, la asistencia a clases y se podrían incluir otras más. Se utiliza la carta r y se aplica el concepto de profundidad que transforma una observación multivariante a un índice univariante, el cual es susceptible de monitorizar en una carta de control.
Mediante el sistema Umbral, se pueden identificar varios grupos de desempeño y para cada uno de ellos obtener medidas descriptivas que permitan resumir el perfil de los estudiantes.
A partir de estos resultados se pueden plantear objetivos con la finalidad de poder reconfigurar los grupos de desempeño. Por ejemplo, se podría pensar en estrategias para subir el nivel del rendimiento en cada grupo utilizando diferentes metodologías de enseñanza.
Respecto a materias y a porcentaje de alumnos aprobados, el análisis mostró que los datos de las materias seguían en su totalidad una distribución normal. Así mismo, las notas promedio de los 15 estudiantes siguen casi en su totalidad distribuciones normales (excepto: 6450 y 6066).
Además, con respecto a los 15 estudiantes en particular, el análisis mostró que el porcentaje de materias aprobadas seguía en su mayoría una distribución no normal. Esto permite ver la eficacia de contar con métodos no paramétricos en los casos donde no se cumple los supuestos de normalidad.
Las cartas r muestran el desenvolvimiento de las notas promedio en el tiempo y se ve claramente la presencia de altos y bajos en el desempeño. Los puntos extraordinarios brindan oportunidades de realizar una retroalimentación a estudiantes, para mejorar o continuar según sea el caso.