SciELO - Scientific Electronic Library Online

 
vol.1 número24MODELO DE POISSON PARA LA ESTIMACIÓN DE DELITOS ADUANEROS EN EL ECUADORPOTENCIAL ENERGÉTICO RENOVABLE DE ALTA ENTALPÍA DE LA CUENCA ALTA DEL RÍO PASTAZA índice de autoresíndice de materiabúsqueda de artículos
Home Pagelista alfabética de revistas  

Servicios Personalizados

Revista

Articulo

Indicadores

Links relacionados

  • No hay articulos similaresSimilares en SciELO

Compartir


Perfiles

versión On-line ISSN 2477-9105

Perfiles vol.1 no.24 Riobamba jul./dic. 2020

https://doi.org/10.47187/perf.v1i24.84 

Articles

APLICACIONES DE NUEVAS METODOLOGÍAS PARA EL MONITOREO MULTIVARIADO DEL RENDIMIENTO ESTUDIANTIL UTILIZANDO GRÁFICOS DE CONTROL Y SISTEMAS UMBRAL

New methodologies applied to multivariate monitoring of student performance using control charts and threshold systems

Guido Saltos Segura1 

Miguel Flores Sánchez2 

Luis Horna Huaraca2 

Katherine Morales Quinga2 

1Universidad de las Américas, Escuela de Ciencias Físicas y Matemáticas, Quito, Ecuador.

2Escuela Politécnica Nacional, Facultad de Ciencias, Quito, Ecuador.


RESUMEN

Este trabajo usa el concepto de profundidad de datos, así como la carta de control no paramétrica r desarrollada por Regina Liu, para monitorear el desempeño estudiantil en un grupo de materias en una institución educativa en un período determinado de tiempo. La metodología usa un conjunto de referencia obtenido de los resultados mismos en lugar de estándares ideales. Este conjunto de referencia sirve para calibrar la carta de control y así monitorear datos subsecuentes. El concepto de profundidad de datos permite crear un índice univariado a partir, en este caso de dos variables, para generar un ordenamiento de “adentro” hacia “afuera” de la nube de puntos, siendo el punto más central el de mayor profundidad. El posterior cálculo del rango a partir de las profundidades es la base de la carta r.

Palabras clave: profundidad de datos; cartas de control no paramétricas; educación

ABSTRACT

This paper uses the concept of data depth as well as the nonparametric control chart developed by Regina Liu, to monitor student performance in a group of subjects at an educational institution over a given period of time. The methodology uses a reference set obtained from the results themselves rather than ideal standards. This reference set serves to calibrate the control chart and therefore monitor subsequent data. The concept of data depth allows creating a univariate index from, in this case, two variables, to generate an order from "inside" to "outside" the point cloud, the most central point being the deepest. The subsequent calculation of the range from the depths is the basis of the chart r.

Keywords: data depth; nonparametric control charts; education

I. INTRODUCCIÓN

El rendimiento estudiantil ha sido medido tradicionalmente por notas académicas, las cuales han sido un reflejo de los logros estudiantiles en los diferentes componentes del aprendizaje 1,2. Sin embargo, varios enfoques diferentes han surgido en los últimos años, por ejemplo, se ha buscado explicar el logro de los estudiantes mediante el uso de gráficos de control 3-5, también se puede usar la regresión múltiple y regresión logística para determinar las variables predictoras del rendimiento académico 6,7. Existen otros trabajos utilizando modelos de regresión multinivel para predecir calificaciones finales 8 o modelos de clasificación para predecir el rendimiento académico de los estudiantes 9. Por otra parte, los modelos TOBIT que relacionan características personales, entorno familiar, etc. con el rendimiento académico 10,11.

El presente trabajo pretende mostrar el monitoreo del rendimiento estudiantil a lo largo del tiempo, y realizar el control de calidad para el análisis de señales tempranas que indiquen que el resultado del rendimiento no se encuentra en los límites aceptables de control, permitiendo así tomar acciones correctivas a tiempo. Además, se usará el enfoque de monitoreo de dos variables para poder aplicar el concepto de profundidad de datos simplicial. Una ventaja del presente método es que no requiere normalidad en las distribuciones de los datos.

Este trabajo es, además, una aplicación de la metodología expuesta en 12 con dos variables, ya que estudios posteriores han demostrado que la profundidad simplicial es complicada al trabajar con más dimensiones 13.

II. MATERIALES Y MÉTODOS

Profundidad de datos

En el análisis multivariante el término profundidad se refiere al grado de centralidad de un punto con respecto a una distribución de probabilidad. De 13-15 se sigue que, fijada una distribución P en Rd, una profundidad es una función acotada Dp:Rd→R que asigna a cada punto de Rd su grado de centralidad respecto de P.

La profundidad simplicial (SD) es la probabilidad de que un punto esté en el simplex, cuyos vértices son d+1 observaciones independientes de una distribución P 16-17,

()1

Donde X1, X2,…,X(d+1) son las observaciones independientes de P y “co” representa la envolvente convexa. La versión muestral de la SD se obtiene reemplazando P por su estimado muestral Pn o calculando la fracción de los símplices aleatorios de la muestra que contienen al punto x.

Gráficos de control para procesos multivariados

Los gráficos o cartas de control son herramientas usadas en la industria, ya que, con límites de control seleccionados adecuadamente, pueden detectar un desplazamiento de una distribución de calidad “buena” a una “mala”. Para procesos multivariados se disponen de varios tipos de cartas de control 18-21, entre ellas se tienen: la carta r (usada en este trabajo), la carta Q y la carta S. La idea principal es reducir cada medida multivariante a su ordenamiento relativo del centro hacia afuera inducido por profundidad de datos 22,23.

Sea k,(k≥1) el número de características de cada producto usadas para determinar la calidad del mismo. Sea G la distribución k-dimensional, y Y1,…Ym las m observaciones aleatorias de G, la muestra de referencia, y sean X1,X2 … las nuevas observaciones provenientes del proceso de manufactura. Se asume que las Xi’s siguen una distribución F. Ahora bien, basado en las observaciones Xi’s, se quiere determinar si la calidad del producto se ha deteriorado o si el proceso está fuera de control. Esto ocurriría si las Xi’s no siguen la distribución G(.). Por tanto, es necesario comparar las distribuciones F y G.

La profundidad de datos induce un ordenamiento del centro hacia afuera de los puntos de la muestra si se calcula la profundidad de todos los puntos y se los compara. Si se ordenan todas las profundidades DG(Yi )’s en orden ascendente y se usa Y(j); para denominar al punto de la muestra asociado con el j-ésimo valor de profundidad más pequeño, entonces Y(1), Y(2),…Y(m); son los estadísticos de orden de los Yi’s siendo Y(m); el punto más central. Se tiene Y~G, es decir, la variable aleatoria Y sigue la distribución G, si únicamente G es desconocida y se tiene la muestra {Y1,…Ym}, el rango se define 9:

()2

Para construir la carta r primero se calcula {rG(X1), rG(X2),…} o {rGm(X1),rGm(X2),…} usando la Ecuación (2). El proceso es declarado fuera de control si rG(.) cae bajo α.

La carta r, con LCL=α, corresponde a una prueba de hipótesis de nivel α 18 con H0: F=G y Ha: existe un desplazamiento de localización y/o un incremento de escala desde G a F 5. H0 es rechazada cuando una observación cae bajo α. En 18 se presenta una proposición la cual, bajo la hipótesis H0, permite justificar la elección de los límites mencionados para CL=0.5 y LCL=α para la carta r.

Sistema Umbral

En el conjunto de datos es necesario delimitar un desempeño medio esperado, para seleccionar el conjunto de datos esperado, se seguirá el principio del Clúster Medio mostrado en el trabajo de 12, el cual establece que el escoger un clúster medio hace posible identificar en el total, desempeños que sean extraordinarios o fuera de lo ordinario. Por otra parte, en 18 se presenta un procedimiento de separación y filtrado para configurar el clúster medio. Primero se selecciona el 80% más profundo o más central de los datos y se forma una región convexa englobando a estas medidas, luego se considera al 80% de datos más profundos así seleccionados como el conjunto de referencia y a su región convexa como el umbral para identificar desempeños esperados y finalmente el 20% restante corresponderá al grupo de datos no representativos estructurado así: aproximadamente 10% como de atención requerida y 5% de cada uno de los extremos: inusualmente buenos o inusualmente malos.

Para efectos de la clasificación del desempeño, se considerarán los siguientes niveles: esperado, advertencia, de preocupación e informacional, los que son detallados en la siguiente sección.

Metodología

En esta sección se describen los datos, posteriormente se indica el procedimiento de separación del conjunto de referencia a ser comparado con los datos individuales, luego se explica el sistema umbral y finalmente se muestra el uso de la carta r. Este procedimiento se realizó en el lenguaje R con los paquetes qcr y fda.usc 24,25.

Los datos utilizados en este trabajo provienen de una institución que ha solicitado no se cite la fuente, debido a razones de sigilo educativo. Habrá dos grupos de análisis, el primer grupo de desempeño promedio por materia, utilizando la información de 7 materias en el período 2008 - 2015. El segundo grupo analizará el desempeño individual, es decir trabajaremos con la información de 15 estudiantes que cursaron materias de estadística en el período 2008 - 2011.

Las siglas de las materias son ficticias y son las siguientes: AES1, AES2, AES3, AES4, AES5, AES6 y AES7. Se utilizarán las variables nota promedio semestral (NPM) y el porcentaje de aprobación de alumnos semestral (PAM).

Los estudiantes se identifican con siglas ficticias: 8426, 8427, 8509, 6054, 6066, 6166, 6202, 6450, 6515, 6841, 7059, 7060, 7077, 7080, 7091. Las variables porcentaje de materias aprobadas (PMAE) y la nota promedio semestral (NPE) de cada estudiante fueron seleccionadas pues son variables de interés en otros trabajos realizados.

El procedimiento de separación del núcleo típico que se aplicará a las materias como a los estudiantes es el mismo. Primero se calculan y ordenan los valores de profundidad simplicial de todo el conjunto, seguido de la selección del 80% más profundo y se forma una región convexa a partir de estas medidas. El conjunto de referencia estará constituido por el 80% central seleccionado de esta manera. Cada materia y estudiante se compara con este conjunto de referencia para monitorear el desempeño.

Figura 1 Gráfico bivariado de la materia AES7 que representa los grupos considerados para la clasificación de desempeño dentro de cada materia. 

A continuación, presentamos el análisis por materias. Los niveles considerados para la clasificación de desempeño dentro de cada materia son presentados a continuación y son ejemplificadas en la Figura 1. El nivel esperado, si las dos variables son comparables con el clúster medio (los círculos blancos dentro de la envolvente convexa). “Advertencia”, si los puntos se alejan un poco del clúster medio y generalmente una de las dos variables no es consistente con el conjunto de referencia (los cuadrados con una x fuera de la envolvente convexa). “De preocupación”, los puntos se alejan más del clúster medio y generalmente las dos variables son peores que las del conjunto de referencia (los asteriscos fuera de la envolvente convexa). “Informacional”, las dos variables son mejores que el conjunto de referencia y están en la parte superior derecha más alejados del clúster medio (los cuadrados blancos fuera de la envolvente convexa y en la parte superior de la misma).

Figura 2 Carta r de la materia AES7 que identifica seis puntos fuera de la envolvente convexa que caen bajo la línea LCL. 

Durante el análisis por materias, se aplicará la carta r para monitorear las variables NPM y PAM. Los valores de las líneas de control en la carta r son las siguientes LCL=0.05 y CL=0.5, si G es la distribución de los datos del clúster medio o esperado, F la distribución monitoreada, se tiene la hipótesis H0: F=G versus Ha:G≠F. Si r< α =0.05 puede ser que los puntos corresponden a las condiciones de preocupación, de advertencia o informacional.

Por ejemplo, en la Figura 2, la carta r de la misma materia analizada en la sección anterior; se pueden apreciar los seis puntos fuera de la envolvente convexa que caen bajo la línea LCL. Estos son: el 2, 5, 6, 13, 14,15. Hay un punto esperado: el 11 que aparece bajo la línea LCL, pero es debido a que se encuentra en la frontera de la envolvente convexa. En todo caso, se mantiene la información mostrada en la Figura 1, los puntos 2, 5 y 6 son puntos de advertencia; el 13 es de preocupación y los puntos 14 y 15 son informacionales. Un proceso y análisis similar se puede llevar a cabo para los estudiantes, en este caso se consideran las variables PMAE y NPE.

III. RESULTADOS Y DISCUSIÓN

En esta sección se utilizan los datos de una materia y de un estudiante para el análisis de los resultados. Primero presentamos un análisis por materias, más específicamente una comparación de la materia AES2 con el clúster medio. En la Figura 3 se aprecia que hay 5 puntos fuera de la envolvente convexa, siendo tres de advertencia y dos de ellos informacionales (éstos últimos con cuadros en blanco). Los de advertencia nos indican que se debe prestar atención al desempeño de las materias y los informacionales muestran que ha ocurrido un desempeño superior al de referencia. Esta información se puede complementar con la que proporciona la carta r mostrada en la Figura 4. Además, se puede ver que hay 5 puntos (del 2 al 6) que están por debajo de la línea LCL, los cuales corresponden a los 5 puntos mostrados por el gráfico bivariado de la Figura 3. Por otro lado, los puntos 2, 5 y 6 corresponden a desempeños de advertencia, y el 3 y 4 a mejores desempeños que el de referencia.

Figura 3 Gráfico bivariado de AES2 que representa los grupos considerados para la clasificación de desempeño dentro de cada materia. 

Figura 4 Carta r de la materia AES2, que identifica cinco puntos fuera de la envolvente convexa que caen bajo la línea LCL. 

Finalmente, se presenta un análisis por estudiante, la Figura 5 muestra la comparación del estudiante 7091 con el clúster medio en cuanto al desempeño de las materias cursadas. Se puede apreciar que hay dos puntos fuera de la envolvente convexa: uno de preocupación y uno de advertencia. Lo mismo se puede apreciar en la Figura 6, en la carta r del estudiante.

Figura 5 Comparación del desempeño del estudiante 7091 con el clúster medio. 

Figura 6 Carta r del Estudiante 7091. 

IV. CONCLUSIONES

Las herramientas de control de la calidad se pueden considerar no solo para monitorizar procesos industriales sino también procesos relacionados con la educación, por ejemplo, la evaluación del desempeño estudiantil.

En nuestro caso, para monitorizar varias características del desempeño tales como el rendimiento, la asistencia a clases y se podrían incluir otras más. Se utiliza la carta r y se aplica el concepto de profundidad que transforma una observación multivariante a un índice univariante, el cual es susceptible de monitorizar en una carta de control.

Mediante el sistema Umbral, se pueden identificar varios grupos de desempeño y para cada uno de ellos obtener medidas descriptivas que permitan resumir el perfil de los estudiantes.

A partir de estos resultados se pueden plantear objetivos con la finalidad de poder reconfigurar los grupos de desempeño. Por ejemplo, se podría pensar en estrategias para subir el nivel del rendimiento en cada grupo utilizando diferentes metodologías de enseñanza.

Respecto a materias y a porcentaje de alumnos aprobados, el análisis mostró que los datos de las materias seguían en su totalidad una distribución normal. Así mismo, las notas promedio de los 15 estudiantes siguen casi en su totalidad distribuciones normales (excepto: 6450 y 6066).

Además, con respecto a los 15 estudiantes en particular, el análisis mostró que el porcentaje de materias aprobadas seguía en su mayoría una distribución no normal. Esto permite ver la eficacia de contar con métodos no paramétricos en los casos donde no se cumple los supuestos de normalidad.

Las cartas r muestran el desenvolvimiento de las notas promedio en el tiempo y se ve claramente la presencia de altos y bajos en el desempeño. Los puntos extraordinarios brindan oportunidades de realizar una retroalimentación a estudiantes, para mejorar o continuar según sea el caso.

REFERENCIAS

1. Garbanzo G. (2013). Factores asociados al rendimiento académico en estudiantes universitarios desde el nivel socioeconómico: Un estudio en la Universidad de Costa Rica. Revista Electrónica Educare On-line version ISSN 1409-4258 Educare Vol. 17(3). [ Links ]

2. Collins J., White G., Kennedy J. (1995). Entry to medical school: an audit of traditional selection requirements. Medical Education. Vol. 29(1): 22-28. [ Links ]

3. Okwonu F., Ogini N. (2017). Application of x and S Control Charts to Investigate Students Performance. Journal of Advances in Mathematics and Computer Science. Vol. 23(4): 1-15. [ Links ]

4. Beshah B. (2012). Students'' Performance Evaluation Using Statistical Quality Control. International Journal of Science and Advanced Technology. Vol. 2(12): 75-79. [ Links ]

5. Edwards H., Govindaraju K., Lai C. (2007). A control chart procedure for monitoring university student grading. International Journal of Services Technology and Management. Vol. 8(4-5), 344-354. [ Links ]

6. Eskew R., Faley R. (1988). Some determinants of student performance in the first college-level financial accounting course. The Accounting Review. Vol. 63(1): 137-147. [ Links ]

7. Barahona P., Aliaga V. (2014) Variables predictoras del rendimiento académico de los alumnos de primer año de las carreras de Humanidades de la Universidad de Atacama, Chile. Rev. Int. Investig. Cienc. Soc. Vol. 9(2): 207-220. [ Links ]

8. Montero E., Villalobos J., Valverde A. (2007). Factores Institucionales, Pedagógicos, Psicosociales y Sociodemográficos asociados al rendimiento académico en la Universidad de Costa Rica: Un análisis Multinivel. Revista Electrónica de Investigación y Evaluación Educativa. Vol.13(2): 215-234. [ Links ]

9. Pandey M., Taruna S. (2014). A Multi-level Classification Model Pertaining to The Student's Academic Performance Prediction. International Journal of Advances in Engineering and Technology. Vol. 7(4): 1329-1341. [ Links ]

10. Ferreyra M. (2007). Determinantes del Desempeño Universitario: Efectos Heterogéneos en un Modelo Censurado. Tesis de Maestría. Maestría en Economía. Universidad Nacional de La Plata. [ Links ]

11. Muhammedhussen M. (2016). Determinants of economics students’ academic performance: Case study of Jimma University, Ethiopia. International Journal of Scientific and Research Publications. Vol. 6(1): 566-571. [ Links ]

12. Cheng A., Liu R., Luxhoj J. (2000) Monitoring multivariate aviation safety data by data depth: control charts and thresholds systems. IIE Transactions. 32: 861-872. [ Links ]

13. Cascos I., López A., Romo J. (2011). Data Depth in Multivariate Statistics. Boletín de Estadística e Investigación Operativa. Vol. 27(3):151-174. [ Links ]

14. Dyckerhoff, R. (2004). Data depths satisfying the projection property. AStA-Advances in Statistical Analysis. Vol. 88(2): 163-190. [ Links ]

15. Lange T., Mosler K., Mozharovskyi, P. (2014). Fast nonparametric classification based on data depth. Statistical Papers. Vol. 55(1): 49-69. [ Links ]

16. Liu R. (1990). On a notion of data depth based on random simplices. The Annals of Statistics. Vol. 18(1): 405-414. [ Links ]

17. Liu, R. Y. (1988). On a notion of simplicial depth. Proceedings of the National Academy of Sciences. Vol. 85(6): 1732-1734. [ Links ]

18. Liu R. (1995). Control Charts for Multivariate Processes. American Statistical Association. Vol. 90(432): 1380-1388. [ Links ]

19. Bersimis S., Psarakis S., Panaretos, J. (2007). Multivariate statistical process control charts: an overview. Quality and Reliability engineering international. Vol 23(5): 517-543. [ Links ]

20. Lowry C., Montgomery D. (1995). A review of multivariate control charts. IIE transactions. Vol. 27(6): 800-810. [ Links ]

21. Li Z., Dai Y., Wang Z. (2014). Multivariate change point control chart based on data depth for phase I analysis. Communications in Statistics-Simulation and Computation. Vol. 43(6): 1490-1507. [ Links ]

22. Liu R., Singh K., Teng J. (2004). DDMA-charts: nonparametric multivariate moving average control charts based on data depth. Allgemeines Statistisches Archiv. Vol 88(2): 235-258. [ Links ]

23. Liu R., Parelius J., Singh K. (1999). Multivariate analysis by data depth: descriptive statistics, graphics and inference. The Annals of Statistics. Vol. 27(3), 783-858. [ Links ]

24. Flores M., Naya S., Fernández R. (2014). Quality Control and reliability, (qcr). V01-18. CRAN Repository. [ Links ]

25. Febrero M., Oviedo M., Galeano P., Nieto A., García-Portugués E. (2015). Functional Data Analysis and Utilities for Statistical Computing, (fda.usc) V.1.2.2. CRAN Repository. [ Links ]

Recibido: 22 de Julio de 2019; Aprobado: 20 de Abril de 2020

Creative Commons License Este es un artículo publicado en acceso abierto bajo una licencia Creative Commons