Introducción
Al margen de los debates sostenidos en torno a la validez del conocimiento, de su pertinencia con la realidad que dice reflejar, o del fundamento desde el cual se concibe como pensamiento científico, la ciencia centra el núcleo de sus planteamientos teóricos en la metodología que le acompaña.
Sobre la base de un ascetismo metodológico que valida y orienta el quehacer del investigador, la rectoría de la razón científica se ajusta a la máxima establecida por Bourdieu, Chamboredon y Passeron (1975), quienes siguiendo a Bachelard (2000) puntualizan en que el hecho científico se conquista, se construye y se comprueba. La tarea se completa cuando el investigador rompe con la ingenuidad que el dato supone, para de ahí reconstruirlo, al asociarlo con la teoría que lo explica, que lo interpreta. Mucho de la vigilancia epistemológica que proponen pasa por reconocer la jerarquía epistémica que el dato implica, esclareciendo la tautología que los estudios experimentales arropan; la idea es trascender el algoritmo para ir tras de la heurística, pasar del «saber inmediato» al «hecho».
Se trata de dos fases que el investigador debe reconocer y atender dentro de su quehacer indagatorio. Para ello es necesario pensar en las limitantes inherentes a la obtención del dato, como reflejo y referente de la realidad que se dice estudiar. No hay quehacer tan complejo como este. Pese a ello existe en el imaginario colectivo, sobre todo en el de muchos noveles investigadores, la idea de que la apropiación del dato resulta de un proceso lineal, por necesidad inmanente a la condición humana, denominador común de todo proceso indagatorio. Se pasa por alto que, independientemente de la lógica del error que domina en las principales doctrinas de pensamiento científico, la relatividad suele dictar los límites del propio pensamiento, ya que es la construcción teórica de los objetos la que impone su sentido y naturaleza.
De esta manera, la apropiación del dato termina por ser la evidencia empírica necesaria para respaldar cualquier saber que pretenda ser verdadero, elemento consustancial de la teoría que lo explica e interpreta. En atención a este nivel de incertidumbre, se han diseñado diversos esquemas metodológicos para asegurar que los instrumentos o test aplicados midan lo que dicen medir, y además lo hagan cada vez que se apliquen en un grupo y contexto determinado (Prieto y Delgado 2010; Romero, 2011; Soriano 2014).
Sobre el empleo de los test, Gómez-Benito, Hidalgo y Guilera (2010) establecen que “un test se administra con un objetivo concreto, generalmente para tomar decisiones que en la mayoría de ocasiones son relevantes para la vida del individuo receptor” (p.75), esto es, son instrumentos valiosos para evaluar y tomar decisiones que en menor o mayor medida puedan incidir en la intervención concreta de una realidad, una vez que esta es descrita, caracterizada e incluso comprendida.
Por su parte, López-Mezquita (2007) establece que “el nacimiento de un test surge de la necesidad de cubrir un hueco en algún área del campo de la evaluación” (p. 271), lo que exige elaborar un riguroso plan para su diseño.
En este cauce de propósitos útiles que la propia investigación supone, existe en todos los investigadores una preocupación latente: la presencia de un posible sesgo en la medición, es decir, la existencia de un error proveniente del diseño del propio instrumento. Al respecto se tiene que:
…la presencia de un posible sesgo en los ítems que componen el test es una preocupación central en la evaluación de la validez de los instrumentos de medida, entendiendo por validez el grado en que la evidencia empírica y el razonamiento teórico apoyan la adecuación e idoneidad de las interpretaciones basadas en las puntuaciones de acuerdo con los usos propuestos. (Gómez-Benito, Hidalgo y Guilera, 2010, p.75)
De manera análoga es posible afirmar que el test es el fino bisturí con el cual un investigador disecciona la realidad. De ahí la permanente vigilancia que debe asignársele a su diseño.
Al respecto, las tradicionales estimaciones de confiabilidad se hallan ligadas a los sujetos, los ítems y los evaluadores, en tanto la situación de aplicación, las interacciones entre estas fuentes y el error aleatorio «puro» habitualmente se reducen mediante una estricta estandarización de la misma (Cervantes, 2005).
No obstante, este problema puede ser atendido a partir de verificar estadísticamente los resultados de una prueba piloto, a la que se le aplique un análisis de correlación de ítems (Van Zyl, Neudecker, & Nel., 2000; Merino-Soto y Lautenschlager, 2003; Cervantes, 2005; Corral, 2009; Soler-Cárdenas y Soler-Pons, 2012), atendiéndose la consistencia interna de la prueba, lo que involucra esperar a que el test esté terminado y haya sido aplicado a un grupo previamente seleccionado.
Otra alternativa sería el empleo de la validez de contenido (Pedrosa, Suárez-Álvarez y García-Cueto, 2013), constructo (Pérez-Gil, Chacón-Moscoso y Moreno- Rodríguez, 2000) o criterio (García-Garro, Ramos-Ortega, Díaz de León-Ponce y Olvera-Chávez, 2007) donde se busca dar sentido y coherencia a la serie de ítems de que consta el instrumento, antecedente necesario para lograr confiabilidad en las pruebas. Diversos autores han respaldado el empleo de una u otra técnica (Mikulic, s/f), e incluso algunos han sostenido que ninguna de ellas es cien por ciento confiable (Cohen & Swerdlik, 2001; Gempp-Fuentealba, 2006), ya que todas están determinadas por el nivel de error con que se juzga su validez, y no tanto por el grado de confianza que proyectan.
En medio de estas incertidumbres, es natural que el joven investigador vea comprometido su trabajo de observación a partir del cuestionamiento que se haga a su instrumento de medición. La comunidad científica en el área social, humana y de la conducta suele externar severos juicios acerca del diseño de las preguntas incluidas, la escala de medición implicada en ellas -sobre todo si se trata de variables de atributo-, y la orientación seguida dentro del análisis estadístico, así como el análisis de resultados, que muchas veces se ve sesgado por la orientación personal del investigador.
Si se atiende este contexto problemático, se estará en condiciones de avanzar en todo proyecto de investigación que involucre el diseño de instrumentos propios, y no de pruebas estandarizadas, mu- chas de las cuales no corresponden con las realidades locales, ya que fueron pensadas y probadas en grupos sociales y humanos particulares y por tanto distintos al de interés; incluso su «adecuación» puede representar un reto mayor que comprometa el propio estudio.
Con base en estas consideraciones, y en atención a lo postulado por López-Mezquita (2007), quien establece que todo plan para el diseño de un test debe contemplar los criterios y principios que se van a seguir para construirlo, a continuación, se desglosan una serie de recomendaciones dirigidas al diseño básico de un instrumento de medición, a partir de su estructura lógica, su contenido sustancial y su secuencia de entendimiento. Se espera que, con este apoyo, el novel investigador pueda alcanzar altos niveles de construcción teórica y racionalidad operativa.
Establecer con claridad el problema de investigación, los objetivos e hipótesis
Cuando se diseñen y redacten las preguntas que se incluirán en el instrumento es importante que estas guarden relación directa con el objeto de estudio y las hipótesis de trabajo, de tal manera que se puedan cumplir los objetivos de la misma.
Cuando redacte las preguntas tome en cuenta a quién irá dirigido el instrumento
Niños, jóvenes, adultos, personas en estado de vulnerabilidad social, psicológica o emocional, hombres y mujeres ubicados en medios rurales y urbanos, personas empoderadas, sujetos inmersos en conflictos, por citar algunas condiciones de contexto y situacionales, tienen que ser tomados en cuenta al momento de redactar los ítems. Para ello es necesario una evaluación previa de las condiciones en las que se encuentra la población objeto de estudio. Ello implica saber acerca de aquello que se pretende estudiar, de sus idiosincrasias e improntas. En todo caso es necesario evitar preguntas que representen algún tipo de violencia simbólica.
Adicionalmente es conveniente que los contestantes estén familiarizados con el formato del test y con la estrategia de aplicación. Esto asegura bridar las condiciones adecuadas para su administración, lo que evitará interpretaciones equivocadas que puedan invalidar los resultados.
Asegúrese de que existe un continum en la variable a medir y de que usted lo conoce
Se entiende que una variable se puede medir o no es variable. Esto es, la variable es una característica que puede tomar cualquier valor en un continuo de valores; se trata de una característica medible del fenómeno objeto de estudio. Es importante que estas sean identificadas e identificables por todos.
Verifique el tipo de variable a medir y sus relaciones teóricas
Esto es, el investigador debe diferenciar claramente entre una variable cuantitativa (continua o discreta) y una cualitativa (de atributo). Esto permitirá identificar el manejo que se le dará a la variable, sobre todo a los indicadores que supondrán su medición (variables de respuesta). Para ello es relevante saber qué variable deberá ser manipulada y controlada (independiente) y cuál se medirá (dependiente). Sobra señalar que se trata de relaciones de causa y efecto (si “p” entonces “q”), de donde se derivarán posibles manejos estadísticos de los resultados.
Operacionalice las variables a medir
Mientras las variables cuantitativas se miden directamente -peso, edad, estatura, número de hijos, entre otras-, las variables de atributo o cualitativas imponen un reto conceptual y operativo al inves- tigador. La complejidad de estos constructos exige un correcto desglose de sus propiedades a fin de permitir una observación clara y precisa, libre de interpretaciones personales. Variables como moti- vación, eficiencia, liderazgo, empatía, entre otras, deben ser primero definidas conceptualmente, para de ahí precisarlas operativamente. De esto depende que sus «dimensiones» y «categorías» puedan ser clarificadas, es decir, se trata de las formas posibles en que pueden ser observadas en un contexto real. Si esto se realiza adecuadamente, el siguiente paso es identificar los «indicadores» bajo los cuales será medida dicha variable; se trata de las expresiones que una categoría puede tomar en un entorno particu- lar, observables para ser medidas.
Ubique el nivel de medición del dato a obtener
Es necesario puntualizar que «contar» es la forma más simple de medir. A partir de aquí es posible alcanzar altos niveles de medición, los cuales deben ser identificados para cada indicador. Se trata de ubicar la medición que en cada caso será considerada en las futuras operaciones estadísticas. Un error muy común es querer manejar con una estadística paramétrica -por ejemplo, la correlación lineal- un conjunto de datos obtenidos de variables cualitativas, en un esfuerzo por darles un valor más profundo a las decisiones y conclusiones derivadas de ellas. Es imprescindible considerar que «los datos deben resistir el análisis estadístico» al que serán sometidos. No es posible pensar en aplicar un análisis de varianza para todos los datos solo porque se conoce muy bien este tipo de pruebas.
Las escalas o niveles conocidos son: nominal, ordinal, de intervalo y de razón. Los dos primeros aso- ciados generalmente a las variables cualitativas, los dos últimos, a las cuantitativas, sin que ello sea una regla rigurosa, ya que, en estudios descriptivos de corte cuantitativo, es viable emplear escalas no- minales y ordinales -conteos, relaciones, porcentajes-. A su vez, existen estudios cualitativos cuyos resultados son tratados en los niveles más altos -intervalo y de razón-, siempre y cuando los atributos medidos sean identificados con una expresión numérica, tal como ocurre cuando se emplean pruebas de X2, con escalas tipo Likert definidas por asignaciones numéricas.
Reconozca la naturaleza de la variable a medir
No todas las variables pueden ser medidas de forma única, algunas permiten más de una expresión manipulable por el investigador. Ejemplo de ello es la variable de atributo «Sexo», la cual es dicotómica estricta, es decir, solo tiene dos modos de expresarse en la realidad: macho y hembra -genéticamente, a diferencia de la variable «Género», que puede tomar distintas expresiones: masculino, femenino y las identidades transgénero.
En este mismo orden de ideas se puede mencionar la variable «Preferencia» que, al ser de atributo o cualitativa, puede tomar varios niveles en su expresión -«siempre”, «casi siempre», «de vez en cuan- do» o «nunca»-; pero aún hay más: «Preferencia» puede manejarse como dicotómica al desglosarla en dos niveles dentro de la escala, «se prefiere» o «no se prefiere». Así pasa con otras variables, tales como «Calidad», «Liderazgo», «Compromiso» y «Actitud», las cuales pueden ser manejadas como dicotómicas o politómicas, según convenga al investigador.
Cuide la redacción de las instrucciones
Evite los circunloquios y el “cantinfleo” en la redacción. Considere que si la pregunta no es clara y pre- cisa puede desalentar al contestante. Preguntas redundantes, carentes de redacción y sintaxis, obligan a una doble o triple lectura de las mismas. Es necesario redactarlas en oraciones o enunciados breves y directos, con el uso de la voz activa de los verbos. Como todo enunciado, debe expresar una idea en particular que se manifiesta por una cadena de palabras coherentemente ordenadas.
Al tratarse preferentemente de preguntas o cuestionamientos, se debe identificar fácilmente la idea principal, la cuestión a la que se hace referencia, hecho que evita la posibilidad de obtener distintas respuestas a las mismas preguntas.
Por ello, se deben evitar frases largas, las que generalmente provocan ambigüedad, o incluso que exista información innecesaria para el lector. Sobre este particular, una inadecuada organización de las ideas puede provocar desánimo y falta de interés por su lectura. Adicionalmente, se debe considerar que: 1) las oraciones no deben pasar de las 16-17 palabras; 2) la puntuación debe ser correcta; 3) no debe haber ambigüedad sintáctica o semántica; 4) de preferencia no deben emplearse oraciones subordinadas; 5) prefiéranse ideas simples y organizadas.
Privilegie las preguntas cerradas sobre las abiertas a fin de facilitar el manejo estadís- tico de las respuestas
Las preguntas cerradas brindan la posibilidad de orientar las respuestas bajo distintos niveles de intensidad dentro de una escala, lo que permite manipular y controlar mejor las variables en estudio. Adicionalmente, al tratarse de escalas diseñadas para graduar la magnitud de una variable, bajo asignaciones numéricas, es fácil identificar y definir el manejo estadístico al que serán sujetas.
Las respuestas a las preguntas abiertas comúnmente se valoran como «positivas» o «negativas», asignándoles valores nominales u ordinales -por ejemplo, cero y uno-. Al respecto es poco lo que se puede hacer estadísticamente con esta información, ya que no permite el empleo de operaciones aritméticas. Un inconveniente puede encontrarse en la necesidad de «triangular» al momento de valorar las respuestas, lo que hace necesario contar con personas capacitadas para ello.
Evite emplear términos como «cree usted», «supone» o «sospecha», ya que constituyen factores de confusión
Considerar claridad en la redacción exige buscar precisión en lo que se solicita, lo que supone evitar expresiones ambiguas que causen confusión en los sujetos. Preguntar por lo que se «cree» o «supone» lleva implícito un mensaje que se asienta más en la vaguedad que en la certeza. Creer es un acto de fe que no puede ser cuestionado por el investigador, y a menos que sea lo que se busque, es preferible evitar su uso dentro de los ítems.
No incluya más de una incógnita en cada pregunta
Sobre la base de lo indicado anteriormente, la claridad y pertinencia de los ítems descansa también en aquello que se pregunta. La idea es básica: una pregunta en cada ítem. En ocasiones se cae en el error de redactar la pregunta con ambivalencias, donde es posible que la cuestión planteada pueda interpretarse de maneras contradictorias entre sí, o bien, que remita a dos asuntos relacionados pero distintos. Un ejemplo sería: ¿De qué manera influye el ambiente escolar en el desempeño y rendimiento del estudiante? Frente a este cuestionamiento, el contestante puede sentirse atraído hacia el concepto o idea que mejor conozca o esté familiarizado, para este caso «desempeño» o «rendimiento». El mismo investigador no podría saber si la respuesta otorgada se refiere a uno u otro concepto. Mención aparte merece el trato estadístico que se le brinde a la respuesta, que exigirá una identificación clara al respecto.
La recomendación es no tratar de conseguir demasiados datos con una sola pregunta. En vez de ello diversifique el número de estas.
No sugiera la respuesta dentro de la pregunta
Preguntas tendenciosas pueden llevar a orientar las respuestas, situación que debe evitarse. Cuestionamientos como: ¿Hasta dónde las políticas institucionales están condicionando el bajo desempeño laboral?, están sostenidos por premisas que el contestante debe aceptar antes de emitir un juicio al res- pecto; para este caso se asume que las políticas están condicionando un bajo desempeño laboral, lo cual implica contar con la evidencia para ello y, sobre todo, que el contestante la conozca.
Ordene las preguntas en una forma lógica (deductiva)
No «salte» arbitrariamente de un tema a otro. Mantenga la unidad de pensamiento, de tal forma que no se muestren cambios bruscos en las temáticas abordadas. El principio radica en estructurar un test que permita un interrogatorio fluido, sin tener que regresar a temas ya tratados ítems atrás. En este sentido es necesario no incluir dentro del test hechos o sucesos que no guarden relación lógica.
Considere el tiempo que llevará contestar el cuestionario
Este aspecto es particularmente subjetivo, ya que para tener una idea más precisa es necesario pilotear el instrumento a fin de identificar tiempos mínimos y máximos para su completa solución. Una recomen- dación que puede servir de guía es asignar a los sujetos el doble de tiempo que le lleva a un investigador contestar el test.
No asuma como entendibles y válidas las preguntas formuladas
Lo apropiado es “pilotear” el instrumento; de no ser posible, al menos remítalo a un grupo de expertos para su revisión. La estrategia más empleada es el método Delphi, el cual consiste en una revisión se- cuenciada de un test, donde un grupo de expertos revisa el diseño del instrumento y aporta sus observa- ciones al investigador, quien acopia todas las sugerencias y rediseña el test, para luego reenviarlo a los mismos expertos, hasta completar de tres a cinco rondas. El propósito del diseño sucesivo es disminuir el espacio intercuartil; esto es, estimar cuánto se desvía la opinión del experto de la opinión del conjunto, calculando la mediana de las respuestas obtenidas. Para mayores detalles consúltese a Reguant-Álvarez y Torrado-Fonseca (2016).
Asegúrese de aplicar el cuestionario en el mejor momento posible a fin de evitar introducir más variación al estudio
No debe subestimarse el contexto de aplicación de los test. El espacio físico, el horario de aplicación, la condición del inmueble, los materiales empleados, entre otros aspectos, pueden modificar la respuesta que las personas otorguen al test. Espacios muy reducidos, horarios inapropiados -muy tarde o muy temprano-, mobiliario inadecuado, insuficiente o en mal estado, son condiciones que deben evitarse.
Tome el tiempo necesario para capacitar a los aplicadores
Toda evaluación puede sesgarse, e incluso perderse, por un mal manejo del proceso de aplicación. La capacitación de los aplicadores del test es clave en este sentido. Hay que tomarse el tiempo para en- trenarlos, aclarar sus dudas, plantearles las posibles consultas que pueden surgir en el momento de la aplicación y establecer los criterios que normarán el proceso.
Considere incluir preguntas «ambientadoras»
Lo que se busca es ganar la confianza del interrogado. Estas pueden no ser de interés para la investiga- ción, pero facilitan la resolución del cuestionario. En muchas ocasiones sirve de enlace o de sustento para el entendimiento lógico de los ítems siguientes.
Mención aparte merecen las preguntas generales, tales como el sexo, la edad, el nivel educativo y la procedencia del contestante, conocidas como «variables de agrupación», útiles para segmentar la información en el manejo estadístico de los datos.
Conclusiones
Sin dejar de reconocer que el diseño de instrumentos y test de medición/evaluación es un campo amplia- mente explorado por los psicólogos experimentales y clínicos, es necesario reconocer que para muchos profesionales de las ciencias humanas y de la conducta el ámbito de las escalas y sus métricas es poco conocido. Esto se observa al revisar los numerosos trabajos que actualmente se publican en revistas y se presentan dentro de los congresos de investigación, donde basta con señalar la construcción de un test para suponer de facto la validez del estudio presentado.
Pero transformar una variable de atributo o cualitativa en una cuantitativa es un proceso que reclama la mayor seriedad posible. Conceptos o constructos como calidad, actitud, valoración, motivación, liderazgo y experiencia tienen que ser operacionalizados con el propósito de asignarles un referente numérico que permita su análisis estadístico y una interpretación que atienda a estándares previamente establecidos, que no permita el sesgo a partir de las apreciaciones del investigador.
Si bien existe la posibilidad de acudir a test estandarizados, probados en ambientes muy específicos -y por tanto situados-, se debe reconocer la necesidad de validarlos y adaptarlos a situaciones particulares, ya que la varianza del error tiende a ser distinta en condiciones diferenciadas, por ejemplo, si se piensa en «creencias religiosas», no es lo mismo pensarlas en contextos culturales anglosajones que latinos, por lo que el test empleado puede variar en sus resultados. De esta forma el margen de error incluso puede variar; “en este contexto ‘error’ se refiere a la suposición de que factores distintos al que pretende medir la prueba influirán en el desempeño de ésta” (Mikulic, s/f, p. 11).
Una forma de minimizar el impacto de estos errores -y los sesgos que suponen- es complementar los resultados del test, es decir, no centrar la validez del estudio solo en aquello que derive del test, ya que existen diversas técnicas e instrumentos para abordar el estudio de un constructo. Aplicar más de un test puede ser otra medida recomendable.
En todo caso, tal como lo expresa Mikulic (s/f):
Si se quieren usar pruebas adecuadas se deberá tener en cuenta: cómo se elaboró la prueba, las condicio- nes para su aplicación, cómo y a quién se debe administrar, cómo deberían interpretarse los resultados de la prueba y a quienes, y cuál es el significado de la puntuación. Ello implica conocer las limitaciones de las pruebas y compensarlas con datos de otras fuentes. (p. 11)
Al final, incluso aplicando todos los criterios aquí señalados, no existe un test o cuestionario -diagnóstico o de evaluación- que mida al 100% lo que dice medir. La teoría de los test así lo señala, y la estadística, con sus niveles de significancia, se encarga de confirmarlo. De esta manera, el principio de validez y confiabilidad descansa en el logro de una objetividad que desde la ciencia se asume relativa, ya que los objetos de estudio se entienden a partir de un referente metafísico que los explica a través de sus cualidades -características-, identificables por el investigador, quien hace de estos atributos algo inteligible, entre otros medios mediante el diseño, empleo e interpretación de los test. Se trata ni más ni menos que de una «subjetividad objetivada», que remite a una especie de «correlato del objeto de estu- dio». Esto es ampliamente documentando en la teoría científica, pero ello no anula la utilidad de los test como instrumento de medición, siempre que mediante ellos se evite que lo estudiado sea enteramente dependiente del observador.
En conceptos de Tristán-López y Pedraza-Corpus (2017), la objetividad se alcanza mediante dos aspectos fundamentales: la especificidad y la interpretación. En este sentido, “la especificidad es la representación de la realidad, contenida en una definición completa, pertinente, precisa del objeto y que lo distingue de otros” (p.14). Mientras que la interpretación “se asocia con las justificaciones de los usos y juicios de valor que pueden postularse a nivel contextual, cultural, grupal, o de otra índole, a partir de datos obtenidos de la realidad” (p.15). Destaca además que las interpretaciones y justificaciones “responden a la necesidad de identificar, prevenir, medir y, de preferencia, eliminar o reducir al mínimo la presencia de sesgos en las apreciaciones de las personas que van a emitir juicios de valor sobre los objetos en estudio (p.15). De aquí la necesidad de estar atentos a los problemas de diseño ya indicados anteriormente.
Mención aparte merecen las consideraciones éticas que deben atenderse por quien diseña, aplica y valora un test. Si bien es cierto que “la conducta moral del investigador dependerá, en gran medida, de su propio desarrollo moral y de las circunstancias en que se dé su acción investigativa” (Perales 2010, p.439), es indispensable reconocer que existen principios éticos universales, consagrados en documentos rectores, como lo es Ethical Principles of Psychologists and Code of Conduct, de la American Psy- chological Association (2017), que orientan la conducta de los investigadores, psicólogos en particular, normas que deben seguirse en busca de no perder el sentido humano y social de toda investigación.
A manera de cierre, se debe enfatizar en que entender los postulados que gobiernan la ciencia significa reconocer sus alcances y limitaciones. No se trata de caer en posturas radicales, ajenas al verdadero sentido de búsqueda/descubrimiento/construcción del conocimiento. En todo caso, la ciencia encuentra, en el camino que toma para evitar el dogmatismo, la vía de acceso a él. Bunge (1983) lo deja claro al sentenciar que “si la sustancia (objeto) no puede ser lo distintivo de toda la ciencia, entonces tiene que serlo la forma (el procedimiento)”, (p. 22). El diseño de los test científicos se encuentra inmerso en este enfoque epistemológico, absolutismo científico heredado de la modernidad.