Seleccionar casos en SPSS - Depurar Datos Fin
Para continuar con el ejemplo seleccionamos nuevamente al opción Si satisface la condición y sucesivamente hacemos clic en el botón Aceptar, con lo que aparecen en la columna de casos del editor de datos una serie de rayas [Fig.3-138], estas rayas identifican los casos que no cumplen con la condición y por lo tanto no son seleccionados. Note que en la parte final del archivo, aparece una nueva variable denominada (filter $). Esta variable contiene un valor cero (0) para los casos que no fueron seleccionados y un valor uno (1) para los que si lo fueron.
Para poder identificar las encuestas (Casos) que contienen valores erróneos, es necesario generar una tabla de frecuencias para la variable Número de encuesta (ID); para realizarlo nos dirigimos a la barra de herramientas y seleccionamos el botón Recuperar cuadros de diálogo (). Al hacer clic sobre él, aparece un listado de los cuadros de diálogo de los procedimientos que se han ejecutado en el programa, de acuerdo al orden inverso de utilización; es decir, el último procedimiento realizado aparece en la primera posición [Fig.3-139].
En este listado buscamos el procedimiento Frecuencias y hacemos clic sobre él, con lo que aparecerá el cuadro de diálogo correspondiente [Fig.3-140], si nos fijamos en el listado de variable, notaremos que ahora aparece una nueva variable llamada filter_$, esta variable contiene los casos que son seleccionados. Mientras esta variable exista los resultados de los procesos o procedimientos que se realicen con el programa, estarán basados sólo en los casos seleccionados.
Para continuar con el ejemplo, hacemos clic en el botón Restablecer, de modo que todas las variables seleccionadas aparezcan nuevamente en el listado. A continuación ingresamos la variable ID en la casilla de selección y hacemos clic en Aceptar, con lo que se generara en el visor de resultados, la tabla de frecuencia para los casos que están seleccionados; es decir, aquellos que contienen valores erróneos para la variable Estciv [Fig.3-141]. Lo realmente útil de esta tabla son los Números de caso ya que con ellos podemos identificar la encuesta a la que corresponden, de lo que podemos determinar que los valores erróneos de la variable Estaciv corresponden a los casos 31, 88, 135, 185, 245 y 278 respectivamente.
Después de determinar los números de encuesta es necesario ir a la fuente (formularios de encuesta) y buscar las respuestas adecuadas para cada uno de los valores. Para facilitar esta labor, hemos incluido en la tabla de la figura [3-142], los números de caso, los valores erróneos y los valores adecuados para la variable Género; a su vez, en la tabla de la figura [3-143], se encuentran los mismos datos pero para la variable Estado civil.
Una vez detectados los valores correctos, debemos volver al editor de datos y corregir cada uno de los casos. Después de efectuar la corrección es necesario guardar los cambios realizados antes de comenzar con el análisis de la información. Hay que notar que el procedimiento Seleccionar casos sólo es efectivo cuando existe una variable de identificación dentro de los datos; por este motivo es recomendable generar una variable de identificación en el momento que se crean los archivos.
A pesar que la depuración de los datos es el proceso más extenso y tedioso del análisis y generación de reportes, es indispensable realizar siempre la corrección de los errores, ya que de lo contrario los resultados del análisis pueden sufrir graves alteraciones, al punto que las conclusiones que se obtengan de la información sean totalmente contradictorias con la realidad. Por ejemplo supongamos que tenemos diez datos representativos del género de los entrevistados donde los valores sólo pueden tomar los estados Hombre = 1 y Mujer = 2.
Género = (1, 1, 2, 2, 2, 3, 3, 3, 3, 3)
Si asumimos que los valores 3 son mujeres el resultado seria que el 80% de los entrevistados son mujeres y si tomamos el valor 3 como hombre obtendríamos que el 70% de los entrevistados son hombres, en ambos casos estaríamos cometiendo un error y los resultados del análisis van a salir distorsionados.
A simple vista los resultados no son tan graves pero si asumimos que esta información proviene de una encuesta realizada por una empresa que se dedica a la fabricación y comercialización de maquinas de afeitar y este género representa los compradores habituales del producto; el asumir que los valores 3 son mujeres nos indicaría que nuestros usuarios son las mujeres y por tanto deberíamos dirigir todos nuestros esfuerzos de mercadotecnia hacia este sector, lo cual podría causar serios problemas en las ventas de la empresa.