Depurar Datos en SPSS
Por más cuidadosos que seamos, es muy factible que se cometan errores en el proceso de introducción de los datos, por lo que antes de comenzar a generar análisis es necesario realizar una depuración de la información como una medida de control para evitar distorsiones en los resultados de los procedimientos. La mayoría de los errores en la información son causados en la captura o digitación de los datos; para poder identificar estos errores es indispensable generar tablas de frecuencia por cada una de las variables del archivo, con el fin de determinar los valores que se encuentran fuera del rango de las posibles respuestas establecidas.
Desde luego el proceso de depuración se debe realizar después de definir las propiedades de las variables o de lo contrario se dificultaría bastante la identificación de los valores erróneos.
Para comprender los pasos que conlleva la depuración de los datos, vamos a realizar un ejemplo con el archivo Depu.sav, que se incluye en la carpeta Capítulo3 del CD adjunto. Antes de iniciar el proceso de depuración de los datos, es necesario abrir el archivo en el editor de datos de SPSS, ya sea mediante la ruta Archivo...Abrir...Datos o mediante el botón Abrir () ubicado en la barra de herramientas.
Una vez abierto notaremos que el archivo esta compuesto por las variables ID (Número de encuesta), Género (Sexo del encuestado), Estciv (Estado civil) y Edad (Edad del encuestado) [Fig.3-123]. Es de gran importancia tener una idea de los datos que contienen el archivo para poder optimizar el proceso de depuración.
En nuestro archivo de ejemplo, sólo contamos con dos variables Categóricas (Género y Estciv). Para el género se han definido como valores validos (1= Femenino y 2= Masculino) y para la variable estado civil las categorías (1= Soltero, 2= Casado, 3= Divorciado, 4= Viudo, 5= Unión libre y 9= No responde). Las variables ID y Edad son de tipo Escala y por lo tanto no tienen etiquetas de valor.
Una vez abierto el archivo de datos y después de explorar su contenido, estamos listos para empezar con la depuración de los datos. El primer paso en la depuración corresponde a identificar los valores erróneos; para realizarlo debemos generar una tabla de frecuencia para cada una de las variables, por lo cual vamos al menú Analizar y seleccionamos el submenú Estadísticos descriptivos y dentro de él escogemos la opción Frecuencias [Fig.3-124].
Al hacer clic sobre esta opción aparece el cuadro de diálogo correspondiente a Frecuencias [Fig.3-125]. Este cuadro se encuentra dividido en dos secciones; la primera de ellas corresponde a la lista de variables, donde aparecen todas las variables con que cuenta el archivo; la segunda sección corresponde al listado de variables seleccionadas, donde aparecen las variables a las que se le realizará el cálculo de frecuencias. Para ingresar una variable al listado de selección, debemos hacer clic sobre ella de manera que se resalte y sucesivamente hacer clic en el icono Flecha () ubicado entre las dos casillas, de manera que la variable elegida pasará a la casilla de selección.
Para continuar con el ejemplo ingresaremos las variables Edad, Estciv y Género a la casilla de selección y posteriormente hacemos clic en Aceptar, con lo que las tablas de frecuencia serán representadas en la ventana visor de resultados. El programa por defecto nos enseña primero la tabla de resumen en la que incluye los casos validos y perdidos para cada una de las variables. A continuación nos enseña las tablas de frecuencia de cada una de las variables seleccionadas.
Si nos fijamos en la tabla de frecuencia de la variable Edad, notaremos que existen una gran cantidad de valores, lo que nos impide observar los valores errados. Para poder identificar un valor errado es necesario observar en la primera y en la última parte de la tabla y tratar de buscar un valor inferior a 15 o superior a 70. Sino existen estos valores extremos, no es posible determinar si se cometieron errores en la captura o digitación de los datos.
Este suceso es exclusivo para las variables de escala. Si continuamos bajando, encontraremos las tablas de frecuencia para las variables Estado civil [Fig.3-126] y Género [Fig.3-127]. Si nos fijamos en la tabla de la variable Estado civil, apreciaremos que se encuentran dentro de los datos tres valores erróneos correspondientes a los números 0, 7 y 10, los cuales representan 6 casos o el 1.6 % de la muestra. Para facilitar su identificación hemos resaltado estos valores con el color rojo. Si por el contrario nos fijamos en la variable Género, notaremos que aparece el valor tres (3) y representa 14 casos o el 4.7 % de la muestra.
Una vez se han detectado los valores erróneos, debemos ubicar los casos a los que pertenece cada uno de ellos. Los metodos empleados para ubicar los casos de origen los veremos en la siguiente lección.