Categorizar Variables con SPSS
En la mayoría de los casos, las bases de datos cuentan con variables cuya información representa cantidades o magnitudes como la edad, los ingresos, las ventas, etc. Generalmente este tipo de variables no son actas para realizar tablas de frecuencia, debido a su elevado número de valores. SPSS nos ofrece la posibilidad de reunir esta información dentro de rangos representativos, que vinculen una gran cantidad de valores y cuyos resultados son ingresados en una nueva variable, lo que nos permite mantener la información original intacta.
Para esta labor, SPSS cuenta con el procedimiento Categorizar Variables (Sólo versiones anteriores a la 12.0), el cual convierte los datos de una variable de escala (Valores numéricos que representan cantidad), en un número discreto de categorías; es decir, reúne un grupo de valores y les asigna un número representativo de categoría de pertenencia. Los nuevos valores son guardados en una nueva variable la cual se identifica con el nombre original precedido de la letra ene (n); por ejemplo la variable Altura al ser categorizada quedaría naltura. Si cuentas con la versión 12.0 omite este apartado y pasa al siguiente, ya que esta nueva versión (12.0), cuenta con un procedimiento de categorización mejorado, que nos ofrece mayor asistencia.
Para realizar la categorización, el programa conforma los grupos de acuerdo con los percentiles (fracciones del porcentaje total), por lo que cada grupo contiene aproximadamente el mismo número de casos. Por ejemplo, si le especificamos al programa la creación de cuatro (4) grupos, el asignará el valor 1 a los casos situados bajo el percentil 25 o los casos comprendidos desde el menor valor hasta el valor que se encuentre aproximadamente en el 25% del total de los casos.
El valor 2 a los casos entre el percentil 25 y 50; es decir, a los valores correspondientes desde el nivel anterior hasta el valor que se encuentre en el 50% del total de los casos. El valor 3 a los casos situados entre el percentil 50 y 75 y el valor 4 a los casos por encima del percentil 75. Por ninguna razón un valor puede estar representado en dos categorías diferentes, sin importar si este valor produce un porcentaje mayor o menor del establecido; es decir, si un valor se encuentra entre el 42% y el 57% de los casos, el programa no selecciona la mitad, sino el número que se encuentre en el limite inferior o superior de este valor.
Para comprender el funcionamiento de este procedimiento, vamos a generar un ejemplo con la variable edad del archivo Encuesta.sav. Para acceder al procedimiento, debemos dirigirnos al menú Transformar y seleccionar la opción Categorizar Variables [Fig.4-7]; al hacer clic sobre él, aparece el cuadro de diálogo correspondiente [Fig.4-8]. A través de este cuadro, debemos definir la (s) variable (s) que deseamos categorizar, así como el número de categorías que deseamos obtener en la variable de resultados.
Este cuadro de diálogo esta dividido en tres secciones; la primera corresponde a la lista de variables existentes en el archivo, la segunda a la casilla de selección y la tercera sección corresponde al número de categorías que deseamos generar; a la derecha de esta sección encontramos una casilla en la cual debemos ingresar el número de categorías que deseamos obtener en la nueva variable, teniendo en cuenta que esta asignación se realiza de acuerdo al porcentaje de los casos. Para continuar con el ejemplo vamos a categorizar las variables Edad y Número de años estudiados (Educaños).
Para realizarlo, debemos ubicar cada una de las variables dentro del listado e ingresarlas a la casilla de selección haciendo clic en el botón Flecha (). Una vez ingresadas las variables, sólo nos resta definir el número de categorías que aparecerán en las variables de resultado, que para el caso corresponde a cinco (5). Para definir la cantidad de categorías, activamos la casilla haciendo clic sobre ella y sucesivamente introducimos el número cinco [Fig.4-9]. Para finalizar hacemos clic en el botón Aceptar, con lo que las variables aparecen en la parte final del editor de datos [Fig.4-10].
Si nos fijamos en las nuevas variables creadas, notaremos que no cuentan con las propiedades de la variable original y que a su vez las etiquetas de valor no han sido definidas. Además, si tratamos de identificar los valores limítrofes de los rangos no lo podríamos conseguir, ya que este procedimiento no nos proporciona esta información. Para poder conocer los valores limítrofes de cada uno de los rangos categóricos, es necesario emplear los estadísticos del procedimiento Frecuencias.
Por el momento no profundizaremos en la forma de obtener los límites de los rangos, ya que en el capítulo siguiente se explorará en su totalidad el procedimiento Frecuencias. Para orientar al lector, le hemos pedido al programa que nos enseñe los valores de los percentiles 20, 40, 60 y 80 en las dos variables, cuyos resultados son expuestos en la tabla de la figura [4-11]. Si nos fijamos en estos resultados, podremos determinar los rangos de las nuevas variables Figura [4-12]..
En conclusión el procedimiento categorizar variables nos permite convertir rápidamente una variable de Escala en una variable Ordinal, con la desventaja que desconocemos los valores que involucra cada uno de los rangos; su utilidad radica en la capacidad de organizar cada uno de las categorías con un valor porcentual aproximadamente igual.
En resumen, los pasos que se deben ejecutar para categorizar variables son:
» Activar el procedimiento [en el menú Transformar seleccionamos la opción Categorizar variables].
» Seleccionar la (s) variable (s) [en el listado de variables escogemos las variables de interés y las ingresamos a la casilla de selección; generalmente son variables de Escala].
» Definir el número de categorías [Ingresar en la casilla el número de categorías deseado]
» Ejecutar la categorización [Hacer clic en el botón Aceptar].
» Definir las etiquetas de valor para cada una de las categorías de las nuevas variables generadas.