Cubos OLAP en SPSS
El procedimiento Cubos OLAP (siglas en ingles de On-Line Analytic Processing, “Procesamiento Analítico Interactivo”) es uno de los métodos más empleados en la exploración de datos. A través de los Cubos OLAP se puede observar el comportamiento de los datos de varias variables de escala de a cuerdo a una combinación específica de categorías de múltiples variables categóricas.
La utilidad de este procedimiento radica en la capacidad de actualizar la tabla de resultados a medida que se va modificando la combinación de categorías, sin necesidad de redefinirlas en el cuadro de diálogo del procedimiento. Para el análisis de las variables de escala el programa cuenta con una serie de medidas estadísticas como la media, la mediana o la desviación estándar, a su vez para las variables categóricas el procedimiento genera listas desplegables en las que se incluye cada una de las categorías de la variable, así como la opción total.
Para comprender la metodología empleada en la definición y creación de los cubos OLAP, vamos a generar un ejemplo con los datos contenidos en el archivo Cubos.sav incluido en la carpeta Capítulo6 del CD adjunto. Antes de iniciar con el procedimiento, es necesario contar con el archivo de datos abierto en el editor de SPSS, por lo que debemos abrirlo a través de la ruta Archivo.. Abrir.. Datos. Una vez cargado el archivo, estamos listos para la generación del ejemplo. Para acceder al procedimiento, debemos ir al menú Analizar... Informes... Cubos OLAP; al seleccionarlo aparece el cuadro de diálogo correspondiente [Fig.6-42]. Este cuadro se encuentra dividido en tres secciones definidas como la Lista de variables, las Casillas de selección y los Botones de opción.
Dentro de la sección casillas de selección se definen las variables que harán parte del procedimiento. En la casilla de resumen (Variables de resumen), se deben ingresar las variables de escala que serán empleadas en el cubo; el contenido de estas variables se resume a través de los diferentes estadísticos que se seleccionen; si por algún motivo se ingresa una variable categórica en esta casilla, el programa asume que es de escala y le realiza los cálculos de los estadísticos de resumen.
En la casilla Agrupación, se deben ingresar las variables categóricas que definirán los subgrupos de datos que serán descritos a través de los resultados de los estadísticos de resumen de las variables de escala; si por algún motivo se ingresa una variable de escala en esta casilla, el programa asume que cada valor de la variable corresponde a una categoría.
Para comprender mejor el funcionamiento vamos a generar un Cubo OLAP con las variables Edad del entrevistado (Escala) y Género (Categórica). Para realizarlo, debemos ingresar la variable Edad del entrevistado en la casilla Resumen y la variable Género la ingresamos en la casilla Agrupación; para finalizar hacemos clic en Aceptar con lo que el cubo será creado en el visor de resultados de SPSS [Fig.6-43].
Para poder observar los resultados de las diferentes categorías de la variable género, es necesario activar el Cubo haciendo doble clic en él, de manera que aparezca al lado de la variable Género la lista desplegable de las categorías [Fig.6-44]. Al hacer clic sobre el icono de la lista (), aparecen todas las categorías de la variable que para el caso corresponden a Femenino, Masculino y Total, para seleccionar alguna de ellas basta con hacer clic sobre la categoría deseada, con lo cual los resultados de la tabla cambiarán y harán referencia exclusivamente a los casos de la categoría seleccionada.
Si seleccionamos la categoría Femenino obtendremos los valores de la figura [6-45]. Si nos fijamos en los resultados notaremos que todos los valores han cambiado y ahora hacen referencia únicamente a los casos de la categoría Femenino. A partir de estas respuestas podemos deducir que en el archivo de datos hay un total de 154 mujeres, con un promedio de edad de 31.82 ≈ 32 años, con una desviación típica de 7.066 y que a su vez conforman el 51.3% de las respuestas validas.
De igual manera ocurre si seleccionamos la categoría Masculino, en cuyo caso los valores de cada casilla cambiaran expresando el comportamiento de la edad para los hombres. Para realizar los cálculos de los estadísticos de resumen de las variables de escala, el programa toma exclusivamente los casos que correspondan a la categoría que se haya seleccionado. Para desactivar el Cubo basta con hacer clic fuera del área de la tabla.
Desde luego esta es la aplicación más sencilla que se puede realizar con un Cubo OLAP, ya que sólo vincula una variable de escala (Resumen) y una variable categórica (Agrupación). En las siguientes lecciones haremos ejemplos de Cubos OLAP mas complejos.