• Nem Talált Eredményt

Funciones adicionales del comando DETECTANOMALY

In document Acerca de SPSS Inc., an IBM Company (Pldal 64-71)

La sintaxis de comandos también le permite:

„ Omitir algunas variables del conjunto de datos activo del análisis sin especificar explícitamente todas las variables del análisis (mediante el subcomandoEXCEPT).

„ Especificar una corrección para equilibrar la influencia de las variables continuas y categóricas (mediante la palabra claveMLWEIGHTdel subcomandoCRITERIA).

Consulte laReferencia de sintaxis de comandospara obtener información completa de la sintaxis.

Intervalos óptimos 6

El procedimiento Intervalos óptimos discretiza una o más variables de escala (a las que denominaremos en lo sucesivovariables de entrada que se van a agrupar) mediante la distribución de los valores de cada variable en intervalos. La formación de intervalos es óptima en relación con una variable guía categórica que “supervisa” el proceso de agrupación. Los intervalos se pueden utilizar en lugar de los valores de datos originales para posteriores análisis.

Ejemplos.La reducción del número de valores distintos que puede tomar una variable tiene varios usos, entre los que se incluyen:

„ Requisitos de los datos de otros procedimientos. Las variables discretizadas pueden tratarse como categóricas y utilizarse en procedimientos que requieren variables categóricas. Por ejemplo, el procedimiento Tablas de contingencia requiere que todas las variables sean categóricas.

„ Privacidad de los datos. Utilizar en los informes los valores agrupados en vez de los valores reales puede ayudar a proteger la privacidad de los orígenes de los datos. El procedimiento Intervalos óptimos puede ayudarle a elegir los intervalos adecuados.

„ Agilización del rendimiento. Algunos procedimientos son más eficientes cuando trabajan con un número reducido de valores distintos. Por ejemplo, la velocidad de la regresión logística multinomial puede incrementarse utilizando variables discretizadas.

„ Detección de la separación completa o quasi-completa de los datos.

Intervalos óptimos frente al agrupador visualLos cuadros de diálogo de Agrupación visual ofrecen varios métodos automáticos para crear intervalos sin utilizar una variable como guía. Estas reglas

“no supervisadas” son útiles para generar estadísticos descriptivos, como tablas de frecuencia, pero Intervalos óptimos es superior cuando el objetivofinal es generar un modelo predictivo.

Resultados.El procedimiento genera tablas de puntos de corte para los intervalos y los estadísticos descriptivos de cada una de las variables de entrada que se van a agrupar. Además, puede guardar nuevas variables en el conjunto de datos activo que contengan los valores agrupados de las variables de entrada que se han agrupado, así como guardar las reglas de agrupación como sintaxis de comandos para utilizarlas al discretizar nuevos datos.

Datos.Este procedimiento espera que las variables de entrada que se van a agrupar sean variables numéricas de escala. La variable guía debe ser categórica y puede ser de cadena o numérica.

Para obtener intervalos óptimos En los menús, seleccione:

Transformar > Intervalos óptimos...

© Copyright SPSS Inc. 1989, 2010 55

Figura 6-1

Cuadro de diálogo Intervalos óptimos, pestaña Variables

E Seleccione una o más variables de entrada para agruparlas.

E Seleccione una variable guía.

Las variables que contienen los valores de los datos agrupados no se generan por defecto. Utilice la pestañaGuardarpara guardar estas variables.

Intervalos óptimos: Resultado

Figura 6-2

Cuadro de diálogo Intervalos óptimos, pestaña Resultado

La pestaña Resultados controla la presentación de los resultados.

„ Puntos finales de los intervalos. Muestra el conjunto de puntosfinales de cada variable de entrada que se va a agrupar.

„ Estadísticos descriptivos de las variables que se han agrupado. Para cada variable de entrada que se ha agrupado, esta opción muestra el número de casos con valores válidos, el número de casos con valores perdidos, el número de valores válidos distintos y los valores mínimo y máximo. Para la variable guía, esta opción muestra la distribución de clase para cada variable de entrada relacionada que se ha agrupado.

„ Entropía del modelo para las variables que se han agrupado. Para cada variable de entrada que se ha agrupado, esta opción muestra una medida de la precisión predictiva de la variable respecto a la variable guía.

Intervalos óptimos: Guardar

Figura 6-3

Cuadro de diálogo Intervalos óptimos, pestaña Guardar

Guardar variables en el conjunto de datos activo.Las variables que contienen los valores de los datos que se han agrupado se pueden utilizar en lugar de las variables originales en análisis posteriores.

Guardar reglas de intervalos como sintaxis de . Genera una sintaxis de comandos que se puede utilizar para agrupar otros conjuntos de datos. Las reglas de recodificación se basan en los puntos de corte determinados por el algoritmo de agrupación.

Intervalos óptimos: Valores perdidos

Figura 6-4

Cuadro de diálogo Intervalos óptimos, pestaña Valores perdidos

La pestaña Valores perdidos especifica si los valores perdidos se tratarán utilizando eliminación por lista o por parejas. Los valores definidos como perdidos por el usuario siempre se tratan como no válidos. Al recodificar los valores de la variable original en una nueva variable, los valores definidos como perdidos por el usuario se convierten en valores perdidos del sistema.

„ Por parejas. Esta opción actúa sobre cada par de variables de entrada que se va a agrupar y variable guía. El procedimiento utilizará todos los casos con valores que no sean perdidos en la variable guía y la variable de entrada que se va a agrupar.

„ Por listaEsta opción actúa sobre todas las variables especificadas en la pestaña Variables. Si algún caso tiene un valor perdido para una variable, se excluirá el caso completo.

Intervalos óptimos: opciones

Figura 6-5

Cuadro de diálogo Intervalos óptimos, pestaña Opciones

Procesamiento previo.La “agrupación previa” de las variables de entrada que se van a agrupar con numerosos valores distintos puede reducir el tiempo de procesamiento sin reducir demasiado la calidad de los intervalosfinales. El número máximo de intervalos constituye un límite superior del número de intervalos que se han creado. Por tanto, si especifica 1000 como máximo pero una variable de entrada que se va a agrupar tiene menos de 1000 valores distintos, el número de intervalos preprocesados creados para la variable de entrada que se va a agrupar será igual al número de valores distintos de la variable de entrada que se va a agrupar.

Intervalos poco poblados.En ocasiones, el procedimiento puede generar intervalos con muy pocos casos. La siguiente estrategia elimina estos pseudo puntos de corte:

E Para una determinada variable, supongamos que el algoritmo ha encontradonfinalpuntos de corte y, por consiguiente,nfinal+1 intervalos. Para los intervalosi= 2, ...,nfinal(desde el segundo intervalo con valores inferiores hasta el segundo intervalo con valores superiores), se calcula

dondetamañode(b)es el número de casos del intervalo.

E Cuando este valor es menor que el umbral de fusión especificado, se considera poco poblado y se funde con o , cualquiera que tenga la entropía de información de clase inferior.

El procedimiento realiza una única pasada a través de los intervalos.

Puntos finales del intervalo. Esta opción especifica cómo se define el límite inferior de un intervalo. Como el procedimiento determina automáticamente los valores de los puntos de corte, es básicamente una cuestión de gustos.

Primer intervalo (inferior) / Último intervalo (superior).Estas opciones especifican cómo se definen los puntos de corte mínimo y máximo para cada variable de entrada que se va a agrupar. En general, el procedimiento supone que las variables de entrada que se van a agrupar pueden tomar cualquier valor de la línea de números reales, pero si tiene algún motivo práctico o teórico para acotar el intervalo, puede limitarlo especificando los valores mínimo y máximo.

In document Acerca de SPSS Inc., an IBM Company (Pldal 64-71)