• Nem Talált Eredményt

Identificación de casos duplicados

Puede haber distintos motivos por los que haya casos “duplicados” en los datos, entre ellos:

Errores en la entrada de datos si por accidente se introduce el mismo caso más de una vez.

Casos múltiples que comparten un valor de identificador primario común pero tienen valores diferentes de un identificador secundario, como los miembros de una familia que viven en el mismo domicilio.

Casos múltiples que representan el mismo caso pero con valores diferentes para variables que no sean las que identifican el caso, como en el caso de varias compras realizadas por la misma persona o empresa de diferentes productos o en diferentes momentos.

La identificación de los casos duplicados le permite definir prácticamente como quiera lo que se consideraduplicadoy le proporciona cierto control sobre la determinación automática de los casos primarios frente a los duplicados.

Para identificar y marcar los casos duplicados E En los menús, seleccione:

Datos > Identificar casos duplicados...

E Seleccione una o varias variables que identifiquen los casos coincidentes.

E Seleccione una o varias de las opciones del grupo Crear variables.

Si lo desea, puede:

E Seleccionar una o varias variables para ordenar los casos dentro de los bloques definidos por las variables seleccionadas de casos coincidentes. El orden definido por estas variables determina el

“primer” y el “último” caso de cada bloque. En caso contrario, se utilizará el orden del archivo original.

E Filtrar automáticamente los casos duplicados de manera que no se incluyan en los informes, los gráficos o los cálculos de estadísticos.

Figura 7-14

Cuadro de diálogo Identificar casos duplicados

Definir casos coincidentes por. Los casos se consideran duplicados si sus valores coinciden para todaslas variables seleccionadas. Si desea identificar únicamente aquellos casos que coincidan al 100% en todos los aspectos, seleccione todas las variables.

Ordenar dentro de los bloques coincidentes por. Los casos se ordenan automáticamente por las variables que definen los casos coincidentes. Puede seleccionar otras variables de ordenación que determinarán el orden secuencial de los casos en cada bloque de coincidencia.

Para cada variable de ordenación, el orden puede ser ascendente o descendente.

Si selecciona más de una variable de ordenación, los casos se ordenarán por cada variable dentro de las categorías de la variable anterior de la lista. Por ejemplo, si seleccionafecha como la primera variable de ordenación ycantidadcomo la segunda, los casos se ordenarán por cantidad dentro de cada fecha.

Utilice los botones de flecha hacia arriba y hacia abajo que hay a la derecha de la lista para cambiar el orden de las variables.

El orden determina el “primer” y el “último” caso de cada bloque de coincidencia, que determina el valor de la variable indicador del caso primario opcional. Por ejemplo, si desea descartar todos los casos salvo el más reciente de cada bloque de coincidencia, puede ordenar los casos del bloque en orden ascendente por una variable de fecha, lo cual haría que la fecha más reciente fuese la última fecha del bloque.

Variable indicador de casos primarios. Crea una variable con un valor de 1 para todos los casos únicos y para el caso identificado como caso primario en cada bloque de casos coincidentes y un valor de 0 para los duplicados no primarios de cada bloque.

El caso primario puede ser el primer o el último caso de cada bloque de coincidencia, según determine el orden del bloque de coincidencia. Si no especifica ninguna variable de ordenación, el orden del archivo original determina el orden de los casos dentro de cada bloque.

Puede utilizar la variable indicador como unavariable de filtropara excluir los duplicados que no sean primarios de los informes y los análisis sin eliminar dichos casos del archivo de datos.

Recuento secuencial de casos coincidentes en cada bloque. Crea una variable con un valor secuencial de 1 anpara los casos de cada bloque de coincidencia. La secuencia se basa en el orden actual de los casos de cada bloque, que puede ser el orden del archivo original o el orden determinado por las variables de ordenación especificadas.

Mover los casos coincidentes a la parte superior del archivo.Ordena el archivo de datos de manera que todos los bloques de casos coincidentes estén en la parte superior del archivo de datos, facilitando la inspección visual de los casos coincidentes en el Editor de datos.

Mostrar tabla de frecuencias de las variables creadas. Las tablas de frecuencias contienen los recuentos de cada valor de las variables creadas. Por ejemplo, para la variable de indicador de caso primario, la tabla mostraría tanto el número de casos con un valor de 0 en esa variable, que indica el número de duplicados, como el número de casos con un valor de 1 para esa variable, que indica el número de casos únicos y primarios.

Valores perdidos. En el caso de variables numéricas, los valores perdidos del sistema se tratan como cualquier otro valor: los casos que tengan el valor perdido del sistema para una variable de identificación se tratarán como si tuviesen valores coincidentes para dicha variable. En el caso de

variables de cadena, los casos que no tengan ningún valor para una variable de identificación se tratarán como si tuviesen valores coincidentes para dicha variable.