Minería de Datos Aplicada
Limpieza de Datos
Ulises CP
Calidad de los datos
• Los datos deben sa9sfacer los requerimientos para los cuales se pretenden u9lizar.
• Factores de calidad de los datos: exac9tud, integridad, consistencia, confiabilidad,
interpretabilidad, deben ser oportunos.
• La fase de limpieza de los datos se refiere al proceso de detección y corrección de registros corruptos o impresisos en el conjunto de datos.
Ulises CP
Problemas en el Conjunto de Datos
• Datos faltantes.
• Valores aHpicos.
• Registros duplicados.
• Datos con ruido.
• Diferente escala numérica.
Ulises CP
¿Qué hacer cuando faltan datos?
• Ignorar el registro.
• Asignar una constante global.
• U9lizar una medida de tendencia central para el atributo.
• U9lizar una medida de tendencia central para las muestras que pertenecen a la misma clase.
• Conservar el registro, pero ignorar la variable.
• Imputación por métodos más avanzados.
Ulises CP
Ignorar el registro
Ulises CP
Ignorar el registro
Ulises CP
U9lizar una medida de tendencia central para el atributo.
Eliminamos los registros en los que existen valores faltantes
Ulises CP
Uso de una medida de tendencia central para el atributo.
En el caso de variables cualita9vas, el método más simple consiste en asignar el valor más frecuente.
Ulises CP
Ac9vidad 1:
Realizar una función en R que:
• Lea un conjunto de datos.
• Busque valores faltantes en el conjunto de datos.
• Iden9fique la posición de los valores faltantes.
• Asigne un valor a los valores faltantes basándose en una medida de tendencia central para el atributo
correspondiente.
Datos faltantes
Ac9vidad 2:
Realizar una función en R que:
• Lea un conjunto de datos.
• Busque valores faltantes en el conjunto de datos.
• Iden9fique la posición de los valores faltantes para una misma clase.
• Asigne un valor a los datos faltantes basándose en una
medida de tendencia central para los datos del atributo que pertenecen a la misma clase.
Datos faltantes
Valor extremo
En una muestra o conjunto de datos estra9ficados, un valor Extremo es una observación o
Instancia que se separa numéricamente del resto de los datos.
Ulises CP
Causas de Valores extremos
• Mal funcionamiento de disposi9vo de medición.
• Error de transmisión o transcripción.
• Cambios en sistema.
• Fraudes.
• Error humano.
• Desviaciones naturales en poblaciones.
• Muestras contaminadas.
Ulises CP
Iden9ficación de Valores extremos
• Considerar las causas y el propósito.
• Es subje9va.
• Métodos:
ü Criterio de Chauvenet’s.
ü Límite inferior y superior ü Test de Grubbs.
ü Criterio de Peirce.
ü Test Q de Dixon.
ü Test modificado de thomson Tau.
Ulises CP
Detección de Valores extremos
Distribución de Probabilidad Normal
Criterio de Chauvenet’s.
Diagrama de Caja
Reducción de dimensionalidad
R2
R3 Se refiere al proceso de reducción de las variables o atributos a considerar. Puede dividirse en Selección y Extracción de atributos.
Ulises CP
Selección de atributos
• Se refiere al proceso de selección de caracterís@cas, también conocido como selección de variables.
• Consiste en seleccionar un subconjunto de caracterís@cas relevantes para la construcción del modelo.
• La asunción principal para el uso de técnicas de selección es que los datos con@enen muchas caracterís@cas redundantes o irrelevantes.
Selección de atributos
Métodos:
• Score de Fisher.
• Coeficiente de correlación de Pearson.
• Predicción óp@ma de la clase.
• Distancia basada en grupos.
• Estadís@co Chi-‐Square.
Selección de atributos | Score de Fisher
Para 2 clases: Para m clases: