• No se han encontrado resultados

Minería  de  Datos   Aplicada

N/A
N/A
Protected

Academic year: 2022

Share "Minería  de  Datos   Aplicada"

Copied!
23
0
0

Texto completo

(1)

Minería  de  Datos   Aplicada  

Limpieza  de  Datos  

Ulises  CP  

(2)

Calidad  de  los  datos  

•  Los  datos  deben  sa9sfacer  los  requerimientos  para   los  cuales  se  pretenden  u9lizar.  

•  Factores  de  calidad  de  los  datos:  exac9tud,   integridad,  consistencia,  confiabilidad,  

interpretabilidad,  deben  ser  oportunos.  

•  La  fase  de  limpieza  de  los  datos  se  refiere  al  proceso   de  detección  y  corrección  de  registros  corruptos  o   impresisos  en  el  conjunto  de  datos.  

Ulises  CP  

(3)

Problemas  en  el  Conjunto  de  Datos  

•  Datos  faltantes.  

•  Valores  aHpicos.  

•  Registros  duplicados.  

•  Datos  con  ruido.  

•  Diferente  escala  numérica.  

Ulises  CP  

(4)

¿Qué  hacer  cuando  faltan  datos?  

•  Ignorar  el  registro.  

•  Asignar  una  constante  global.  

•  U9lizar  una  medida  de  tendencia  central  para  el   atributo.  

•  U9lizar  una  medida  de  tendencia  central  para  las   muestras  que  pertenecen  a  la  misma  clase.  

•  Conservar  el  registro,  pero  ignorar  la  variable.  

•  Imputación  por  métodos  más  avanzados.  

Ulises  CP  

(5)

Ignorar  el  registro  

Ulises  CP  

(6)

Ignorar  el  registro  

Ulises  CP  

(7)

U9lizar  una  medida  de  tendencia  central  para  el  atributo.  

Eliminamos  los   registros  en  los  que   existen  valores   faltantes  

Ulises  CP  

(8)

Uso  de  una  medida  de  tendencia  central  para  el  atributo.  

En  el  caso  de  variables  cualita9vas,  el   método  más  simple  consiste  en  asignar   el  valor  más  frecuente.  

   

Ulises  CP  

(9)

Ac9vidad  1:  

Realizar  una  función  en  R  que:  

•  Lea  un  conjunto  de  datos.  

•  Busque  valores  faltantes  en  el  conjunto  de  datos.  

•  Iden9fique  la  posición  de  los  valores  faltantes.  

•  Asigne  un  valor  a  los  valores  faltantes  basándose  en  una   medida  de  tendencia  central  para  el  atributo  

correspondiente.  

Datos  faltantes  

(10)

Ac9vidad  2:  

Realizar  una  función  en  R  que:  

•  Lea  un  conjunto  de  datos.  

•  Busque  valores  faltantes  en  el  conjunto  de  datos.  

•  Iden9fique  la  posición  de  los  valores  faltantes  para  una   misma  clase.  

•  Asigne  un  valor  a  los  datos  faltantes  basándose  en  una  

medida  de  tendencia  central  para  los  datos  del  atributo  que   pertenecen  a  la  misma  clase.  

Datos  faltantes  

(11)

Valor  extremo  

En  una  muestra  o  conjunto  de   datos  estra9ficados,  un  valor     Extremo  es  una  observación  o    

Instancia  que  se  separa  numéricamente     del  resto  de  los  datos.  

Ulises  CP  

(12)

Causas  de  Valores  extremos  

•  Mal  funcionamiento  de  disposi9vo  de  medición.  

•  Error  de  transmisión  o  transcripción.  

•  Cambios  en  sistema.  

•  Fraudes.  

•  Error  humano.  

•  Desviaciones  naturales  en  poblaciones.  

•  Muestras  contaminadas.  

Ulises  CP  

(13)

Iden9ficación  de  Valores  extremos  

•  Considerar  las  causas  y  el  propósito.  

•  Es  subje9va.  

•  Métodos:  

ü Criterio  de  Chauvenet’s.  

ü Límite  inferior  y  superior   ü Test  de  Grubbs.  

ü Criterio  de  Peirce.  

ü Test  Q  de  Dixon.  

ü Test  modificado  de  thomson  Tau.  

Ulises  CP  

(14)

Detección  de  Valores  extremos  

(15)

Distribución  de  Probabilidad  Normal  

(16)

Criterio  de  Chauvenet’s.  

(17)

Diagrama  de  Caja  

(18)

Reducción  de  dimensionalidad  

R2

R3 Se  refiere  al  proceso  de  reducción  de  las   variables  o  atributos  a  considerar.  Puede   dividirse  en  Selección  y  Extracción  de   atributos.  

Ulises  CP  

(19)

Selección  de  atributos  

•  Se  refiere  al  proceso  de  selección  de  caracterís@cas,  también  conocido   como  selección  de  variables.  

•  Consiste  en  seleccionar  un  subconjunto  de  caracterís@cas  relevantes  para   la  construcción  del  modelo.  

•  La  asunción  principal  para  el  uso  de  técnicas  de  selección  es  que  los  datos   con@enen  muchas  caracterís@cas  redundantes  o  irrelevantes.  

(20)

Selección  de  atributos  

Métodos:  

•  Score  de  Fisher.  

•  Coeficiente  de  correlación  de  Pearson.  

•  Predicción  óp@ma  de  la  clase.  

•  Distancia  basada  en  grupos.  

•  Estadís@co  Chi-­‐Square.  

(21)

Selección  de  atributos  |  Score  de  Fisher  

Para  2  clases:   Para  m  clases:  

(22)

Selección  de  atributos  |  Score  de  Fisher  |  Ejemplo  en  R  

(23)

Selección  de  atributos  |  CCR  de  Pearson  

Referencias

Documento similar

Además, como señalan McCullagh y Nelder (1989), en el contexto del análisis de una variable de recuento mediante el modelo lineal general se topa a menudo con la presencia

• El objeto Query tiene como atributos aquellos campos necesarios para poder solicitar a Twitter datos pasados o más actuales del término.. Estos

El objetivo del presente trabajo es realizar una revisión sistemática de la literatura que contemple las investigaciones realizadas en el período enero/2007-marzo/2019, sobre

Nota: Datos obtenidos de la encuesta aplicada de transparencia de información en la emisión de tarjetas de crédito y endeudamiento del tarjetahabiente de los principales

Se puede ver como efectivamente los clientes pertenecientes al clúster 7 (crecimiento) tienen un valor monetario medio y una frecuencia media / alta si se los compara con los

Proponemos los que Baeza-Yates (2009) denomina minería de contenidos y en particular para este caso se trata de datos textuales. El proceso de minado se hace mediante un crawler ad

Esta investigación se centra en la aplicación de técnicas de minería de datos para descubrir las combinaciones de estilos de aprendizaje mostradas por estudiantes

Minería de Datos Tipo de Software Plataforma Base de Datos Tipo de Reportes