Aplicaciones de minería de
datos
Por:
M.C. Leopoldo González Rosas
www.cnys.com.mx
Agenda
• Presentación • Motivación
• ¿qué es minería de datos?
– Disciplinas involucradas • Aplicaciones – Bibliotecas – Universidades – otras • ¿cómo funciona?
Agenda (cont.)
– Metodología: El proceso de descubrimiento de
conocimiento en bases de datos (KDD)
– Recolección/preparación de datos
– Algoritmos
– Modelo predictivo y su interpretación
– Utilizando los resultados
• Toma de decisiones
• Sistemas operacionales
• Software de minería de datos • Minería de datos y ética
Presentación
Yo:
Formación académica:
Licenciatura en Ciencias de la computación – BUAP FCC
Maestría en Ciencias con especialidad en Ingeniería en Sistemas - UDLAP
Experiencia profesional
CNyS S.C. - Consultoría (BI, BD, PM, desarrollo de software) gedas VW (BI, preventas, consultoría, LP)
BBVA Bancomer (BI, LP)
SFA Puebla (soporte técnico BD)
Experiencia académica Programación
Bases de datos / Inteligencia de negocios Universidades: UDLAP, UPAEP, BUAP
Áreas de interés
Bases de datos e inteligencia de negocios Desarrollo de software
Motivación
• “Knowing is not enough; we must apply.
Willing is not enough; we must do.”. Goethe
Generamos datos de manera exponencial
Era de información
Obtener el conocimiento oculto en esos datos
Datos información conocimiento
Competir en este mundo de negocios globalizado
¿qué es minería de datos?
• Minería de datos es el proceso por el cual generamos un modelo que sirva para la predicción,
– este modelo se genera a partir de datos
aplicándoles algún algoritmo que construye el modelo.
• El modelo se evalúa para saber que tan
certero será respecto a sus predicciones y posteriormente
• se utiliza para predecir el comportamiento de cualquier dato nuevo
USAR LA PREDICCION PARA MEJORAR Y GANAR EN LOS NEGOCIOS
¿qué es minería de datos? (cont.)
• Es la extracción de información
implícita, previamente desconocida y potencialmente útil a partir de datos [Witten I.H. et al, 2011]
• Es una disciplina joven y de rápido crecimiento, conocida como KDD, … DM como la evolución de TI. [Han J. et al, 2012]
• Es la extracción automatizada de información escondida a partir de
(grandes) bases de datos. Te permite ser proactivo. Prospectivo en lugar de retrospectivo[Thearling K.]
ejemplo: reglas if-then
if tasaProducciónLagrimas = reducida
then recomendacion = ninguna
Else
if edad=joven and astigmatismo=no
then recomendación = suaves
Aplicación en bibliotecas MBA
ID PRODUCTOS OCT-1 1 QA QB OCT-1 2 QC QD OCT-1 3 QE QA OCT-1 4 QB QC OCT-1 5 QD QE QA OCT-2 6 QB QC OCT-2 7 QD QE OCT-2 8 QA QB OCT-2 9 QC QA QB OCT-2 10 QC QA QB OCT-2 11 QC QA QB OCT-2 12 QC QD QEOtras aplicaciones
• Marketing
• Predicción de ventas, precios, acciones e índices financieros.
• Detección de fraudes en tarjetas de crédito
• Clasificación y filtrado de documentos, e-mails y noticias.
• Análisis de llamadas en Centros de atención telefónica.
• Clasificación automática de Quejas y Sugerencias de Clientes.
Arquitectura de inteligencia de
negocios
•
Software del sistema (system software)
– Sistemas operativos, DBMS, compiladores
•
Software de aplicación (app software)
– Operacional
• OLTP y batch
• Office, nomina, ventas, ERP
– Para la toma de decisiones -> inteligencia de negocios
Metodología (cont.)
1) Establecer de manera precisa el problema a resolver - No gastes dinero, antes de comprar un software
primero establece que es lo que quieres resolver 2) Exploración inicial
-preparación y limpieza de datos -transformaciones de datos
- Probar con estadística descriptiva para conocer datos 3) Construcción del modelo y validación
- Probar algunos modelos y elegir el mejor para el problema que se está resolviendo
4) Liberación
- Una vez construido el modelo se puede usar muchas veces
Recolección/preparación de datos
•
Extraer, transformar, cargar
– Posiblemente ya existe un almacén de datos
•
Limpieza / calidad de datos
•
Transformaciones para la minería
– “Discretizar” (ejemplo: E B R M)
•
Muestra(s) -> vistas minables
– Cómo se obtiene
Algoritmos de minería de datos
• Clasificación – predicen una o más variables discretas,basandose en los otros atributos en el conjunto de datos. Ejemplo: árboles de decisión
• Regresion – predice una o más variables continuas, como perdida o ganancia, basandose en los otros atributos en el conjunto de datos.
• Segmentación – divide datos en grupos o clusters de articulos que tienen propiedades similares.
• Asociación - encuentran correlaciones entre los diferentes atributos de un conjunto de datos. Sirven para crear reglas de asociación por ejemplo para MBA.
• Análisis de secuencia – encuentra secuencias frecuentes o episodios en datos, como en un flujo de rutas Web.
Modelo predictivo y su interpretación
Utilizando los resultados
• Se recorre el modelo cada vez que se desea predecir
– Por ejemplo para decidir a quien otorgarle un
apoyo adicional
– Por ejemplo para decidir si se le presta o no
dinero a alguien
• El modelo se puede usar para calificar a los datos de los sistemas operacionales para:
– Por ejemplo: identificar “Preferentes”
Software de DM
•
Weka
y
pentaho
•
Rapid Miner
•
Microsoft SQL Server 2008 R2
•
sas enterprise miner
•
IBM spss
Minería de datos y ética
•Es difícil hacer que los datos sean “anónimos”
– 85% de la gente puede ser identificada por su
C.P., fecha de nacimiento y genero
•La minería de datos se usa para discriminar
•Ejemplo: aplicación de prestamos: usar información como sexo, religión o raza no es ético
•La situación etica depende de la aplicación
•Ejemplo: la misma información esta bien en aplicaciones medicas •Los atributos pueden contener información
problematica
Conclusiones
• Minería de datos se ha venido estudiando e investigando pero no se esta aplicando en los diversos problemas de nuestro país
– Educación, salud, el campo, eliminar la pobreza
• Mientras tenemos científicos trabajando en este tema, debemos preparar a las personas que lo aplicarán. (astrónomos y astronautas)
• Es una tecnología que ya está al alcance de todo el mundo
GRACIAS POR SU ATENCIÓN
[email protected]
Bibliografía
• campodeEncinos.wordpress.com • http://catarina.udlap.mx/u_dl_a/tales/documentos/msp/gonzalez _r_l/ • http://www.uppuebla.edu.mx/Revista/revista10.pdf • http://hmi.ucsd.edu/pdf/HMI_2009_ConsumerReport_Dec9_2009 .pdf • http://www.cs.waikato.ac.nz/~ml/weka/book.html• Mark Hall, Eibe Frank, Geoffrey Holmes, Bernhard Pfahringer, Peter Reutemann, Ian H. Witten (2009); The WEKA Data Mining Software: An Update; SIGKDD Explorations, Volume 11, Issue 1 • Kiron D. et al. Analytics:the widening divide – how companies are
achieving competitive advantage through analytics. MIT Sloan/IBM research report fall 2011
• http://www.kdnuggets.com/software/suites.html
• http://ccita2010.utmetropolitana.edu.mx/recursos/Recursos_digit ales.pdf