• No se han encontrado resultados

Aplicaciones de minería de datos. Por: M.C. Leopoldo González Rosas campodeencinos.wordpress.com

N/A
N/A
Protected

Academic year: 2021

Share "Aplicaciones de minería de datos. Por: M.C. Leopoldo González Rosas campodeencinos.wordpress.com"

Copied!
28
0
0

Texto completo

(1)

Aplicaciones de minería de

datos

Por:

M.C. Leopoldo González Rosas

www.cnys.com.mx

(2)

Agenda

• Presentación • Motivación

• ¿qué es minería de datos?

– Disciplinas involucradas • Aplicaciones – Bibliotecas – Universidades – otras • ¿cómo funciona?

(3)

Agenda (cont.)

– Metodología: El proceso de descubrimiento de

conocimiento en bases de datos (KDD)

– Recolección/preparación de datos

– Algoritmos

– Modelo predictivo y su interpretación

– Utilizando los resultados

• Toma de decisiones

• Sistemas operacionales

• Software de minería de datos • Minería de datos y ética

(4)

Presentación

 Yo:

 Formación académica:

 Licenciatura en Ciencias de la computación – BUAP FCC

 Maestría en Ciencias con especialidad en Ingeniería en Sistemas - UDLAP

 Experiencia profesional

 CNyS S.C. - Consultoría (BI, BD, PM, desarrollo de software)  gedas VW (BI, preventas, consultoría, LP)

 BBVA Bancomer (BI, LP)

 SFA Puebla (soporte técnico BD)

 Experiencia académica  Programación

 Bases de datos / Inteligencia de negocios  Universidades: UDLAP, UPAEP, BUAP

 Áreas de interés

 Bases de datos e inteligencia de negocios  Desarrollo de software

(5)

Motivación

“Knowing is not enough; we must apply.

Willing is not enough; we must do.”. Goethe

 Generamos datos de manera exponencial

 Era de información

 Obtener el conocimiento oculto en esos datos

 Datos  información  conocimiento

 Competir en este mundo de negocios globalizado

(6)

¿qué es minería de datos?

• Minería de datos es el proceso por el cual generamos un modelo que sirva para la predicción,

– este modelo se genera a partir de datos

aplicándoles algún algoritmo que construye el modelo.

• El modelo se evalúa para saber que tan

certero será respecto a sus predicciones y posteriormente

• se utiliza para predecir el comportamiento de cualquier dato nuevo

USAR LA PREDICCION PARA MEJORAR Y GANAR EN LOS NEGOCIOS

(7)

¿qué es minería de datos? (cont.)

• Es la extracción de información

implícita, previamente desconocida y potencialmente útil a partir de datos [Witten I.H. et al, 2011]

• Es una disciplina joven y de rápido crecimiento, conocida como KDD, … DM como la evolución de TI. [Han J. et al, 2012]

• Es la extracción automatizada de información escondida a partir de

(grandes) bases de datos. Te permite ser proactivo. Prospectivo en lugar de retrospectivo[Thearling K.]

(8)
(9)

ejemplo: reglas if-then

if tasaProducciónLagrimas = reducida

then recomendacion = ninguna

Else

if edad=joven and astigmatismo=no

then recomendación = suaves

(10)
(11)

Aplicación en bibliotecas MBA

ID PRODUCTOS OCT-1 1 QA QB OCT-1 2 QC QD OCT-1 3 QE QA OCT-1 4 QB QC OCT-1 5 QD QE QA OCT-2 6 QB QC OCT-2 7 QD QE OCT-2 8 QA QB OCT-2 9 QC QA QB OCT-2 10 QC QA QB OCT-2 11 QC QA QB OCT-2 12 QC QD QE

(12)
(13)
(14)
(15)

Otras aplicaciones

• Marketing

• Predicción de ventas, precios, acciones e índices financieros.

• Detección de fraudes en tarjetas de crédito

• Clasificación y filtrado de documentos, e-mails y noticias.

• Análisis de llamadas en Centros de atención telefónica.

• Clasificación automática de Quejas y Sugerencias de Clientes.

(16)

Arquitectura de inteligencia de

negocios

Software del sistema (system software)

– Sistemas operativos, DBMS, compiladores

Software de aplicación (app software)

– Operacional

• OLTP y batch

• Office, nomina, ventas, ERP

– Para la toma de decisiones -> inteligencia de negocios

(17)
(18)
(19)

Metodología (cont.)

1) Establecer de manera precisa el problema a resolver - No gastes dinero, antes de comprar un software

primero establece que es lo que quieres resolver 2) Exploración inicial

-preparación y limpieza de datos -transformaciones de datos

- Probar con estadística descriptiva para conocer datos 3) Construcción del modelo y validación

- Probar algunos modelos y elegir el mejor para el problema que se está resolviendo

4) Liberación

- Una vez construido el modelo se puede usar muchas veces

(20)

Recolección/preparación de datos

Extraer, transformar, cargar

– Posiblemente ya existe un almacén de datos

Limpieza / calidad de datos

Transformaciones para la minería

– “Discretizar” (ejemplo: E B R M)

Muestra(s) -> vistas minables

– Cómo se obtiene

(21)

Algoritmos de minería de datos

• Clasificación – predicen una o más variables discretas,

basandose en los otros atributos en el conjunto de datos. Ejemplo: árboles de decisión

• Regresion – predice una o más variables continuas, como perdida o ganancia, basandose en los otros atributos en el conjunto de datos.

• Segmentación – divide datos en grupos o clusters de articulos que tienen propiedades similares.

• Asociación - encuentran correlaciones entre los diferentes atributos de un conjunto de datos. Sirven para crear reglas de asociación por ejemplo para MBA.

• Análisis de secuencia – encuentra secuencias frecuentes o episodios en datos, como en un flujo de rutas Web.

(22)

Modelo predictivo y su interpretación

(23)

Utilizando los resultados

• Se recorre el modelo cada vez que se desea predecir

– Por ejemplo para decidir a quien otorgarle un

apoyo adicional

– Por ejemplo para decidir si se le presta o no

dinero a alguien

• El modelo se puede usar para calificar a los datos de los sistemas operacionales para:

– Por ejemplo: identificar “Preferentes”

(24)

Software de DM

Weka

y

pentaho

Rapid Miner

Microsoft SQL Server 2008 R2

sas enterprise miner

IBM spss

(25)

Minería de datos y ética

•Es difícil hacer que los datos sean “anónimos”

– 85% de la gente puede ser identificada por su

C.P., fecha de nacimiento y genero

•La minería de datos se usa para discriminar

•Ejemplo: aplicación de prestamos: usar información como sexo, religión o raza no es ético

•La situación etica depende de la aplicación

•Ejemplo: la misma información esta bien en aplicaciones medicas •Los atributos pueden contener información

problematica

(26)

Conclusiones

• Minería de datos se ha venido estudiando e investigando pero no se esta aplicando en los diversos problemas de nuestro país

– Educación, salud, el campo, eliminar la pobreza

• Mientras tenemos científicos trabajando en este tema, debemos preparar a las personas que lo aplicarán. (astrónomos y astronautas)

• Es una tecnología que ya está al alcance de todo el mundo

(27)

GRACIAS POR SU ATENCIÓN

[email protected]

(28)

Bibliografía

• campodeEncinos.wordpress.com • http://catarina.udlap.mx/u_dl_a/tales/documentos/msp/gonzalez _r_l/ • http://www.uppuebla.edu.mx/Revista/revista10.pdf • http://hmi.ucsd.edu/pdf/HMI_2009_ConsumerReport_Dec9_2009 .pdf • http://www.cs.waikato.ac.nz/~ml/weka/book.html

• Mark Hall, Eibe Frank, Geoffrey Holmes, Bernhard Pfahringer, Peter Reutemann, Ian H. Witten (2009); The WEKA Data Mining Software: An Update; SIGKDD Explorations, Volume 11, Issue 1 • Kiron D. et al. Analytics:the widening divide – how companies are

achieving competitive advantage through analytics. MIT Sloan/IBM research report fall 2011

• http://www.kdnuggets.com/software/suites.html

• http://ccita2010.utmetropolitana.edu.mx/recursos/Recursos_digit ales.pdf

Referencias

Documento similar

Gastos derivados de la recaudación de los derechos económicos de la entidad local o de sus organis- mos autónomos cuando aquélla se efectúe por otras enti- dades locales o

Dado que el régimen de los poderes de emergencia afecta a la democracia, a los derechos fundamentales y humanos, así como al Estado de derecho, el control de

[r]

Asegurar una calidad mínima en los datos es una de las tareas más difíciles de conseguir para los organismos públicos cuyo objetivo es publicar datos lo más rápidamente posible

[r]

[r]

SECUNDARIA COMPRENDE LOS

En el caso de realizar una análisis estructural dinámico lineal de un edificio en particular, se necesita disponer de la información correspondiente a las dimensiones en planta y