Unidad 1:
Introducción a la Minería
de Datos
Agenda
1. Introducción
1.1 ¿ Porque Minar Datos ?
1.2 ¿ Que es la Minería de Datos ?
1.3 ¿ Que datos pueden ser minados ?
2. Descubriendo Patrones Básicos
3. Minado Eficiente de Patrones
¿Porque minar datos?
•
Vivimos en un mundo en el que se recogen
diariamente grandes cantidades de datos.
•
El análisis de estos datos es una necesidad
importante.
•
<a href="http://pennystocks.la/internet-in-real-time/" target="_blank"><img
src="http://pennystocks.la/internet-in-real-time/images/social/internet600.gif"
border="0" width="1200" height="700" /></a><br /><span style="font-size:
12px;">Click the animation to open the full version (via <a href="http://
¿Porque minar datos?
•
La minería de datos puede satisfacer esta
necesidad, proporcionando herramientas
para descubrir el conocimiento de los
datos.
Avanzar hacia la Era de la
Información
•
"Estamos viviendo en la era de la información" es
un dicho popular;
•
Sin embargo, en realidad estamos viviendo en la
era de los datos.
•
Terabytes o petabytes de datos almacenados en
nuestras redes de computadoras, todos los días de
la Web y guardados en varios dispositivos de
Avanzar hacia la Era de la
Información
•
Este crecimiento explosivo del volumen de datos
disponibles es el resultado de la informatización de la
sociedad y el rápido desarrollo de poderosas
herramientas de recopilación y almacenamiento de
datos.
•
Las empresas de todo el mundo generan conjuntos de
datos gigantescas, incluidas las operaciones de ventas,
registros de comercio de acciones, descripciones de
productos, promociones de ventas, perfiles de
Avanzar hacia la Era de la
Información
•
Por ejemplo, las grandes tiendas, como Wal-Mart,
manejan cientos de millones de transacciones por
semana en miles de sucursales en todo el mundo.
•
Prácticas científicas y de ingeniería generan
grandes cantidades de petabytes de datos en
forma continua, a partir de sensores remotos, de
medición de procesos, experimentos científicos,
el rendimiento del sistema, observaciones de
¿Que es la Minería de Datos?
•
Término recientemente acuñado* para la
confluencia de ideas de estadísticas y
ciencias de la computación (aprendizaje de
máquinas y métodos de base de datos) que
se aplica a las grandes bases de datos de la
ciencia, la ingeniería y los negocios.
¿Que es la Minería de Datos?
¿Que es la Minería de Datos?
•
Una de las preferidas:
•
"Estadísticas rápidas a escala"
Darryl Pregibon
•
Complementada por Nitin Patel
¿Que es la Minería de Datos?
•
"La minería de datos es el proceso de descubrir
nuevas correlaciones significativas, patrones y
tendencias por tamizado a través de grandes
cantidades de datos almacenados en repositorios,
utilizando tecnologías de reconocimiento de
¿Que es la Minería de Datos?
•
Disciplinas fundamentales
•
Estadística (adaptados para tamaños de datos del siglo
21 y los requisitos de velocidad).
•
Descripción: Visualización
•
Modelos (DMD): Regresión, Análisis de Cluster
•
Aprendizaje Automático: Redes Neurales
•
Recuperación de la base de datos: Reglas de
Association
¿Que es la Minería de Datos?
La minería de datos en busca
de conocimiento (patrones
¿Que es la Minería de Datos?
•
No es ninguna sorpresa que la minería de datos, como un sujetoverdaderamente interdisciplinario, se puede definir de muchas maneras diferentes.
•
Incluso el término minería de datos en realidad no presenta todos los componentes principales de la imagen anterior.•
Para referirse a la explotación minera del oro de piedras o arena, decimos la minería de oro en vez de roca o la extracción de arena.•
Análogamente, la minería de datos debería haber sido más apropiadamente llamada "minería de conocimiento a partir de datos", que es por desgracia un poco largo.•
Sin embargo, el termino corto minería de conocimiento puede no reflejar el énfasis en la minería de grandes cantidades de datos.¿Que es la Minería de Datos?
•
Por lo tanto, un nombre poco apropiado
como llevar tanto los "datos" y "minería" se
convirtió en una opción popular.
•
Además, muchos otros términos tienen un
significado similar a la minería de datos, por
ejemplo, la minería del conocimiento a partir
de datos, extracción de conocimiento,
¿Que es la Minería de Datos?
•
Muchas personas tratan a la minería de datos como
sinónimo de otro término utilizado popularmente,
descubrimiento de conocimiento a partir de datos,
o KDD.
•
Mientras que otros consideran a la minería de datos
como meramente un paso esencial en el proceso de
descubrimiento de conocimiento.
¿Que es la Minería de Datos?
•
Pasos del KDD (Resumidos)•
1.- Data Cleaning (Para remover datos inconsistentes y con ruido)•
2.- Data Integration (Cuando es necesario combinar datos de fuentes multiples)•
3.- Data Selection (Donde los datos pertinentes a la tarea de análisis se recuperan de la base de datos)•
4.- Data Transformation (Donde los datos se transforman y se consolidan en formas apropiadas para la minería mediante la realización de operaciones de resumen o de agregación)•
5.- Data Mining (Un proceso esencial donde se aplican métodos inteligentes para extraer patrones de datos)•
6.- Pattern evaluation (Para identificar los patrones verdaderamenteinteresantes que representan el conocimiento basado en las medidas de Intereses)