Planificaciones
9567 - MINERIA DE DATOS
Docente responsable: ARGERICH LUIS RICARDO
OBJETIVOS
Proveer al alumno de conocimientos prácticos y extensiones de las técnicas de data mining, priorizando el enfoque experimental mediante el uso de un software apropiado y la evaluación de diversas técnicas de mining.
CONTENIDOS MÍNIMOS
-
PROGRAMA SINTÉTICO
1- Pattern Matching
2- Estrategias para la minería de patrones frecuentes 3- Evaluación
4 - Minería de Patrones de diferentes tipos 5 - Patrones secuenciales
6 - Patrones espacio-temporales y trayectorias.
7- Minería de textos 8- Temas avanzados
PROGRAMA ANALÍTICO
1- Pattern Matching
Conceptos generales sobre descubrimiento de patrones. Patrones frecuentes, patrones cerrados, patrones máximos, reglas de asociación.
2- Estrategias para la minería de patrones frecuentes
Propiedad de clausura, algoritmo Apriori, algoritmo SOM, algoritmo de Toivonen. Minería de patrones para datos en formato vertical. Patrones incrementales. Patrones cerrados.
3- Evaluación
Métricas para el análisis de patrones frecuentes. Soporte y Confianza. Lift, Chi-Cuadrado. Metricas invariantes a los valores nulos.
4 - Minería de Patrones de diferentes tipos
Asociaciones multi-nivel, asociaciones multi-dimensionales, asociaciones cuantitativas. Correlaciones negativas, patrones comprimidos, patrones y redundancia.
5 - Patrones secuenciales
Algoritmos basados en Apriori. GSP. SPADE. PrefixSpan. Minería directa de patrones secuenciales.
6 - Patrones espacio-temporales y trayectorias.
Minería de asociaciones espaciales. Minería de patrones sobre trayectorias múltiples. Patrones de movimiento periódicos.
7- Minería de textos
Extraccion de frases en textos. TopMine. SegPhrase.
8- Temas avanzados
Minería de patrones en streams. Bug Mining. Patrones y la privacidad de los datos. Temas de investigación.
BIBLIOGRAFÍA
* Charu Agrawal. Data Mining, the Textbook. 2015.
* Jiawei Han. Data Mining. Concepts and Technologies. Third Edition. 2000.
2 de 5
* Ashok Shrivastava. Text Mining: Classification, Clustering, and Applications. 2009.
* Joao Gama. Knowledge Discovery from Data Streams. 2010.
RÉGIMEN DE CURSADA Metodología de enseñanza
Se cursará en un cuatrimestre con clases semanales de 3 horas de duración. Todas las clases son teórico- prácticas. Las clases cubrirán los temas del programa anaĺítico de la materia.
Para la aprobación del curso se requiere que los alumnos presenten un trabajo de investigación grupal sobre alguno de los temas de la materia y que desarrollen el software necesario para las pruebas que deban realizar en su trabajo de investigación.
Trabajos seleccionados serán presentados en diferentes congresos o conferencias.
Modalidad de Evaluación Parcial
La evaluación parcial consiste en la validación del proyecto de investigación de cada grupo.
CALENDARIO DE CLASES
Semana Temas de teoría Resolución
de problemas
Laboratorio Otro tipo Fecha entrega Informe TP
Bibliografía básica
4 de 5
<1>
05/03 al 10/03
Introducción a la materia.
<2>
12/03 al 17/03
Pattern Matching I.
<3>
19/03 al 24/03
Pattern Matching II.
<4>
26/03 al 31/03
Evaluación de patrones.
<5>
02/04 al 07/04
Clase práctica.
<6>
09/04 al 14/04
Minería de patrones diversos I.
<7>
16/04 al 21/04
Minería de patrones diversos II.
<8>
23/04 al 28/04
Patrones Secuenciales I
<9>
30/04 al 05/05
Patrones Secuenciales II
<10>
07/05 al 12/05
Clase práctica.
<11>
14/05 al 19/05
Patrones Espacio Temporales I.
<12>
21/05 al 26/05
Patrones Espacio Temporales II.
<13>
28/05 al 02/06
Text Mining.
<14>
04/06 al 09/06
Text Mining 2.
<15>
11/06 al 16/06
Temas Avanzados
<16>
18/06 al 23/06
Exposiciones.
CALENDARIO DE EVALUACIONES
Evaluación Parcial
Oportunidad Semana Fecha Hora Aula
1º 2º 3º 4º