Versión 0.1 Oct 2012
KDD y Data Mining en registros médicos, una
aproximación al estado del arte
Osvaldo Rueda Carreño
Departamento de Ingeniería de Sistemas e Industrial Universidad Nacional de Colombia, Bogotá
[email protected]
RESUMEN
Se investiga la disciplina del proceso de extracción del conocimiento o (KDD Knowledge Discovery in Databases) o minería de datos aplicado a bases de datos, sus métodos y aplicaciones; como también el aporte de sus principales autores en las dos últimas décadas. El KDD, busca predecir, identificar factores de riesgo en los registros médicos, mediante la investigación de su entorno, el descubrimiento de las relaciones entre sus datos y la toma de decisiones estratégicas por parte de los médicos o personal administrativo.
El objetivo de este artículo es realizar un estado del arte de las técnicas o modelos de minería de datos usados actualmente en detección de patrones en bases de datos de registros médicos
Términos generales:
Registros en bases de datos médicas
Palabras clave:
Minería de Datos, KDD, Modelo
1.
INTRODUCCION
Nuestra capacidad para almacenar datos ha crecido en los últimos años a velocidades exponenciales. En contrapartida, nuestra capacidad para procesarlos y utilizarlos no ha ido a la par. Por este motivo, el data mining se presenta como una tecnología de apoyo para explorar, analizar, comprender y aplicar el conocimiento obtenido usando grandes volúmenes de datos.
Descubrir nuevos caminos que nos ayuden en la identificación de interesantes estructuras en los datos es una de las tareas fundamentales en el data mining.
En la última década, la Minería de Datos y el Análisis estadístico han sido ampliamente utilizados en la industria del cuidado de la salud. Cuando estos métodos son utilizados junto a información extraída de grandes cantidades de datos, pueden ayudar a los médicos para tomar decisiones y mejorar el servicio.
La mayoría de decisiones de empresas,
organizaciones e instituciones se basan también en información de experiencias pasadas extraídas de
fuentes muy diversas. A diferencia de las decisiones personales, las decisiones colectivas suelen tener consecuencias mucho más graves, especialmente económicas, y, recientemente, se deben basar en volúmenes de datos que desbordan la capacidad humana.
Sin embargo, las necesidades de toma de decisión requieren el descubrimiento de nuevos modelos no esperados o imposibles de descubrir manualmente a partir de tal magnitud de datos. Este descubrimiento, además, debe requerir de la mínima pericia posible por parte del usuario. Nace el “Descubrimiento de Conocimiento a partir de Bases de Datos” (KDD, del inglés Knowledge Discovery from Databases). Fayyad et al. [2] lo definen como el “proceso no trivial de identificar patrones válidos, novedosos, potencialmente útiles y en última instancia comprensibles a partir de los datos”.
Es importante resaltar que el KDD puede utilizarse a la vez para descubrir y verificar una hipótesis. Pero además, estos modelos deben ser novedosos (no previamente esperados o conocidos) y además comprensibles para ello se necesitan lenguajes de representación para las hipótesis más inteligibles que los modelos estadísticos y también se hacen necesarias nuevas técnicas de visualización, para ayudar a entender los patrones que ha extraído el sistema, y convertirlos en conocimiento consciente y, por tanto, útil.
Finalmente, existía un término similar a KDD, denominado “Análisis Inteligente de Datos” (IDA, del inglés Intelligent Data Analysis) que correspondía con el uso de técnicas de inteligencia artificial en el análisis de los datos, menos especializado, y que últimamente ha caído en desuso debido a que solapa en gran medida con KDD.
En este trabajo se presenta una breve explicación del proceso KDD, describiendo brevemente cada una de las etapas, luego las técnicas más usadas en la detección de patrones en bases de datos de registros clínicos.
Versión 0.1 Oct 2012
2.
METODOLOGIA
La metodología usada para el desarrollo del presente estado del arte usó la técnica de revisión bibliográfica [González, 26], dicha revisión se llevó a cabo consultando las bases de datos de la IEEE, Catálogo UN, IEEE Wiley Ebooks, Scopus, Springer Journal, Springer Books; todas ellas desde el Sistema Nacional de Bibliotecas (SINAB), también se hicieron búsquedas desde Google Schoolar, redalyc.uaemex.mx y Mendeley; en ambos casos se implementaron ecuaciones de búsqueda similares, como por ejemplo: "data mining" + "Clustering Method" OR "Discovering KDD".
En dicha metodología [26], establece usar herramientas para administración de bibliografía como lo son, Mendeley: un gestor de referencias libre y la red académica. Jabref: Bibliografía de código abierto y gestor de referencias. Zotero: herramienta para recopilar, organizar, citar y compartir fuentes de la investigación. CiteULike: Un servicio gratuito para la gestión y el descubrimiento de referencias eruditas.
En este caso usamos Medeley, creando el grupo
denominado “Data mining techniques_
OsvaldoRueda”1 en que se etiquetaron ciento cincuenta artículos en la categoría “lista inicial de referencias”, luego setenta en la categoría “Lista filtrada”, luego de treinta y cinco con el tag “Bibliografía anotada” y por último 3 con el tag “Artículos de interés”, con contenido en común con el tema enfocado. Figura 1.
Figura 1. Descripción breve de proceso metodológico
Fuente: Adaptada por el autor
En la Tabla 1, se puede apreciar cual ha sido la relación entre el año de publicación de los artículos
1
Grupo Mendeley
http://www.mendeley.com/groups/2628741/d ata-mining-techniques-osvaldorueda/
escogidos, con respecto al número de artículos publicados, dentro de los treinta y cinco seleccionados:
Tabla 1. Año de publicación versus Número de Artículos publicados, entre las referencias encontradas.
Fuente: Adaptada por el autor
3.
Descubrimiento
De
Conocimiento En Bases De Datos
Los últimos años se ha visto un enorme aumento en la cantidad de información almacenada en formato electrónico[10]. Se ha estimado que la cantidad de información obtenida en la mundo se duplica cada 20 meses[17] , y el tamaño y el número de bases de datos están aumentando incluso más rápido y la capacidad de recopilar datos rápidamente ha superado la capacidad de analizar [28,32].
El objetivo en todo proceso de MD es obtener patrones de interés para el usuario final. Para lograrlo, es necesario preparar correctamente a los datos para procesarlos, elegir un método adecuado para extraer los patrones deseados y finalmente, determinar como evaluar los patrones encontrados. [28],[31],[32],[33] Estas etapas han sido organizadas en un esquema conocido como el proceso de descubrimiento de conocimiento en base de datos (KDD, por sus siglas en inglés), en el cual se identifican tres grandes bloques: pre-procesamiento, búsqueda / identificación de patrones y evaluación.
Las herramientas automatizadas [8] que se deben desarrollar para ayudar a extraer información significativa de una inundación de información. Además, estas herramientas deben ser lo suficientemente sofisticadas como para buscar las correlaciones entre los datos especificados por el usuario, como el potencial para imprevistos Lista Inicial
de referencias
(150 Articulos)
Lista Filtrada de referencias (70
articulos)
Bibliografía anotada (35
articulos)
Articulos de interés (3 articulos)
Año
Total
1992
1
1996
1
1997
1
2000
2
2001
1
2002
3
2004
3
2005
5
2006
3
2007
3
2008
5
2010
4
2012
3
Versión 0.1 Oct 2012
relaciones de existir entre los datos es muy alta. Una herramienta eficaz para lograr establecer estas metas localizar pepitas de información útil en el espacio de datos de otra manera caótica, y los presentan al usuario en un formato contextual.
Una necesidad urgente de crear una nueva generación de técnicas que se necesita para la automatización de los datos minería y descubrimiento de conocimiento en bases de datos (KDD). KDD es un área amplia que integra métodos de varios campos, incluyendo las estadísticas, bases de datos, inteligencia artificial, máquina aprendizaje, reconocimiento de patrones, el descubrimiento de la máquina, modelación de la incertidumbre, los datos visualización, computación de alto rendimiento, optimización, gestión de la información sistemas (MIS) y los sistemas basados en el conocimiento.
3.1.
Etapas en el Proceso KDD
Los autores Olmos-Pineda, J. A. Gonzalez-Bernal [10] en la figura 2, ellos describen que el proceso de KDD se divide en cuatro etapas, Preprocesamiento, Minería de datos, Evaluación y validez; en la primera etapas del proceso KDD se debe “limpiar,
preparar, seleccionar y formatear a los datos de acuerdo a los patrones a buscar y el algoritmo de
Minería de Datos a utilizar”. La siguiente etapa
minería de datos, en la cual se buscan o descubren los
patrones ocultos en los datos, los cuales pasan a una etapa de evaluación, en donde se determina la validez y confiabilidad de dichos patrones. Al final de todo este proceso, se obtienen una serie de patrones llamados conocimiento.
El proceso KDD, ilustrado en la Figura 1, fue descrito como una serie de pasos, desde la selección y limpieza de la BD hasta la evaluación e interpretación de los resultados.
figura 2. Esquema del Proceso KDD.
Fuente: [10] I. Olmos-Pineda, J. A. Gonzalez-Bernal
Los autores[17] establecen que El descubrimiento de conocimiento en bases de
datos (KDD): “se define como el proceso de identificar patrones significativos en los datos que sean válidos, novedosos, potencialmente
útiles y comprensibles para un usuario”
Figura 3. Esquema del Proceso KDD [17, José C. Riquelme, Roberto Ruiz, Karina Gilbert]
Fuente: Adaptada por el autor según descripción de la referencia.
Los autores [14, Eugenio Hernández Martínez] se permitieron definir que “la minería de datos (DM, Data Mining) consiste en la extracción no trivial de información que reside de manera implícita en los datos. Dicha información era previamente desconocida y podrá resultar útil para algún proceso. En otras palabras, la minería de datos prepara, sondea y explora los datos para sacar la información oculta en ellos [14]”.
Figura 4. Esquema del Proceso KDD Fuente: [14, Eugenio Hernández Martínez].
El autor [30, Alaaeldin M. Hafez] Describe el término "descubrimiento de conocimiento en bases de datos" como el proceso de identificación estructura útil y novedoso en datos. Podría ser visto como un proceso multietapa. Esas etapas se pueden resumir de la siguiente manera:
• La recolección de datos, por ejemplo, bases de datos, almacenes de datos, el rastreo web.
• Limpieza de datos, eliminar errores. Comprender el
dominio de aplicación:
Extraer la base de datos objetivo
Preparar los datos:
Minería de datos Interpretación
Utilizar el conocimiento
Versión 0.1 Oct 2012
• Extracción de características, obteniendo sólo los atributos interesantes de los datos
• La minería de datos, el descubrimiento y la extracción de patrones significativos.
• Visualización de los datos.
• Verificación y evaluación de los resultados; sacar conclusiones.
Figura 5. Esquema del Proceso KDD Fuente: [30, Alaaeldin M. Hafez].
El autor [25, Cesar Pérez López] realiza una descripción en cuatro fases o etapas, explicando brevemente los subprocesos.
Después de analizar los artículos, se puede concluir que la obtención de conocimiento en bases de datos se logra como se describe a continuación:
Figura 6. Descripción breve de los pasos de KDD Fuente: Adaptada por el autor
La búsqueda de conocimiento inicia con la recopilación e integración de datos iniciales, fase de Preprocesamiento, selección, [10], [11], [17], [31] y [33]. Obteniendo información original y valida determina que las fases sucesivas del proceso tenga una base sólida.
Figura 7. Fase 1 Preprocesamiento KDD Fuente: Adaptada por el autor
La fase siguiente del KDD integra la exploración, la limpieza y la transformación de datos. Se deben eliminar los datos erróneos e inconsistentes, en esta fase se usan herramientas de consulta y herramientas estadísticas [29], [8]. En la exploración se usan técnicas de análisis exploratorio, como los histogramas y los diagramas de caja, tallo y hojas [8], que ayudan a detectar datos anómalos o atípico como los outliers[30]. La presencia de datos atípicos y datos desaparecidos puede llevar a usar algoritmos robustos a datos desaparecidos y atípicos, a filtrar la información, a reemplazar valores mediante técnicas de discretización [8],[10],[31].
Figura 8. Fase 2 Minería de datos Fuente: Adaptada por el autor
En la fase siguiente es la minería de datos que se lleva a cabo a partir de tareas, desarrollo de modelos descriptivos y predictivos[17],[10] y análisis de los datos, una vez establecidos los datos de interés y con conocimiento previo, un analista puede aplicando una o varias técnicas que tipo de patrón desea descubrir. [12]El tipo de conocimiento que se desea extraer va a marcar claramente la técnica de minería de datos a utilizar.
Preprocesamiento • Selección • Exploración • Limpieza • Transformación
Minería de datos • Aplicación de técnicas • Modelar • Observación
Evaluación de patrones • Evaluación
Versión 0.1 Oct 2012
Figura 9. Fase 3 Evaluación de patrones Fuente: Adaptada por el autor
Una fase posterior del KDD es la relativa a la difusión y uso del conocimiento derivado de las técnicas de minería de datos a través de los modelos correspondientes que habitualmente desembocan en la generación de resultados. El modelo puede tener muchos usuarios y necesitar difusión, con lo que puede requerir ser expresado de una manera comprensible para ser distribuido en la organización, esa fase utiliza herramientas de visualización, presentación y transformación de los datos[8].
Sin embargo la clasificación anterior no el al única que aparece en la literatura de esta materia. Existen otras interpretaciones del concepto de minería de datos entro de las fases del proceso de obtención del conocimiento
Figura 10. Proximidad a la minería de datos Fuente: Adaptada por el autor
4. MINERIA DE DATOS
La idea de data mining no es nueva. Ya desde los años sesenta los estadísticos manejaban términos como data fishing, data mining o data archaeology con la idea de encontrar correlaciones sin una hipótesis previa en bases de datos con ruido. A principios de los años ochenta, Rakesh Agrawal, Gio Wiederhold, Robert Blum y Gregory Piatetsky-Shapiro, entre otros, empezaron a consolidar los términos de data mining y KDD.[3] A finales de los años ochenta sólo existían un par de empresas dedicadas a esta tecnología; en 2002 existen más de 100 empresas en el mundo que ofrecen alrededor de 300 soluciones. Las listas de discusión sobre este tema las forman investigadores de más de ochenta países. Esta tecnología ha sido un buen punto de encuentro entre personas pertenecientes al ámbito académico y al de los negocios.
La minería de datos es un área reciente y de rápido crecimiento, que ha encontrado acogida tanto en el mundo académico como en el sector empresarial, y entre sus rasgos principales está el hecho de que se nutre de diferentes disciplinas, a saber, Estadística, Bases de Datos, Computación de Alto Desempeño, Algoritmos, entre otras [11] [31]. Además, vivimos en un mundo interconectado en el que los usuarios hemos dejado de ser simples consumidores de información, para convertirnos en generadores de la misma, ya sea a través de chats, blogs, tweets, wikis, páginas web, podcasts, redes sociales, videos, etc. [3].
4.1 Definición
Algunas definiciones acerca del concepto de minería de datos:
“La MD es la parte central del proceso KDD, en la cualse buscan o encuentran patrones de interés para el usuario. Los patrones descubiertos pueden ser subgrafos, reglas de asociación, árboles de clasificación, una red neuronal entrenada, entre otros”. [10]
“El data mining es una tecnología compuesta por etapas que integra varias áreas y que no se debe confundir con un gran software”. [11]
“La minería de datos (DM, Data Mining) consiste en la extracción no trivial de información que reside de manera implícita en los datos. Dicha información era previamente desconocida y podrá resultar útil para algún proceso”. [14]
“Data mining is an essential step in the knowledge discovery in databases (KDD) process that produces useful patterns or models from data”. [31]
Las técnicas de minería de datos pueden ser categorizadas por áreas o por métodos [30], también en predictivas y descriptivas:
Figura 11. Técnicas predictivas Fuente: Adaptada por el autor
KDD
SELECCION
EXPLORACION
LIMPIEZA
TRANSFORMACION
MINERIA DE DATOS
Tecnicas predictivas
Técnicas descriptivas
Tecnicas auxiliares EVALUACION E
INTERPRETACION DE RESULTADOS
DIFUSION Y USO DE MODELOS
Te
cn
ic
as
p
re
d
ic
ti
vas
Regresión
Analisis de Varianza y Covarianza
Series temporales
Métodos bayesianos Algoritmos genéticos
Versión 0.1 Oct 2012
Figura 11. Técnicas descriptivas Fuente: Adaptada por el autor
4.2. Tareas de la Minería de Datos
La verdadera tarea de la minería de datos consiste en analizar de forma automática o semiautomática grandes cantidades de datos para extraer patrones de interés desconocidos, tales como grupos de datos relacionados(clustering), registros poco comunes (detección de anomalías), dependencias (asociación), comportamientos futuros (predicción), disparidad entre grupos de datos (clasificación). [17] [28] [30]
En ese orden de ideas, se procede con la explicación de aquellas tareas consideradas como las tareas más Comunes a adelantar por medio de la minería de datos:
4.2.1 Asociación [17] [28] [30]
Aquí se extraen o generan reglas de los datos. Estas reglas hacen referencia al descubrimiento de relaciones de asociación y dependencias funcionales entre los diferentes atributos. ¿Cuánto debe valer este indicador en sangre para que un paciente se considere grave? ¿Si un cliente de un hipermercado compra pañales también compra cerveza?
Su uso se materializa a través del Algoritmo Apriori y GRI.
4.2.2 Clustering [17] [28] [30]
Ha recibido el nombre de Agrupamiento, y permite la identificación de tipologías o grupos con características comunes -entre sus elementos ó componentes- y diferentes, con los otros grupos. Un clúster es una colección de registros que son similares entre ellos y diferentes con respecto a los registros de otros clusters.
4.2.3 Clasificación [17] [28] [30]
Clasifica un dato dentro de una de las clases categóricas predefinidas. Responde a preguntas tales como, ¿Cuál es el riesgo de conceder un crédito a este cliente? ¿Dado este nuevo paciente qué estado de la enfermedad indican sus análisis? Los métodos ó técnicas que se aplican son: Redes Neuronales, Arboles de Decisión y KNN (k-Nearest Neighbor), Tablas de Decisión, Lógica Difusa, Técnicas Genéticas.
4.2.4 Predicción [17] [28] [30]
Proceso que intenta determinar los valores de una o más variables, con base en un conjunto de datos. Cualquiera de los métodos o técnicas empleados para la clasificación, bajo circunstancias apropiadas, podría utilizarse para la predicción.
Los métodos ó técnicas que se aplican son: Arboles de Predicción, Estimador de Núcleos, Regresión Lineal, Clasificación Bayesiana, Redes Neuronales
4.3 Aplicaciones
La minería de datos es una técnica utilizada en campos muy diversos, como por ejemplo:
- Negocios
- Hábitos de compra en supermercados - Patrones de fuga
- Fraudes
- Recursos humanos
- Comportamiento en Internet - Terrorismo
- Juegos
- Ciencia e ingeniería - Genética
- Ingeniería eléctrica - Análisis de gases
- Biomedicina (diagnosis de enfermedades)
4.4. Herramientas
Para cada una de las aplicaciones de la tabla 2, descritas por el autor [08] en donde se ha estudiado su empleo empleo de redes neuronales; árboles de decisión; k-medias; uso del criterio de Bayes; técnicas estadísticas tradicionales (obtención de los principales estadísticos descriptivos); realización de predicciones; manejo de series de tiempo; formulación de agrupaciones; detección de
asociaciones; compatibilidad con Windows
95/98/NT, UNIX; escalabilidad paralela; uso de extensiones SQL.
Tabla 2. Producto software
Fuente: [08], Sandra Mª Sánchez Cañizares, 2005
5.
APLICACIÓN DE LA MINERÍA
DE DATOS A LAS BASES DE DATOS
DE REGISTOS MEDICOS
Té
cn
icas
d
es
crip
tiv
as
Clasificación post hoc
Clustering
Segmentación Asociación
Dependencia
Reduccion de la Dimensión
Analisis exploratorio
Versión 0.1 Oct 2012
Entre todos los artículos encontrados se caracterizan por aplicar o explicar temas como: Clustering Algorithms, Partitioning Based Clustering, Hierarchical Algorithms, Density Based Clustering (DBSCAN,OPTICS,DENCLUE) [1], Grid Based Clustering, K-NN, MLP, Naïve Bayes, SMO, RFB, J48, Naïve Bayes, the back-propagated, [5] neural network, and the C4.5 decision tree algorithms, Análisis de selección de atributos, Principle Component Analysis (PCA), PLS (Partial Least Squares), Regression Analysis y Árboles de decisión[13]
Algoritmos usados en los registros médicos
El K-NN presenta la ventaja de poder elegir el valor de K para nuestros requerimientos, no obstante tenemos el problema de encontrar el valor óptimo y la necesidad de ir variándolo.
El clasificador del perceptrón multicapa permite seleccionar entre varias opciones, aunque los resultados entre ellos son similares y presentan peores características que por ejemplo el K-NN.
Con el Naïve Bayes obtenemos una
probabilidad de error mayor que para la
mayoría de los K-NN, aunque la
distribución de errores se decanta en clasificar tumores malignos como benignos, lo que podría considerarse más grave que el caso contrario.
El clasificador SMO presenta la mejor tasa de error, estando los errores bastante equilibrados entre falsas alarmas y pérdidas.
El caso de mínimo error del RFB es similar al del Naïve Bayes, con una cantidad de falsas alarmas mucho mayor que de pérdidas, lo que resulta un problema. Para valores mayores del número de clusters la tasa de error aumenta.
El mayor inconveniente de las técnicas no simbólicas es su poca (o nula) inteligibilidad. En el caso del razonamiento por casos o las redes neuronales, el resultado del proceso es una caja negra que sirve para predecir o clasificar nuevos casos, pero no se sabe cómo y, por tanto, no se ha obtenido conocimiento. Por el contrario, las técnicas simbólicas generan un modelo “legible” y además aceptan mayor variedad de variables y mayor riqueza en la estructura de los datos. Entre las técnicas simbólicas, podemos destacar:
• Árboles de Decisión: Utilizados fundamentalmente para clasificación y segmentación, consisten en una serie de tests que van separando el problema, siguiendo la técnica del divide y vencerás, hasta llegar a las hojas del árbol que determinan la clase o grupo a la que pertenece el registro o individuo. La fig. 12, muestra un árbol de decisión. Existen muchísimas técnicas para inducir árboles de decisión, siendo el más famoso el algoritmo C4.5 de Quinlan [2]. Los árboles de regresión son similares a los
árboles de decisión pero basados en técnicas estadísticas.
Figura 12. Árbol de Decisión para Determinar Recomendacióno No de Cirugía Ocular
Fuente: [12]
Programación Inductiva y Otras Técnicas de
Inducción Simbólica de Alto Nivel:
fundamentalmente se usan para obtener patrones de tipo general, que se pueden establecer entre varios individuos o son intrínsecamente estructurales. Aunque existen algunas aproximaciones basadas en reglas simples, es la programación lógica inductiva (ILP) el área que ha experimentado un mayor avance en la década de los noventa [7]. ILP se basa en utilizar la lógica de primer orden para expresar los datos, el conocimiento previo y las hipótesis. Como la mayoría de bases de datos actuales siguen el modelo relacional, ILP puede trabajar directamente con la estructura de la misma, ya que una base de datos relacional se puede ver como una teoría lógica. Aparte de esta naturalidad que puede evitar o simplificar la fase de preprocesado, ILP permite representar hipótesis o patrones relacionales, aprovechando y descubriendo nuevas relaciones entre individuos. Por ejemplo no tiene sentido enviarle propaganda de piscinas a una persona si ésta convive con otra que ya se instaló una piscina recientemente. Estos patrones son imposibles de expresar con representaciones clásicas. Nótese que un árbol de decisión siempre se puede convertir fácilmente en un conjunto de reglas.
Versión 0.1 Oct 2012
observan que la muestra extraída es cancerígena. No obstante, una detección que devuelva un falso negativo puede hacer que el tumor avance su estado de desarrollo elevando los costes del tratamiento o incluso suponiendo la pérdida de una vida humana. El desarrollo de los sistemas de clasificación, por tanto, y su aplicación en medicina, afecta directamente a la vida de personas humanas. A parte de la probabilidad de fallo que pueda tener el sistema causando falsos negativos, el hecho de que existan múltiples tipos de tumores con diferentes formas e incluso con las mismas características que el tejido normal, aumenta dicha probabilidad.
.
De esta parte se concluye la necesidad e importancia de los sistemas informáticos de procesado de datos (algoritmos de aprendizaje, sistemas de clasificación, etc.), quedando clara la ayuda que estos presentan al personal sanitario y los incrementos de eficiencia y efectividad que se producen como consecuencia de su empleo en medicina diagnóstica, especialmente contra el cáncer.
5. PUBLICACIONES EN MINERIA DE DATOS
Al tener acceso a la herramienta SciVerse de Elsevier B.V., mediante el Sistema Nacional de Bibliotecas –
SINAB de la Universidad Nacional de
Colombia,consultar el término “data mining” y seleccionar la cantidad de documentos publicados en los Journals de BioData Mining, Data Mining and Knowledge Discovery, International Journal of
Business Intellingence and Data Mining,
International Journal of Data Mining and
Bioinformatics, International Journal of
Datawarehousing and Mining, Proceedings of the ACM SIGKDD International Conference y el Statistical Analysis and Data Mining, se obtiene la siguiente Figura 13:
Figura 13. Documentos conteniendo la frase “data mining” publicados en Journals referenciados en Scopus.
Fuente: SciVerse Scopus
Tabla 3. Documentos conteniendo la frase “data mining” publicados en Journals referenciados en Scopus
Se concluye que antes de 1996, no se había publicado artículo alguno que involucrara el término “data mining” ó minería de datos en inglés, en los Journals antes mencionados. Los primeros artículos que hacían alusión a la minería de datos aparecen en el Journal
Data Mining and Knowledge Discovery en el año de
1997 (17 articulos) y que a 2011, el Journal Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data
Mining se ha convertido en el punto de referencia en
cuanto al tema de minería de datos, con doscientos siete documentos para ese año, conteniendo más de cuatro veces el número de publicaciones de su inmediato seguidor,. En cuanto a las citaciones, hasta el año 2008, los artículos más citados correspondían al Journal Data Mining and Knowledge Discovery
con mil novecientas seis citaciones. En el año 2011, ese primer puesto corresponde al Journal
Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data
Mining con 4007 citaciones, quedando en Segundo
lugar Data Mining and Knowledge Discovery con dos mil cuatrocientas
veinticuatro, encontrándose a una distancia de las restantes publicaciones, pues la que más citaciones tiene de ellas es International Journal of Data Mining
and Informatics con ciento seis
No obstante, es importante aclarar que, con anterioridad, sí se había utilizado el término mining ó minería, pero no en conjunto con la palabra data. Tal afirmación se corrobora a través del artículo relacionado con las reglas de asociación publicado en SIGMOD en el año de 1993 [12].
6. CONCLUSIONES
La minería de datos es un proceso que permite a un usuario extraer conocimiento de sus datos y que pueden ser útiles para la toma de decisiones[17].
Debido a que en muchos casos los datos de entrada contienen diferentes tipos de problemas, se ha creado el proceso KDD, el cual organiza de forma esquemática cada una de las etapas necesarias para extraer patrones de calidad. Este esquema incluye desde la selección y limpieza de los datos hasta técnicas para la evaluación de patrones, donde la minería de datos se ubica en el centro del proceso[30]y [32].
La minería de datos es una herramienta muy poderosa, sin embargo, es necesario tener un conocimiento sobre los datos, de tal forma que
DOCUMENT TYPE Total
Conference Paper 36.192
Article 17.461
Undefined 1.406
Conference Review 1.299
Review 734
Article in Press 311
Editorial 256
Report 79
Short Survey 64
Note 29
Letter 15
Erratum 14
Book 13
Versión 0.1 Oct 2012
permita seleccionar los mejores métodos para el proceso de minería[10].
En resumen, data mining se presenta como una tecnología emergente, con varias ventajas: por un lado, resulta un buen punto de encuentro entre los investigadores y las personas de negocios; por otro, ahorra grandes cantidades de dinero a una empresa y abre nuevas oportunidades de negocios. Además, no hay duda de que trabajar con esta tecnología implica cuidar un sinnúmero de detalles debido a que el producto final involucra "toma de decisiones"[24] y [28].
Se encuentra que la documentación en estas disciplinas, no conservan una terminología totalmente común y tienden a traslapar unos conceptos con otros[34].
En este artículo se han mostrado las diferencias, y por tanto las nuevas posibilidades, del descubrimiento de conocimiento a partir de bases de datos, en comparación con otras aproximaciones más clásicas.[13]
El almacenamiento de datos y tecnologías de extracción son aplicable a los servicios de salud, y previa la explotación de un almacén de datos clínicos ha producido resultados prometedores. El nuevo paradigma propuesto en este trabajo para determinar asociaciones complejas que influyen en los resultados médicos mediante la combinación de la minería de datos con el historial del paciente computarizado merece un estudio más a fondo. Mediante la implementación de KDD, nuevas hipótesis médicos pueden ser generadas para la predicción y prevención de parto prematuro de nacimiento y otros resultados adversos para la salud [2],[8][13],[22].
7. REFERENCIAS
[1]. Ritu Chauhan, Harleen Kaur, M.Afshar Alam, "Data Clustering Method for Discovering Clusters in Spatial Cancer Databases", 2010.
[2]. Félix Rodríguez Jara, Nieves Vallejo Delgado, “Aplicación de técnicas de Minería de Datos para el diagnóstico prematuro de Cáncer”, 2008.
[3]. Pablo Felgaer, “Optimización de Redes Bayesianas basado en Técnicas de Aprendizaje por Inducción”, 2005.
[4]. Michael Steinbach, George Karypis, Vipin Kumar, “A Comparison of Document Clustering Techniques”, 2000.
[5]. Abdelghani Bellaachia, Erhan Guven, “Predicting Breast Cancer Survivability Using Data Mining Techniques”, 2006.
[6]. Roper-Batker, Astia, “Salud Reproductiva de Mujeres en Edad Fertil”, 2010.
[7]. Luis Garrido, José Ignacio Latorre, “Aplicaciones Empresariales”, 2001.
[8]. Sandra Mª Sánchez Cañizares, Miguel Ángel Ayuso Muñoz, José Mª Caridad y Ocerin, “Software De Minería De Datos: Análisis De Características”, 2005.
[9]. Jesús S. Aguilar–Ruiz, Norberto Díaz– Díaz, “Selección de atributos relevantes basada en bootstrapping”, 2005
[10].Olmos-Pineda1, J. A. Gonzalez-Bernal, “Data mining”, 2007.
[11].Luis Carlos Molina Félix, “Data mining: torturando a los datos hasta que confiesen”, 2002.
[12].Benjamín Ojeda Magaña, “Extracción de conocimiento aplicada a datos mediante agrupamientos”, 2010.
[13].José Hernández Orallo, M.Carmen Juan Lizandra Neus Minaya Collado, Carlos Monserrat Aranda, “bases de datos medicas”, 2000.
[14].Eugenio Hernández Martínez, Rodrigo Lorente Sanjurjo, “Minera de datos aplicada a la detección de Cáncer de Mama”, 2008.
[15].Perfecto Malaquías Quintero Flores, “Diseño Evolutivo Adaptable de Sistemas Difusos con Aplicaciones en Control de Tiempo Real, Diagnóstico Médico y Minería de Datos”, 2008.
[16].Marcial García Rojo, Fernando Martín Sánchez, “El impacto de la historia clínica”, 2004.
[17].José C. Riquelme, Roberto Ruiz, Karina Gilbert, “Minería de Datos Conceptos y Tendencias”, 2006.
[18].Sakir Kocabas, “Functional Categorization of Knowledge: Applications in Modeling Scientific Research and Discovery”, 1992.
Versión 0.1 Oct 2012
[20].Rocío Erandi Barrientos Martínez, Nicandro Cruz Ramírez, Héctor Gabriel Acosta Mesa1, Ivonne Rabatte Suárez, Patricia Pavón León, Maria del Carmen Gogeascoechea Trejo, Ma. Sobeida L.
Blázquez Morales, “Evaluación del
potencial de redes bayesianas en la clasificación en datos médicos”, 2008.
[21].Stephen D. Durbin, Doug Warner, J. Neal Richter, and Zuzana Gedeon, “Information Self-Service with a Knowledge Base That Learns”, 2002.
[22].Jonathan C. Prather, M.S.', David F. Lobach, M.D.,Ph.D.,M.S.', Linda K. Goodwin, R.N.,Ph.D. Joseph W. Hales, Ph.D., Marvin L. Hage, M.D., and W. Edward Hammond, Ph.D.',Medical “Data Mining: Knowledge Discovery in a Clinical Data Warehouses”, 1997.
[23].Charles C.H.Liul, I-Jen Chiang, Yu-Chuan Li, “Medical data mining-- experience of knowledge discovery in two clinical databases”, 2002.
[24].George Dimitoglou, JamesA. Adams, Carol M. Jim, “Comparison of the C4.5 and a NaiveBayes Classifier”, 2012.
[25].Cesar Perez Lopez, “Minería de datos Técnicas y herramientas”, 2007.
[26].Fabio gonzalez,
https://sites.google.com/a/unal.edu.co/semi nario1-2012-2/, 2012.
[27].Samuel D. Pacheco Leal, Luis Gerardo Díaz Ortiz, Rodolfo García Flores, “Clasificador Naive Bayes”, 2005.
[28].Michell Angelo Ferruccio, Arturo Iván García Alonso, Sandra Ximena Gómez, “Minería De Datos”, 2004.
[29].Sanabria Garzón J., “Herramienta software para implementar minería de datos: clusterización utilizando lógica difusa”, 2004.
[30].Alaaeldin M. Hafez, “Knowledge
Discovery in Databases”, 2007.
[31].Tipawan Silwattananusarn,
KulthidaTuamsuk, “Data Mining and Its Applications for Knowledge Management”, 2012.
[32].Pang-Ning, Tan Michael Steinbach, Vipin Kumar, “Introduction to Data Mining”, 2006.
[33].Usama Fayyad, Gregory Piatetsky-Shapiro, and Padhraic Smyth, “From Data Mining to Knowledge Discovery in Databases”, 1996.
[34].Juan Jose Rodriguez, Oscar Prieto, “Metodos de clasificación”, 2005.
[35].Rubén Civeira Iglesias, “Incorporación de Conocimiento Biológico en la Clasificación de Pacientes con Cáncer Mediante Stacking”, 2010
Repositorios de datos:
[1]. http://kdd.ics.uci.edu/,Pagina Web del repositorio de datos de la Universidad de California,[20]
[2]. www.seer.cancer.gov,Surveillance, Epidemiology, and End Results (SEER) Program,[5]
[3]. http://globocan.iarc.fr/,Estimated cancer Incidence,[1]
[4]. http://www.cancer.gov.co/contenido/conten ido.aspx,Cáncer en cifras Repositorio Nacional,
[5]. http://www.cdc.gov/spanish/cancer/breast/s tatistics/age.htm,Tasas de cáncer Center for dicease control and Prevention,
[6]. http://arxiv.org/corr/home,Cornell University Library.
[7]. Incidence/mortality data: Ferlay J, Shin HR, Bray F, Forman D, Mathers C and Parkin DM. GLOBOCAN 2008 v2.0, Cancer Incidence and Mortality Worldwide: IARC CancerBase No. 10 [Internet]. Lyon, France: International Agency for Research on Cancer; 2010. Available from:
http://globocan.iarc.fr.
[8]. Prevalence data: Bray F, Ren JS, Masuyer E, Ferlay J. Estimates of global cancer prevalence for 27 sites in the adult population in 2008. Int J Cancer. 2012. Jul 3. doi: 10.1002/ijc.27711. [Epub ahead of print].