Propuesta entrega preliminar VI

(1)

Página 1 de 22 FACULTAD DE INGENIERÍA

UNIDAD DE POSGRADOS

PRESENTACIÓN PROPUESTA

TESIS DE MAESTRÍA: TRABAJO FINAL DE ESPECIALIZACIÓN:

1. PROPONENTE: Osvaldo Rueda Carreño

2. CÓDIGO: 285626

3. CORREO: oruedac@unal.edu.co

4. PROGRAMA: MAESTRÍA EN INGENIERIA DE SISTEMAS Y COMPUTACIÓN

5. DIRECTOR PROPUESTO: Pendiente ( a la espera de respuesta)

5.1. DEPARTAMENTO: Ingeniería de Sistemas e Industrial

5.2. TÍTULO: Diseño de un modelo predictivo basado en técnicas de minería

de datos para la identificación de pacientes con tendencia a padecer cáncer.

(2)

Página 2 de 22

6. ANTECEDENTES Y JUSTIFICACIÓN

6.1. MINERIA DE DATOS

La idea de la minería de datos –MD- aplicada a grupos de datos con alguna

similitud o analogía no es nueva, es producto de investigaciones que datan

desde los años sesenta cuando los estadísticos manejaban términos como

pesca, minería o arqueología de datos [16] [28].

Más adelante, a principios de los años ochenta, en la historia de la minería de

datos se puede encontrar que Rakesh Agrawal, Gio Wiederhold, Robert Blum y

Gregory Piatetsky-Shapiro, entre otros, empezaron a consolidar los términos “Minería de datos” y “pesca de datos”[3]. En efecto, otros autores afirman que

sólo a partir de los años ochenta existían empresas dedicadas a esta tecnología

que tuvo un rápido crecimiento, alcanzando en el año 2002 a superar 100

empresas en el mundo que ofrecían alrededor de 300 soluciones en más de 80

países [25] [28].

De esta manera, la minería de datos es un área reciente que ha encontrado

acogida tanto en el mundo académico como en el sector empresarial,

encontrando entre sus rasgos distintivos el hecho de que se desarrolla aún más

con la interconexión mundial y se nutre de diferentes disciplinas, como la

Estadística, las Bases de Datos, Computación de Alto Desempeño, Algoritmos,

entre otras [3] [11] [31].

6.1.1 Definición

Algunas definiciones acerca del concepto de minería de datos:

“La MD es la parte central del proceso KDD, en la cual se buscan o encuentran

patrones de interés para el usuario. Los patrones descubiertos pueden ser

(3)

Página 3 de 22

“La minería de datos es una tecnología compuesta por etapas que integra varias áreas y que no se debe confundir con un gran software”. [11]

“La minería de datos consiste en la extracción no trivial de información que reside

de manera implícita en los datos. Dicha información era previamente desconocida y podrá resultar útil para algún proceso”. [14]

“La minería de datos es un paso esencial en el proceso de KDD que produce patrones o modelos de utilidad a partir de datos”. [31]

Las técnicas de minería de datos pueden ser categorizadas por áreas o por

métodos [30]; también en predictivas y descriptivas, como se ilustra en la Figura

1 y 2.

Figura 1. Técnicas predictivas Figura 2. Técnicas descriptivas

Fuente: Elaborada por el autor Fuente: Elaborada por el autor

6.1.2. Tareas de la Minería de Datos

La verdadera tarea de la minería de datos consiste en analizar de forma

automática o semiautomática grandes cantidades de datos para extraer patrones

de interés desconocidos, tales como grupos de datos relacionados (clustering),

registros poco comunes (detección de anomalías), dependencias (asociación),

comportamientos futuros (predicción), disparidad entre grupos de datos

(4)

Página 4 de 22

En ese orden de ideas, a continuación se procede con la explicación de aquellas tareas consideradas como las tareas más comunes a adelantar por medio de la minería de datos.

6.1.3 Técnicas de Minería de Datos

6.1.3.1 Asociación [17] [28] [30]

En esta tarea se extraen o generan reglas de los datos, que hacen referencia al descubrimiento de relaciones de asociación y dependencias funcionales entre los diferentes atributos.

Su uso se materializa a través del Algoritmo Apriori y GRI. Ejemplo: ¿Cuánto debe valer este indicador en sangre para que un paciente se considere grave? ¿Si un cliente de un hipermercado compra pañales también compra cerveza?

6.1.3.2 Clustering [17] [28] [30]

Un clúster es una colección de registros que son similares entre ellos y diferentes con respecto a los registros de otros clusters. Ha recibido el nombre de agrupamiento permitiendo la identificación de tipologías o grupos con características comunes -entre sus elementos o componentes- y diferentes, con los otros grupos.

6.1.3.3. Clasificación [17] [28] [30]

Consiste en catalogar un dato dentro de una de las clases categóricas predefinidas. Responde a preguntas tales como, ¿Cuál es el riesgo de conceder un crédito a este cliente? ¿Dado este nuevo paciente, qué estado de la enfermedad indican sus análisis? Los métodos ó técnicas que se aplican son: Redes Neuronales, Arboles de Decisión y KNN (k-Nearest Neighbor), Tablas de Decisión, Lógica Difusa, Técnicas Genéticas.

6.1.3.4. Predicción [17] [28] [30]

Proceso que intenta determinar los valores de una o más variables, con base en un conjunto de datos. Cualquiera de los métodos o técnicas empleados para la clasificación, bajo circunstancias apropiadas, podría utilizarse para la predicción.

(5)

Página 5 de 22

6.1.4 Aplicaciones [17][21]

La minería de datos es una técnica utilizada en campos muy diversos, como por ejemplo:

 Negocios

 Hábitos de compra en supermercados  Patrones de fuga

 Fraudes

 Recursos humanos

 Comportamiento en Internet  Terrorismo

 Biomedicina (diagnosis de enfermedades)  Ciencia e ingeniería

 Genética

 Ingeniería eléctrica  Análisis de gases  Juegos

6.1.5. Herramientas de Software

(6)

Página 6 de 22

Tabla 2. Producto software

Fuente: [08], Sandra Mª Sánchez Cañizares, 2005.

6.2. APLICACIÓN DE LA MINERÍA DE DATOS A LAS BASES DE DATOS DE REGISTROS MEDICOS

Las bases de datos de registros médicos han aumentado considerablemente su tamaño [2] y ha motivado a los investigadores médicos a utilizar la minería de datos para el descubrimiento de conocimiento, tendencias o patrones. Como el volumen almacenado de datos aumenta, las técnicas de minería de datos asumen un papel importante en la búsqueda de patrones [5][7][11] y extracción de información que incide directa o indirectamente sobre una mejor atención a los pacientes o diagnósticos oportunos. Las técnicas de minería de datos pueden ayudar a responder algunas preguntas fundamentales, tales como: [10]

 Teniendo en cuenta los registros de los pacientes de diálisis: ¿Qué se puede hacer para mejorar el tratamiento de estos pacientes?

 Teniendo en cuenta los registros históricos sobre el cáncer: ¿Que tratamiento debe incluir, solo la quimioterapia? solo la radioterapia?

 Se puede a partir de las bases de datos de ADN humano caracterizar por modelos genéticos de codificación?

(7)

Página 7 de 22

 Predicciones temporales de los centros asistenciales para el mejor uso de recursos, consultas, salas y habitaciones.

 Estudio de factores (genéticos, precedentes, hábitos alimenticios, etc.) de riesgo/salud en distintas patologías.

Los modelos predictivos se utilizan para hacer predicciones, por ejemplo, para hacer un diagnóstico de una enfermedad en particular. Un paciente puede ser sometido a un tratamiento especial no por su propia historia, sino por los resultados del tratamiento de otros pacientes [8] con síntomas similares. Los modelos descriptivos se utilizan para identificar patrones en los datos [1].

Clasificación, regresión y análisis de series de tiempo son algunas de las tareas de modelado predictivo, mientras clustering, reglas de asociación y visualización son algunas son las tareas de modelado descriptivo. Se describen brevemente algunas de las tareas básicas de minería de datos:

6.2.1 Arboles de clasificación [2][6][13][32]:

Clasifica a un elemento de datos dentro de una clase predefinida. Se debe tener conocimiento de los datos que se examinan antes de aplicar la técnica de clasificación.

Un conjunto de reglas de clasificación se genera a partir del modelo de clasificación, basado en las características de los datos del conjunto de entrenamiento, que puede ser utilizado para clasificar los datos futuros y desarrollar una mejor comprensión. Se pueden extraer reglas de clasificación acerca de las enfermedades de los casos conocidos y utilizarlas para el diagnóstico de pacientes nuevos basándose solo en sus síntomas.

Los árboles de clasificación son una de las técnicas de minería de datos más importantes y su aplicación es significativa en la tipificación de diagnósticos médicos, por ejemplo, se pueden categorizar a los pacientes con problemas del corazón sobre la base de varios tipos de enfermedades del corazón

6.2.2 Regresión [7][18]:

(8)

Página 8 de 22

6.2.3 Series de tiempo[18]:

El análisis de series de tiempo es el valor de un atributo examinado durante un período de tiempo, por lo general a intervalos de tiempo espaciados uniformemente. Por ejemplo, dependiendo de las condiciones de un paciente, los valores de los atributos pueden ser extraídos basados en horas o días. Esto puede ser usado para predecir valores futuros o para determinar la similitud entre diferentes intervalos de tiempo.

6.2.4 Las técnicas de visualización [26][18][28][13]:

Son métodos útiles para descubrir patrones en un conjunto de datos médicos. Los diagramas de dispersión en un plano cartesiano de dos atributos médicos se pueden utilizar para identificar subconjuntos interesantes de los conjuntos de datos médicos. Por ejemplo, para los pacientes del corazón se pueden encontrar subconjuntos interesantes con respecto a niveles de azúcar en la sangre (en ayunas). Una vez que se obtienen subconjuntos interesantes, se pueden utilizar otras técnicas de minería de datos en estos subconjuntos para descubrir nuevos conocimientos.

6.2.5 Clustering [1][2][4][6][7][8][9][13][14]:

Es la identificación de clases o grupos de un conjunto de objetos no clasificados en base a sus atributos.

Se trata de un proceso de descubrimiento de conocimiento para encontrar grupos de casos relacionados entre sí y los comportamientos estadísticos que hacen que se adhieran en grupos. Por ejemplo, un conjunto de nuevas enfermedades se pueden agrupar en varias categorías basadas en las similitudes de sus síntomas, y los síntomas comunes de las enfermedades de una categoría se pueden usar para describir este grupo de enfermedades.

6.2.6 Las redes neuronales [6][13][18][28][36]:

(9)

Página 9 de 22

6.2.7 Red Bayesiana [3][8][6][28][32]:

Es un modelo gráfico que representa las relaciones de probabilidad entre variables de interés. Este modelo tiene dos componentes: una estructura o topología y un conjunto de tablas de probabilidad condicional.

La estructura es una representación gráfica descrita por nodos y arcos. Los nodos corresponden a las variables del problema y los arcos son los que muestran las relaciones entre las variables.

6.3 PUBLICACIONES EN MINERIA DE DATOS

La tabla 3 muestra un resumen de las referencias consultadas por año y por autor, de esta tabla se puede concluir que las técnicas más usadas son Clasificación, Regresión, Agrupación, Asociación, y Redes neuronales [9][18][32],[34].

Tabla 3. Técnicas de minería de datos por autor Fuente: Elaborada por el autor

En los últimos años se ha elevado el número de publicaciones asociadas con la minería de datos aplicada a registros médicos, principalmente en artículos relacionados con Informática Médica, seguidos de Estudios en Tecnologías e Informática de la Salud.

Tecnicas 2012 2011 2010 2008 2009 2006 2005 2004 2000 1998 1997 1986 Arboles de decisión [34][6] [32] [2][14] [9] [28] [13]

Algoritmos Geneticos [28]

Analisis de series de Tiempo [18]

Clasificación [32][26] [2] [9] [18] [3] [13] [7]

Clustering [34][6] [32] [1] [2][14] [9] [18][5] [8] [29] [4],[13] [7]

k-means [1] [29] [4]

Nayve Bayes [6] [13]

Predictive data modeling [18] [22] [23]

PRIM

Redes Bayesianas [6] [32] [3][8] [28]

Redes Neuronales [34][6] [32][26] [2] [18] [28] [13]

Reglas de asociacion [34][6] [26] [9] [18] [28] [7] [23]

Regresión [18] [7]

SEER [1] [5]

(10)

Página 10 de 22

Figura 3. Documentos conteniendo la ecuación de búsqueda “data mining and medical records” referenciados en Scopus. Fuente: SciVerse Scopus

Las Figuras 3 a 4 y la tabla 4 muestran los resulados obtenidos al utilizar la herramienta SciVerse de Elsevier Product Suite for Search and Discovery –SCOPUS, ingresando la ecuación de búsqueda “data mining and medical records”; en ella se observa la tendencia creciente antes enunciada.

(11)

Página 11 de 22

Figura 4. Publicaciones de “data mining and medical records” por área de conocimiento en Scopus. Fuente: SciVerse Scopus

De otro lado, al analizar por área de conocimiento las publicaciones que hasta la fecha se han realizado, se observa que la Medicina y las Ciencias de la Computación son las que más usan las técnicas de minería de datos.

La Tabla 5 muestra los cuatro autores con mayor cantidad de citaciones, destacándose Aroson con 262, el artículo de este autor, registrado en esta tabla, es relevante y habla acerca de la minería de datos aplicada en textos médicos.

Tabla 5. Artículos más citados de “data mining and medical records” en Scopus. Fuente: SciVerse Scopus

Artículo Autores Citado

Effective mapping of biomedical text to the UMLS Metathesaurus: the MetaMap program.

Aronson, A.R. 262

Uniqueness of medical data mining Cios, K.J., William Moore, G. 118 Selected techniques for data mining

in medicine

Lavrač, N. 98

Data mining and clinical data

repositories: Insights from a 667,000

patient data set

Mullins, I.M., Siadaty, M.S., Lyman, J., Scully, K., Garrett, C.T., Greg Miller, W., Muller, R., (...), Knaus, W.A.

(12)

Página 12 de 22

7. IDENTIFICACIÓN DEL PROBLEMA:

Uno de los problemas que afectan mayormente a las instituciones médicas, es el seguimiento de las historias clínicas de los pacientes que padecen o han padecido cáncer [32]; su tratamiento, los medicamentos usados son de difícil consecución y escasa disponibilidad y la pluralidad de resistencia a la enfermedad hacen que se repitan procedimientos ya aplicados, por esta razón es considerada una enfermedad de alto costo [5][16].

Por otra parte, los especialistas solo consultan los registros médicos para hacer seguimiento individual a dichos pacientes [27], sin relacionarlos con casos similares ni retroalimentar con esta información la toma de decisiones, orientada a aumentar la efectividad de los tratamientos y la optimización de los recursos disponibles para tratar la enfermedad.

Las técnicas de minería de datos, facilitan el análisis y seguimiento de estos casos, ya que al aplicar algunas de las mencionadas [6][13][14] a los registros médicos de cualquier clínica u hospital se obtendrían hallazgos significativos y relevantes para el diagnóstico y tratamiento temprano de enfermedades terminales y de alto costo como el cáncer, lo cual redundarían en beneficios, no solo para el pacientes sino también para el sistema de salud [1][2][4].

El Hospital San Rafael en San Juan del Cesar1, es una entidad de Nivel II, que atiende 9 pacientes en promedio por semana con esta enfermedad (ver tabla 5), ya que tiene cobertura no solo en el municipio de San Juan, sino, también en el sur de la Guajira y norte del Cesar. En ese orden de ideas, con cada paciente atendido se ha multiplicado la cantidad de datos almacenados en sus sistemas, estos datos actualmente son procesados, pero no existe una técnica que permita su clasificación, tipificación y uso en la predicción de diagnósticos y tratamientos más apropiados y efectivos que permitan disminuir el tiempo del tratamiento y/o el costo de las mismas.

Por lo anterior se plantea el siguiente interrogante: ¿El diseño y aplicación de un modelo predictivo basado en técnicas de minería de datos a registros médicos permitirá identificar pacientes con predisposición a padecer cáncer?

Tabla 5. Tipos de consultas usado por los pacientes atendidos en una semana

Tipo de consulta Total Frecuencia CONTROL O DE SEGUIMIENTO POR MEDICINA ESPECIALIZADA + 165 21,26% CONTROL O DE SEGUIMIENTO POR MEDICINA GENERAL 65 8,38%

CONTROL O DE SEGUIMIENTO POR ENFERMERIA + 56 7,22%

HEMOGRAMA IV 13 1,68%

HEMOGRAMA 12 1,55%

ESTUDIO TUMORAL (PRG CANCER CUELLO UTERO) 9 1,16%

PRIMERA VEZ POR ODONTOLOGIA GENERAL 7 0,90%

Total Tipos de consulta (todas los tipos) 776

(13)

Página 13 de 22

8. OBJETIVO GENERAL Y OBJETIVOS ESPECÍFICOS

8.1. OBJETIVO GENERAL

Diseñar un modelo predictivo basado en técnicas de minería de datos para la identificación de pacientes con tendencia a padecer cáncer en el Hospital San Rafael Nivel II en San Juan del Cesar, La Guajira.

8.2. OBJETIVOS ESPECÍFICOS

A. Preparar el conjunto de datos a partir de las historias clínicas electrónicas que presentan diagnóstico positivo de cáncer.

B. Aplicar a un grupo de prueba ideal de historias clínicas un modelo para la estimación del diagnóstico, gradación y pronóstico de cáncer.

(14)

Página 14 de 22

9. METODOLOGÍA:

Para dar cumplimiento a los objetivos trazados en el proyecto, se reconoce la importancia de la preparación de datos. En efecto, la adecuada preparación de éstos permitirá la utilización de modelos predictivos de menor complejidad y la obtención de datos más precisos.

En primera instancia, se identificará el tipo de dato de cada uno de los campos del registro de cada paciente, determinando si corresponde a datos numéricos, textos, nominales, binominales, categóricos, decidir qué hacer con los datos nulos, outliers y con datos no balanceados.

Si en la base de datos de las historias clínicas de pacientes que han presentado diagnóstico positivo de cáncer, existieran campos nulos, se aplicará el modelo más adecuado con una cantidad de datos relevante.

Si los datos están alejados de la mayoría de los valores que toma una variable, es posible asegurar que se trata de un error, que podría corregirse y en algunos casos ser tratado como nulo. En todo caso, se establecerán rangos para los datos outliers de manera que no generen problemas con la herramienta de modelado que se aplique.

Durante la preparación del conjunto de datos, se transformarán variables numéricas a categóricas con base en los grupos etáreos según los cuales las EPS pagan los tratamientos de valor diferencial o donde se presentan patologías particulares.

Para aquellas variables en cuya distribución de valores existen algunos que se encuentran dentro del rango normal pero alejado de la mayoría de los datos, se hará una transformación o una distribución de la variable con métodos numéricos donde no sea posible aplicar una función logarítmica que está sólo definida para valores mayores que cero.

Posteriormente, se caracterizará la información asociada a los pacientes, casos, tratamientos y progresos de la enfermedad, con el fin de encontrar correlaciones y dependencias entre variables (edades, factores de riesgo, pronósticos, costos de los tratamientos, entre otras). Así mismo, en el marco del proceso de caracterización, se identificarán qué tratamientos han sido exitosos, costo de los tratamientos, variables comunes de los casos exitosos (edades, número de compañeros, número de partos, tipo de sangre, entre otras), casos de pacientes fallecidos, y las demás que el modelo a aplicar contribuya a encontrar.

(15)

Página 15 de 22

Al grupo ideal se le realizarán pruebas de datos de entrada al modelo, así como el ajuste necesario de los resultados del modelo, en atención a la naturaleza de los datos (categóricos, numéricos, entre otros).

(16)

Página 16 de 22

10. ACTIVIDADES A DESARROLLAR:

A continuación se describen las actividades específicas a desarrollar en cada una de las fases del proyecto:

FASE 1. Preparación de conjunto de datos. Al culminar esta fase se pretende contar con datos que contengan información necesaria para cumplir el objetivo del proyecto.

Para extraer de la base de datos de historias clínicas los registros de pacientes que han presentado diagnóstico positivo de cáncer, se llevarán a cabo las siguientes actividades:

 Solicitud de las historias clínicas de los pacientes del hospital, para lo cual se suscribirá un acuerdo de confidencialidad.

 Anonimización de los datos.

 Identificación de la base de datos de pacientes con diagnóstico positivo de cáncer,

 Solicitud de costo de tratamientos y exámenes de laboratorios realizados a pacientes con diagnóstico positivo de cáncer.

 Identificación del tipo de dato de cada uno de los campos del registro de cada paciente, determinando si corresponde a datos numéricos, textos, nominales, binominales, categóricos.

 Decisión sobre el tratamiento a los datos nulos, outliers y datos no balanceados.  Depuración de los datos para tomar los registros válidos, es decir, aquellos que

contienen los campos completos.

(17)

Página 17 de 22

FASE 2. Aplicación de modelo de minería de datos a grupo de prueba ideal.

 Creación de un grupo de pacientes con tratamientos óptimos, es decir, detección temprana, costos mínimos y efectividad del tratamiento.

 Selección de la técnica de minería de datos a aplicar en el grupo de prueba ideal.  Pruebas de datos de entrada al modelo.

 Ajuste de los resultados del modelo en atención a la naturaleza de los datos.  Aplicación de modelo de minería de datos al grupo de prueba ideal.

FASE 3. Comparación de resultados contra muestra de pacientes recientemente diagnosticados.

 Tomar el modelo refinado y aplicarle los datos de las historias clínicas reales de personas con diagnóstico positivo de cáncer.

 Comparar los resultados de la aplicación con los datos correspondientes.  Realizar ajustes necesarios al modelo.

(18)

Página 18 de 22

11. CRONOGRAMA:

En la siguiente grafica se describe el cronograma de actividades del proyecto:

Figura 1. Cronograma de actividades propuesto

Meses ₁ ₂ ₃ ₄ ₅ ₆ ₇ ₈ ₉ ₁₀ ₁₁ ₁₂ Actividad

Fase 1

Solicitud de las historias clínicas

Identificación de pacientes con diagnóstico positivo de cáncer

Solicitud de costo de tratamientos y exámenes de laboratorios realizados a pacientes con diagnóstico positivo Identificación del tipo de dato de cada uno de los campos del registro de cada paciente

Decisión sobre el tratamiento a los datos nulos, outliers y datos no balanceados.

Depuración de los datos para tomar los registros válidos, es decir, aquellos que contienen los campos completos. Caracterización de la información asociada a los pacientes, correlaciones y dependencias entre variables.

Fase 2

Creación de un grupo de pacientes con tratamientos óptimos

Selección de la técnica de minería de datos a aplicar en el grupo de prueba ideal.

Pruebas de datos de entrada al modelo.

Ajuste de los resultados del modelo en atención a la naturaleza de los datos.

Aplicación de modelo de minería de datos al grupo de prueba ideal.

Fase 3

Aplicación del modelo refinado a los datos de las historias clínicas reales de personas con diagnóstico positivo de cáncer.

Comparación de resultados de la aplicación con datos correspondientes.

Ajustes necesarios al modelo.

(19)

Página 19 de 22 12. BIBLIOGRAFÍA BÁSICA:

[1] Ritu Chauhan, Harleen Kaur, M.Afshar Alam, "Data clustering method for discovering clusters in spatial cancer databases ", 2010

[2] Félix Rodríguez Jara, Nieves Vallejo Delgado, "Aplicación de técnicas de minería de datos para el diagnóstico prematuro de Cáncer", 2008

[3] Pablo Felgaer, "Optimización de redes bayesianas basado en técnicas de aprendizaje por inducción", 2005

[4] Michael Steinbach, George Karypis, Vipin Kumar, "A comparison of document clustering techniques", 2000

[5] Abdelghani Bellaachia, Erhan Guven, "Predicting breast cancer survivability using data mining techniques ", 2006

[6] Shweta Kharya, "Using data mining techniques for diagnosis", 2012

[7] Marisa S. Viveros, John l Nearhos, Michael J. Rothman, "Applying data mining techniques to health insurance information system", 1998

[8] Sandra Mª Sánchez Cañizares, Miguel Ángel Ayuso Muñoz, José Mª Caridad y Ocerin, "software de minería de datos: análisis de características", 2005

[9] Robert Moskovitch, Msc, Yuval Shahar, MD, PhD, "medical temporal-knowledge discovery via temporal abstraction", 2009

[10] Siri Krishan Wasan,Vasudha Bhatnagar, Harleen Kaur1,"The impact of data mining techniques on medical diagnostics", 2006

[11] Luis Carlos Molina Félix, "Data mining: torturando a los datos hasta que confiesen", 2002

[12] Benjamín Ojeda Magaña, "extracción de conocimiento aplicada a datos mediante agrupamientos", 2010

[13] José Hernández Orallo, M.Carmen Juan Lizandra Neus Minaya Collado, Carlos Monserrat Aranda, "Bases de datos medicas"", 2000"

[14] Eugenio Hernández Martínez, Rodrigo Lorente Sanjurjo, "Minera de datos aplicada a la detección de Cáncer de Mama", 2008

[15] Perfecto Malaquías Quintero Flores, "Diseño evolutivo adaptable de sistemas difusos con aplicaciones en control de tiempo real, diagnóstico médico y minería de datos", 2008

[16] Marcial García Rojo, Fernando Martín Sánchez, "El impacto de la historia clínica", 2004

[17] Charles C.H.Liul, I-Jen Chiang, Yu-Chuan Li, "Knowledge discovery in two clinical databases", 2007

[18] Siri Krishan Wasan,Vasudha Bhatnagar, Harleen Kaur, "The impact of data mining techniques on medical diagnostics", 2006

[19] Jean-Gabriel Ganascia, "Reconstructing true wrong inductions", 2008

[20] Rocío Erandi Barrientos Martínez, Nicandro Cruz Ramírez, Héctor Gabriel Acosta Mesa1, Ivonne Rabatte Suárez, Patricia Pavón León, Maria del Carmen Gogeascoechea Trejo2, Ma. Sobeida L. Blázquez Morales2, "Evaluación del potencial de redes bayesianas en la clasificación en datos médicos", 2008

[21] Rafael Alfredo López Forero, "Factores de riesgo en cáncer de cuello uterino", 2011

[22] Jonathan C. Prather, M.S.', David F. Lobach, M.D.,Ph.D.,M.S.', Linda K. Goodwin, R.N.,Ph.D.,Joseph W. Hales, Ph.D.', Marvin L. Hage, M.D.3, and W. Edward Hammond, Ph.D.', "Medical data mining: knowledge discovery in a clinical data warehouse"", 1997"

[23] Michael Worker, "Radix Project", 1986

[24] George Dimitoglou, JamesA. Adams, Carol M. Jim, "Comparison of the c4.5 and a naivebayes classifier", 2012

[25] Cesar Perez Lopez, "Minería de datos técnicas y herramientas", 2007

(20)

Página 20 de 22

[27] John F. Roddick, Peter Fule, Warwick J. Graco, "Exploratory medical knowledge discovery", 2003

[28] Michell Angelo Ferruccio, Arturo Iván García Alonso, Sandra Ximena Gómez, "Minería de datos", 2004

[29] Sanabria Garzón j., "Herramienta software para implementar minería de datos: clusterización utilizando lógica difusa", 2004

[30] Pavel Berkhin , "Survey of clustering data mining techniques ", 2007

[31] Tipawan Silwattananusarn, KulthidaTuamsuk, "Data mining and its applications for knowledge management", 2012"

[32] Jyoti Soni, Ujma Ansari, Dipesh Sharma, Sunita Soni, "Predictive data mining for medical diagnosis", 2011

[33] Usama Fayyad, Gregory Piatetsky-Shapiro, and Padhraic Smyth , "From data mining to knowledge discovery in databases", 1996

[34] R. Sethukkarasi, A. Kannan, "An intelligent system for mining temporal rules in clinical databases using fuzzy neural networks ", 2010

[35] Rubén Civeira Iglesias1, "Incorporación de conocimiento biológico en la clasificación de pacientes con cáncer mediante stacking", 2010

Repositorios de datos:

[1].http://kdd.ics.uci.edu/,Pagina Web del repositorio de datos de la Universidad de California,[20]

[2].www.seer.cancer.gov,Surveillance, Epidemiology, and End Results (SEER) Program,[5]

[3].http://globocan.iarc.fr/,Estimated cancer Incidence,[1]

[4].http://www.cancer.gov.co/contenido/contenido.aspx,Cáncer en cifras Repositorio Nacional,

[5].http://www.cdc.gov/spanish/cancer/breast/statistics/age.htm,Tasas de cáncer Center for dicease

control and Prevention,

[6].http://arxiv.org/corr/home,Cornell University Library.

[7].Incidence/mortality data: Ferlay J, Shin HR, Bray F, Forman D, Mathers C and Parkin DM. GLOBOCAN 2008 v2.0, Cancer Incidence and Mortality Worldwide: IARC CancerBase No. 10 [Internet]. Lyon, France: International Agency for Research on Cancer; 2010. Available from: http://globocan.iarc.fr.

[8].Prevalence data: Bray F, Ren JS, Masuyer E, Ferlay J. Estimates of global cancer prevalence for 27 sites in the adult population in 2008. Int J Cancer. 2012. Jul 3. doi: 10.1002/ijc.27711. [Epub ahead of print].

(21)

Página 21 de 22

13. RECURSOS FÍSICOS:

A continuación se listan los principales recursos físicos requeridos en el proyecto, todos aportados por el proponente:

 Computador  Impresora

 Conexión a Internet  Elementos de papelería  Grabadora de Voz  Transporte

14. COSTOS DEL TRABAJO Y FUENTES DE FINANCIACIÓN:

CONCEPTO FUENTE COSTO UNITARIO COSTO TOTAL

Recurso humano

Investigador (160h/mes) Estudiante $50.000/hora $64.000.000

Director (4h/mes) U. Nacional $100.000/hora $3.200.000

Recursos Físicos

Computador Estudiante $2.500.000 $2.500.000

Conexión a Internet Estudiante 120.000/mes $1.440.000

Impresora Estudiante $50.000/mes $600.000

Elementos de papelería Estudiante $1.000.000 $1.000.000

Grabadora de Voz Estudiante $100.000 $100.000

Transporte Estudiante $400.000/mes $480.000

(22)

Página 22 de 22

15. COMENTARIO CON VISTO BUENO DEL DIRECTOR:

Se ha remitido correos a los docentes:

Ellizabeth León Guzmán

,

Diego Fernando Hernández Losada

,

Jonatan Gómez Perdomo

Sin obtener respuesta por parte de ellos.

16. FIRMA DEL PROPONENTE

Osvaldo Rueda Carreño

17. FIRMA DEL DIRECTOR (ASESORES)