• No se han encontrado resultados

Detección de metástasis de cáncer mamario usando máquinas de soporte vectorial a partir de datos de microarray

N/A
N/A
Protected

Academic year: 2020

Share "Detección de metástasis de cáncer mamario usando máquinas de soporte vectorial a partir de datos de microarray"

Copied!
86
0
0

Texto completo

(1)Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. CA D MA E TE CIE MA NC TI IAS CA S FIS IC. AS. Y. Universidad Nacional de Trujillo Facultad de Ciencias Fı́sicas y Matemáticas Escuela Académico-Profesional de Informática. Detección de metástasis de cáncer mamario usando Máquinas de Soporte Vectorial a partir de datos de microarray. Tesis para la Obtención del Tı́tulo de Ingeniero Informático. BI. BL. IO TE. Autor: Marks Arturo Calderón Niquı́n Asesor: Ing. José Luis Peralta Luján. Trujillo-Perú Noviembre 2012. Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(2) Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. I. Y. Jurados. CA D MA E TE CIE MA NC TI IAS CA S FIS IC. 2. Secretario: Prof. Jose Gabriel Cruz Silva. AS. 1. Presidente: Prof. José Rodriguez Melquiades. 3. Vocal : Prof. José Luis Peralta Luján. BI. BL. IO TE. Dı́a de defensa: 7 de noviembre del 2012. Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(3) BL. IO TE. CA D MA E TE CIE MA NC TI IAS CA S FIS IC. Dedicatoria. AS. Y. Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. BI. A mis padres, Mery y Ricardo. Y a mis hermanos, Martin y David.. II Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(4) Y. Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. CA D MA E TE CIE MA NC TI IAS CA S FIS IC. AS. Agradecimientos. Estoy eternamente agradecido a Dios por darme las fuerzas, conocimientos necesarias en el desarrollo de mi carrera y especialmente en la tesis, y dirección en todo. Agradezco a mis padres Mery Niquı́n y Ricardo Calderón, en especial a mi madre por darme el aliento diario de nunca rendirme y a mi padre por su especial trato. A mis queridos hermanos Martı́n y David por los gratos momentos compartidos. También agradezco a mis tios: Willy, Eder, Wilder, Esmelin, Henry, Nilda y Jane; y de manera especial a mis abuelos Flor Alayo y Segundo Niquı́n. A mis amigos del SECC1 , por los momentos juntos promoviendo la Ciencia de la Computación. Me gustarı́a agradecer a: Nils Murrugarra, César Verde, Pedro Shiguihara, Clayder González y de manera especial a Jorge Valverde por la paciencia en los trabajos desarrollados en conjunto.. IO TE. A mis amigos de la escuela por los buenos momentos vividos, agradezco a: Carlos Cedeño, Carlos Pérez, Jennifer Hernández, Christina Vélez, Freddy Perfecto y Laurybeth Cueva. También a mis amigos de la iglesia Cristo la Luz del Mundo: Cynthia Quiroz, Ebelyn Rodrigues, Jhonatan Boulangger, Kelly Calderón, Miriam Sánchez, Cintia Flores y Adriana Tucto por sus palabras de aliento en los momentos necesarios.. BL. A mis profesores de informática, por abrir mi vista hacia un mundo tan emocionante como es nuestra carrera, gracias por brindarme los conocimientos necesarios y la visión de hasta puede llegar un profesional en Ciencia de la Computación, de manera muy especial agradezco a: José Saavedra R., Teresa Bracamonte N., Ivan Sipiran A., Jorge Guevara D. y José Rodriguez M.. BI. Al profesor José Luis Peralta L., por la dedicación, paciencia en el presente trabajo. Especialmente por las sugerencias en el desarrollo de la tesis. Finalmente, agradezco a todas las personas que contribuyeron directamente o indirectamente en la presente tesis. 1. Sociedad de Estudiantes de Ciencia de la Computación: http://seccperu.org/ III. Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(5) CA D MA E TE CIE MA NC TI IAS CA S FIS IC. Resumen. AS. Y. Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. BI. BL. IO TE. En la actualidad la principal causa de muerte por enfermedad es el cáncer. Ella puede afectar a distintos organos como páncreas, mama, cuello uterino, prostata entre otros, y el cáncer mamario presenta mayor número de casos y esta enfermedad presenta estados o fases de desarrollo siendo una de ellas la metástasis que es la proliferación de células cancérigenas a organos cercanos al del origen y causante de un gran porcentaje de muertes. Para su diagnóstico existen diferentes pruebas y una de ellas es el análisis de microarrays que emplea diferentes algoritmos de aprendizaje de máquinas. Máquinas de soportec vectorial (Support Vector Machine-SVM) presenetan una mejor performance en clasificación binaria. Un complemento de mejora a SVM es aprendizaje de múltiples kernels (Multiple Kernel Learning-MKL) que combina diferentes kernels de forma lineal, no lineal o local, en vez de uno solo. En este trabajo proponemos un nuevo método de MKL, utiliza la combinación local (dependiente de los datos) y no lineal de diferentes kernels. A esta propuesta la llamamos aprendizaje localizado no lineal de múltiples kernels (Localized Nonlinear Multiple Kernel Learning - LNLMKL). Evaluamos el desempeño de nuestra propuesta con una SVM y métodos de MKL, utilizando diferentes kernels y sus combinaciones, en la tarea de clasificación binaria de microarrays de distintos tipos de cáncer entre ellos metástasis de cáncer mamario que es el objeto de estudio del presente trabajo. Después de realizar un test post-hoc, nuestra propuesta muestra un mejor desempeño respecto a otras combinaciones de kernels, que los otros métodos evaluados.. IV Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(6) CA D MA E TE CIE MA NC TI IAS CA S FIS IC. Abstract. AS. Y. Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. BI. BL. IO TE. Actually the main cause of decease are produce by cancer illness. They can afect a many organs sucha as pancreas, breast, cervix, prostate and others, and breast cancer has high number of cases and this kind of illness has state or level of developing as metastasis, it spreads malign cells for neighbour organs then it produce the highest rate of death. Exists several diagnostic test and one of that is analysis of microarrays is used a different algorithms of machine learning. Support Vector Machine-SVM has obtained a good performance to binary classification and complement of it is a multiple kernel learning-MKL. In this thesis our proposal a new method, it uses a local(datadependent) and nonlinear combination with different kernels. We call it as localized nonlinear multiple kernel learning (LNLMKL). In our experiments for binary microarray classification, different kernels were used in SVM and different kernels combinations. Finally, we report the results of these experiments using eight high-dimensional microarray datasets demostrating that our proposal have performanced better than other methods analyzed.. V Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(7) CA D MA E TE CIE MA NC TI IAS CA S FIS IC. Índice general. AS. Y. Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. Dedicatoria . . . . Agradecimientos . Resumen . . . . . Abstract . . . . . . Índice . . . . . . . Índice de Figuras. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. Índice de figuras. IO TE. BL BI. 2. Microarrays 2.1. Conceptos biológicos . . . . 2.1.1. Dogma molecular . . 2.1.2. Microarray . . . . . . . 2.1.3. Hibridación . . . . . . 2.1.4. Microarray Affymetrix. . . . . . . . . . . . . . .. . . . . .. . . . . . . . . . . . . . .. . . . . .. . . . . . . . . . . . . . .. . . . . .. . . . . . . . . . . . . . .. . . . . .. . . . . . . . . . . . . . .. . . . . .. . . . . . . . . . . . . . .. . . . . .. . . . . . . . . . . . . . .. . . . . .. . . . . . . . . . . . . . .. . . . . .. . . . . . . . . . . . . . .. . . . . .. . . . . . . . . . . . . . .. . . . . .. . . . . . . . . . . . . . .. . . . . .. . . . . . . . . . . . . . .. . . . . .. . . . . . . . . . . . . . .. . . . . .. . . . . . . . . . . . . . .. . . . . .. III IV V VI VIII VIII. Índice de cuadros Índice de Tablas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Índice de Algoritmos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1. Plan de Investigación 1.1. Antecedentes . . . . . . . . . 1.2. Justificación del Problema . 1.2.1. Cientı́fica . . . . . . . 1.2.2. Académica . . . . . . . 1.2.3. Organizacional . . . . 1.2.4. Económica . . . . . . 1.2.5. Problema . . . . . . . 1.2.6. Hipótesis . . . . . . . 1.3. Objetivos . . . . . . . . . . . 1.3.1. General . . . . . . . . 1.3.2. Especı́ficos . . . . . . 1.4. Diseño de la Constrastación 1.4.1. Material de Estudio . 1.5. Organización de la Tesis . .. II. . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . .. X X XI. . . . . . . . . . . . . . .. 1 1 3 3 3 3 4 4 4 4 4 4 4 4 5. . . . . .. 6 6 7 10 10 11. VI Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(8) Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. ÍNDICE GENERAL. VII. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. Y. . . . .. . . . .. . . . .. AS. 3. Normalización 3.1. Corrección de fondo . . . . . . . . . 3.2. Normalización . . . . . . . . . . . . 3.2.1. Normalización por cuantiles 3.3. Summaryzation . . . . . . . . . . . .. CA D MA E TE CIE MA NC TI IAS CA S FIS IC. 4. Aprendizaje de Máquinas 4.1. Definición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2. Tipos de algoritmos de Aprendizaje de Máquinas . . . . . . . . . . 4.3. Aprendizaje supervisado . . . . . . . . . . . . . . . . . . . . . . . . 4.3.1. Modelo de Regresión . . . . . . . . . . . . . . . . . . . . . . . 4.3.2. Modelo de Clasificación . . . . . . . . . . . . . . . . . . . . . 4.4. Máquinas de Soporte de Vectorial . . . . . . . . . . . . . . . . . . . 4.4.1. Separación del Hiperplano Optimo . . . . . . . . . . . . . . 4.4.2. Mapeo de altas dimensiones . . . . . . . . . . . . . . . . . . 4.5. Aprendizaje de múltiples kernels . . . . . . . . . . . . . . . . . . . 4.5.1. Propiedades de los algoritmos de Aprendizaje de múltiples kernels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5.2. El Método de Aprendizaje . . . . . . . . . . . . . . . . . . . . 4.5.3. La Forma Funcional . . . . . . . . . . . . . . . . . . . . . . . 4.5.4. Función Objetivo . . . . . . . . . . . . . . . . . . . . . . . . . 4.5.5. Método de Entrenamiento . . . . . . . . . . . . . . . . . . . . 4.5.6. Base de Aprendizaje . . . . . . . . . . . . . . . . . . . . . . . 4.6. Aprendizaje No-Lineal de kernels . . . . . . . . . . . . . . . . . . . 4.7. Aprendizaje Localizado no lineal de múltiples kernels . . . . . . .. 16 16 17 17 20 23 23 24 24 25 26 29 29 36 39 39 39 40 40 41 41 41 42. 5. Materiales y métodos 44 5.1. Material . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 5.2. Metodologı́a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45. IO TE. 6. Resultados 6.1. Propuesta . . . . . . . . . . . . . . 6.1.1. Modelo matemático . . . . 6.1.2. Entrenamiento . . . . . . . 6.1.3. Complejidad . . . . . . . . . 6.1.4. Arquitectura de aplicación 6.2. Resultados Experimentales . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. 48 48 48 51 52 53 54. BI. BL. 7. Discusión 62 7.1. Discusión general . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 7.2. Discusión por base de datos . . . . . . . . . . . . . . . . . . . . . . 63 8. Conclusiones 66 8.1. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 8.2. Trabajos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 Bibliografı́a. 68. Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(9) Y. Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. 2.1. 2.2. 2.3. 2.4. 2.5.. CA D MA E TE CIE MA NC TI IAS CA S FIS IC. AS. Índice de figuras. Diagrama de una célula animal. . . . . . . . . . . . . . . . . . . . . Núcleo celular eucariota. . . . . . . . . . . . . . . . . . . . . . . . . Secuencia de base nitrogenada en el ADN. . . . . . . . . . . . . . Dogma central de la biologı́a molecular. . . . . . . . . . . . . . . . Transcripción llevada a cabo por ANR polimerasa, usa ADN(negro) como una plantilla y produce ANR(azul). . . . . . . . . . . . . . . . 2.6. Hibridación de dos moléculas de ADN. Lineas punteadas son enlaces de hidrógeno. . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.7. Proceso de Southern blotting. . . . . . . . . . . . . . . . . . . . . . . 2.8. Proceso de Northern blotting. . . . . . . . . . . . . . . . . . . . . . . 2.9. Microarray chip Affymetrix. . . . . . . . . . . . . . . . . . . . . . . . 2.10.Detalle de un probe de microarray. . . . . . . . . . . . . . . . . . . 2.11.Representación de un probe. . . . . . . . . . . . . . . . . . . . . . . 2.12.Representación de pares de probe como perfect match-PM y missmatch-MM. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.13.Etapas de proceso de obtención de un microarray affymetrix. . . . 2.14.Grilla de luces. Imagén de la expresión de un microarray. . . . . .. 6 7 8 8 9 10 11 12 12 13 13 14 15 15. IO TE. 3.1. Antes de aplicar normalización de cuantiles a un par de PM. . . . 19 3.2. Después de aplicar normalización quantile a un par de PM. . . . . 19 Figura del Cuadro 4.1. . . . . . . . . . . . . . . . . . . . . . . . . . 25 Diagrama de un modelo de aprendizaje supervisado. . . . . . . . . 26 Gráfico de una función sigmoid. . . . . . . . . . . . . . . . . . . . . 27 Clasificación de tumor de mama [16] con algoritmos de aprendizaje supervisado. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 4.5. Separación óptima del hiperplano en un espacio de dos-dimensiones. 29 4.6. Caso inseparable de un espacio de dos-dimensiones. . . . . . . . 33. BI. BL. 4.1. 4.2. 4.3. 4.4.. 5.1. 10-fold cross validation . . . . . . . . . . . . . . . . . . . . . . . . . 46 5.2. Perú: Tasa de utilización de la capacidad instalada de actividades que procesan recursos primarios,2007 (porcentaje) . . . . . . . . 46 5.3. Diagrama de diferencias criticas. . . . . . . . . . . . . . . . . . . . 47 6.1. Arquitectura de detección de cáncer. . . . . . . . . . . . . . . . . . 53 VIII. Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(10) Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. ÍNDICE DE FIGURAS. IX. CA D MA E TE CIE MA NC TI IAS CA S FIS IC. AS. Y. 6.2. Desempeño de los clasificadores respecto al conjunto de datos colon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.3. Desempeño de los clasificadores respecto al conjunto de datos gse3443 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.4. Desempeño de los clasificadores respecto al conjunto de datos gse7390 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.5. Desempeño de los clasificadores respecto al conjunto de datos leucemia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.6. Desempeño de los clasificadores respecto al conjunto de datos metástasis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.7. Desempeño de los clasificadores respecto al conjunto de datos Nki 6.8. Desempeño de los clasificadores respecto al conjunto de datos ovario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.9. Desempeño de los clasificadores respecto al conjunto de datos pawitan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 56 56 57 57 58 58 59 59. BI. BL. IO TE. 7.1. Comparación de los métodos evaluados mediante un test posthoc a partir de los datos de la Tabla 6.1 . . . . . . . . . . . . . . . 63. Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(11) Y. Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. CA D MA E TE CIE MA NC TI IAS CA S FIS IC. AS. Índice de cuadros. 3.1. Ejemplo del Algoritmo de Mediana Polaca 3.2 detallado paso a paso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 4.1. Probe y su intensidad de fondo. . . . . . . . . . . . . . . . . . . . . 24 4.2. Algoritmos supervisados . . . . . . . . . . . . . . . . . . . . . . . . 27 4.3. Algunas muestras de cáncer mamario. . . . . . . . . . . . . . . . . 28 5.1. Caracterı́sticas de las ocho base de datos de microarrays usadas en los experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . 45. BI. BL. IO TE. 6.1. Resultados obtenidos en nuestros experimentos. En cada celda se muestra el valor de la precisión obtenido por cada método. En negrita se resalta el mayor valor obtenido para cada base de datos 55 6.2. Desempeños promedios para método experimentado del Cuadro 6.1 respecto a cada conjunto de datos . . . . . . . . . . . . . . . . 60 6.3. Rankings a partir del Cuadro 6.1 para cada clasificador, combinación de kernels y conjunto de datos . . . . . . . . . . . . . . . . 61. X Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(12) Y. Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. CA D MA E TE CIE MA NC TI IAS CA S FIS IC. AS. List of Algorithms. 3.1. Algoritmo de normalización de cuantiles . . . . . . . . . . . . . . . . 18 3.2. Algoritmo de mediana polaca . . . . . . . . . . . . . . . . . . . . . . 20. BI. BL. IO TE. 6.1. LNLMKL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52. XI Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(13) Y. Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. CA D MA E TE CIE MA NC TI IAS CA S FIS IC. AS. CAP ÍTULO 1. Plan de Investigación. 1.1.. Antecedentes. BI. BL. IO TE. En la actualidad la principal causa de muerte son los problemas relacionados con la salud. Según la OMS-Organización Mundial de Salud en su informe del año 2004 [38] especifica al cáncer como la principal enfermedad causante de muerte en el mundo.Diferentes tipos de él afectan órganos como: mama, próstata, sangre, piel, cuello uterino, ovario, estómago entre otros órganos. El cáncer de mama y de próstata tienen la mayor población cancerı́gena. El primero al 2008 según la OMS en su informe[17] presentó una incidencia mundial de 1384 mil casos y una mortalidad de 450 mil convirtiéndose en la principal causa de muerte de todos los tipos de cáncer. Parte de estos decesos son producidos por la metástasis de cáncer es el proveniente de la proliferación de células desde el órgano que presenta cáncer hacia otro lugar del cuerpo. Este estado de cáncer tiene el mismo tipo de células que la original, primaria o cancerı́gena[4]. Puede expandirse hacia los pulmones, cerebro, huesos, nodos linfáticos o hı́gado produciendo la muerte del paciente sino recibe un adecuado tratamiento, o solo se detecta el cáncer principal y se da cura solo a ello. Entre los diferentes exámenes de diagnóstico de cáncer mamario tenemos: diagnóstico por mamografı́as, resonancia magnética de la mama, ultrasonido mamario, ductograma y biopsias como: abierta, de núcleo y por aspiración[46]. 1. Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(14) Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. Y. También se han propuesto métodos de detección basados en datos obtenidos en microarrays.. CA D MA E TE CIE MA NC TI IAS CA S FIS IC. AS. La comunidad de Ciencia de la Computación, en sus diferentes áreas de estudio, aborda el problema de la enfermedad del cáncer basándose en datos obtenidos a través de mamografı́as, resonancias magnéticas y microarrays [30]. Estos últimos, son los elementos que brindan gran cantidad de información relevante para abordar computacionalmente, mediante diagnósticos, el problema de la enfermedades cancerı́genas por medio de los microarrays [11, 39]. Un microarray de ADN1 consiste en un gran número de moléculas de ADN ordenadas sobre un sustrato formando una matriz de secuencias de dos dimensiones, que debe ser normalizado con el objetivo de eliminar la presencia de ruido o de cualquier otro tipo de distorsión [52, 27]. Su análisis ha venido atrayendo la atención de la comunidad cientı́fica debido a los buenos resultados que han sido obtenidos en la clasificación de enfermedades genéticas [45]; biomarcadores genéticos [31, 51]; entre otros y el uso de máquinas de aprendizaje para realizar estas tareas, máquina de soporte de vectores (Support Vector Machine - SVM), ha permitido obtener importantes resultados aplicados a microarrays [35, 45].. BL. IO TE. El desempeño de una SVM depende de la función kernel que usa y, por lo general, se opta por seleccionar el kernel con mejor desempeño en distintos datos de validación. Sin embargo, la selección del mejor no siempre es una tarea sencilla debido a los diferentes factores que se podrı́an considerar para ello. Diferentes métodos de aprendizaje de múltiples kernels (multiple kernel learning - MKL) han sido propuestas para solucionar ese problema [20], por ejemplo los métodos de MKL realizan la tarea de aprendizaje mediante la combinación de múltiples kernels en vez de seleccionar apenas uno. Tal combinación puede ser: lineal, no lineal o dependiente de los datos [20]. BI. El tipo de combinación de MKL mayormente usado es de combinación lineal de kernels, definida como la suma de pesos de kernels [43] y una variación de la combinación lineal es la denominada combinación no lineal de múltiples 1. El ácido desoxirribonucleico (ADN) es una macromolécula que forma parte de todas las células.. 2 Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(15) Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. CA D MA E TE CIE MA NC TI IAS CA S FIS IC. AS. Y. kernels (Non-linear Multiple Kernel Learning - NLMKL) [12], obtiene un ligero mejor desempeño que los métodos lineales. Una tercera propuesta es la denominada aprendizaje localizado de múltiples kernels (localized multiple kernel learning - LMKL) [19], en la que los pesos de una combinación lineal son obtenidos a partir de los datos evaluados mediante una minimización de riesgo estructural. El presente trabajo pretende mostrar la detección de metástasis de cáncer mamario usando SVM a partir de datos de microarray para lo cual se desarrolla un nuevo método de MKL al que denominamos aprendizaje localizado no lineal de múltiples kernels (Localized Nonlinear Multiple Kernel Learning LNLMKL) y que es una extensión de los métodos LMKL y NLMKL. Nuestra propuesta es utilizada en la clasificación binaria de microarrays en diferentes domı́nios de tipos de cáncer entre ellas la metástasis de cáncer mamario.. 1.2.. Justificación del Problema. 1.2.1.. Cientı́fica. Es un trabajo precedente en el paı́s y el mundo dentro de la Ciencia de la Computación y en el área de Bioinformática.. 1.2.2.. Académica. IO TE. Incentivar a estudiantes de Informática de la Universidad Nacional de Trujillo, a la investigación y desarrollo de aplicaciones bioinformáticas con gran impacto social.. 1.2.3.. Organizacional. BI. BL. Probar el diagnóstico de metástasis de cáncer mamario a través del análisis de datos de microarrays, tanto en instituciones de salud estatales como privadas. Crear una empresa que ofrezca productos software para instituciones de salud del paı́s.. 3 Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(16) Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. 1.2.4.. Económica. AS. Y. Generar un mercado de empleo en el desarrollo de software de apoyo a las ciencias médicas. Exportar productos de software a paı́ses desarrollados.. Problema. CA D MA E TE CIE MA NC TI IAS CA S FIS IC. 1.2.5.. ¿Cómo detectar metástasis de cáncer mamario a partir de datos de microarrays?. 1.2.6.. Hipótesis. Mediante el uso de máquinas de soporte vectorial, es posible detectar metástasis en cáncer mamario a través del análisis de datos de microarrays.. 1.3.. Objetivos. 1.3.1.. General. Desarrollar un método que permita detectar metástasis de cáncer mamario a partir de datos de microarrays.. 1.3.2.. Especı́ficos. Implementar técnicas para el análisis de datos de microarrays.. IO TE. Implementar técnicas para la clasificación y detección de cáncer mamario de datos obtenidos en los microarrays.. BL. Promover la investigación y desarrollo de aplicaciones basadas en el análisis de datos de microarrays en la Escuela Académico Profesional de Informática.. Diseño de la Constrastación. 1.4.1.. Material de Estudio. BI. 1.4.. Procedencia: Conjunto de datos de microarrays de nucleotidos, compuesta por información génetica de pacientes con cáncer. Disponible en Na4 Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(17) Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. tional Center for Biotechnology Information-NCBI 2 .. Y. Formato del microarray: Formato CEL con contenido genético.. Organización de la Tesis. CA D MA E TE CIE MA NC TI IAS CA S FIS IC. 1.5.. AS. Cantidad: ocho base de datos.. BI. BL. IO TE. Los siguientes capitulos están organizado de la siguiente manera: el Capı́tulo 2 describe la estructura y obtención de un microarray. El Capı́tulo 3 describe el procesamiento de microarrays. En el Capı́tulo 4 detalla conceptos de aprendizaje de máquinas y aprendizaje de múltiples kernels. El Capı́tulo 5 desarrolla la propuesta de este trabajo.En el Capı́tulo 6 los materiales y métodos empleados para nuestros experimentos. En el Capı́tulo siguiente presenta los resultados y discusión de ellos. Finalmente el Capı́tulo 8 son presentadas las conclusiones y trabajos a futuro.. 2. http://www.ncbi.nlm.nih.gov/. 5 Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(18) Y. Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. CA D MA E TE CIE MA NC TI IAS CA S FIS IC. AS. CAP ÍTULO 2. Microarrays. El presente capı́tulo describe los conceptos biológicos como el dogma de la biologı́a celular que es el fundamento para la creación de los microarrays. También se describe su estructura y el proceso de preparación.. 2.1.. Conceptos biológicos. BI. BL. IO TE. Una célula es la unidad morfológica y funcional de todo ser vivo. La Figura 2.1 muestra una célula animal indicando sus partes: 1) Nucléolo, 2) Núcleo, 3) Ribosoma, 4) Vesı́cula, 5) Retı́culo endoplasmático rugoso, 6)Aparato de Golgi, 7) Cito-esqueleto , 8) Retı́culo endoplasmático liso, 9) Mitocondrı́a, 10) Vacuola, 11) Citoplasma, 12) Lisosoma, 13) Centriolos.. Figura 2.1: Diagrama de una célula animal. Fuente: Cell nucleus-Wikipedia. 1. 6 Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(19) Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. CA D MA E TE CIE MA NC TI IAS CA S FIS IC. AS. Y. La Figura 2.2 representa al núcleo celular y está compuesta por una doble membrana y ribosomas de la envoltura nuclear. Entre uno de ellos se encuentra el núcleo celular que se encarga de controlar la expresión genética y mediar en la replicación del ADN durante el ciclo celular.. Figura 2.2: Núcleo celular eucariota. Fuente: Cell nucleus-Wikipedia. 2. IO TE. La molécula de ADN esta conformada por más de 3 billones de bases nitrogenadas acarreada dentro de 46 cromosomas en forma de hélice, ver Figura 2.3. Las cuatro bases nitrogenadas que se encuentran en el ADN son: adenina(A), citosina(C), guanina(G) y timina(T), siendo complementarias A-T y G-C . Cada conjunto de tres bases nitrogenadas caracteriza un aminoácido y un secuencia de él caracteriza a una proteı́na. Estas moléculas son responsables de controlar la estructura y función celular como: nutrición, relación y reproducción.. 2.1.1.. Dogma molecular. BI. BL. La transferencia de caracterı́sticas genéticas pasadas de generación en generación esta dada por los genes(son partes funcionales del ADN y son responsables de la creación de una nueva proteı́na) y se origina después del desencadenamiento intracelular o extra-celular. Este proceso fue descrito por Watson y Crick e intenta relacionar ADN, ARN y las proteı́nas. Es denominado: El dogma central de la biologı́a molecular. Ver Figura 2.4. 1. http://en.wikipedia.org/wiki/Cell_nucleus http://en.wikipedia.org/wiki/DNA 3 http://en.wikipedia.org/wiki/DNA 2. 7 Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(20) CA D MA E TE CIE MA NC TI IAS CA S FIS IC. AS. Y. Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. Figura 2.3: Secuencia de base nitrogenada en el ADN. 3. BI. BL. IO TE. Fuente: DNA-Wikipedia. Figura 2.4: Dogma central de la biologı́a molecular. Fuente: Central dogma of molecular biology-Wikipedia. 4. 8 Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(21) Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. Y. Tres procesos del dogma central de la biologı́a molecular son : replicación, transcripción y traducción. Cada proceso se discute a continuación [50]:. CA D MA E TE CIE MA NC TI IAS CA S FIS IC. AS. Replicación: Mecanismo que permite al ADN duplicarse obtiendose dos o más clones del original. El proceso consiste en la separación o ruptura de los puentes de hidrógeno de dos hebras de ADN complementarias entre si. Al separarse sirven como base para la creación de una cadena genética, la ADN polimerasa sintetiza estas cadenas separadas añadiendo nucleótidos dispersos en el núcleo. Ası́ la nueva molécula es idéntica a la molécula de ADN inicial. Transcripción: Proceso de creación de ANR complementario de una secuencia de ADN mediante una enzima llamada ANR polimerasa que sintetiza mARN(mensajes de ARN). Ver Figura 2.5.. Figura 2.5: Transcripción llevada a cabo por ANR polimerasa, usa ADN(negro) como una plantilla y produce ANR(azul). Fuente: Transcription genetics-Wikipedia 5 .. Traducción: Proceso que sintetiza una secuencia de mARN en una cadena de aminoácidos para formar una proteı́na.. BL. IO TE. La expresión genética de un gen en particular es medida a partir de la cantidad aproximada de copias de mANR de un gen presente en la célula. Un gen es altamente expresado cuando hay abundancia de mARm en la célula, esto sucede en la transcripción del ADN. Por lo tanto es posible relacionar una expresión genética con la cantidad de mANR y con la cantidad proteı́ca producida [36] .. BI. Organismos de una misma especie contienen las mismas moléculas de ADN y es posible detectar alteraciones genéticas, de esta manera se puede investigar en diferentes órganos del cuerpo humano por ejemplo el cáncer mamario. 4 5. http://en.wikipedia.org/wiki/Central_dogma_of_molecular_biology http://en.wikipedia.org/wiki/Transcription_(genetics). 9 Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(22) AS. Y. Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. CA D MA E TE CIE MA NC TI IAS CA S FIS IC. Figura 2.6: Hibridación de dos moléculas de ADN. Lineas punteadas son enlaces de hidrógeno. Fuente: A Guide of analysis of DNA microarray pag.2 [27].. 2.1.2.. Microarray. Un microarray es un chip que posee una matriz de probes6 en una sólida estructura de luna o silicona. Existen diferentes tipos de microarrays entre los principales tenemos: Microarrays de ADN; microarrays de ADNc, oligonucleótidos y PNS(polimorfismo de nucleótido simple). Microarrays de proteı́nas. Microarrays peptidos.. Microarrays de tejidos.. Nuestro trabajo se enfoca en el estudio de microarrays de ADN de olignucleotidos de la tecnologı́a Affymetrix7 .. Hibridación. IO TE. 2.1.3.. BI. BL. Es el proceso fundamental en la obtención de microarrays de ADN en el que dos hebras de ADN o ARN se complementan [27]. Ver Figura 2.6. Existen distintas técnicas de hibridación las principales son: Southern blotting y Northern blotting.. 6 7. probe: elemento de un microarray, que representa una expresión genética http://www.affymetrix.com. 10 Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(23) Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. Southern blotting. CA D MA E TE CIE MA NC TI IAS CA S FIS IC. AS. Y. Técnica donde una pequeña cadena de un oligonucleótido es empleada para hibridar fragmentos complementarios de ADN, teniendo una separación acorde al tamaño del gel electroforesis. Si el oligonucleótido es etiquetado radioactivamente, en la hibridación se visualiza en un film fotográfico sensible a la radiación [27, 47]. Ver Figura 2.7.. Figura 2.7: Proceso de Southern blotting. Fuente: Molecular methods-UCSF School of medicine 8. Northern blotting. IO TE. En esta técnica un radio-oligonucleótido es usado para hibridar los mensajes de ANR correrán a través del gel. Si el oligonucleótido especifica un solo mensaje de ARN entonces enlazará las bandas del mensaje con el gel. La cantidad de radiación capturada en un film fotográfico depende de algunas extensiones en la cantidad de pruebas de radio-etiquetas presentes en la banda, en la cual depende nuevamente de la cantidad de mensajes [27]. Ver Figura 2.8.. Microarray Affymetrix. BL. 2.1.4.. BI. Affymetrix desarrolló un tipo de chip (Figura 2.9) denominado microarray de oligonucleotidos, usa mascaras para la sı́ntesis de control de ellos en la superficie del chip. Un microarray Affymetrix contiene miles de caracterı́sticas o elementos cada una de estas es denominado probe, que contiene una cadena de oligonucleótido de longitud 25 Figura 2.11 en la parte izquierda representa 8 9. http://missinglink.ucsf.edu/lm/molecularmethods/blotting.htm http://en.wikipedia.org/wiki/Northern_blot. 11 Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(24) CA D MA E TE CIE MA NC TI IAS CA S FIS IC. AS. Y. Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. Figura 2.8: Proceso de Northern blotting. Fuente: Northern Blot-Wikipedia 9 .. Figura 2.9: Microarray chip Affymetrix. Fuente: Microarray curricula -Affymetrix [1].. BI. BL. IO TE. un gen con una longitud máxima de 1000 base pair(par de bases). La parte derecha representa un probe con una longitud de 25 bp y a la vez es parte de un gen, y además se observa el detalle de un probe dentro del microarray sin hibridizar. Ver Figura 2.10.. Cada probe también representa dos hebras complementarias, la hebra sin hibridizar es denominada perfect match y la hebra hibridizada es denominado miss-match como podemos observar en la Figura 2.12. Estas son usadas para la normalización del microarray. 12. Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(25) CA D MA E TE CIE MA NC TI IAS CA S FIS IC. AS. Y. Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. Figura 2.10: Detalle de un probe de microarray.. BI. BL. IO TE. Fuente: Microarray curricula -Affymetrix [1].. Figura 2.11: Representación de un probe. Fuente: Microarray curricula -Affymetrix [1].. 13 Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(26) Y. Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. CA D MA E TE CIE MA NC TI IAS CA S FIS IC. Fuente: MAS5.0 algorithm [32].. AS. Figura 2.12: Representación de pares de probe como perfect match-PM y missmatch-MM.. Obtención de un microarray. Para obtener un microarray, se debe realizar los siguientes pasos: 1. Extraer ADN y fragmentar.. 2. Etiquetar los fragmentos obtenidos y combinarlo en la matriz. 3. Hibridar la matriz.. 4. Lavar por 14 o 16 horas en agua.. 5. Escanear la matriz por medio de un láser para obtener la imagen del microarray.. BI. BL. IO TE. Los pasos anteriormente descritos son representados en la Figura 2.13. Computacionalmente cada probe presenta una intensidad, cuya medida se obtiene de acuerdo a número de fotones emitidos por el scanner láser y que inciden en el probe. La medida es asignada a cada probe en la imagen de un microarray. Ver Figura 2.14.. 14 Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(27) CA D MA E TE CIE MA NC TI IAS CA S FIS IC. AS. Y. Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. Figura 2.13: Etapas de proceso de obtención de un microarray affymetrix.. BI. BL. IO TE. Fuente: Microarrays The search for meaning In a Vast Sea of Data [11].. Figura 2.14: Grilla de luces. Imagén de la expresión de un microarray. Fuente: Microarrays The search for meaning In a Vast Sea of Data [11].. 15 Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(28) Y. Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. CA D MA E TE CIE MA NC TI IAS CA S FIS IC. AS. CAP ÍTULO 3. Normalización. Se discute la técnica de procesamiento de microarrays cuyo método Robust Multi-array Average-RMA presenta una mejor desempeño respecto a otros métodos, ella esta dividida en tres procesos: corrección de fondo, normalización y summarization. Estos se describen a continuación.. 3.1.. Corrección de fondo. BL. IO TE. La correción de fondo de un microarray hace uso de los pares de probes (PM y MM) y es el primer proceso para su procesamiento. RMA [24] propone hacer un ajuste de ruido con las celdas PM e ignora las celdas MM debido a los resultados obtenidos en [23], demuestra empiricamente que la sustracción de MM no se traduce en una sustracción biológica. Planteo la siguiente ecuación:. P Mij = Bij + Sij. (3.1). BI. donde i es la fila de la matriz que representa la muestra de un microarray; j representa al probe; Bij representa el fondo(background) causado por el ruido óptico no especificado y Sij es la señal del probe. Sij ∼ exp(λij ) Bij ∼ N + (µi , δi2 ). (3.2). 16 Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(29) Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. CA D MA E TE CIE MA NC TI IAS CA S FIS IC. AS. Y. En (3.2), Bij se aproxima a su distribución normal y Sij la función de densidad de una distribución exponencial. Los autores de RMA asumieron que cada microarray presenta un nivel de background medio en común E(Sij ) = βi . Una manera sencilla de retirar el efecto de background es considerar P Mij − β̂i , con distribución log2 (β̂i ) y cuando P Mij ≥ β̂i se torna un problema al aplicarle la distribución log a P Mij − β̂i . El método presenta una alternativa de correción de background B(P Mij ) ≡ E(Sij |P Mij ), considerando una distribución estrictamente positiva Sij , entonces B(P Mij ) > 0. P M − µ − λδ 2 µ + λδ 2 ) − φ( ) 2 δ δ E(S|P M ) = P M − µ − λδ + δ. µ + λδ 2 P M − µ − λδ 2 ) + φ( )−1 φ( δ δ φ(. (3.3). La ecuación (3.3) representa el ajuste de background de RMA, donde φ es una función kernel que tiene por objetivo estimar el modo de distribución de PM y con él se estima µ. v X u u (P M − µ̂)2 u t P M <µ δ̂ = (3.4) #{P M < µ̂} − 1 Con la ecuación (3.4) calculamos δ. Si se calcula la densidad de los valores de P M − µ̂ obtenemos 1/δ, selecciona la δ media para la ecuación (3.3).. 3.2.. Normalización. IO TE. En [8] se realizó un estudio de métodos de normalización de microarrays con los métodos: Loess ciclico, Contrast based method y normalización por cuantiles1 aplicados al método RMA. La normalización por cuantiles proporciona un mejor desempeño respecto a los métodos anteriormente mencionados.. BL. 3.2.1.. Normalización por cuantiles. BI. El éxito de este método consiste en crear la distribución de intensidades de probe en un conjunto de microarrays. El método esta basado en la idea de gráfico Q-Q [10], donde se muestra la distribución de dos vectores a la vez, sı́ presenta el gráfico una lı́nea diagonal se deduce que presenta la misma dis1. Puntos tomados de un intervalo regular desde una función de distribución acumulativa de una variable aleatoria.. 17 Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(30) Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. Algoritmo. CA D MA E TE CIE MA NC TI IAS CA S FIS IC. AS. Y. tribución. Es sugerido que dos conjuntos de datos se dispersan y tengan igual distribución por el uso de transformación de cuantiles de cada uno para tener el mismo valor. Esto nos sugiere una proyección de los datos hacia la diagonal. Este método se extendido a n dimensiones. A continuación se describe el algoritmo creado en [5]:. Algorithm 3.1: Algoritmo de normalización de cuantiles. 1. Dado n datos de un conjunto de tamaño p, la forma X de dimensión pxn donde cada microarray es una columna. 2. Iniciar d = ( √1N , . . . , √1N ).. 3. Xord ← ordenar por columnas a X. 0. 4. Xord ← proyectar por fila de Xord sobre d. 0. 5. Xnorm ← re-ordenar cada columna de Xord al mismo orden como el original de X.. Notas. 1. Si qi = (qi1 , . . . , qiN ) es una fila en Xord entonces la fila correspondiente a 0 0 Xord es dado por qi = proyd qi .. n. proydqi. n. n. qi .d 1 X 1X 1X d= √ qij , . . . , qij ) = qij d = ( d.d n j=1 n j=1 n j=1. (3.5). BL. IO TE. 2. La proyección es equivalente al promedio de los cuantiles de una fila en particular y sustituimos este valor para cada elemento individual en una fila, la describimos en la siguiente ecuación.. BI. La Figura 3.1 representa un gráfico M A [53] de un par de microarrays antes de sus normalización y la Figura 3.2 muestra el después de aplicar el método de normalización de cuantil.. 18 Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(31) CA D MA E TE CIE MA NC TI IAS CA S FIS IC. AS. Y. Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. Figura 3.1: Antes de aplicar normalización de cuantiles a un par de PM.. BI. BL. IO TE. Fuente: Probe Level Quantile Normalization of High Density Oligonucleotide Array Data [7]. Figura 3.2: Después de aplicar normalización quantile a un par de PM. Fuente: Probe Level Quantile Normalization of High Density Oligonucleotide Array Data [7].. 19 Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(32) Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. 3.3.. Summaryzation. CA D MA E TE CIE MA NC TI IAS CA S FIS IC. AS. Y. Consiste en obtener una medida de intensidad para cada pares de probes. La primera versión de este tipo de métodos usó la diferencia P M − M M , ası́ el método MAS 5.0 [22] emplea la diferencia anterior en un promedio robusto anti-logarı́tmico denominado Tukey’s Biweight[42], los valores log(P M − CT ), donde CT es definida como M M si P M > M M , otros casos es regulada P M . Se plantea el siguiente modelo. Yij = µi + αj + ξij. donde :. n X. (3.6). αi = 0. i=1. En el Modelo (3.6) representa la Mediana Polaca [49], donde µi es el nivel de expresión a escala log para el conjunto de probes en el microarray i y puede ser re-escrita como µi = µ + δi , δi afecta a la fila; αj representa los efectos de afinidad en el j − esimo columna de probe y ξij es el residual para el i − esimo probe en el microarray j. La mediana polaca se describe en el Algoritmo 3.2 a continuación presentado: Algorithm 3.2: Algoritmo de mediana polaca. 1. Tomar la mediana de cada fila y guardar el valor al costado de la fila. Sustraer la fila mediana de cada punto en una fila en particular.. IO TE. 2. Computar la mediana de las filas medianas, guardar el efecto. Restar este efecto para cada una de las filas medianas. 3. Tomar la mediana de cada columna y guardar el valor bajo la columna. Restar la columna mediana para cada punto en la columna en particular.. BI. BL. 4. Computar la mediana de las columnas medianas, y agregar el valor del efecto. Sustraer esta suma con el efecto para cada columna mediana. 5. Repetir los pasos 1-4 hasta que no ocurran cambios con las medianas de filas y columnas.. donde la mediana: representa el valor de la variable de posición central en un conjunto de datos ordenados. 20 Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(33) CA D MA E TE CIE MA NC TI IAS CA S FIS IC. AS. Y. Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. Cuadro 3.1: Ejemplo del Algoritmo de Mediana Polaca 3.2 detallado paso a paso (a) Microarrays de 5 probes por muestra. a r r a y. 4 8 6 9 7. 3 1 2 4 5. (b) Paso 1. 4 8 6 9 7. Probe 6 4 7 10 5 11 7 8 8 12 9 12 9 6 10. (c) Pasos 2 y 3. 0 0 -1 0 0 0. -1 -7 -5 -5 -2 -5. 2 0 2 -3 0 1 3 0 2 -1 2 0. IO TE. 4 5 8 9 6. 7 11 8 12 10. 4 8 7 9 7. 3 3 1 3 3 3. 0 4 0 -2 -1 0 0 0 0 3. 0 0 0 -3 -2 1 1 0 0 -1. 0 0 -2 0 0. (f) Ajuste de la matriz original. 0 0 -1 0 0. 4 8 6 9 7. 0 4 2 5 3. 6 10 8 11 9. 4 8 6 9 7. 7 11 9 12 10. BI. BL. 3 0 0 -3 0 -3 0 -1 2 -1 1 0 2 0 -1. 6 10 7 12 9. (d) Paso 4. (e) Después de un iteración. 0 0 0 0 0. 3 1 2 4 5. 21 Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(34) Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. Y. Entonces aplicaremos los pasos del algoritmo 3.2 al Cuadro 3.1a son las muestras de microarrays empleadas con valores aleatorios de probes.. AS. Aplicamos el paso 1 al Cuadro 3.1a obteniendo el Cuadro 3.1b donde él ultimo elemento de cada fila es su mediana.. CA D MA E TE CIE MA NC TI IAS CA S FIS IC. Restamos la mediana de cada fila del Cuadro 3.1b de acuerdo al paso 2. Después encontramos la mediana de cada columna y guardamos el valor de acuerdo al paso 3 ası́ obtenemos el Cuadro 3.1c. Sustraemos el valor de la mediana de cada columna del Cuadro 3.1c de acuerdo al paso 4 obteniendo el Cuadro 3.1d.. BI. BL. IO TE. Después de una iteración obtenemos el Cuadro 3.1e como resultado del algoritmo, a este resultado se resta con los datos originales del Cuadro 3.1a y ası́ es ajustado en el Cuadro 3.1f.. 22 Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(35) Y. Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. CA D MA E TE CIE MA NC TI IAS CA S FIS IC. AS. CAP ÍTULO 4. Aprendizaje de Máquinas. Se describe el concepto de aprendizaje de máquinas, los tipos de algoritmos y se descute el algoritmo de SVM para el problema de clasificación binaria. También describe los conceptos básicos de un aprendizaje de múltiples kernels (multiple kernel learning-MKL) y variantes de métodos de MKL tales como MKL no lineal y dependiente de los datos.. 4.1.. Definición. Aprendizaje de Máquinas ( Machine Learning-ML ) es definido según:. IO TE. Arthur Samuel en 1959 [44]. Aprendizaje de Máquinas es el campo de estudio que da a las computadoras la habilidad para aprender estando sin una programación explicita.. BI. BL. Tom Mitchell en 1998 [34]. plantea Well-posed Learning Problem: Un programa de computadora A se dice que aprende de la experiencia E con respecto a alguna tarea T y medida de desempeño P, si el desempeño en T, como una medida de P, mejora con la experiencia de E. Por ejemplo: El problema de aprendizaje de un juego de damas: • Tarea T: Jugar damas. • Medida de desempeño P: Porcentaje de juego ganado con respecto al oponente.. 23 Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(36) Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. Y. • Entrenamiento a la experiencia E: Jugando juegos de práctica contra el mismo.. Tipos de algoritmos de Aprendizaje de Máquinas. AS. 4.2.. CA D MA E TE CIE MA NC TI IAS CA S FIS IC. Estos algoritmos de aprendizaje de máquinas inducen a partir de funciones o hipótesis y pueden organizarse dentro de una taxonomı́a de aprendizaje inductivo según [54] y son: Aprendizaje supervisado(Supervised learning): El algoritmo genera una función que mapea las entradas con las salidas deseadas. Una tarea común de este tipo de aprendizaje es problema de clasificación, donde el algoritmo requiere entrenar una función y con las nuevas entradas, mapeandola con su respectiva clase. Aprendizaje no supervisado (Unsupervised learning ): En este modelo las entradas están sin etiquetar, el algoritmo al finalizar asignará etiquetas a cada entrada y estas formarán clusters. Nuestro trabajo emplea algoritmos de aprendizaje supervisado debido a que son ampliamente estudiados y presentan un mejor desempeño. Esta dividido en modelos de regresión y clasificación siendo desarrollado en las siguientes subsecciones.. 4.3.. Aprendizaje supervisado. BI. BL. IO TE. Supongamos que tenemos un conjunto de datos de probes con su respectiva intensidad aleatoria de fondo como se muestra en el Cuadro 4.1, el cual podemos representarlo en la Figura 4.1. Cuadro 4.1: Probe y su intensidad de fondo. Probe 20 500 750 . .. Intensidad de fondo 2250 1900 1600 . .. Fuente: Autor de esta tesis.. 24 Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(37) CA D MA E TE CIE MA NC TI IAS CA S FIS IC. AS. Y. Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. Figura 4.1: Figura del Cuadro 4.1. Fuente: Autor de esta tesis. Dado nuevos datos entonces nos preguntamos: ¿Cómo podrı́amos predecir nuevas intensidades de fondos de probes, con una función de número de probes?. Matematicamente es definido como los siguientes conjuntos:. X = {x(i) Rn , n ≥ 1, i = 1, . . . , p} Y = {y (i) Rn , n ≥ 1, i ∈ N }. L = {(x(i) , y (i) ); m < p, i = 1, . . . , m}. (4.1). BI. BL. IO TE. donde X es llamado conjunto de entrada ó conjunto de caracterı́sticas de entrada, Y el conjunto de salida u objetivo y L una lista de m pares que son denominados conjunto de entrenamiento según [37]. Para describir formalmente nuestro éxito, es dado un conjunto de entrenamiento el cual necesita una función hipótesis h : X 7−→ Y entonces h(x) es un buen predictor si su valor corresponde a y. Cuando nuestro objetivo predecido es contı́nuo, podremos denominarlo como un problema de regresión y su el valor es un número discreto o una etiqueta, este es titulado como un problema de clasificación. La Figura 4.2 describe el proceso de aprendizaje supervisado.. 4.3.1.. Modelo de Regresión. En el modelo de regresión define la hipótesis h como: hθ (x) = θ0 + θ1 x1 + θ2 x2 + · · · + θn xn. (4.2). 25 Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(38) CA D MA E TE CIE MA NC TI IAS CA S FIS IC. AS. Y. Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. Figura 4.2: Diagrama de un modelo de aprendizaje supervisado. Fuente: Lecture 01 of Machine Learning-Stanford University [37].. La ecuación (4.2), θi son los parámetros también denominados pesos, los cuales mapean la función de X en Y y podemos reescribirla como: h(x) =. n X. θi xi = θT x. (4.3). i=0. donde x0 = 1, θ y x ambas son vectores, y n es el número de variables. Los parámetros θ son entrenados por un método h(x) tratando de acercar a y, este método es denominado función de costo y se definido por: m. J(θ) =. 1X (hθ (xi ) − y i )2 2 i=1. (4.4). IO TE. El costo de la función (4.4) de la regresión lineal anterior, representa a un modelo de regresión lineal de mı́nimos cuadrados.. 4.3.2.. Modelo de Clasificación. BI. BL. Este modelo predice un valor discreto o una etiqueta. Nos enfocamos en el problema de clasificación binaria, donde y puede tomar valores 0 ó 1; 0 es llamado clase negativa y 1 la clase positiva, y son denotadas por los sı́mbolos ” + ” y ” − ”. Intuitivamente el resultado de la hipótesis es mayor que 1 y pertenece a la clase positiva y si es menor que 0 a la clase negativa. Pero el modelo de hipótesis cambia a la Función (4.5) esta una función logı́stica o. 26 Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(39) Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. función sigmoid para lograr una mejor clasificación. Ver Figura 4.3.. donde. 1 1 + −z. Y. (4.5). (4.6). CA D MA E TE CIE MA NC TI IAS CA S FIS IC. g(z) =. 1 1 + −θT x. AS. h(x) = g(θT x) =. Figura 4.3: Gráfico de una función sigmoid. Fuente: Autor de esta tesis.. Cuadro 4.2: Algoritmos supervisados Algoritmos Supervisados Redes Neuronales Modelos de Markov Arboles de decisión Bosques aleatorios. IO TE. Fuente: Autor de esta tesis.. BI. BL. En el Cuadro 4.2 se nombran los algoritmos más importantes de aprendizaje supervisado según [25]. Un ejemplo de clasificación binaria aplicado al problema de clasificación de tumor mamario a partir del conjunto de datos de entrenamiento, cada elemento esta compuestá por dos caracterı́sticas del Cuadro 4.3 (Mitoses y Clump Thickness y el diagnóstico del tumor clasificación se realizo con algoritmos de aprendizaje como (SVM, redes neuronales,etc) y para las nuevas muestras , el algoritmo lo clasificará en benigno o maligno (Figura 4.4). En la siguiente sección describimos el algoritmo supervisado de máquinas de soporte vectorial para el problema de clasificación binaria.. 27 Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(40) Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. 1002945. 1015425. .. .. 5 1 1. 5 4 4. 3 1 1. . . .. . . .. 1 2. 5 7. 1 2. . .. . .. 1 3 1 1 2. 10 3 2 1 2. 2 3 1 1 2. . . . . .. . . . . .. AS. 1000025. CA D MA E TE CIE MA NC TI IAS CA S FIS IC. Sample code numbe(id number) Clump Thickness (1 - 10) Uniformity of Cell Size (1 - 10) Uniformity of Cell Shape (1 10) Marginal Adhesion (1 - 10) Single Epithelial Cell Size (1 10) Bare Nuclei (1 - 10) Bland Chromatin (1 - 10) Normal Nucleoli (1 - 10) Mitoses (1 - 10) Class: (2 for benign, 4 for malignant). Y. Cuadro 4.3: Algunas muestras de cáncer mamario.. BI. BL. IO TE. Fuente: Breast Cancer Wisconsin-Universidad de Wisconsin [16].. Figura 4.4: Clasificación de tumor de mama [16] con algoritmos de aprendizaje supervisado. Fuente: Autor de esta tesis.. 28 Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(41) Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. 4.4.. Máquinas de Soporte de Vectorial. CA D MA E TE CIE MA NC TI IAS CA S FIS IC. AS. Y. También se denomina Máquinas de Soporte de Vectores (Support Vector Machines-SVM) [13] desarrollada en 1960 por Vladimir Vapnik e introducida por Corinna Cortes en 1995, el problema de clasificación binaria lo resuelve cuando logra encontrar el hiperplano que optimiza la máxima distancia del margen. En la Figura 4.5 describe el problema planteado en SVM.. Figura 4.5: Separación óptima del hiperplano en un espacio de dosdimensiones. Fuente: Support Vector Machines for Pattern Recognition [13].. 4.4.1.. Separación del Hiperplano Optimo. IO TE. Dada M un base de entrenamiento n-dimensional con entradas xi (i = 1, ...., N ) bajo las clases 1 o 2 asociadas a las etiquetas yi = 1 para la clase 1 y -1 para la clase 2. Asumamos que los datos son linealmente separables entonces podemos determinar la función de decisión: D(x) = wT x + b. (4.7). w T xi + b.  > 0. Para: yi = 1. < 0. Para: yi = −1. (4.8). BI. BL. donde w es un vector n−dimensional, b el termino bias1 y para i = 1, ..., N. Debido a que los datos de entrenamiento no satisface wT x + b = 0. Ası́, para el control de separabilidad, en vez de (4.8) , consideramos la siguiente inecua1. bias: También denominado sesgo y es ladiferencia entre su esperanza matemática y el valor numérico del parámetro que estima.. 29 Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(42) Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. w T xi + b.  ≥ 1. Para: yi = 1. (4.9). ≤ −1 Para: y = −1 i. Y. ción:. CA D MA E TE CIE MA NC TI IAS CA S FIS IC. yi (wT xi + b) ≥ 1 para i = 1, ...., N. AS. De las inecuaciones de (4.9) obtenemos equivalentemente. (4.10). El hiperplano. D(x) = wT x + b = c para − 1 < c < 1. (4.11). separa a xi (i = 1, ..., N ). Cuando c = 0, el hiperplano esta al medio de dos hiperplanos con c = 1 y c = −1 (Figura 4.5). La distancia entre la separación de los hiperplanos es llamada margen. La región {x| − 1 ≤ D(x) ≤ 1} es la región generalizada por la función decisión y se maximiza la distancia del margen cuando D(x) = 0. La distancia de cualquier muestra x hacia el hiperplano es dado por |D(x)|/kwk , el vector w es ortogonal a los planos que lo separan. La ecuación que contiene a x es ortogonal al hiperplano y esta dada por a. w +x kwk. (4.12). donde |a| es la distancia euclideana2 desde x hacia el hiperplano. La intercepción de la linea (4.12) al punto es D(aw/kwk + x) = 0. (4.13). IO TE. Resolviendo (4.13) obtenemos a = −D(x)/kwk. Entonces para los datos de entrenamiento debe satisfacer yk D(xk ) ≥ δ para k = 1, ...., N kwk. (4.14). BI. BL. donde δ es el margen. Si (w, b) es una solución (aw, ab) es también una solución, donde a es un escalar. Ası́ incluimos la siguiente restricción δkwk = 1. s 2. d(P, Q) =. n P. (4.15). (pi − q2 )2 . P = (p1 , . . . , pn ) y Q = (q1 , . . . , qn ). i=1. 30 Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(43) Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. CA D MA E TE CIE MA NC TI IAS CA S FIS IC. 1 Minimizar Q(w, b) = kwk2 2. AS. Y. De (4.14) y (4.15) buscamos el optimo hiperplano de separación. Necesitamos encontrar un w con la mı́nima norma Euclideana que satisfaga a (4.10). Por lo tanto el optimo hiperplano de separación puede ser obtenido resolviendo el siguiente problema de programación cuadrática.. sujeto a yi (wT xi + b) ≥ 1 para i = 1, ...., N. (4.16) (4.17). Las variables para el problema de optimización convexa para (4.16) y (4.17) son w y b. La solución de este problema es dado para n+1 variables de entrada, para casos de altas dimensiones es preferente convertir a (4.16) y (4.17) en un problema de dualidad equivalente sin restricción: N. X 1 αi {yi (wT xi + b) − 1} Q(w, b, α) = wT w − 2 i=1. (4.18). donde α = (α1 , ...., αN )T y αi son multiplicadores no negativos de Lagrange. La solución optima de (4.18) es dada por el punto de silla, donde (4.18) es minimizado con respecto a w, maximiza y minimiza respecto a b acorde al signo N X de αi yi , y la solución satisface las siguientes condiciones de Karush-Kuhn i=1. IO TE. Tucken(KKT).. ∂Q(w, b, α) =0 ∂w. (4.19). ∂Q(w, b, α) =0 ∂b. (4.20). αi {yi (wT xi + b) − 1} = 0 para i = 1, ..., N. (4.21). αi ≥ 0 para i = 1, ...., N. (4.22). BI. BL. Especialmente las relaciones entre las restricciones de inequivalencias y las asociaciones de los multiplicadores de Lagrange dada (4.21) son llamadas condiciones complementarias KKT o condiciones KKT. Para (4.21) αi = 0 o αi 6= 0 y yi (wT xi + b) = 1 debe satisfacer los datos xi con αi 6= 0 son llamados vectores de soporte, usando (4.18), reduciendo (4.20) y (4.19) respectivamente a w=. N X. α i y i xi. (4.23). i=1. 31 Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(44) Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. y (4.24). αi y i = 0. Y. N X i=1. N X. AS. Sustituyendo (4.23) y (4.24) en (4.18) obtenemos el problema dual como: N 1X αi αj yi yj xTi xj 2 i,j=1. (4.25). yi αi = 0, αi ≥ 0 para i = 1, ..., M. (4.26). αi −. CA D MA E TE CIE MA NC TI IAS CA S FIS IC. Maximizar Q(α) =. i=1. sujeto a. N X i=1. La formulación de SVM (4.25) es llamada hard-margin SVM. Porque N N N X 1X 1 X T T αi αj yi yj xi xj = ( αi yi xi ) ( αi y i x i ) ≥ 0 2 i,j=1 2 i=1 i=1. (4.27). maximiza a (4.25) bajo la restricción (4.26) es un problema de programación cuadrática. Los datos son asociados con valores positivos de αi que son vectores de soporte para las Clases 1 o 2 . Entonces apartir de (4.23) la función de decisión será dada por X αi yi xTi x + b (4.28) D(x) = i∈S. IO TE. donde S es el conjunto de indices de vectores de soporte, y con las condiciones KKT dada por (4.22), b es dado por b = yi − wT xi para i ∈ S. (4.29). BL. Es mejor tomar los vectores de soporte como : b=. 1 X (yi − wT xi ) |S| i∈S. (4.30). BI. Entonces para muestras de datos desconocidas x es clasificada en  Clase 1 Clase 2. Si D(x) > 0. (4.31). Si D(x) < 0. 32 Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(45) Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. AS. Y. Si D(x) = 0, x son datos en el limite e inclasificables.Cuando los datos de entrenamiento son separables entonces la región x|1 > D(x) > −1 es la generalización de región. Cuando los datos linealmente inseparables, no presentan una solución factible para (4.7,4.10) entonces introducimos variables de holgura ξi en 4.10 entonces:. CA D MA E TE CIE MA NC TI IAS CA S FIS IC. yi (wT xi + b) ≥ 1 − ξi para i = 1, ...., N. (4.32). Figura 4.6: Caso inseparable de un espacio de dos-dimensiones. Fuente: Support Vector Machines for Pattern Recognition [13].. IO TE. Para las variables de holgura ξi , siempre existe una solución factible. Para datos de entrenamiento xi . Si 0 < ξi < 1 (ξi en la Figura 4.6) los datos no tienen el máximo margen pero aún son clasificadas correctamente. Pero si ξi ≥ 1 ξj en Figura 4.6 los datos no son clasificados por el optimo hiperplano. Para obtener el hiperplano optimo con los datos de entrenamiento que no tienen el margen máximo que es mı́nimo, necesitamos minimizar Q(w) =. θ(ξi ). (4.33). i=1. donde. θ(ξi ) =.  1. para ξi > 0. 0. para ξi = 0. (4.34). BI. BL. N X. 33 Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(46) Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. AS. N 1 CX p 2 Minimizar Q(w, b, ξ) = kwk + ξ 2 p i=1 i. Y. Consideramos el siguiente problema de minimización:. Sujeto a yi (wT xi + b) ≥ 1 − ξi , ξi ≥ para i = 1, ...., N. (4.35) (4.36). CA D MA E TE CIE MA NC TI IAS CA S FIS IC. donde ξ = (ξ1 , ....., ξN )T y C es el parámetro de margen que determina el intercambio entre el margen de maximización y minimización del error de clasificación cuando p = 1 la maquina de soporte vectorial la llamamos L1 Soft-margin support vector machine (L1 SVM) y cuando p = 2, L2 Soft-margin SVM(L2 SVM). En nuestro trabajo abarcaremos L1 soft-margin support vector machine. Supongamos que el caso es linealmente separable al introducir los multiplicadores de Lagrange αi y βi , obtenemos: N. N. N. X X X 1 ξi − αi (yi (wT xi + b) − 1 + ξi ) − βi ξi Q(w, b, ξ, α, β) = kwk2 + C 2 i=1 i=1 i=1. (4.37). IO TE. donde α = (α1 , ...., αN )T y β = (β1 , ..., βN )T . Para una solución optima, las condiciones KKT satisfacen : ∂Q(w, b, ξ, α, β) =0 ∂w. (4.38). ∂Q(w, b, ξ, α, β) =0 ∂b. (4.39). ∂Q(w, b, ξ, α, β) =0 ∂ξ. (4.40). αi (yi (wT xi + b) − 1 + ξi ) = 0 para i = 1, . . . , N. (4.41). βi ξi = 0 para i = 1, . . . , N. (4.42). α ≥ 0, βi ≥ 0, ξi ≥ 0 para i = 1, ...., N. (4.43). BI. BL. Usamos (4.37), reducimos (4.38), (4.39) y (4.40) respectivamente a w=. N X. αyi xi. (4.44). i=1 M X. αi y i = 0. (4.45). i=0. αi + βi = C para i = 1, ...., M. (4.46). 34 Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(47) Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. Maximizar Q(α) =. N X. Sujeto a. N X. AS. i=1. N 1X αi − αi αj yi yj xTi xj 2 i,j=1. Y. Ası́ (4.44), (4.45), (4.46) en (4.37) obteniendo el siguiente problema dual. yi αi = 0, c ≥ αi ≥ 0 para i = 1, ...., N. CA D MA E TE CIE MA NC TI IAS CA S FIS IC. i=1. (4.47). (4.48). para (4.46) presenta tres casos para αi. 1. αi = 0. Entonces ξi = 0. Ası́ ξi es correctamente clasificada. 2. 0 < αi < C. Entonces yi (wT +b)−1+ξi = 0 y ξi = 0. Por lo tanto yi (wT +b) = 1 y xi son vectores de soporte. Vectores de soporte con C > αi > 0 es un vector de soporte no limitado. 3. αi = C. Entonces yi (wT + b) − 1 + ξi = 0 y ξi ≥ 0 . Ası́ xi es un vector de soporte si 0 ≤ ξi < 1, xi es correctamente clasificada, y si ξi ≥ 1 ξi no es clasificada. La función de decisión es dada por. αi yi xT i x+b. D(x) =. X. (4.49). i∈S. donde S es el conjunto de indices de vectores de soporte. Debido a αi son valores diferentes para los vectores de soporte , la sumatoria (4.49) es agregada solo para los vectores de soporte. Del no limitado αi. IO TE. b = y i − w T xi. (4.50). BL. es satisfecho. Para vectores de soporte no limitados b es b=. 1 X (yi − wT xi ) |U| i∈V. (4.51). BI. donde U es el conjunto de indices de vectores de soporte no limitados. Para nuevos datos x se clasifica en   Clase 1 Si D(x) > 0 (4.52)  Clase 2 Si D(x) < 0. Para D(x) = 0, x esta en el limite y ası́ ya no es clasificado. 35 Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

Referencias

Documento similar