Detección de metástasis de cáncer mamario usando máquinas de soporte vectorial a partir de datos de microarray

Texto completo

(1)Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. CA D MA E TE CIE MA NC TI IAS CA S FIS IC. AS. Y. Universidad Nacional de Trujillo Facultad de Ciencias Fı́sicas y Matemáticas Escuela Académico-Profesional de Informática. Detección de metástasis de cáncer mamario usando Máquinas de Soporte Vectorial a partir de datos de microarray. Tesis para la Obtención del Tı́tulo de Ingeniero Informático. BI. BL. IO TE. Autor: Marks Arturo Calderón Niquı́n Asesor: Ing. José Luis Peralta Luján. Trujillo-Perú Noviembre 2012. Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(2) Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. I. Y. Jurados. CA D MA E TE CIE MA NC TI IAS CA S FIS IC. 2. Secretario: Prof. Jose Gabriel Cruz Silva. AS. 1. Presidente: Prof. José Rodriguez Melquiades. 3. Vocal : Prof. José Luis Peralta Luján. BI. BL. IO TE. Dı́a de defensa: 7 de noviembre del 2012. Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(3) BL. IO TE. CA D MA E TE CIE MA NC TI IAS CA S FIS IC. Dedicatoria. AS. Y. Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. BI. A mis padres, Mery y Ricardo. Y a mis hermanos, Martin y David.. II Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(4) Y. Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. CA D MA E TE CIE MA NC TI IAS CA S FIS IC. AS. Agradecimientos. Estoy eternamente agradecido a Dios por darme las fuerzas, conocimientos necesarias en el desarrollo de mi carrera y especialmente en la tesis, y dirección en todo. Agradezco a mis padres Mery Niquı́n y Ricardo Calderón, en especial a mi madre por darme el aliento diario de nunca rendirme y a mi padre por su especial trato. A mis queridos hermanos Martı́n y David por los gratos momentos compartidos. También agradezco a mis tios: Willy, Eder, Wilder, Esmelin, Henry, Nilda y Jane; y de manera especial a mis abuelos Flor Alayo y Segundo Niquı́n. A mis amigos del SECC1 , por los momentos juntos promoviendo la Ciencia de la Computación. Me gustarı́a agradecer a: Nils Murrugarra, César Verde, Pedro Shiguihara, Clayder González y de manera especial a Jorge Valverde por la paciencia en los trabajos desarrollados en conjunto.. IO TE. A mis amigos de la escuela por los buenos momentos vividos, agradezco a: Carlos Cedeño, Carlos Pérez, Jennifer Hernández, Christina Vélez, Freddy Perfecto y Laurybeth Cueva. También a mis amigos de la iglesia Cristo la Luz del Mundo: Cynthia Quiroz, Ebelyn Rodrigues, Jhonatan Boulangger, Kelly Calderón, Miriam Sánchez, Cintia Flores y Adriana Tucto por sus palabras de aliento en los momentos necesarios.. BL. A mis profesores de informática, por abrir mi vista hacia un mundo tan emocionante como es nuestra carrera, gracias por brindarme los conocimientos necesarios y la visión de hasta puede llegar un profesional en Ciencia de la Computación, de manera muy especial agradezco a: José Saavedra R., Teresa Bracamonte N., Ivan Sipiran A., Jorge Guevara D. y José Rodriguez M.. BI. Al profesor José Luis Peralta L., por la dedicación, paciencia en el presente trabajo. Especialmente por las sugerencias en el desarrollo de la tesis. Finalmente, agradezco a todas las personas que contribuyeron directamente o indirectamente en la presente tesis. 1. Sociedad de Estudiantes de Ciencia de la Computación: http://seccperu.org/ III. Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(5) CA D MA E TE CIE MA NC TI IAS CA S FIS IC. Resumen. AS. Y. Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. BI. BL. IO TE. En la actualidad la principal causa de muerte por enfermedad es el cáncer. Ella puede afectar a distintos organos como páncreas, mama, cuello uterino, prostata entre otros, y el cáncer mamario presenta mayor número de casos y esta enfermedad presenta estados o fases de desarrollo siendo una de ellas la metástasis que es la proliferación de células cancérigenas a organos cercanos al del origen y causante de un gran porcentaje de muertes. Para su diagnóstico existen diferentes pruebas y una de ellas es el análisis de microarrays que emplea diferentes algoritmos de aprendizaje de máquinas. Máquinas de soportec vectorial (Support Vector Machine-SVM) presenetan una mejor performance en clasificación binaria. Un complemento de mejora a SVM es aprendizaje de múltiples kernels (Multiple Kernel Learning-MKL) que combina diferentes kernels de forma lineal, no lineal o local, en vez de uno solo. En este trabajo proponemos un nuevo método de MKL, utiliza la combinación local (dependiente de los datos) y no lineal de diferentes kernels. A esta propuesta la llamamos aprendizaje localizado no lineal de múltiples kernels (Localized Nonlinear Multiple Kernel Learning - LNLMKL). Evaluamos el desempeño de nuestra propuesta con una SVM y métodos de MKL, utilizando diferentes kernels y sus combinaciones, en la tarea de clasificación binaria de microarrays de distintos tipos de cáncer entre ellos metástasis de cáncer mamario que es el objeto de estudio del presente trabajo. Después de realizar un test post-hoc, nuestra propuesta muestra un mejor desempeño respecto a otras combinaciones de kernels, que los otros métodos evaluados.. IV Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(6) CA D MA E TE CIE MA NC TI IAS CA S FIS IC. Abstract. AS. Y. Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. BI. BL. IO TE. Actually the main cause of decease are produce by cancer illness. They can afect a many organs sucha as pancreas, breast, cervix, prostate and others, and breast cancer has high number of cases and this kind of illness has state or level of developing as metastasis, it spreads malign cells for neighbour organs then it produce the highest rate of death. Exists several diagnostic test and one of that is analysis of microarrays is used a different algorithms of machine learning. Support Vector Machine-SVM has obtained a good performance to binary classification and complement of it is a multiple kernel learning-MKL. In this thesis our proposal a new method, it uses a local(datadependent) and nonlinear combination with different kernels. We call it as localized nonlinear multiple kernel learning (LNLMKL). In our experiments for binary microarray classification, different kernels were used in SVM and different kernels combinations. Finally, we report the results of these experiments using eight high-dimensional microarray datasets demostrating that our proposal have performanced better than other methods analyzed.. V Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(7) CA D MA E TE CIE MA NC TI IAS CA S FIS IC. Índice general. AS. Y. Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. Dedicatoria . . . . Agradecimientos . Resumen . . . . . Abstract . . . . . . Índice . . . . . . . Índice de Figuras. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. Índice de figuras. IO TE. BL BI. 2. Microarrays 2.1. Conceptos biológicos . . . . 2.1.1. Dogma molecular . . 2.1.2. Microarray . . . . . . . 2.1.3. Hibridación . . . . . . 2.1.4. Microarray Affymetrix. . . . . . . . . . . . . . .. . . . . .. . . . . . . . . . . . . . .. . . . . .. . . . . . . . . . . . . . .. . . . . .. . . . . . . . . . . . . . .. . . . . .. . . . . . . . . . . . . . .. . . . . .. . . . . . . . . . . . . . .. . . . . .. . . . . . . . . . . . . . .. . . . . .. . . . . . . . . . . . . . .. . . . . .. . . . . . . . . . . . . . .. . . . . .. . . . . . . . . . . . . . .. . . . . .. . . . . . . . . . . . . . .. . . . . .. . . . . . . . . . . . . . .. . . . . .. . . . . . . . . . . . . . .. . . . . .. . . . . . . . . . . . . . .. . . . . .. III IV V VI VIII VIII. Índice de cuadros Índice de Tablas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Índice de Algoritmos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1. Plan de Investigación 1.1. Antecedentes . . . . . . . . . 1.2. Justificación del Problema . 1.2.1. Cientı́fica . . . . . . . 1.2.2. Académica . . . . . . . 1.2.3. Organizacional . . . . 1.2.4. Económica . . . . . . 1.2.5. Problema . . . . . . . 1.2.6. Hipótesis . . . . . . . 1.3. Objetivos . . . . . . . . . . . 1.3.1. General . . . . . . . . 1.3.2. Especı́ficos . . . . . . 1.4. Diseño de la Constrastación 1.4.1. Material de Estudio . 1.5. Organización de la Tesis . .. II. . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . .. X X XI. . . . . . . . . . . . . . .. 1 1 3 3 3 3 4 4 4 4 4 4 4 4 5. . . . . .. 6 6 7 10 10 11. VI Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(8) Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. ÍNDICE GENERAL. VII. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. Y. . . . .. . . . .. . . . .. AS. 3. Normalización 3.1. Corrección de fondo . . . . . . . . . 3.2. Normalización . . . . . . . . . . . . 3.2.1. Normalización por cuantiles 3.3. Summaryzation . . . . . . . . . . . .. CA D MA E TE CIE MA NC TI IAS CA S FIS IC. 4. Aprendizaje de Máquinas 4.1. Definición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2. Tipos de algoritmos de Aprendizaje de Máquinas . . . . . . . . . . 4.3. Aprendizaje supervisado . . . . . . . . . . . . . . . . . . . . . . . . 4.3.1. Modelo de Regresión . . . . . . . . . . . . . . . . . . . . . . . 4.3.2. Modelo de Clasificación . . . . . . . . . . . . . . . . . . . . . 4.4. Máquinas de Soporte de Vectorial . . . . . . . . . . . . . . . . . . . 4.4.1. Separación del Hiperplano Optimo . . . . . . . . . . . . . . 4.4.2. Mapeo de altas dimensiones . . . . . . . . . . . . . . . . . . 4.5. Aprendizaje de múltiples kernels . . . . . . . . . . . . . . . . . . . 4.5.1. Propiedades de los algoritmos de Aprendizaje de múltiples kernels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5.2. El Método de Aprendizaje . . . . . . . . . . . . . . . . . . . . 4.5.3. La Forma Funcional . . . . . . . . . . . . . . . . . . . . . . . 4.5.4. Función Objetivo . . . . . . . . . . . . . . . . . . . . . . . . . 4.5.5. Método de Entrenamiento . . . . . . . . . . . . . . . . . . . . 4.5.6. Base de Aprendizaje . . . . . . . . . . . . . . . . . . . . . . . 4.6. Aprendizaje No-Lineal de kernels . . . . . . . . . . . . . . . . . . . 4.7. Aprendizaje Localizado no lineal de múltiples kernels . . . . . . .. 16 16 17 17 20 23 23 24 24 25 26 29 29 36 39 39 39 40 40 41 41 41 42. 5. Materiales y métodos 44 5.1. Material . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 5.2. Metodologı́a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45. IO TE. 6. Resultados 6.1. Propuesta . . . . . . . . . . . . . . 6.1.1. Modelo matemático . . . . 6.1.2. Entrenamiento . . . . . . . 6.1.3. Complejidad . . . . . . . . . 6.1.4. Arquitectura de aplicación 6.2. Resultados Experimentales . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. 48 48 48 51 52 53 54. BI. BL. 7. Discusión 62 7.1. Discusión general . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 7.2. Discusión por base de datos . . . . . . . . . . . . . . . . . . . . . . 63 8. Conclusiones 66 8.1. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 8.2. Trabajos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 Bibliografı́a. 68. Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(9) Y. Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. 2.1. 2.2. 2.3. 2.4. 2.5.. CA D MA E TE CIE MA NC TI IAS CA S FIS IC. AS. Índice de figuras. Diagrama de una célula animal. . . . . . . . . . . . . . . . . . . . . Núcleo celular eucariota. . . . . . . . . . . . . . . . . . . . . . . . . Secuencia de base nitrogenada en el ADN. . . . . . . . . . . . . . Dogma central de la biologı́a molecular. . . . . . . . . . . . . . . . Transcripción llevada a cabo por ANR polimerasa, usa ADN(negro) como una plantilla y produce ANR(azul). . . . . . . . . . . . . . . . 2.6. Hibridación de dos moléculas de ADN. Lineas punteadas son enlaces de hidrógeno. . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.7. Proceso de Southern blotting. . . . . . . . . . . . . . . . . . . . . . . 2.8. Proceso de Northern blotting. . . . . . . . . . . . . . . . . . . . . . . 2.9. Microarray chip Affymetrix. . . . . . . . . . . . . . . . . . . . . . . . 2.10.Detalle de un probe de microarray. . . . . . . . . . . . . . . . . . . 2.11.Representación de un probe. . . . . . . . . . . . . . . . . . . . . . . 2.12.Representación de pares de probe como perfect match-PM y missmatch-MM. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.13.Etapas de proceso de obtención de un microarray affymetrix. . . . 2.14.Grilla de luces. Imagén de la expresión de un microarray. . . . . .. 6 7 8 8 9 10 11 12 12 13 13 14 15 15. IO TE. 3.1. Antes de aplicar normalización de cuantiles a un par de PM. . . . 19 3.2. Después de aplicar normalización quantile a un par de PM. . . . . 19 Figura del Cuadro 4.1. . . . . . . . . . . . . . . . . . . . . . . . . . 25 Diagrama de un modelo de aprendizaje supervisado. . . . . . . . . 26 Gráfico de una función sigmoid. . . . . . . . . . . . . . . . . . . . . 27 Clasificación de tumor de mama [16] con algoritmos de aprendizaje supervisado. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 4.5. Separación óptima del hiperplano en un espacio de dos-dimensiones. 29 4.6. Caso inseparable de un espacio de dos-dimensiones. . . . . . . . 33. BI. BL. 4.1. 4.2. 4.3. 4.4.. 5.1. 10-fold cross validation . . . . . . . . . . . . . . . . . . . . . . . . . 46 5.2. Perú: Tasa de utilización de la capacidad instalada de actividades que procesan recursos primarios,2007 (porcentaje) . . . . . . . . 46 5.3. Diagrama de diferencias criticas. . . . . . . . . . . . . . . . . . . . 47 6.1. Arquitectura de detección de cáncer. . . . . . . . . . . . . . . . . . 53 VIII. Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(10) Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. ÍNDICE DE FIGURAS. IX. CA D MA E TE CIE MA NC TI IAS CA S FIS IC. AS. Y. 6.2. Desempeño de los clasificadores respecto al conjunto de datos colon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.3. Desempeño de los clasificadores respecto al conjunto de datos gse3443 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.4. Desempeño de los clasificadores respecto al conjunto de datos gse7390 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.5. Desempeño de los clasificadores respecto al conjunto de datos leucemia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.6. Desempeño de los clasificadores respecto al conjunto de datos metástasis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.7. Desempeño de los clasificadores respecto al conjunto de datos Nki 6.8. Desempeño de los clasificadores respecto al conjunto de datos ovario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.9. Desempeño de los clasificadores respecto al conjunto de datos pawitan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 56 56 57 57 58 58 59 59. BI. BL. IO TE. 7.1. Comparación de los métodos evaluados mediante un test posthoc a partir de los datos de la Tabla 6.1 . . . . . . . . . . . . . . . 63. Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(11) Y. Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. CA D MA E TE CIE MA NC TI IAS CA S FIS IC. AS. Índice de cuadros. 3.1. Ejemplo del Algoritmo de Mediana Polaca 3.2 detallado paso a paso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 4.1. Probe y su intensidad de fondo. . . . . . . . . . . . . . . . . . . . . 24 4.2. Algoritmos supervisados . . . . . . . . . . . . . . . . . . . . . . . . 27 4.3. Algunas muestras de cáncer mamario. . . . . . . . . . . . . . . . . 28 5.1. Caracterı́sticas de las ocho base de datos de microarrays usadas en los experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . 45. BI. BL. IO TE. 6.1. Resultados obtenidos en nuestros experimentos. En cada celda se muestra el valor de la precisión obtenido por cada método. En negrita se resalta el mayor valor obtenido para cada base de datos 55 6.2. Desempeños promedios para método experimentado del Cuadro 6.1 respecto a cada conjunto de datos . . . . . . . . . . . . . . . . 60 6.3. Rankings a partir del Cuadro 6.1 para cada clasificador, combinación de kernels y conjunto de datos . . . . . . . . . . . . . . . . 61. X Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(12) Y. Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. CA D MA E TE CIE MA NC TI IAS CA S FIS IC. AS. List of Algorithms. 3.1. Algoritmo de normalización de cuantiles . . . . . . . . . . . . . . . . 18 3.2. Algoritmo de mediana polaca . . . . . . . . . . . . . . . . . . . . . . 20. BI. BL. IO TE. 6.1. LNLMKL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52. XI Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(13) Y. Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. CA D MA E TE CIE MA NC TI IAS CA S FIS IC. AS. CAP ÍTULO 1. Plan de Investigación. 1.1.. Antecedentes. BI. BL. IO TE. En la actualidad la principal causa de muerte son los problemas relacionados con la salud. Según la OMS-Organización Mundial de Salud en su informe del año 2004 [38] especifica al cáncer como la principal enfermedad causante de muerte en el mundo.Diferentes tipos de él afectan órganos como: mama, próstata, sangre, piel, cuello uterino, ovario, estómago entre otros órganos. El cáncer de mama y de próstata tienen la mayor población cancerı́gena. El primero al 2008 según la OMS en su informe[17] presentó una incidencia mundial de 1384 mil casos y una mortalidad de 450 mil convirtiéndose en la principal causa de muerte de todos los tipos de cáncer. Parte de estos decesos son producidos por la metástasis de cáncer es el proveniente de la proliferación de células desde el órgano que presenta cáncer hacia otro lugar del cuerpo. Este estado de cáncer tiene el mismo tipo de células que la original, primaria o cancerı́gena[4]. Puede expandirse hacia los pulmones, cerebro, huesos, nodos linfáticos o hı́gado produciendo la muerte del paciente sino recibe un adecuado tratamiento, o solo se detecta el cáncer principal y se da cura solo a ello. Entre los diferentes exámenes de diagnóstico de cáncer mamario tenemos: diagnóstico por mamografı́as, resonancia magnética de la mama, ultrasonido mamario, ductograma y biopsias como: abierta, de núcleo y por aspiración[46]. 1. Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(14) Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. Y. También se han propuesto métodos de detección basados en datos obtenidos en microarrays.. CA D MA E TE CIE MA NC TI IAS CA S FIS IC. AS. La comunidad de Ciencia de la Computación, en sus diferentes áreas de estudio, aborda el problema de la enfermedad del cáncer basándose en datos obtenidos a través de mamografı́as, resonancias magnéticas y microarrays [30]. Estos últimos, son los elementos que brindan gran cantidad de información relevante para abordar computacionalmente, mediante diagnósticos, el problema de la enfermedades cancerı́genas por medio de los microarrays [11, 39]. Un microarray de ADN1 consiste en un gran número de moléculas de ADN ordenadas sobre un sustrato formando una matriz de secuencias de dos dimensiones, que debe ser normalizado con el objetivo de eliminar la presencia de ruido o de cualquier otro tipo de distorsión [52, 27]. Su análisis ha venido atrayendo la atención de la comunidad cientı́fica debido a los buenos resultados que han sido obtenidos en la clasificación de enfermedades genéticas [45]; biomarcadores genéticos [31, 51]; entre otros y el uso de máquinas de aprendizaje para realizar estas tareas, máquina de soporte de vectores (Support Vector Machine - SVM), ha permitido obtener importantes resultados aplicados a microarrays [35, 45].. BL. IO TE. El desempeño de una SVM depende de la función kernel que usa y, por lo general, se opta por seleccionar el kernel con mejor desempeño en distintos datos de validación. Sin embargo, la selección del mejor no siempre es una tarea sencilla debido a los diferentes factores que se podrı́an considerar para ello. Diferentes métodos de aprendizaje de múltiples kernels (multiple kernel learning - MKL) han sido propuestas para solucionar ese problema [20], por ejemplo los métodos de MKL realizan la tarea de aprendizaje mediante la combinación de múltiples kernels en vez de seleccionar apenas uno. Tal combinación puede ser: lineal, no lineal o dependiente de los datos [20]. BI. El tipo de combinación de MKL mayormente usado es de combinación lineal de kernels, definida como la suma de pesos de kernels [43] y una variación de la combinación lineal es la denominada combinación no lineal de múltiples 1. El ácido desoxirribonucleico (ADN) es una macromolécula que forma parte de todas las células.. 2 Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(15) Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. CA D MA E TE CIE MA NC TI IAS CA S FIS IC. AS. Y. kernels (Non-linear Multiple Kernel Learning - NLMKL) [12], obtiene un ligero mejor desempeño que los métodos lineales. Una tercera propuesta es la denominada aprendizaje localizado de múltiples kernels (localized multiple kernel learning - LMKL) [19], en la que los pesos de una combinación lineal son obtenidos a partir de los datos evaluados mediante una minimización de riesgo estructural. El presente trabajo pretende mostrar la detección de metástasis de cáncer mamario usando SVM a partir de datos de microarray para lo cual se desarrolla un nuevo método de MKL al que denominamos aprendizaje localizado no lineal de múltiples kernels (Localized Nonlinear Multiple Kernel Learning LNLMKL) y que es una extensión de los métodos LMKL y NLMKL. Nuestra propuesta es utilizada en la clasificación binaria de microarrays en diferentes domı́nios de tipos de cáncer entre ellas la metástasis de cáncer mamario.. 1.2.. Justificación del Problema. 1.2.1.. Cientı́fica. Es un trabajo precedente en el paı́s y el mundo dentro de la Ciencia de la Computación y en el área de Bioinformática.. 1.2.2.. Académica. IO TE. Incentivar a estudiantes de Informática de la Universidad Nacional de Trujillo, a la investigación y desarrollo de aplicaciones bioinformáticas con gran impacto social.. 1.2.3.. Organizacional. BI. BL. Probar el diagnóstico de metástasis de cáncer mamario a través del análisis de datos de microarrays, tanto en instituciones de salud estatales como privadas. Crear una empresa que ofrezca productos software para instituciones de salud del paı́s.. 3 Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(16) Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. 1.2.4.. Económica. AS. Y. Generar un mercado de empleo en el desarrollo de software de apoyo a las ciencias médicas. Exportar productos de software a paı́ses desarrollados.. Problema. CA D MA E TE CIE MA NC TI IAS CA S FIS IC. 1.2.5.. ¿Cómo detectar metástasis de cáncer mamario a partir de datos de microarrays?. 1.2.6.. Hipótesis. Mediante el uso de máquinas de soporte vectorial, es posible detectar metástasis en cáncer mamario a través del análisis de datos de microarrays.. 1.3.. Objetivos. 1.3.1.. General. Desarrollar un método que permita detectar metástasis de cáncer mamario a partir de datos de microarrays.. 1.3.2.. Especı́ficos. Implementar técnicas para el análisis de datos de microarrays.. IO TE. Implementar técnicas para la clasificación y detección de cáncer mamario de datos obtenidos en los microarrays.. BL. Promover la investigación y desarrollo de aplicaciones basadas en el análisis de datos de microarrays en la Escuela Académico Profesional de Informática.. Diseño de la Constrastación. 1.4.1.. Material de Estudio. BI. 1.4.. Procedencia: Conjunto de datos de microarrays de nucleotidos, compuesta por información génetica de pacientes con cáncer. Disponible en Na4 Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(17) Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. tional Center for Biotechnology Information-NCBI 2 .. Y. Formato del microarray: Formato CEL con contenido genético.. Organización de la Tesis. CA D MA E TE CIE MA NC TI IAS CA S FIS IC. 1.5.. AS. Cantidad: ocho base de datos.. BI. BL. IO TE. Los siguientes capitulos están organizado de la siguiente manera: el Capı́tulo 2 describe la estructura y obtención de un microarray. El Capı́tulo 3 describe el procesamiento de microarrays. En el Capı́tulo 4 detalla conceptos de aprendizaje de máquinas y aprendizaje de múltiples kernels. El Capı́tulo 5 desarrolla la propuesta de este trabajo.En el Capı́tulo 6 los materiales y métodos empleados para nuestros experimentos. En el Capı́tulo siguiente presenta los resultados y discusión de ellos. Finalmente el Capı́tulo 8 son presentadas las conclusiones y trabajos a futuro.. 2. http://www.ncbi.nlm.nih.gov/. 5 Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(18) Y. Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. CA D MA E TE CIE MA NC TI IAS CA S FIS IC. AS. CAP ÍTULO 2. Microarrays. El presente capı́tulo describe los conceptos biológicos como el dogma de la biologı́a celular que es el fundamento para la creación de los microarrays. También se describe su estructura y el proceso de preparación.. 2.1.. Conceptos biológicos. BI. BL. IO TE. Una célula es la unidad morfológica y funcional de todo ser vivo. La Figura 2.1 muestra una célula animal indicando sus partes: 1) Nucléolo, 2) Núcleo, 3) Ribosoma, 4) Vesı́cula, 5) Retı́culo endoplasmático rugoso, 6)Aparato de Golgi, 7) Cito-esqueleto , 8) Retı́culo endoplasmático liso, 9) Mitocondrı́a, 10) Vacuola, 11) Citoplasma, 12) Lisosoma, 13) Centriolos.. Figura 2.1: Diagrama de una célula animal. Fuente: Cell nucleus-Wikipedia. 1. 6 Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(19) Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. CA D MA E TE CIE MA NC TI IAS CA S FIS IC. AS. Y. La Figura 2.2 representa al núcleo celular y está compuesta por una doble membrana y ribosomas de la envoltura nuclear. Entre uno de ellos se encuentra el núcleo celular que se encarga de controlar la expresión genética y mediar en la replicación del ADN durante el ciclo celular.. Figura 2.2: Núcleo celular eucariota. Fuente: Cell nucleus-Wikipedia. 2. IO TE. La molécula de ADN esta conformada por más de 3 billones de bases nitrogenadas acarreada dentro de 46 cromosomas en forma de hélice, ver Figura 2.3. Las cuatro bases nitrogenadas que se encuentran en el ADN son: adenina(A), citosina(C), guanina(G) y timina(T), siendo complementarias A-T y G-C . Cada conjunto de tres bases nitrogenadas caracteriza un aminoácido y un secuencia de él caracteriza a una proteı́na. Estas moléculas son responsables de controlar la estructura y función celular como: nutrición, relación y reproducción.. 2.1.1.. Dogma molecular. BI. BL. La transferencia de caracterı́sticas genéticas pasadas de generación en generación esta dada por los genes(son partes funcionales del ADN y son responsables de la creación de una nueva proteı́na) y se origina después del desencadenamiento intracelular o extra-celular. Este proceso fue descrito por Watson y Crick e intenta relacionar ADN, ARN y las proteı́nas. Es denominado: El dogma central de la biologı́a molecular. Ver Figura 2.4. 1. http://en.wikipedia.org/wiki/Cell_nucleus http://en.wikipedia.org/wiki/DNA 3 http://en.wikipedia.org/wiki/DNA 2. 7 Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(20) CA D MA E TE CIE MA NC TI IAS CA S FIS IC. AS. Y. Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. Figura 2.3: Secuencia de base nitrogenada en el ADN. 3. BI. BL. IO TE. Fuente: DNA-Wikipedia. Figura 2.4: Dogma central de la biologı́a molecular. Fuente: Central dogma of molecular biology-Wikipedia. 4. 8 Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(21) Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. Y. Tres procesos del dogma central de la biologı́a molecular son : replicación, transcripción y traducción. Cada proceso se discute a continuación [50]:. CA D MA E TE CIE MA NC TI IAS CA S FIS IC. AS. Replicación: Mecanismo que permite al ADN duplicarse obtiendose dos o más clones del original. El proceso consiste en la separación o ruptura de los puentes de hidrógeno de dos hebras de ADN complementarias entre si. Al separarse sirven como base para la creación de una cadena genética, la ADN polimerasa sintetiza estas cadenas separadas añadiendo nucleótidos dispersos en el núcleo. Ası́ la nueva molécula es idéntica a la molécula de ADN inicial. Transcripción: Proceso de creación de ANR complementario de una secuencia de ADN mediante una enzima llamada ANR polimerasa que sintetiza mARN(mensajes de ARN). Ver Figura 2.5.. Figura 2.5: Transcripción llevada a cabo por ANR polimerasa, usa ADN(negro) como una plantilla y produce ANR(azul). Fuente: Transcription genetics-Wikipedia 5 .. Traducción: Proceso que sintetiza una secuencia de mARN en una cadena de aminoácidos para formar una proteı́na.. BL. IO TE. La expresión genética de un gen en particular es medida a partir de la cantidad aproximada de copias de mANR de un gen presente en la célula. Un gen es altamente expresado cuando hay abundancia de mARm en la célula, esto sucede en la transcripción del ADN. Por lo tanto es posible relacionar una expresión genética con la cantidad de mANR y con la cantidad proteı́ca producida [36] .. BI. Organismos de una misma especie contienen las mismas moléculas de ADN y es posible detectar alteraciones genéticas, de esta manera se puede investigar en diferentes órganos del cuerpo humano por ejemplo el cáncer mamario. 4 5. http://en.wikipedia.org/wiki/Central_dogma_of_molecular_biology http://en.wikipedia.org/wiki/Transcription_(genetics). 9 Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(22) AS. Y. Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. CA D MA E TE CIE MA NC TI IAS CA S FIS IC. Figura 2.6: Hibridación de dos moléculas de ADN. Lineas punteadas son enlaces de hidrógeno. Fuente: A Guide of analysis of DNA microarray pag.2 [27].. 2.1.2.. Microarray. Un microarray es un chip que posee una matriz de probes6 en una sólida estructura de luna o silicona. Existen diferentes tipos de microarrays entre los principales tenemos: Microarrays de ADN; microarrays de ADNc, oligonucleótidos y PNS(polimorfismo de nucleótido simple). Microarrays de proteı́nas. Microarrays peptidos.. Microarrays de tejidos.. Nuestro trabajo se enfoca en el estudio de microarrays de ADN de olignucleotidos de la tecnologı́a Affymetrix7 .. Hibridación. IO TE. 2.1.3.. BI. BL. Es el proceso fundamental en la obtención de microarrays de ADN en el que dos hebras de ADN o ARN se complementan [27]. Ver Figura 2.6. Existen distintas técnicas de hibridación las principales son: Southern blotting y Northern blotting.. 6 7. probe: elemento de un microarray, que representa una expresión genética http://www.affymetrix.com. 10 Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(23) Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. Southern blotting. CA D MA E TE CIE MA NC TI IAS CA S FIS IC. AS. Y. Técnica donde una pequeña cadena de un oligonucleótido es empleada para hibridar fragmentos complementarios de ADN, teniendo una separación acorde al tamaño del gel electroforesis. Si el oligonucleótido es etiquetado radioactivamente, en la hibridación se visualiza en un film fotográfico sensible a la radiación [27, 47]. Ver Figura 2.7.. Figura 2.7: Proceso de Southern blotting. Fuente: Molecular methods-UCSF School of medicine 8. Northern blotting. IO TE. En esta técnica un radio-oligonucleótido es usado para hibridar los mensajes de ANR correrán a través del gel. Si el oligonucleótido especifica un solo mensaje de ARN entonces enlazará las bandas del mensaje con el gel. La cantidad de radiación capturada en un film fotográfico depende de algunas extensiones en la cantidad de pruebas de radio-etiquetas presentes en la banda, en la cual depende nuevamente de la cantidad de mensajes [27]. Ver Figura 2.8.. Microarray Affymetrix. BL. 2.1.4.. BI. Affymetrix desarrolló un tipo de chip (Figura 2.9) denominado microarray de oligonucleotidos, usa mascaras para la sı́ntesis de control de ellos en la superficie del chip. Un microarray Affymetrix contiene miles de caracterı́sticas o elementos cada una de estas es denominado probe, que contiene una cadena de oligonucleótido de longitud 25 Figura 2.11 en la parte izquierda representa 8 9. http://missinglink.ucsf.edu/lm/molecularmethods/blotting.htm http://en.wikipedia.org/wiki/Northern_blot. 11 Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(24) CA D MA E TE CIE MA NC TI IAS CA S FIS IC. AS. Y. Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. Figura 2.8: Proceso de Northern blotting. Fuente: Northern Blot-Wikipedia 9 .. Figura 2.9: Microarray chip Affymetrix. Fuente: Microarray curricula -Affymetrix [1].. BI. BL. IO TE. un gen con una longitud máxima de 1000 base pair(par de bases). La parte derecha representa un probe con una longitud de 25 bp y a la vez es parte de un gen, y además se observa el detalle de un probe dentro del microarray sin hibridizar. Ver Figura 2.10.. Cada probe también representa dos hebras complementarias, la hebra sin hibridizar es denominada perfect match y la hebra hibridizada es denominado miss-match como podemos observar en la Figura 2.12. Estas son usadas para la normalización del microarray. 12. Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(25) CA D MA E TE CIE MA NC TI IAS CA S FIS IC. AS. Y. Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. Figura 2.10: Detalle de un probe de microarray.. BI. BL. IO TE. Fuente: Microarray curricula -Affymetrix [1].. Figura 2.11: Representación de un probe. Fuente: Microarray curricula -Affymetrix [1].. 13 Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(26) Y. Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. CA D MA E TE CIE MA NC TI IAS CA S FIS IC. Fuente: MAS5.0 algorithm [32].. AS. Figura 2.12: Representación de pares de probe como perfect match-PM y missmatch-MM.. Obtención de un microarray. Para obtener un microarray, se debe realizar los siguientes pasos: 1. Extraer ADN y fragmentar.. 2. Etiquetar los fragmentos obtenidos y combinarlo en la matriz. 3. Hibridar la matriz.. 4. Lavar por 14 o 16 horas en agua.. 5. Escanear la matriz por medio de un láser para obtener la imagen del microarray.. BI. BL. IO TE. Los pasos anteriormente descritos son representados en la Figura 2.13. Computacionalmente cada probe presenta una intensidad, cuya medida se obtiene de acuerdo a número de fotones emitidos por el scanner láser y que inciden en el probe. La medida es asignada a cada probe en la imagen de un microarray. Ver Figura 2.14.. 14 Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(27) CA D MA E TE CIE MA NC TI IAS CA S FIS IC. AS. Y. Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. Figura 2.13: Etapas de proceso de obtención de un microarray affymetrix.. BI. BL. IO TE. Fuente: Microarrays The search for meaning In a Vast Sea of Data [11].. Figura 2.14: Grilla de luces. Imagén de la expresión de un microarray. Fuente: Microarrays The search for meaning In a Vast Sea of Data [11].. 15 Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(28) Y. Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. CA D MA E TE CIE MA NC TI IAS CA S FIS IC. AS. CAP ÍTULO 3. Normalización. Se discute la técnica de procesamiento de microarrays cuyo método Robust Multi-array Average-RMA presenta una mejor desempeño respecto a otros métodos, ella esta dividida en tres procesos: corrección de fondo, normalización y summarization. Estos se describen a continuación.. 3.1.. Corrección de fondo. BL. IO TE. La correción de fondo de un microarray hace uso de los pares de probes (PM y MM) y es el primer proceso para su procesamiento. RMA [24] propone hacer un ajuste de ruido con las celdas PM e ignora las celdas MM debido a los resultados obtenidos en [23], demuestra empiricamente que la sustracción de MM no se traduce en una sustracción biológica. Planteo la siguiente ecuación:. P Mij = Bij + Sij. (3.1). BI. donde i es la fila de la matriz que representa la muestra de un microarray; j representa al probe; Bij representa el fondo(background) causado por el ruido óptico no especificado y Sij es la señal del probe. Sij ∼ exp(λij ) Bij ∼ N + (µi , δi2 ). (3.2). 16 Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(29) Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. CA D MA E TE CIE MA NC TI IAS CA S FIS IC. AS. Y. En (3.2), Bij se aproxima a su distribución normal y Sij la función de densidad de una distribución exponencial. Los autores de RMA asumieron que cada microarray presenta un nivel de background medio en común E(Sij ) = βi . Una manera sencilla de retirar el efecto de background es considerar P Mij − β̂i , con distribución log2 (β̂i ) y cuando P Mij ≥ β̂i se torna un problema al aplicarle la distribución log a P Mij − β̂i . El método presenta una alternativa de correción de background B(P Mij ) ≡ E(Sij |P Mij ), considerando una distribución estrictamente positiva Sij , entonces B(P Mij ) > 0. P M − µ − λδ 2 µ + λδ 2 ) − φ( ) 2 δ δ E(S|P M ) = P M − µ − λδ + δ. µ + λδ 2 P M − µ − λδ 2 ) + φ( )−1 φ( δ δ φ(. (3.3). La ecuación (3.3) representa el ajuste de background de RMA, donde φ es una función kernel que tiene por objetivo estimar el modo de distribución de PM y con él se estima µ. v X u u (P M − µ̂)2 u t P M <µ δ̂ = (3.4) #{P M < µ̂} − 1 Con la ecuación (3.4) calculamos δ. Si se calcula la densidad de los valores de P M − µ̂ obtenemos 1/δ, selecciona la δ media para la ecuación (3.3).. 3.2.. Normalización. IO TE. En [8] se realizó un estudio de métodos de normalización de microarrays con los métodos: Loess ciclico, Contrast based method y normalización por cuantiles1 aplicados al método RMA. La normalización por cuantiles proporciona un mejor desempeño respecto a los métodos anteriormente mencionados.. BL. 3.2.1.. Normalización por cuantiles. BI. El éxito de este método consiste en crear la distribución de intensidades de probe en un conjunto de microarrays. El método esta basado en la idea de gráfico Q-Q [10], donde se muestra la distribución de dos vectores a la vez, sı́ presenta el gráfico una lı́nea diagonal se deduce que presenta la misma dis1. Puntos tomados de un intervalo regular desde una función de distribución acumulativa de una variable aleatoria.. 17 Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(30) Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. Algoritmo. CA D MA E TE CIE MA NC TI IAS CA S FIS IC. AS. Y. tribución. Es sugerido que dos conjuntos de datos se dispersan y tengan igual distribución por el uso de transformación de cuantiles de cada uno para tener el mismo valor. Esto nos sugiere una proyección de los datos hacia la diagonal. Este método se extendido a n dimensiones. A continuación se describe el algoritmo creado en [5]:. Algorithm 3.1: Algoritmo de normalización de cuantiles. 1. Dado n datos de un conjunto de tamaño p, la forma X de dimensión pxn donde cada microarray es una columna. 2. Iniciar d = ( √1N , . . . , √1N ).. 3. Xord ← ordenar por columnas a X. 0. 4. Xord ← proyectar por fila de Xord sobre d. 0. 5. Xnorm ← re-ordenar cada columna de Xord al mismo orden como el original de X.. Notas. 1. Si qi = (qi1 , . . . , qiN ) es una fila en Xord entonces la fila correspondiente a 0 0 Xord es dado por qi = proyd qi .. n. proydqi. n. n. qi .d 1 X 1X 1X d= √ qij , . . . , qij ) = qij d = ( d.d n j=1 n j=1 n j=1. (3.5). BL. IO TE. 2. La proyección es equivalente al promedio de los cuantiles de una fila en particular y sustituimos este valor para cada elemento individual en una fila, la describimos en la siguiente ecuación.. BI. La Figura 3.1 representa un gráfico M A [53] de un par de microarrays antes de sus normalización y la Figura 3.2 muestra el después de aplicar el método de normalización de cuantil.. 18 Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(31) CA D MA E TE CIE MA NC TI IAS CA S FIS IC. AS. Y. Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. Figura 3.1: Antes de aplicar normalización de cuantiles a un par de PM.. BI. BL. IO TE. Fuente: Probe Level Quantile Normalization of High Density Oligonucleotide Array Data [7]. Figura 3.2: Después de aplicar normalización quantile a un par de PM. Fuente: Probe Level Quantile Normalization of High Density Oligonucleotide Array Data [7].. 19 Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(32) Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. 3.3.. Summaryzation. CA D MA E TE CIE MA NC TI IAS CA S FIS IC. AS. Y. Consiste en obtener una medida de intensidad para cada pares de probes. La primera versión de este tipo de métodos usó la diferencia P M − M M , ası́ el método MAS 5.0 [22] emplea la diferencia anterior en un promedio robusto anti-logarı́tmico denominado Tukey’s Biweight[42], los valores log(P M − CT ), donde CT es definida como M M si P M > M M , otros casos es regulada P M . Se plantea el siguiente modelo. Yij = µi + αj + ξij. donde :. n X. (3.6). αi = 0. i=1. En el Modelo (3.6) representa la Mediana Polaca [49], donde µi es el nivel de expresión a escala log para el conjunto de probes en el microarray i y puede ser re-escrita como µi = µ + δi , δi afecta a la fila; αj representa los efectos de afinidad en el j − esimo columna de probe y ξij es el residual para el i − esimo probe en el microarray j. La mediana polaca se describe en el Algoritmo 3.2 a continuación presentado: Algorithm 3.2: Algoritmo de mediana polaca. 1. Tomar la mediana de cada fila y guardar el valor al costado de la fila. Sustraer la fila mediana de cada punto en una fila en particular.. IO TE. 2. Computar la mediana de las filas medianas, guardar el efecto. Restar este efecto para cada una de las filas medianas. 3. Tomar la mediana de cada columna y guardar el valor bajo la columna. Restar la columna mediana para cada punto en la columna en particular.. BI. BL. 4. Computar la mediana de las columnas medianas, y agregar el valor del efecto. Sustraer esta suma con el efecto para cada columna mediana. 5. Repetir los pasos 1-4 hasta que no ocurran cambios con las medianas de filas y columnas.. donde la mediana: representa el valor de la variable de posición central en un conjunto de datos ordenados. 20 Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(33) CA D MA E TE CIE MA NC TI IAS CA S FIS IC. AS. Y. Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. Cuadro 3.1: Ejemplo del Algoritmo de Mediana Polaca 3.2 detallado paso a paso (a) Microarrays de 5 probes por muestra. a r r a y. 4 8 6 9 7. 3 1 2 4 5. (b) Paso 1. 4 8 6 9 7. Probe 6 4 7 10 5 11 7 8 8 12 9 12 9 6 10. (c) Pasos 2 y 3. 0 0 -1 0 0 0. -1 -7 -5 -5 -2 -5. 2 0 2 -3 0 1 3 0 2 -1 2 0. IO TE. 4 5 8 9 6. 7 11 8 12 10. 4 8 7 9 7. 3 3 1 3 3 3. 0 4 0 -2 -1 0 0 0 0 3. 0 0 0 -3 -2 1 1 0 0 -1. 0 0 -2 0 0. (f) Ajuste de la matriz original. 0 0 -1 0 0. 4 8 6 9 7. 0 4 2 5 3. 6 10 8 11 9. 4 8 6 9 7. 7 11 9 12 10. BI. BL. 3 0 0 -3 0 -3 0 -1 2 -1 1 0 2 0 -1. 6 10 7 12 9. (d) Paso 4. (e) Después de un iteración. 0 0 0 0 0. 3 1 2 4 5. 21 Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(34) Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. Y. Entonces aplicaremos los pasos del algoritmo 3.2 al Cuadro 3.1a son las muestras de microarrays empleadas con valores aleatorios de probes.. AS. Aplicamos el paso 1 al Cuadro 3.1a obteniendo el Cuadro 3.1b donde él ultimo elemento de cada fila es su mediana.. CA D MA E TE CIE MA NC TI IAS CA S FIS IC. Restamos la mediana de cada fila del Cuadro 3.1b de acuerdo al paso 2. Después encontramos la mediana de cada columna y guardamos el valor de acuerdo al paso 3 ası́ obtenemos el Cuadro 3.1c. Sustraemos el valor de la mediana de cada columna del Cuadro 3.1c de acuerdo al paso 4 obteniendo el Cuadro 3.1d.. BI. BL. IO TE. Después de una iteración obtenemos el Cuadro 3.1e como resultado del algoritmo, a este resultado se resta con los datos originales del Cuadro 3.1a y ası́ es ajustado en el Cuadro 3.1f.. 22 Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(35) Y. Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. CA D MA E TE CIE MA NC TI IAS CA S FIS IC. AS. CAP ÍTULO 4. Aprendizaje de Máquinas. Se describe el concepto de aprendizaje de máquinas, los tipos de algoritmos y se descute el algoritmo de SVM para el problema de clasificación binaria. También describe los conceptos básicos de un aprendizaje de múltiples kernels (multiple kernel learning-MKL) y variantes de métodos de MKL tales como MKL no lineal y dependiente de los datos.. 4.1.. Definición. Aprendizaje de Máquinas ( Machine Learning-ML ) es definido según:. IO TE. Arthur Samuel en 1959 [44]. Aprendizaje de Máquinas es el campo de estudio que da a las computadoras la habilidad para aprender estando sin una programación explicita.. BI. BL. Tom Mitchell en 1998 [34]. plantea Well-posed Learning Problem: Un programa de computadora A se dice que aprende de la experiencia E con respecto a alguna tarea T y medida de desempeño P, si el desempeño en T, como una medida de P, mejora con la experiencia de E. Por ejemplo: El problema de aprendizaje de un juego de damas: • Tarea T: Jugar damas. • Medida de desempeño P: Porcentaje de juego ganado con respecto al oponente.. 23 Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(36) Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. Y. • Entrenamiento a la experiencia E: Jugando juegos de práctica contra el mismo.. Tipos de algoritmos de Aprendizaje de Máquinas. AS. 4.2.. CA D MA E TE CIE MA NC TI IAS CA S FIS IC. Estos algoritmos de aprendizaje de máquinas inducen a partir de funciones o hipótesis y pueden organizarse dentro de una taxonomı́a de aprendizaje inductivo según [54] y son: Aprendizaje supervisado(Supervised learning): El algoritmo genera una función que mapea las entradas con las salidas deseadas. Una tarea común de este tipo de aprendizaje es problema de clasificación, donde el algoritmo requiere entrenar una función y con las nuevas entradas, mapeandola con su respectiva clase. Aprendizaje no supervisado (Unsupervised learning ): En este modelo las entradas están sin etiquetar, el algoritmo al finalizar asignará etiquetas a cada entrada y estas formarán clusters. Nuestro trabajo emplea algoritmos de aprendizaje supervisado debido a que son ampliamente estudiados y presentan un mejor desempeño. Esta dividido en modelos de regresión y clasificación siendo desarrollado en las siguientes subsecciones.. 4.3.. Aprendizaje supervisado. BI. BL. IO TE. Supongamos que tenemos un conjunto de datos de probes con su respectiva intensidad aleatoria de fondo como se muestra en el Cuadro 4.1, el cual podemos representarlo en la Figura 4.1. Cuadro 4.1: Probe y su intensidad de fondo. Probe 20 500 750 . .. Intensidad de fondo 2250 1900 1600 . .. Fuente: Autor de esta tesis.. 24 Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(37) CA D MA E TE CIE MA NC TI IAS CA S FIS IC. AS. Y. Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. Figura 4.1: Figura del Cuadro 4.1. Fuente: Autor de esta tesis. Dado nuevos datos entonces nos preguntamos: ¿Cómo podrı́amos predecir nuevas intensidades de fondos de probes, con una función de número de probes?. Matematicamente es definido como los siguientes conjuntos:. X = {x(i) Rn , n ≥ 1, i = 1, . . . , p} Y = {y (i) Rn , n ≥ 1, i ∈ N }. L = {(x(i) , y (i) ); m < p, i = 1, . . . , m}. (4.1). BI. BL. IO TE. donde X es llamado conjunto de entrada ó conjunto de caracterı́sticas de entrada, Y el conjunto de salida u objetivo y L una lista de m pares que son denominados conjunto de entrenamiento según [37]. Para describir formalmente nuestro éxito, es dado un conjunto de entrenamiento el cual necesita una función hipótesis h : X 7−→ Y entonces h(x) es un buen predictor si su valor corresponde a y. Cuando nuestro objetivo predecido es contı́nuo, podremos denominarlo como un problema de regresión y su el valor es un número discreto o una etiqueta, este es titulado como un problema de clasificación. La Figura 4.2 describe el proceso de aprendizaje supervisado.. 4.3.1.. Modelo de Regresión. En el modelo de regresión define la hipótesis h como: hθ (x) = θ0 + θ1 x1 + θ2 x2 + · · · + θn xn. (4.2). 25 Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(38) CA D MA E TE CIE MA NC TI IAS CA S FIS IC. AS. Y. Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. Figura 4.2: Diagrama de un modelo de aprendizaje supervisado. Fuente: Lecture 01 of Machine Learning-Stanford University [37].. La ecuación (4.2), θi son los parámetros también denominados pesos, los cuales mapean la función de X en Y y podemos reescribirla como: h(x) =. n X. θi xi = θT x. (4.3). i=0. donde x0 = 1, θ y x ambas son vectores, y n es el número de variables. Los parámetros θ son entrenados por un método h(x) tratando de acercar a y, este método es denominado función de costo y se definido por: m. J(θ) =. 1X (hθ (xi ) − y i )2 2 i=1. (4.4). IO TE. El costo de la función (4.4) de la regresión lineal anterior, representa a un modelo de regresión lineal de mı́nimos cuadrados.. 4.3.2.. Modelo de Clasificación. BI. BL. Este modelo predice un valor discreto o una etiqueta. Nos enfocamos en el problema de clasificación binaria, donde y puede tomar valores 0 ó 1; 0 es llamado clase negativa y 1 la clase positiva, y son denotadas por los sı́mbolos ” + ” y ” − ”. Intuitivamente el resultado de la hipótesis es mayor que 1 y pertenece a la clase positiva y si es menor que 0 a la clase negativa. Pero el modelo de hipótesis cambia a la Función (4.5) esta una función logı́stica o. 26 Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(39) Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. función sigmoid para lograr una mejor clasificación. Ver Figura 4.3.. donde. 1 1 + −z. Y. (4.5). (4.6). CA D MA E TE CIE MA NC TI IAS CA S FIS IC. g(z) =. 1 1 + −θT x. AS. h(x) = g(θT x) =. Figura 4.3: Gráfico de una función sigmoid. Fuente: Autor de esta tesis.. Cuadro 4.2: Algoritmos supervisados Algoritmos Supervisados Redes Neuronales Modelos de Markov Arboles de decisión Bosques aleatorios. IO TE. Fuente: Autor de esta tesis.. BI. BL. En el Cuadro 4.2 se nombran los algoritmos más importantes de aprendizaje supervisado según [25]. Un ejemplo de clasificación binaria aplicado al problema de clasificación de tumor mamario a partir del conjunto de datos de entrenamiento, cada elemento esta compuestá por dos caracterı́sticas del Cuadro 4.3 (Mitoses y Clump Thickness y el diagnóstico del tumor clasificación se realizo con algoritmos de aprendizaje como (SVM, redes neuronales,etc) y para las nuevas muestras , el algoritmo lo clasificará en benigno o maligno (Figura 4.4). En la siguiente sección describimos el algoritmo supervisado de máquinas de soporte vectorial para el problema de clasificación binaria.. 27 Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(40) Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. 1002945. 1015425. .. .. 5 1 1. 5 4 4. 3 1 1. . . .. . . .. 1 2. 5 7. 1 2. . .. . .. 1 3 1 1 2. 10 3 2 1 2. 2 3 1 1 2. . . . . .. . . . . .. AS. 1000025. CA D MA E TE CIE MA NC TI IAS CA S FIS IC. Sample code numbe(id number) Clump Thickness (1 - 10) Uniformity of Cell Size (1 - 10) Uniformity of Cell Shape (1 10) Marginal Adhesion (1 - 10) Single Epithelial Cell Size (1 10) Bare Nuclei (1 - 10) Bland Chromatin (1 - 10) Normal Nucleoli (1 - 10) Mitoses (1 - 10) Class: (2 for benign, 4 for malignant). Y. Cuadro 4.3: Algunas muestras de cáncer mamario.. BI. BL. IO TE. Fuente: Breast Cancer Wisconsin-Universidad de Wisconsin [16].. Figura 4.4: Clasificación de tumor de mama [16] con algoritmos de aprendizaje supervisado. Fuente: Autor de esta tesis.. 28 Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(41) Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. 4.4.. Máquinas de Soporte de Vectorial. CA D MA E TE CIE MA NC TI IAS CA S FIS IC. AS. Y. También se denomina Máquinas de Soporte de Vectores (Support Vector Machines-SVM) [13] desarrollada en 1960 por Vladimir Vapnik e introducida por Corinna Cortes en 1995, el problema de clasificación binaria lo resuelve cuando logra encontrar el hiperplano que optimiza la máxima distancia del margen. En la Figura 4.5 describe el problema planteado en SVM.. Figura 4.5: Separación óptima del hiperplano en un espacio de dosdimensiones. Fuente: Support Vector Machines for Pattern Recognition [13].. 4.4.1.. Separación del Hiperplano Optimo. IO TE. Dada M un base de entrenamiento n-dimensional con entradas xi (i = 1, ...., N ) bajo las clases 1 o 2 asociadas a las etiquetas yi = 1 para la clase 1 y -1 para la clase 2. Asumamos que los datos son linealmente separables entonces podemos determinar la función de decisión: D(x) = wT x + b. (4.7). w T xi + b.  > 0. Para: yi = 1. < 0. Para: yi = −1. (4.8). BI. BL. donde w es un vector n−dimensional, b el termino bias1 y para i = 1, ..., N. Debido a que los datos de entrenamiento no satisface wT x + b = 0. Ası́, para el control de separabilidad, en vez de (4.8) , consideramos la siguiente inecua1. bias: También denominado sesgo y es ladiferencia entre su esperanza matemática y el valor numérico del parámetro que estima.. 29 Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(42) Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. w T xi + b.  ≥ 1. Para: yi = 1. (4.9). ≤ −1 Para: y = −1 i. Y. ción:. CA D MA E TE CIE MA NC TI IAS CA S FIS IC. yi (wT xi + b) ≥ 1 para i = 1, ...., N. AS. De las inecuaciones de (4.9) obtenemos equivalentemente. (4.10). El hiperplano. D(x) = wT x + b = c para − 1 < c < 1. (4.11). separa a xi (i = 1, ..., N ). Cuando c = 0, el hiperplano esta al medio de dos hiperplanos con c = 1 y c = −1 (Figura 4.5). La distancia entre la separación de los hiperplanos es llamada margen. La región {x| − 1 ≤ D(x) ≤ 1} es la región generalizada por la función decisión y se maximiza la distancia del margen cuando D(x) = 0. La distancia de cualquier muestra x hacia el hiperplano es dado por |D(x)|/kwk , el vector w es ortogonal a los planos que lo separan. La ecuación que contiene a x es ortogonal al hiperplano y esta dada por a. w +x kwk. (4.12). donde |a| es la distancia euclideana2 desde x hacia el hiperplano. La intercepción de la linea (4.12) al punto es D(aw/kwk + x) = 0. (4.13). IO TE. Resolviendo (4.13) obtenemos a = −D(x)/kwk. Entonces para los datos de entrenamiento debe satisfacer yk D(xk ) ≥ δ para k = 1, ...., N kwk. (4.14). BI. BL. donde δ es el margen. Si (w, b) es una solución (aw, ab) es también una solución, donde a es un escalar. Ası́ incluimos la siguiente restricción δkwk = 1. s 2. d(P, Q) =. n P. (4.15). (pi − q2 )2 . P = (p1 , . . . , pn ) y Q = (q1 , . . . , qn ). i=1. 30 Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(43) Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. CA D MA E TE CIE MA NC TI IAS CA S FIS IC. 1 Minimizar Q(w, b) = kwk2 2. AS. Y. De (4.14) y (4.15) buscamos el optimo hiperplano de separación. Necesitamos encontrar un w con la mı́nima norma Euclideana que satisfaga a (4.10). Por lo tanto el optimo hiperplano de separación puede ser obtenido resolviendo el siguiente problema de programación cuadrática.. sujeto a yi (wT xi + b) ≥ 1 para i = 1, ...., N. (4.16) (4.17). Las variables para el problema de optimización convexa para (4.16) y (4.17) son w y b. La solución de este problema es dado para n+1 variables de entrada, para casos de altas dimensiones es preferente convertir a (4.16) y (4.17) en un problema de dualidad equivalente sin restricción: N. X 1 αi {yi (wT xi + b) − 1} Q(w, b, α) = wT w − 2 i=1. (4.18). donde α = (α1 , ...., αN )T y αi son multiplicadores no negativos de Lagrange. La solución optima de (4.18) es dada por el punto de silla, donde (4.18) es minimizado con respecto a w, maximiza y minimiza respecto a b acorde al signo N X de αi yi , y la solución satisface las siguientes condiciones de Karush-Kuhn i=1. IO TE. Tucken(KKT).. ∂Q(w, b, α) =0 ∂w. (4.19). ∂Q(w, b, α) =0 ∂b. (4.20). αi {yi (wT xi + b) − 1} = 0 para i = 1, ..., N. (4.21). αi ≥ 0 para i = 1, ...., N. (4.22). BI. BL. Especialmente las relaciones entre las restricciones de inequivalencias y las asociaciones de los multiplicadores de Lagrange dada (4.21) son llamadas condiciones complementarias KKT o condiciones KKT. Para (4.21) αi = 0 o αi 6= 0 y yi (wT xi + b) = 1 debe satisfacer los datos xi con αi 6= 0 son llamados vectores de soporte, usando (4.18), reduciendo (4.20) y (4.19) respectivamente a w=. N X. α i y i xi. (4.23). i=1. 31 Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(44) Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. y (4.24). αi y i = 0. Y. N X i=1. N X. AS. Sustituyendo (4.23) y (4.24) en (4.18) obtenemos el problema dual como: N 1X αi αj yi yj xTi xj 2 i,j=1. (4.25). yi αi = 0, αi ≥ 0 para i = 1, ..., M. (4.26). αi −. CA D MA E TE CIE MA NC TI IAS CA S FIS IC. Maximizar Q(α) =. i=1. sujeto a. N X i=1. La formulación de SVM (4.25) es llamada hard-margin SVM. Porque N N N X 1X 1 X T T αi αj yi yj xi xj = ( αi yi xi ) ( αi y i x i ) ≥ 0 2 i,j=1 2 i=1 i=1. (4.27). maximiza a (4.25) bajo la restricción (4.26) es un problema de programación cuadrática. Los datos son asociados con valores positivos de αi que son vectores de soporte para las Clases 1 o 2 . Entonces apartir de (4.23) la función de decisión será dada por X αi yi xTi x + b (4.28) D(x) = i∈S. IO TE. donde S es el conjunto de indices de vectores de soporte, y con las condiciones KKT dada por (4.22), b es dado por b = yi − wT xi para i ∈ S. (4.29). BL. Es mejor tomar los vectores de soporte como : b=. 1 X (yi − wT xi ) |S| i∈S. (4.30). BI. Entonces para muestras de datos desconocidas x es clasificada en  Clase 1 Clase 2. Si D(x) > 0. (4.31). Si D(x) < 0. 32 Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(45) Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. AS. Y. Si D(x) = 0, x son datos en el limite e inclasificables.Cuando los datos de entrenamiento son separables entonces la región x|1 > D(x) > −1 es la generalización de región. Cuando los datos linealmente inseparables, no presentan una solución factible para (4.7,4.10) entonces introducimos variables de holgura ξi en 4.10 entonces:. CA D MA E TE CIE MA NC TI IAS CA S FIS IC. yi (wT xi + b) ≥ 1 − ξi para i = 1, ...., N. (4.32). Figura 4.6: Caso inseparable de un espacio de dos-dimensiones. Fuente: Support Vector Machines for Pattern Recognition [13].. IO TE. Para las variables de holgura ξi , siempre existe una solución factible. Para datos de entrenamiento xi . Si 0 < ξi < 1 (ξi en la Figura 4.6) los datos no tienen el máximo margen pero aún son clasificadas correctamente. Pero si ξi ≥ 1 ξj en Figura 4.6 los datos no son clasificados por el optimo hiperplano. Para obtener el hiperplano optimo con los datos de entrenamiento que no tienen el margen máximo que es mı́nimo, necesitamos minimizar Q(w) =. θ(ξi ). (4.33). i=1. donde. θ(ξi ) =.  1. para ξi > 0. 0. para ξi = 0. (4.34). BI. BL. N X. 33 Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(46) Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. AS. N 1 CX p 2 Minimizar Q(w, b, ξ) = kwk + ξ 2 p i=1 i. Y. Consideramos el siguiente problema de minimización:. Sujeto a yi (wT xi + b) ≥ 1 − ξi , ξi ≥ para i = 1, ...., N. (4.35) (4.36). CA D MA E TE CIE MA NC TI IAS CA S FIS IC. donde ξ = (ξ1 , ....., ξN )T y C es el parámetro de margen que determina el intercambio entre el margen de maximización y minimización del error de clasificación cuando p = 1 la maquina de soporte vectorial la llamamos L1 Soft-margin support vector machine (L1 SVM) y cuando p = 2, L2 Soft-margin SVM(L2 SVM). En nuestro trabajo abarcaremos L1 soft-margin support vector machine. Supongamos que el caso es linealmente separable al introducir los multiplicadores de Lagrange αi y βi , obtenemos: N. N. N. X X X 1 ξi − αi (yi (wT xi + b) − 1 + ξi ) − βi ξi Q(w, b, ξ, α, β) = kwk2 + C 2 i=1 i=1 i=1. (4.37). IO TE. donde α = (α1 , ...., αN )T y β = (β1 , ..., βN )T . Para una solución optima, las condiciones KKT satisfacen : ∂Q(w, b, ξ, α, β) =0 ∂w. (4.38). ∂Q(w, b, ξ, α, β) =0 ∂b. (4.39). ∂Q(w, b, ξ, α, β) =0 ∂ξ. (4.40). αi (yi (wT xi + b) − 1 + ξi ) = 0 para i = 1, . . . , N. (4.41). βi ξi = 0 para i = 1, . . . , N. (4.42). α ≥ 0, βi ≥ 0, ξi ≥ 0 para i = 1, ...., N. (4.43). BI. BL. Usamos (4.37), reducimos (4.38), (4.39) y (4.40) respectivamente a w=. N X. αyi xi. (4.44). i=1 M X. αi y i = 0. (4.45). i=0. αi + βi = C para i = 1, ...., M. (4.46). 34 Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.

(47) Biblioteca Digital. Dirección de Sistemas de Informática y Comunicación - UNT. Maximizar Q(α) =. N X. Sujeto a. N X. AS. i=1. N 1X αi − αi αj yi yj xTi xj 2 i,j=1. Y. Ası́ (4.44), (4.45), (4.46) en (4.37) obteniendo el siguiente problema dual. yi αi = 0, c ≥ αi ≥ 0 para i = 1, ...., N. CA D MA E TE CIE MA NC TI IAS CA S FIS IC. i=1. (4.47). (4.48). para (4.46) presenta tres casos para αi. 1. αi = 0. Entonces ξi = 0. Ası́ ξi es correctamente clasificada. 2. 0 < αi < C. Entonces yi (wT +b)−1+ξi = 0 y ξi = 0. Por lo tanto yi (wT +b) = 1 y xi son vectores de soporte. Vectores de soporte con C > αi > 0 es un vector de soporte no limitado. 3. αi = C. Entonces yi (wT + b) − 1 + ξi = 0 y ξi ≥ 0 . Ası́ xi es un vector de soporte si 0 ≤ ξi < 1, xi es correctamente clasificada, y si ξi ≥ 1 ξi no es clasificada. La función de decisión es dada por. αi yi xT i x+b. D(x) =. X. (4.49). i∈S. donde S es el conjunto de indices de vectores de soporte. Debido a αi son valores diferentes para los vectores de soporte , la sumatoria (4.49) es agregada solo para los vectores de soporte. Del no limitado αi. IO TE. b = y i − w T xi. (4.50). BL. es satisfecho. Para vectores de soporte no limitados b es b=. 1 X (yi − wT xi ) |U| i∈V. (4.51). BI. donde U es el conjunto de indices de vectores de soporte no limitados. Para nuevos datos x se clasifica en   Clase 1 Si D(x) > 0 (4.52)  Clase 2 Si D(x) < 0. Para D(x) = 0, x esta en el limite y ası́ ya no es clasificado. 35 Esta obra ha sido publicada bajo la licencia Creative Commons Atribucion-No Comecial-Compartir igual bajo la misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licenses/by-nc-sa/2.5/pe/.