Análisis de la E Coli usando los métodos Scan y el PSO

CAPÍTULO 3. APLICACIONES

3.3 E STUDIO DEL GENOMA DE LA E SCHERICHIA C OLI

3.3.2 Análisis de la E Coli usando los métodos Scan y el PSO

Supongamos ahora que no se conoce un valor adecuado para los parámetros de de los métodos Scan y que se desea de la misma forma, determinar la existencia de conglomerados de sitios Dam dentro del genoma de la E. Coli.

Debe aclararse que esta es la secuencia más larga que se ha ejecutado con nuestro sistema Optimus.

Los resultados aparecen recogidos en la tabla 3.6:

Escherichia Coli IAI1, GenBank, NC_011741, 4.7Mb

10 partículas, 10 iteraciones, posición de las partículas 1-300 10 iteraciones y 5 mutaciones

PSO PSO+ Monte Carlo Método _{Fuz. Vent Paso} _#

‘GACT’

Sig Fuz. Vent Paso #

‘GACT’ Sig

- Classic Circular Scan 0 43 30 12 0.000 0 40 38 14 0.000

- Fuzzy Circular Scan 1 44 34 12 0.000 10 36 36 13.18 0.000

Consideraciones finales del capítulo

En este capítulo se ha mostrado, de manera breve, los resultados obtenidos con la combinación de métodos matemáticos propuestos en la tesis, al presentarle secuencias generadas con verdaderos y falsos conglomerados.

Al presentar secuencias de verdaderos conglomerados, se hallaron parámetros adecuados que, incorporados a los métodos Scan, detectan conglomerados.

Al presentar secuencias de falsos conglomerados, no se hallaron valores significativos ni siquiera en secuencia similares a la original. Tales secuencia se obtuvieron por el método de Monte Carlo, lo que se considera novedoso.

Se detectaron conglomerados de sitios Dam en el genoma completo de la E. Coli.

Conclusiones

En el presente trabajo se combinan varios métodos matemáticos para dar solución al problema de la detección eficiente de conglomerados en secuencias binarias:

1. Se utilizan los métodos Scan Clásico y Borroso, Lineal y Circular en dependencia de la aplicación, para detectar conglomerados en secuencias binarias.

2. Se utiliza un algoritmo bioinspirado de optimización: el PSO para determinar valores óptimos de los parámetros de los métodos Scan.

3. Se utiliza el método de simulación por Monte Carlo para generar secuencias similares a la original y sobre cada una de ellas ejecutar el PSO. De esta manera disminuye la probabilidad de error al aplicar el PSO.

Los métodos están implementados en el software Optimus, que es sencillo y ofrece un ambiente amigable.

Los métodos se validaron con secuencias simuladas de verdaderos y falsos conglomerados. En todos los casos se obtuvieron resultados correctos.

Para finalizar se detectaron conglomerados de sitios Dam en el genoma completo de la E. Coli, siendo esta una aplicación bioinformática real.

Recomendaciones

Estudiar y analizar la posibilidad del uso de los algoritmos bioinspirados en la determinación de los parámetros óptimos de otros métodos de detección de conglomerados.

Referencias Bibliográficas

Aldrich, T. and D. Wanzer (1993). "'Cluster', The agency for Toxic Substances and Disease Registry Division of Health Studies."

Bailey, N. T. J. (1975). "The mathematical theory of infectious diseases and it's applications." Charles Griffin & Company LTD, Second Edition.

Barrera, J. (2000). "Dynamics of a two - dimensional discrete – time SIS model." Revista de Matemática: Teoría y Aplicaciones, 7(1-2): 199-216.

Buckley, J. (2006). Fuzzy Probability and Statistics, Springer.

Buckley, J. and L. Jowers (2007). Monte Carlo Methods in Fuzzy Optimization. 978-3- 540-76289-8, Heidelberg.

Burra, T. (2002). "Conceptual and practical issues in the detection of local disease clusters: a study of mortality in Hamilton, Ontario." Canadian Geographer 46: 160-71.

Cardellá, L. and R. Hérnandez (1999). Bioqu{imica Médica. Tomo II. La Habana Ciencias Médicas

Chávez, M., G. Casas, et al. (2008). "Uso de redes bayesianas obtenidas mediante Optimización de Enjambre de Partículas para el diagnóstico de la Hipertensión Arterial. ." Revista Investigación Operacional 30(1). 52-59.

Chávez, M., P. Silveira, et al. (2007). Aprendizaje estructural de redes bayesianas utilizando PSO. . COMPUMAT, Holguín, Cuba 5., Holguín.

Erick, S. (1997). "On the distributions of Scan Statistics of a two dimensional Poisson Process." Adv. Appl. Prob. (SGSA) 29: 1-18.

Glaz, J. (1993). "Aproximations for the tail probabilities and moments of the Scan statistics." Statistics in medicine 12: 1845-1852.

Glaz, J. and N. Balakrishnan (1999). Scan Statistics and Applications. Boston, Hardcover. Hénaut, A., T. Rouxel, et al. (1996). "Uneven Distribution of GATC Motifs in the

Escherichia coli Chromosome, its Plasmids and its Phages." Molecular Biology

257: 574–585.

Jacquez, G., L. Waller, et al. (1996). "The analysis of Disease Clusters, Part I: Stat of the Art." Infection Control and Hospital Epid. 17 (5): 319-27.

Karlin, S. and V. Brendel (1992). "Chance and Statistical Significance in Protein and DNA Sequence Analysis." Science 39-49. 257, No. 5066. : 39-49.

Kennedy, J. (1997). The particle swarm: social adaptation of knowledge. IEEE International Conference on Evolutionary Computation.

Kennedy, J. and R. Eberhart (1995). A new optimizer using particle swarm theory. Sixth International Symposium on Micro Machine and Human Science, Nagoya:. Kennedy, J. and R. Eberhart (1995). Particle swarm optimization. IEEE International

Conference on Neural Networks,, Perth: .

Kennedy, J., W. Spears, et al. (1998). Matching algorithms to problems: an experimental test of the particle swarm and some genetic algorithms on the multimodal problem generator. IEEE International Conference on Evolutionary Computation, 39- 43. Kulldorff, M. (1997). "A spatial scan statistic. Communications in Statistics." Theory and

Methods 26: 1481–1496.

Kulldorff, M. (1998). "Evaluating cluster alarms: A space-time scan statistic and brain cancer in Los Alamos." American Journal of Public Health 88: 1377-80.

Kulldorff, M. (1999). "Geographic information systems (GIS) and community health: Some statistical issues,." Journal of Public Health Management and Practice 5 100-

106.

Kulldorff, M. (2001). "Prospective time-periodic geographical disease surveillance using a scan statistic." Journal of the Royal Statistical Society 164: 61-72.

Martín del Brio, B. and A. Sánchez (2005). Redes Neuronales y Sistemas Difusos. México, Alfaomega.

Nagarwilla, N. (1996). "A Scan statistic with a variable window." Stat. in Med. 15: 845-50.

Naus, J. I. (1982). "Approximations for distributions of Scan statistics." Journal of the American Statistical Association 77(No. 377): 177-183.

Rodríguez, L., G. Casas, et al. (2007). Validación del método Scan Generalizado con verdaderos falsos conglomerados. X Congreso Nacional de Matemática y Computación. Holguín.

Rodríguez, L., G. Casas, et al. (2006). Scan Statistics. Bioinformatics Applications. First International Workshop on Bioinformatics Cuba-Flanders, UCLV. Santa Clara. Cuba.

Rodríguez, L., G. Casas, et al. (2009). "Approximations for the distribution of Fuzzy Scan Statistics." Investicación Operacional 30, No. 2: 131-139.

Rodríguez, L., G. Casas, et al. (2008). "Fuzzy Scan Method to Detect Clusters."

111 -115.

Rodríguez, L., G. Casas, et al. (2008). "Generalización de dos métodos de detección de conglomerados. Aplicaciones en Bioinformática." Revista de Matemática: Teoría y Aplicaciones. 15 (1): 27 - 40.

Sahu, S., R. B. Bendel, et al. (1993). "Effect of relative risk and cluster configuration on the power of the one-dimensional Scan statistics." Statistics in Medicine 12: 1853-

1865.

In document Aplicación de un algoritmo bioinspirado para optimizar los parámetros de los métodos scan (página 51-57)