• No se han encontrado resultados

Estimación del LC50 para sustancias químicas de uso industrial por QSAR

N/A
N/A
Protected

Academic year: 2020

Share "Estimación del LC50 para sustancias químicas de uso industrial por QSAR"

Copied!
20
0
0

Texto completo

(1)

1

Estimación del LC50 para sustancias químicas de

uso industrial por QSAR

Juan Sebastián Hernández Gómez

Asesores: María Elsa Correal Núñez y Felipe Muñoz Giraldo

Tesis de pregrado desarrollada en la Universidad de los Andes en cumplimiento de los requerimientos para obtener un título en Ingeniería química e Ingeniería Industrial

Resumen

El LC50 de una sustancia determina la concentración letal de ésta para un organismo y por tanto establece un parámetro de control para la exposición a diferentes compuestos en la industria. En los últimos cincuenta años, el desarrollo de herramientas computacionales y la investigación en el campo de los descriptores (parámetros que describen información de la estructura de una molécula) han llevado a la implementación cada vez mayor de los modelos de relación cuantitativa estructura actividad (QSAR por sus siglas en inglés) en la estimación de propiedades de compuestos entre ellas el LC50. En este trabajo, se presenta el planteamiento detallado de un modelo QSAR de regresión lineal para la estimación del LC50 oral para peces de la especie Pimephales promelas partiendo de una base inicial de 1124 descriptores para un grupo de 301 compuestos orgánicos entre los que se encuentran solventes comúnmente usados en la industria farmacéutica. Luego de analizar los descriptores establecidos fue posible obtener un modelo de regresión conformado por tres variables, el coeficiente de partición octanol-agua de Ghose Crippen, el área de superficie polar topológica total y el índice 3D de Harary, registrando p-values menores al nivel de significancia manejado (

𝛼

=0.01) en los tres casos. Adicionalmente se validaron los resultados obtenidos por el modelo llevando a cabo un análisis de observaciones influyentes, multicolinealidad y heterocedasticidad obteniendo modelos con un R2 superior a

0.6 en todos los casos.

Palabras claves: Absorción, Distribución, Metabolismo, QSAR, LC50, Descriptor, Significancia

1. Introducción

En la industria química (farmacéutica, petrolera, etc.) existen regulaciones sobre la concentración de los diferentes compuestos tanto en el aire (en forma de vapores) como en el agua, sin embargo, la existencia de gran cantidad de sistemas ha llevado tanto a inconsistencias en la protección de operarios y personas que pudieran entrar en contacto con este material, como a generar excesivos estándares de regulación [1]. Ante estas dificultades, la ONU decidió establecer un Sistema Global Armonizado (GHS por sus siglas en inglés), que hizo posible reducir los estudios químicos requeridos, los riesgos mencionados previamente y además, facilitar el comercio de químicos entre distintos países. A pesar de la creación de este sistema, sigue existiendo una gran cantidad de compuestos para los que no se encuentra información experimental disponible de diversos parámetros. [2]

En la actualidad en Colombia, el control que existe sobre los productos químicos y en especial sobre la concentración letal de diferentes compuestos, se encuentra poco

desarrollada, ya que a pesar de que existe una mesa de trabajo creada por el Ministerio de Ambiente y Desarrollo Sostenible para implementar el GHS a nivel nacional, la falta de capacidad institucional para asumir el tema y la limitación de recursos financieros para su correcta implementación y verificación de cumplimiento no han permitido el oportuno desarrollo del proyecto [3]. Un estudio de toxicidad haciendo uso de ratas, incluye cerca de 800 animales y acarrea un costo de cerca de $6 millones de dólares para sólo una sustancia [4], lo que dificulta el desarrollo de estos y por tanto disminuye la disponibilidad de parámetros de control.

Dados los problemas mencionados anteriormente, la GHS estableció que si no existe información experimental disponible para una propiedad de un compuesto de interés, se debe llevar a cabo el cálculo de la misma con ayuda de modelos como lo son el QSAR y QSPR [2]. El propósito de estos modelos es establecer una relación matemática entre una propiedad fisicoquímica de la molécula y unos descriptores relacionados con la estructura de la misma, de

(2)

2

manera que la propiedad se vea explicada como una función

de estos factores [5].

Los estudios en relaciones cuantitativas estructura-propiedad (QSPR por sus siglas en inglés) se iniciaron en el año 1868 cuando Crum-Brown y Fraser plantearon la posible existencia de relaciones entre actividades fisiológicas y propiedades químicas explicando cambios en actividades biológicas a partir de pequeñas modificaciones estructurales. [6]. Durante los siguientes años grandes avances en el campo serían llevados a cabo por Richardson (1869), Reynolds (1877), Richet (1893) y varios más durante el siguiente siglo, sin embargo, el avance decisivo sería realizado por Hammett en 1937 con su estudio de la tasa relativa de reacción de sustituyentes benzoicos meta- y para- que lo llevarían al desarrollo de la constante y ecuaciones que llevan su nombre [7]. A partir de estas ecuaciones, Hammet logró establecer una relación entre constantes calculadas cuantitativamente y la constante de reacción en compuestos orgánicos, estableciendo así una base para el posterior estudio de estos métodos.

Luego de este avance, en 1964 se daría el desarrollo de dos metodologías de manera independiente que sentarían las bases del estudio de relaciones cuantitativas estructura-actividad (QSAR por sus siglas en inglés) moderno. Con la divulgación de su informe “𝜚-𝜎-𝜋 Analysis. A method for the correlation of biological activity and chemical structure”, Hansch y Fujita dieron origen a la aproximación extratermodinámica que posteriormente sería conocida como el análisis de Hansch, mientras que Free y Wilson publicarían “A mathematical contribution to structure activity studies” haciendo uso de las nuevas herramientas computacionales disponibles en la época [8], llegando así a la eq. 1.

log 1/𝐶 = ∑ 𝑎𝑖𝑗+ 𝜇 (𝑒𝑞. 1)

donde 𝑎𝑖𝑗 representa la contribución del sustituyente 𝑋𝑖 en la posición j, mientras que 𝜇 corresponde al valor teórico de la actividad biológica de un compuesto de referencia en la serie. Este modelo permaneció sin cambios hasta la década de los noventa cuando surgieron varias mejoras de la combinación de los métodos previamente enunciados y la formulación de modelos teóricos no lineales para la distribución y transporte de medicamentos en un sistema biológico, derivando así en el siguiente modelo [8]

log 1/𝐶 = 𝑎 log 𝑃 − 𝑏 log(𝛽𝑃 + 1) + 𝑐 (𝑒𝑞. 2)

donde C corresponde a una propiedad de estudio como la toxicidad y P a una variables asociada a la misma. Tras estos avances se estableció como principio del QSPR y QSAR que estructuras similares presentan propiedades análogas y variaciones en la estructura molecular conllevan a cambios en propiedades macroscópicas [6]. Con el desarrollo de estos modelos y los métodos computacionales modernos, se ha logrado consolidar una base de datos de descriptores (parámetros que corresponden a información

específica de la molécula estudiada) para una amplia gama de sustancias. Los descriptores se han clasificado en constitucionales, topológicos, geométricos y quimico-cuánticos dependiendo de la dimensión de su representación molecular [9]. La alta disponibilidad de descriptores por los desarrollos tecnológicos del último siglo ha permitido llevar a cabo modelos de redes neuronales artificiales como el desarrollado por Devillers en 2001 [10] y análisis de regresión múltiple en el caso de Garcia-Domonec y Alarcon-Elbal en 2007 [11] para la estimación de la toxicidad de sustancias en términos del LC50 (concentración letal que causa la muerte al 50% de animales de prueba [12]).

En el presente artículo se pretende realizar un análisis de regresión lineal múltiple para estimar el valor del LC50 para peces en términos del negativo del logaritmo de la concentración en mol/L a partir de un grupo de descriptores para una serie de compuestos orgánicos. Una vez obtenido el modelo, se espera que éste permita medir la toxicidad de otros compuestos orgánicos a partir de los valores de los descriptores elegidos.

2. Metodología

El desarrollo del estudio se llevó a cabo en cuatro etapas principales: construcción de la base de datos, selección de variables de estudio, construcción del modelo de regresión y validación del modelo QSAR. A continuación se muestra una descripción del procedimiento realizado en cada uno de estos pasos.

2.1 Construcción de la base de datos

Para obtener la información necesaria para realizar el estudio se llevó a cabo una búsqueda en portales de organizaciones como la OCHEM, la U.S. National Library of Medicine y el Milano Chemometrics and QSAR Research Group, siendo este último el sitio usado por tener mayor información disponible tanto para la variable a explicar (LC50) como para los descriptores existentes actualmente.

La organización ofrece de manera abierta una base de datos correspondiente a 908 moléculas orgánicas para predecir la toxicidad acuática aguda en peces de la especie Pimephales promelas en términos del LC50, definido como la concentración que causa la muerte al 50% de los peces de prueba en un análisis de 96 horas. [13]. Los datos fueron recuperados por Todeschini, Cassotti, Ballabio y Consonni de tres bases llamadas OASIS [14], ECOTOX [15] y EAT5 [16] para posteriormente ser procesados a un mismo índice (a partir de un paso de EC50 a LC50 para EAT5), eliminando rangos y límites (en el caso de la base ECOTOX), corrigiendo inconsistencias entre el CAS-RN y el nombre químico, convirtiendo los datos a molaridad y transformándolos en unidades logarítmicas (−Log10(mol/L)), eliminando duplicados y desechando los datos que resultaran atípicos. [17]

(3)

3

A partir de la base mencionada anteriormente, se

seleccionaron 301 compuestos tomando su especificación de introducción lineal molecular simplificada (SMILES por sus siglas en inglés), el valor del LC50 en unidades molares y el CAS-RN. Haciendo uso de este último fue posible obtener los valores de distintos descriptores a partir de la MOLE db- Molecular Descriptors Data Base para cada uno de los compuestos seleccionados.

La MOLE db. Molecular Descriptors Data Base es una base de datos gratuita en línea desarrollada por el Milano Chemometrics and QSAR Research Group que contiene 1124 descriptores moleculares calculados a partir del DRAGON software para 234773 compuestos. Los descriptores incluidos en la base se clasifican en doce grupos entre los que se encuentran propiedades moleculares, índices de información, índices de conectividad, descriptores constitucionales y otros [18].

Los 301 compuestos seleccionados se distribuyen, según las categorías de toxicidad establecidas por la EPA [19] de mayor a menor de la siguiente manera: 8 compuestos de la categoría X (más tóxicos), 27 compuestos de la categoría A, 73 compuestos de la categoría B, 102 compuestos de la categoría C y 91 compuestos de la categoría D.

Una vez construida la base conformada por 1124 descriptores y 301 compuestos orgánicos, se filtró cada una de las variables en busca de datos faltantes (identificados como n.a. en la MOLE db), eliminando un total de 15 variables por tener presencia de los mismos. Después de llevar a cabo este procedimiento se dio por terminada la labor de construcción de la base y se procedió a realizar la selección de variables de estudio.

2.2 Selección de variables de estudio

A partir de la base de datos construida en la etapa anterior, se llevó a cabo un proceso de selección de variables de interés, ya que el hecho de manejar un número de éstas superior a la cantidad de observaciones lleva a que el método de mínimos cuadrados (usado por los modelos de regresión) obtenga varios estimados de los coeficientes que acompañarán a las variables, generando así una varianza infinita en la estimación que haría inútiles los resultados obtenidos [20]. Para establecer las variables a analizar entre las 1109 disponibles fue necesario llevar a cabo una revisión bibliográfica que permitiera plantear una relación entre sustancias químicas y su acción xenobiótica. Esta acción suele ser resumida bajo el acrónimo “ADME” que describe los procesos de absorción, distribución, metabolismo y excreción de sustancias que no son producidas en el organismo como es el caso de los compuestos de estudio [21]. Cada uno de los procesos mencionados anteriormente está conectado con ciertas propiedades de los compuestos que pueden llevar a facilitar o dificultar el desarrollo de los mismos según su valor, de manera que las variables relacionadas con estas deberían ser incluidas en el estudio.

La absorción denota el procedimiento por el cual químicos externos penetran las barreras de los tejidos e ingresan al organismo, por lo que propiedades como el tamaño, la masa, la solubilidad y la carga eléctrica de la molécula fueron seleccionadas por su relación con el transporte activo y pasivo a través de la membrana celular [22]. Otro factor importante en la absorción de xenobióticos es la permeabilidad de la membrana a los mismos, en especial cuando la ingestión de sustancias químicas se da vía oral como sucede en el estudio realizado (LC50 oral en peces). Por esto se decidió incluir propiedades relacionadas con ésta como lo son el coeficiente de partición octanol/agua y el área de superficie polar (PSA por sus siglas en inglés) [23].

El siguiente paso en la digestión de sustancias químicas es la distribución de éstas en el organismo. Esta etapa está ligada al transporte de compuestos a través del torrente sanguíneo, razón por la cual se consideró que el factor hidrofílico debía ser incluido entre las variables de estudio. Teniendo en cuenta lo establecido anteriormente, los tóxicos hidrofílicos suelen alcanzar altas concentraciones al interior de los túbulos proximales, convirtiendo así a los riñones en órgano blanco, a diferencia de los químicos lipofílicos que suelen acumularse en tejidos presentando bajas concentraciones en la sangre [24]. Algunos modelos recientes proponen la flexibilidad, el tamaño y la capacidad de formar puentes de hidrógeno de la molécula como variables que determinan la lipofilicidad e hidrofilicidad de la sustancia, por lo cual estas variables también fueron seleccionadas [21].

El tercer paso de la disposición del compuesto químico en el organismo es su metabolismo. Esta etapa se centra en las interacciones tóxico-enzima, ya que las relaciones entre estos dos componentes resultan esenciales en la degradación de la sustancia química ingerida. Al momento de unirse el sustrato al sitio activo de la enzima, la estructura tridimensional, tanto de la enzima como de la molécula tóxica, determina la formación de un complejo que permitirá el desarrollo de esta actividad celular [25]. Por esto se decidió incluir todos los descriptores relacionados con la estructura tridimensional entre las variables de estudio para posteriormente seleccionar el que presentara una mayor relación con la toxicidad de la sustancia.

Con base en los argumentos anteriores y teniendo en cuenta que durante la excreción las propiedades que participan resultan similares a las mencionadas previamente, fue posible seleccionar los descriptores que se muestran en la nomenclatura como variables de interés para el estudio, agregando la presencia de ciertos radicales y átomos como variables adicionales.

2.3 Análisis previo de datos

Una vez seleccionadas las variables de interés para desarrollar el estudio, fue necesario analizar los datos para tener una idea inicial del comportamiento de cada una de

(4)

4

las variables. Para esto, se ingresó la información de las

variables al software de análisis de datos y estadística Stata® y se realizó un estudio descriptivo de las mismas.

2.4 Construcción del modelo de regresión

La construcción del modelo de regresión se llevó a cabo en tres pasos básicos. Inicialmente, se plantearon modelos de regresión simple con las principales variables de interés de cada uno de los procesos que conforma el ADME con el fin de tener una idea inicial sobre la relación de estos descriptores con la variable de respuesta. Una vez realizado este paso se procedió a establecer modelos de regresión múltiple que incluyeran distintas combinaciones de los descriptores analizados previamente al interior de cada uno de los procesos mencionados. Finalmente, se construyeron varios modelos a partir de los resultados obtenidos, para así seleccionar la combinación de variables que permitiera una mejor predicción de la toxicidad de las sustancias estudiadas.

2.5 Validación del modelo QSAR

Después de seleccionar las variables adecuadas para el modelo de regresión se procedió a validar los resultados obtenidos por el mismo mediante un análisis de observaciones influyentes, un análisis de multicolinealidad y una serie de pruebas de heterocedasticidad.

2.5.1 Análisis de datos influyentes

Una vez establecido el modelo de regresión lineal múltiple a partir de los descriptores de los procesos ADME, se procedió realizar un análisis de los datos en busca de observaciones que pudieran estar afectando los resultados obtenidos por el modelo.

El método elegido para detectar estas observaciones fue el uso de DFbetas. Estos valores miden la diferencia entre el beta obtenido para una variable con y sin la observación analizada. Un valor absoluto del DFbeta superior a 2/√𝑁 determina que la observación resulta influyente, es decir que su eliminación puede generar cambios sustanciales en el modelo [26]. Luego de estimar los valores, se procedió a compararlos con el valor crítico para decidir que observaciones debían ser eliminadas, omitiendo así un total de 38 observaciones.

2.5.2 Modelo de regresión sin datos influyentes

Luego de omitir las observaciones influyentes, se repitió el último paso del proceso de construcción del modelo, es decir, se establecieron diferentes modelos de regresión lineal múltiple a partir del modelo elegido previamente. De esta manera se establecieron seis nuevos modelos de regresión de donde se escogió el modelo final, al cual se le realizó un análisis de heterocedasticidad y multicolinealidad para verificar la confiabilidad de los datos obtenidos.

2.5.3 Análisis de multicolinealidad

Una vez establecido el modelo se procedió a verificar que éste no presentará una alta relación entre sus variables es decir, que las variables independientes elegidas para explicar el LC50 no se pudieran obtener como combinaciones lineales entre ellas, fenómeno conocido como multicolinealidad.

La ocurrencia de este problema se analizó con ayuda del factor de inflación de la varianza (VIF por sus siglas en inglés), el cual mide que tanto se “infla” la varianza de un estimador por la presencia de multicolinealidad [27]. Este indicador está definido de la siguiente manera.

𝑉𝐼𝐹 = 1 (1 − 𝑟𝑖2)

donde 𝑟𝑖2 corresponde al 𝑅2 obtenido para una regresión de la variable contra las demás variables del modelo. Siguiendo esta fórmula, se verificó que el modelo presentara valores bajos para este indicador, de lo contrario la relación entre las variables resulta alta.

2.5.4 Análisis y corrección de heterocedasticidad

Después de establecer el modelo final se llevó a cabo una prueba de Breusch-Pagan/ Cook-Weisberg para determinar si había una distribución constante de residuales en las observaciones, es decir si la regresión establecida cumplía el supuesto de homocedasticidad. Dado que el modelo seleccionado registró heterocedasticidad, fue necesario repetir la prueba realizada previamente con las variables incluidas (AlogP, TPSA(tot) y H3D) y sus respectivos efectos cuadrados.

Uno de los principales supuestos en la solución del problema de heterocedasticidad es que la varianza del error resulta proporcional a uno de los términos que están explicando el problema; comportamiento que se podría expresar de la siguiente manera [28].

𝐸(𝑢𝑖2) = 𝜎2𝑋𝑖2

Luego de obtener los resultados de estas pruebas y teniendo en cuenta la solución recomendada en la literatura se procedió a realizar una transformación de las variables con base en los efectos cuadrados del descriptor AlogP, obteniendo el modelo que se muestra a continuación.

𝑦 𝐴𝑙𝑜𝑔𝑃= 𝛽0

1

𝐴𝑙𝑜𝑔𝑃+ 𝛽1+ 𝛽2

𝑇𝑃𝑆𝐴(𝑡𝑜𝑡) 𝐴𝑙𝑜𝑔𝑃 + 𝛽3

𝐻3𝐷 𝐴𝑙𝑜𝑔𝑃

A partir de la regresión obtenida para las nuevas variables, se realizó nuevamente el test de Breusch-Pagan/ Cook-Weisberg para verificar que la transformación hubiera corregido los problemas de heterocedasticidad y así obtener el modelo final.

(5)

5

3. Resultados

En esta sección se muestran y analizan estadísticamente los resultados obtenidos en los diferentes pasos del estudio, haciendo énfasis en el comportamiento de los datos y la significancia registrada por las diferentes variables a lo largo del desarrollo del modelo.

3.1 Análisis descriptivo de las variables

Luego de ingresar los valores del LC50 y los descriptores seleccionados a Stata®, se inició el estudio con un análisis descriptivo de las variables. En éste se evidenció una gran diferencia entre el valor máximo y mínimo registrados y la media obtenida para algunas variables entre las que se encontraba la variable a explicar, como se observa en la tabla 1.

Tabla. 1 Análisis inicial de variables de estudio

Adicionalmente, la tabla anterior permite establecer una aproximación inicial entre los descriptores seleccionados previamente y la variable de interés por medio del coeficiente de correlación. La existencia de valores cercanos a 0.5 en magnitud para este indicador, permitió establecer que podría existir una relación entre la toxicidad de la sustancia y las variables a estudiar.

3.2 Construcción del modelo de regresión

En esta sección se muestran los resultados obtenidos en cada uno de los pasos del proceso de construcción del modelo de regresión, entre los que se encuentran modelos de regresión lineal simple, modelos de regresión lineal múltiple por proceso, modelo de regresión lineal final, análisis de datos influyentes y validación de los resultados obtenidos.

3.2.1 Modelos de regresión lineal simple

Teniendo en cuenta los datos registrados en la tabla de análisis inicial, se procedió a realizar una serie de modelos de regresión lineal simple. Los resultados registrados a continuación permiten tener una primera idea de la relación de las principales variables elegidas para cada uno de los procesos ADME con la toxicidad de la sustancia en términos del LC50.

3.2.1.1 Modelos de regresión lineal simple absorción Los modelos de regresión lineal simple construidos permitieron apreciar que las principales variables de interés relacionadas con el proceso de absorción resultan significativas de manera individual aun manejando niveles de significancia extremadamente bajos. Esto quiere decir que los p-values obtenidos para la mayoría de estas resultan aproximadamente iguales a cero. Aunque en este caso el área de superficie polar no resulta significativa, esta variable continuará incluyéndose en los modelos de regresión múltiple por su relación con la lipofilicidad descrita en la literatura.

Tabla 2. Resultados regresiones simples descriptores absorción

Los valores registrados para el R2 por las variables

relacionadas con el coeficiente de partición (mlogp y mlogp2) y por el peso molecular en la tabla 2 muestran que estos descriptores explican de buena manera la toxicidad de la molécula, por lo que se esperaría que alguna variable relacionada con estas propiedades esté incluida en el modelo final.

3.2.1.2 Modelos de regresión lineal simple distribución La tabla 3 muestra los resultados obtenidos para los distintos modelos de regresión lineal simple establecidos a partir de los principales descriptores relacionados con el proceso de distribución de sustancias xenobióticas en el organismo.

Tabla 3. Resultados regresiones simples descriptores distribución

Al igual que en el caso anterior, la mayoría de las variables presentan un p-value aproximadamente igual a cero, por lo que resultan significativas individualmente. Sin embargo, el número de átomos aceptores de puentes de hidrógeno (nhacc) presenta un p-value alto, por lo que inicialmente resulta una variable no significativa en la explicación de la toxicidad de la sustancia.

ADME Process Variable Mean Std. Dev. Min Max Correlation

mw 158.27 75.46 53.07 551.19 0.4713

sp 13.74 6.23 4.63 69.08 0.3602

mp 0.66 0.10 0.52 1.16 0.3968

phi 3.79 3.12 0.555 32.443 0.1956

amr 42.42 18.21 14.554 179.361 0.4565

isiz 97.01 67.64 15.51 820.483 0.2267

tpsano 30.01 25.25 0 165.37 -0.0253

tpsatot 32.54 27.67 0 173.75 0.0723

mlogp 1.90 1.43 -2.03 6.515 0.5484

mlogp2 5.65 6.51 0.001 42.449 0.4691

alogp 2.00 1.65 -2.329 14.396 0.5615

alogp2 6.71 13.69 0 207.253 0.2828

x0sol 8.09 3.44 3.414 28.542 0.4538

x1sol 5.12 2.28 1.914 19.121 0.4563

x2sol 4.39 2.46 1 17.5 0.4441

x3sol 3.19 2.57 0.5 24.375 0.4063

x4sol 2.27 2.29 0 22.563 0.3548

x5sol 1.59 1.97 0 19.813 0.3541

hy -0.21 0.77 -0.979 4.107 -0.2797

w3d 1418.52 5935.63 32.408 100879 0.0966

j3d 4.03 1.71 1.645 8.735 -0.1042

h3d 80.67 74.48 6.342 928.105 0.1914

pji3 0.71 0.16 0.239 0.994 0.1689

Absorption

Distribution

Metabolism

Variable mw mp mlogp mlogp2 isiz amr tpsatot 0.222 0.157 0.301 0.22 0.051 0.208 0.005

𝑅2

Variable hy x0sol x5sol nhacc 0.078 0.206 0.125 0.00

(6)

6

El análisis de los valores registrados para el R2 por los

descriptores elegidos, permite apreciar que las variables asociadas a índices de conectividad de solvatación (x0sol y x5sol) explican de buena manera la variable de respuesta por lo que estos descriptores podrían llegar a estar presentes en el modelo que incluya todos los procesos ADME.

3.2.1.3 Modelos de regresión lineal simple metabolismo La tabla 4 permite apreciar como a diferencia de los dos procesos analizados anteriormente, los descriptores relacionados con el metabolismo (variables que describen la estructura tridimensional) no presentan un p-value tan bajo, lo que se traduce en dos variables no significativas individualmente.

Tabla 4. Resultados regresiones simples descriptores metabolismo

Adicionalmente, se aprecia que los R2 registrados por cada

una de las variables no resultan altos, por lo que se esperaría que los descriptores relacionados con la estructura tridimensional de la molécula no estén incluidos en el modelo final, o en caso de estarlo, no expliquen en gran medida la toxicidad de la misma. Sin embargo, estos resultados están sujetos al comportamiento de las variables y a la posible existencia de observaciones atípicas.

3.2.2 Modelos de regresión lineal múltiple por proceso Las secciones mostradas a continuación permiten visualizar los resultados obtenidos para los modelos de regresión lineal múltiple de cada uno de los procesos ADME descritos previamente.

3.2.2.1 Modelos de regresión lineal múltiple absorción

Los resultados presentados en la tabla 5 permiten visualizar los modelos obtenidos para el proceso de absorción que registran los mayores valores de R2.

Tabla 5. Regresiones múltiples descriptores de absorción

Variable w3d j3d h3d pji3 0.009 0.011 0.037 0.03

𝑅2

* p<0.05, ** p<0.01, *** p<0.001 Standard errors in parentheses

rmse 1.052 1.025 1.041 1.047 1.019 1.015 BIC 908.3 892.5 906.5 900.6 884.2 886.7 AIC 889.8 874.0 884.3 885.8 869.4 868.2 adj. R-sq 0.363 0.396 0.377 0.370 0.403 0.407 R-sq 0.372 0.404 0.387 0.376 0.409 0.415 N 301 301 301 301 301 301 (0.442) (0.165) (0.176) (0.167) (0.401) (0.406) _cons 0.412 2.065*** 2.162*** 2.121*** 0.553 0.421 (0.00192) mw 0.00449* (0.00313) (0.00323) (0.00225) (0.00225) tpsatot 0.0117*** 0.0126*** 0.0132*** 0.0135*** (0.00178) (0.00172) isiz -0.00693*** -0.00906*** (0.647) (0.623) (0.622) mp 3.028*** 2.744*** 2.815*** (0.00465) (0.00932) (0.00815) (0.00742) amr 0.0170*** 0.0222* -0.0173* 0.0439*** (0.0218) (0.0227) (0.0200) mlogp2 -0.0506* -0.0398 -0.0357 (0.0958) (0.0787) (0.101) (0.0570) (0.0469) (0.0939) mlogp 0.485*** 0.550*** 0.754*** 0.344*** 0.512*** 0.657*** LC50 LC50 LC50 LC50 LC50 LC50 (1) (2) (3) (4) (5) (6)

(7)

7

Como se esperaba gracias a los resultados obtenidos en los modelos de regresión lineal simple, los descriptores relacionados con el coeficiente de partición octanol-agua resultan significativos en la mayor parte de los modelos. Muestra de esto es la presencia de la variable mlogp con un p-value cercano a cero en los seis modelos seleccionados para el proceso de absorción. Adicionalmente la variable mlogp2 resulta significativa en tres de los modelos presentados, sin embargo el p-value en este caso no resulta tan bajo como el de la variable mencionada anteriormente, registrando valores ligeramente superiores a 0.05 en dos casos y cercanos a 0.01 en el caso restante.

Por otro lado, la variable tpsatot (área de superficie polar), que resultó no significativa en el modelo de regresión lineal simple, resulta significativa en cuatro de los modelos presentados, registrando un p-value cercano a cero. Además, los modelos que incluyen este descriptor presentan valores de R2 superiores a los de los demás modelos establecidos para el proceso de absorción,

por lo que esta variable podría llegar a estar presente en el modelo final. Este cambio se debe a que la toxicidad empieza a presentar cambios explicados por el área de superficie polar cuando el coeficiente de partición octanol-agua permanece constante.

A pesar de que los valores de AIC y BIC registrados por el modelo seis resultan inferiores a los del modelo cinco (el mismo modelo sin mlogp2), se trabajará con este último por tener un menor número de variables y presentar valores aproximadamente iguales en estos indicadores.

3.2.2.2 Modelos de regresión lineal múltiple distribución La tabla 6 presenta los cuatro modelos de regresión lineal múltiple establecidos a partir de las variables asociadas al proceso de distribución. Al igual que en el caso anterior, los modelos presentados corresponden a conjuntos de variables que presentan valores altos para el R2 ajustado.

Tabla 6. Regresiones múltiples de descriptores de distribución

Un análisis inicial de los valores de R2 ajustados registrados

para los modelos establecidos, permite apreciar que a pesar de explicar de buena manera la toxicidad de la sustancia, las variables relacionadas con el proceso de distribución generan modelos de regresión que presentan valores inferiores en el R2 ajustado y superiores en indicadores

como el AIC y el BIC.

3.2.2.3 Modelos de regresión lineal múltiple metabolismo

La tabla 7 presenta los dos modelos de regresión lineal múltiple construidos a partir de descriptores de la estructura tridimensional de la molécula que presentan un mayor R2

Tabla 7. Regresiones múltiples de descriptores de metabolismo

Los modelos descritos en la tabla anterior permiten apreciar que al igual que en los modelos de regresión simple establecidos en la sección anterior, la asociación de estos descriptores no logra explicar de buena manera la toxicidad de la sustancia, lo cual se refleja en bajos valores de R2

ajustado y altos valores de AIC y BIC.

* p<0.05, ** p<0.01, *** p<0.001 Standard errors in parentheses

rmse 1.127 1.141 1.141 1.196 BIC 945.1 947.6 947.5 975.9 AIC 930.3 936.4 936.4 964.7 adj. R-sq 0.269 0.252 0.252 0.178 R-sq 0.276 0.257 0.257 0.183 N 301 301 301 301 (0.168) (0.169) (0.168) (0.0897) _cons 2.417*** 2.440*** 2.357*** 3.324*** (0.0353) x5sol 0.219*** (0.0512) (0.0466) nhacc -0.145** -0.210*** (0.0218) (0.0210) (0.0193) x0sol 0.193*** 0.212*** 0.163*** (0.0953) (0.0866) (0.0907) hy -0.272** -0.391*** -0.417*** LC50 LC50 LC50 LC50 (1) (2) (3) (4)

* p<0.05, ** p<0.01, *** p<0.001 Standard errors in parentheses

rmse 1.250 1.257 BIC 1007.5 1010.5 AIC 992.7 995.7 adj. R-sq 0.101 0.092 R-sq 0.110 0.101 N 301 301 (0.331) (0.192) _cons 3.170*** 3.921*** (0.0000215) w3d -0.0000583** (0.476) pji3 1.536** (0.0482) (0.0481) j3d -0.213*** -0.203*** (0.00108) (0.00184) h3d 0.00454*** 0.00914*** LC50 LC50 (1) (2)

(8)

8

3.2.3 Modelos de regresión lineal múltiple ADME

Los datos registrados en la tabla 8 permiten apreciar los siete modelos construidos a partir de las variables elegidas para las regresiones lineales múltiples establecidas previamente para cada uno de los procesos. Debido a los resultados obtenidos anteriormente para las variables mlogp y mlogp2 (descriptores asociados al coeficiente de partición octanol-agua), se decidió generar modelos que incluyeran las variables alogp y alogp2 (descriptores asociados al coeficiente de partición octanol-agua de Ghose-Crippen) para comparar los resultados obtenidos para los diferentes indicadores en los modelos que implementan el método de Moriguchi con los que implementan el de Ghose-Crippen.

Tabla 8. Regresiones lineales múltiples para todos los procesos ADME

Los modelos analizados muestran como la presencia de las variables alogp y alogp2 genera mejores valores de R2 ajustado, AIC

y BIC en los modelos que las contienen, por lo que es posible afirmar que estas explican de mejor manera la variable de interés que los descriptores mlogp y mlogp2.

Teniendo en cuenta estos resultados, se decidió continuar con el modelo 1, ya que presenta un desempeño cercano al del mejor modelo registrado en la tabla haciendo uso de únicamente cuatro variables.

* p<0.05, ** p<0.01, *** p<0.001 Standard errors in parentheses

rmse 0.965 1.031 0.966 0.960 0.952 0.938 1.008 BIC 856.2 891.4 866.5 858.0 852.6 862.8 891.6 AIC 837.7 876.5 840.5 835.8 830.3 825.7 865.7 adj. R-sq 0.464 0.389 0.463 0.470 0.479 0.494 0.416 R-sq 0.472 0.395 0.474 0.478 0.488 0.509 0.428 N 301 301 301 301 301 301 301 (0.135) (0.142) (0.178) (0.138) (0.134) (0.176) (0.157) _cons 2.262*** 2.205*** 2.490*** 2.197*** 2.319*** 2.600*** 2.464*** (0.0669) nc 0.216** (0.298) (0.313) np 0.909** 1.039** (0.0293) (0.0384) (0.0291) phi 0.0577 0.127** 0.0498 (0.0436) (0.0548) (0.0490) x0sol 0.118** 0.230*** 0.165*** (0.00597) (0.00671) (0.00603) tpsano -0.0124* -0.0179** -0.0225*** (0.0236) (0.0639) (0.0283) sp -0.100*** -0.316*** -0.118*** (0.0517) (0.0707) mlogp 0.683*** 0.600*** (0.00139) (0.000946) (0.00167) (0.00138) h3d -0.00616*** -0.00328*** -0.00801*** -0.00655*** (0.00226) (0.00240) (0.00539) (0.00225) (0.00232) (0.00589) (0.00570) tpsatot 0.0156*** 0.0160*** 0.0214*** 0.0154*** 0.0136*** 0.0230*** 0.0286*** (0.00871) (0.00753) (0.00868) (0.00859) (0.00768) alogp2 -0.0188* -0.0287*** -0.0195* -0.0180* -0.0281*** (0.0563) (0.0761) (0.0561) (0.0555) (0.0818) alogp 0.808*** 0.781*** 0.812*** 0.810*** 0.718*** LC50 LC50 LC50 LC50 LC50 LC50 LC50 (1) (2) (3) (4) (5) (6) (7)

(9)

9

3.3 Análisis de datos influyentes

Las secciones mostradas a continuación permiten apreciar la manera en que fue posible distinguir las observaciones influyentes incluidas en el modelo por medio del análisis de los Dfbetas de las distintas variables para su posterior eliminación.

3.3.1 Análisis de datos influyentes AlogP

La figura 1 muestra los valores de Dfbeta obtenidos para la variable alogp graficados contra el número de observación. Las líneas mostradas horizontalmente corresponden a los valores críticos que permiten distinguir una observación como influyente.

Fig. 1 Dfbetas para la variable alogp

La gráfica permite apreciar que existen diez valores por encima de la línea crítica superior y doce valores por debajo de la línea crítica inferior, por lo que deberían eliminarse un total de 22 observaciones que resultan influyentes para esta variable.

3.3.2 Análisis de datos influyentes alogp2

La figura 2 muestra los valores de Dfbeta obtenidos para la variable alogp2 graficados contra el número de observación.

Fig. 2 Dfbetas para la variable alogp2

En este caso, un total de 16 observaciones resultaron influyentes, sin embargo, once de estas coincidieron con las obtenidas para la variable anterior, por esto, se procedió a omitir cinco observaciones adicionales.

3.3.3 Análisis de datos influyentes tpsatot

La figura 3 permite apreciar los Dfbeta obtenidos para la variable TPSA(tot) (área de superficie polar). Al igual que la variable alogp, este descriptor presenta gran cantidad de datos influyentes que pueden estar afectando negativamente los resultados del modelo.

Fig. 3 Dfbetas para la variable tpsatot

Para esta variable se registró un total de 21 observaciones influyentes, sin embargo, doce de estas coincidieron con las obtenidas por los descriptores anteriores, por esto, se procedió a omitir nueve observaciones adicionales.

3.3.4 Análisis de datos influyentes H3D

La última variable analizada fue H3D, para la que se obtuvieron 16 observaciones influyentes como permite apreciar la figura 4.

Fig. 4 Dfbetas para la variable h3d

Teniendo en cuenta que en los pasos anteriores la mayoría de observaciones influyentes ya habían sido eliminadas,

-1 -. 5 0 .5 D fb e ta a lo g p

0 100 200 300 numero -. 5 0 .5 1 1 .5 D fb e ta a lo g p 2

0 100 200 300 numero -. 8 -. 6 -. 4 -. 2 0 .2 D fb e ta t p s a to t

0 100 200 300 numero -. 6 -. 4 -. 2 0 .2 .4 D fb e ta h 3 d

0 100 200 300 numero

(10)

10

luego de este análisis se omitieron únicamente dos

observaciones adicionales.

3.4 Modelo de regresión lineal múltiple sin datos influyentes

Luego de omitir los datos influyentes, se procedió a correr nuevamente el modelo de regresión establecido previamente a partir de los distintos descriptores relacionados con los procesos ADME como se muestra en el anexo A.1.

El análisis de esta tabla, permite apreciar que la variable alogp2 pierde significancia en el nuevo modelo construido con las 263 observaciones restantes. Por esto, se decidió eliminar este descriptor del modelo y construir nuevos a partir de las tres variables restantes (alogp, tpsatot y h3d) y algunas nuevas variables, obteniendo así los resultados registrados en el anexo A.2.

A pesar de no registrar el mayor R2 ni el menor valor en

indicadores como el AIC y el BIC, se eligió el modelo 1 por encima de los demás por presentar descriptores de fácil cálculo y adicionalmente presentar un menor número de variables sin grandes diferencias en su desempeño obteniendo así los resultados registrados en el anexo A.3.

3.5 Análisis de multicolinealidad

Una vez establecido el modelo sin datos influyentes se procedió a verificar la multicolinealidad. Para este fin se hizo uso del VIF como indicador de la relación entre las variables.

El anexo A.4 permite apreciar que los valores del VIF registrados para las tres variables implementadas en el modelo se encuentran entre 1.31 y 1.55, esto se traduce en

una relación entre los descriptores de máximo 0.35, lo cual no corresponde a problemas de multicolinealidad.

3.6 Análisis y corrección de heterocedasticidad

A continuación se muestran los resultados obtenidos para las distintas pruebas de heterocedasticidad realizadas al modelo y los resultados obtenidos luego de la corrección de este problema.

3.6.1 Análisis inicial del modelo seleccionado

Después de realizar la prueba de heterocedasticidad de Breusch-Pagan/Cook-Weisberg haciendo uso de la herramienta estadística Stata® fue posible obtener los resultados registrados en el anexo A.5.1.

El p-value obtenido para el estimador 𝜒2 permite afirmar que el modelo presenta problemas de heterocedasticidad, lo que podría generar estimaciones erróneas a partir de las variables establecidas. Por esta razón se procedió a realizar un análisis de los efectos de cada descriptor sobre la varianza del modelo.

3.6.2 Análisis de efectos de sencillos y cuadrados de las variables

Los resultados registrados en los anexos del A.5.2 al A.5.7 permiten apreciar que la variable AlogP presenta los peores resultados para el test de heterocedasticidad realizado, tanto para efectos sencillos como cuadrados. Por esta razón, se consideró pertinente realizar una transformación sobre el modelo con base en uno de estos dos efectos; seleccionando finalmente los efectos cuadrados como base para la transformación por permitir obtener un modelo con constante.

3.6.3 Resultados modelo transformado

En la tabla 9 se aprecia el modelo de regresión lineal obtenido luego de transformar las distintas variables como se estableció previamente. En esta, la variable Y corresponde a la transformación del LC50, x1 a la transformación de la constante, x2 a la transformación del descriptor TPSA(tot) y x3 al mismo cambio realizado sobre la variable H3D.

Tabla 9. Modelo de regresión lineal múltiple transformado

_cons .936617 .1372171 6.83 0.000 . x3 -.0350701 .0020106 -17.44 0.000 -.2766863 x2 .0178487 .0016736 10.66 0.000 .3093623 x1 3.928627 .1528199 25.71 0.000 .9433975 y Coef. Std. Err. t P>|t| Beta Total 148126.348 262 565.36774 Root MSE = 2.0149 Adj R-squared = 0.9928 Residual 1051.49566 259 4.05982881 R-squared = 0.9929 Model 147074.852 3 49024.9507 Prob > F = 0.0000 F( 3, 259) =12075.62 Source SS df MS Number of obs = 263

(11)

11

Los resultados registrados permiten apreciar que a pesar de la transformación realizada todas las variables continúan siendo significativas, por lo que se puede afirmar que el modelo continúa explicando la toxicidad de las sustancias. Adicionalmente, al analizar el valor obtenido en el test de Breusch-Pagan/Cook-Weisberg para el modelo transformado, registrado en el anexo A.6, es posible establecer que el problema de heterocedasticidad fue solucionado y la varianza del error no está siendo explicada por ninguna de las nuevas variables. De esta manera fue posible obtener la siguiente ecuación que permite relacionar la toxicidad de la sustancia con los descriptores seleccionados para explicar la misma.

𝐿𝐶50 (− log (𝑚𝑜𝑙

𝐿 )) = 3.92 + 0.93𝐴𝑙𝑜𝑔𝑃 + 0.017 𝑇𝑃𝑆𝐴(𝑡𝑜𝑡) − 0.035 𝐻3𝐷

4. Discusión de resultados

La discusión de los resultados mostrada a continuación se centró en dos puntos: la explicación de la naturaleza de las variables establecidas en el modelo y su relación con la toxicidad y la aplicabilidad del modelo y validez de los resultados obtenidos.

4.1 Análisis de variables elegidas

A continuación se presenta una interpretación de los resultados obtenidos para cada una de las variables establecidas en el modelo, basado en aspectos como el coeficiente registrado en la regresión, el método de obtención de las mismas y su relación con la toxicidad registrada por la sustancia en términos del LC50.

4.1.1 Coeficiente de partición octanol-agua de Ghose-Crippen (Alogp)

Los datos registrados para el descriptor Alogp son calculados a partir de una ecuación de regresión basada en la contribución a la hidrofobicidad de 115 tipos de átomos registrados en el anexo A.7. Cada átomo de las moléculas estudiadas es clasificado en uno de estos grupos para luego obtener una estimación de logP a partir de la siguiente ecuación:

𝐴𝑙𝑜𝑔𝑃 = ∑ 𝑛𝑖𝑎𝑖 𝑖

Donde 𝑛𝑖 corresponde a la cantidad de átomos del tipo i, mientras que 𝑎𝑖 representa la constante de hidrofobicidad de este tipo de átomo [29].

Teniendo en cuenta la descripción anterior de la variable alogp y el coeficiente obtenido para la misma en el modelo de regresión (aporte positivo al logaritmo del LC50 en mol/L), es posible afirmar al visualizar la tabla de contribuciones hidrofóbicas, que existen posiciones en las que se puede localizar un átomo que pueden llegar a aumentar la toxicidad del compuesto o por el contrario disminuir este valor en la sustancia.

Por ejemplo, la presencia de un radical alcohol (OH) hace un aporte negativo a la hidrofobicidad de la molécula, por lo que se podría llegar a pensar que un compuesto con una

gran presencia de estos radicales y sin presencia de otros que puedan llegar a hacer un aporte positivo al coeficiente de partición debería presentar un valor bajo para el LC50. Al analizar el valor de esta medida para los distintos compuestos que conforman la base de datos manejada, se evidencia que los compuestos menos tóxicos son el etilenglicol, dietilenglicol, 2-etoxietanol, entre otros; sustancias que presentan en su estructura el radical mencionado previamente.

Por otra parte, la presencia de elementos halógenos tiene un aporte positivo en todos los casos a la hidrofobicidad de la sustancia, por lo que es posible afirmar que si estos forman parte del compuesto estudiado, el valor del LC50 registrado será alto. Una muestra de esto es la presencia de cloro en seis de los diez compuestos más tóxicos presentes en la base y la presencia de halógenos en trece de los veinticinco compuestos con mayor LC50, ambos casos sin incluir observaciones influyentes. Adicionalmente, los aportes hechos por estos elementos resultan los más altos registrados en la tabla, lo que se ve reflejado en la clasificación en las categorías 1 y 2 (compuestos más tóxicos) de la mayoría de los compuestos que los contienen.

Finalmente es importante establecer siguiendo los valores obtenidos para los coeficientes estandarizados, que el coeficiente de partición octanol-agua de Ghose Crippen es la variable que tiene un mayor efecto sobre la toxicidad de la sustancia siguiendo el modelo establecido.

4.1.2 Área de superficie polar topológica (TPSA)

Los valores registrados en la base de datos para la variable TPSA(tot) son calculados siguiendo el modelo propuesto por Ertl, el cual se basa en un método de contribuciones de grupo [30]. Para el caso de este descriptor el modelo tiene en cuenta fragmentos polares con nitrógeno y oxígeno, adicionando fragmentos “ligeramente polares” que contengan fósforo y azufre. Los aportes de cada grupo al valor final obtenido para el área de superficie polar se muestran en el anexo A.8. De esta manera, el TPSA de una molécula es determinado a partir de la sumatoria de contribuciones de superficie de los distintos tipos de grupos polares tabulados como muestra la siguiente ecuación

(12)

12

𝑇𝑃𝑆𝐴 = ∑ 𝑛𝑖𝑐𝑖 𝑖

Donde i representa los distintos tipos de fragmentos polares definidos, 𝑛𝑖 es la frecuencia con que se presenta cada tipo en la molécula y 𝑐𝑖 expresa la contribución a la superficie de un fragmento de tipo i.

Para el caso del área de superficie polar topológica, el efecto resulta similar al del descriptor analizado anteriormente ya que la variable presenta un coeficiente positivo al interior de la regresión. A diferencia del descriptor AlogP, todas las contribuciones de los distintos radicales registrados resultan positivas, haciendo que la presencia de los mismos incremente la toxicidad de la sustancia por su aporte al descriptor TPSA(tot). Los valores de LC50 registrados en la base de datos permiten apreciar que existe un claro efecto de estos radicales en la toxicidad de la sustancia, por ejemplo, compuestos como el trifenil fosfato o el TEPP presentan en su estructura el átomo de tipo 42 registrado en la tabla, una y dos veces respectivamente.

La presencia de un átomo de oxígeno unido con un doble enlace a un átomo de cualquier elemento diferente al hidrógeno, registrado bajo el número 29 en la tabla, también resulta en un aporte significativo al TPSA. Este tipo de átomo resulta bastante común en compuestos orgánicos por su presencia en los grupos formilo (componente de los aldehídos), carbonilo (componente de las cetonas), carboxilo (componente de los ácidos carboxílicos), entre otros. Compuestos como el 2-propanal, la quinona y el endotal monohidrato, registrados entre los diez más tóxicos manejados en la base de datos, presentan estos tres grupos de manera respectiva, por lo que es posible afirmar que el aporte hecho por este átomo a la polaridad del compuesto está relacionado de manera directa con la toxicidad del mismo.

4.1.3 Índice 3D de Harary

En la química matemática, un índice topológico es un número usado para caracterizar alguna propiedad de la estructura de un compuesto. Uno de los más utilizados es el índice de Harary, el cual analiza la molécula de una sustancia como un grafo donde cada átomo representa un nodo y los enlaces corresponden a aristas, bajo este supuesto se caracteriza la estructura del compuesto a partir de la siguiente fórmula.

𝐻(𝐺) = ∑ 1

𝑑𝐺(𝑢, 𝑣) 𝑢,𝑣∈𝑉(𝐺)

Donde G corresponde al grafo de la molécula, V(G) al conjunto de nodos (átomos) del grafo y 𝑑𝐺 a la distancia entre dos átomos en términos de aristas [31]. De esta

manera, el índice de Harary resume en un valor la cantidad de átomos y la distribución de los mismos de una manera simplificada.

Los avances computacionales han permitido desarrollar estimaciones más complejas de este índice ajustadas al tipo de sustancia y la distribución de los átomos en la molécula. Esto ha permitido que esta expresión incluya información sobre el tamaño de la molécula (cantidad de átomos) y las distancias entre átomos (en términos de la masa de los mismos).

Teniendo en cuenta la explicación anterior y el coeficiente negativo obtenido para la variable H3D en el modelo de regresión establecido, es posible afirmar que una sustancia de gran tamaño que no presente los átomos y fragmentos de gran impacto explicados en las secciones anteriores o los presente en baja cantidad debería registrar un valor bajo para el LC50. Un ejemplo de esto es el Dietil benzilfosfonato, esta sustancia presenta dos átomos de tipo 27, un átomo de tipo 29 y un átomo de tipo 42, los cuales generan un aporte significativo al área de superficie polar según el anexo A.12. Sin embargo dado su tamaño (presenta 32 átomos), este compuesto registra un valor de 140.84 en el índice 3D de Harary lo que resulta en un alto LC50 y por tanto su clasificación en la categoría 5. Otro ejemplo es la 2’,3’,4’-Trimetoxiacetofenona que presenta cuatro átomos de oxígeno en su estructura representados en una función cetona y tres funciones éter. Al igual que en el caso anterior estos átomos realizan un aporte importante a la variable TPSA(tot), sin embargo el tamaño de la molécula lleva a que el valor del descriptor H3D para esta sea de 121.27 haciendo este compuesto poco tóxico.

Contrario a los casos expuestos previamente se encuentran sustancias como el trifenil fosfato. Este compuesto a pesar de presentar un valor de 175.1 para el H3D, registra un valor bajo para el LC50 que lo clasifica en la categoría 2. Esto podría resultar contradictorio a lo expuesto previamente, sin embargo esta sustancia registra un valor mayor para los otros dos descriptores incluidos en el modelo que las sustancias analizadas anteriormente, además, el coeficiente estandarizado obtenido para el índice 3D de Harary en el modelo establecido resulta mucho menor al registrado por las otras variables. Por esta razón, a medida que estas variables crecen, el tamaño de la molécula y por tanto el H3D registrado por la sustancia pierden importancia en el cálculo de la toxicidad de la misma.

4.2 Aplicabilidad del modelo

Teniendo en cuenta el R2 obtenido para el modelo final es

posible afirmar que la regresión desarrollada se establece como una herramienta inicial útil en la clasificación de sustancias de acuerdo a su toxicidad, sin embargo, el uso del mismo no puede reemplazar las pruebas sobre animales

(13)

13

ya que no se conoce con certeza la totalidad de variables

que participan en la acción de un químico en el organismo.

Por otro lado, la estructura de los descriptores elegidos hace del modelo obtenido en este estudio una herramienta de fácil aplicación. Si se analizan las fórmulas que describen variables como el coeficiente de partición octanol-agua de Ghose-Crippen y el área de superficie polar topológica es posible apreciar que los valores de éstas pueden ser obtenidos fácilmente con ayuda de las tablas citadas en este artículo y presentes en gran cantidad de fuentes de la literatura sin necesidad de ningún tipo de prueba de laboratorio.

Adicionalmente, los avances en el estudio de descriptores y el cálculo computacional de los mismos han llevado al desarrollo de herramientas como Dragon, un software creado por Kode Chemoinformatics que permite calcular los valores de 5270 descriptores (incluidos los tres usados en el modelo) para gran cantidad de moléculas entre las que se encuentran las trabajadas en este estudio [32]. De esta manera, el uso del modelo construido, complementado con la implementación de un software de estimación de descriptores o el cálculo manual de los mismos, se establece como una buena primera aproximación en el cálculo del LC50 de compuestos orgánicos, incluidos solventes comúnmente usados en la industria farmacéutica.

5. Conclusiones

La significancia registrada por los descriptores incluidos en el modelo de regresión planteado en el estudio y el valor obtenido por el mismo en indicadores como el R2, el AIC y

el BIC permiten establecer que a pesar de que no se conoce con exactitud la relación existente entre propiedades como la toxicidad de una sustancia y las variables implementadas, los modelos QSAR representan una herramienta útil para la estimación de estos parámetros ante la falta de valores empíricos por pruebas de laboratorio (sin llegar a reemplazarlas). Adicionalmente, estos métodos permiten llevar a cabo una clasificación aproximada de compuestos ante la falta de información que muchas veces se registra para sustancias poco manejadas, por los costos y el tiempo que acarrean este tipo de pruebas.

Siguiendo la idea anterior, ante la necesidad de parámetros de seguridad como el LC50 sin incurrir en grandes costos de investigación, la exactitud e implementación cada vez mayor de estos métodos en la industria dependerá del desarrollo de herramientas computacionales para el cálculo de descriptores y el perfeccionamiento de las expresiones relacionadas al cálculo de cada uno de estos.

Nomenclatura

Descriptores

MW Molecular weight

ISIZ Information index on molecular size

Sp Sum of atomic polarizabilities

Mp Mean atomic polarizability

X0sol Solvation connectivity index chi-0

X1sol Solvation connectivity index chi-1

X2sol Solvation connectivity index chi-2

X3sol Solvation connectivity index chi-3

X4sol Solvation connectivity index chi-4

X5sol Solvation connectivity index chi-5

W3D 3D Wiener index

J3D 3D Balaban index

H3D 3D Harary index

PJI3 3D Ptitjean shape index

nCL Number of Chlorine atoms

nH Number of Hydrogen atoms

nBR Number of Bromine atoms

nC Number of Carbon atoms

nN Number of Nitrogen atoms

nP Number of Nitrogen atoms

nRNH2 Number of primary amines (aliphatic)

nArNH2 Number of primary amines (aromatic)

nRNHR Number of secondary amines (aliphatic)

nArNHR Number of secondary amines (aromatic)

nS Number of Sulfur atoms

nHAcc Number of acceptor atoms for Hbonds(N,O,F)

Hy Hydrophilic factor

PHI Kier flexibility index

AMR Ghose-Crippen molar refractivity

TPSA(NO) Fragment-based polar surface area (using N,O)

TPSA(Tot) Fragment-based polar surface area(using N,O,S,P)

(14)

14

MLOGP2 Squared Moriguchi octanol-water partition

coeff.(logP^2)

ALOGP Ghose-Crippen octanol-water partition coeff.(logP)

ALOGP2 Squared Ghose-Crippen octanol-water partition coeff.(logP^2)

Bibliografía

[1] OSHA, «Hazard communication: Foundation of Workplace Chemical Communication,» 2010. [En línea]. Available: https://www.osha.gov/dsg/hazcom/index.html. [Último acceso: 14 09 2015].

[2] F. A. Quintero, S. J. Patel, F. Muñoz y M. S. Mannan, «Review of existing QSAR/QSPR models developed for properties used in hazardous chemicals classification system,» Universidad de los Andes, Bogotá, 2012.

[3] Ministerio de Relaciones Exteriores de la República de Colombia, «Informe Nacional a la Comisión Sobre el Desarrollo Sostenible en Relación con las Esferas Temáticas de sus Períodos de Sesiones 18º y 19º (Productos Químicos, Mínería, Marco Decenal de Programas Sobre Pautas Sostenibles de Producción y Consumo),» Bogotá, 2011.

[4] Neavs, «Product Development and Drug Testing,»

2015. [En línea]. Available:

http://www.neavs.org/research/testing. [Último acceso: 10 Noviembre 2015].

[5] A. R. Katritzky y V. S. Lobanov, «QSPR: The Correlation and Quantitative Prediction of Chemical and Physical Properties from Structure,» Chemical Society Reviews, nº 24, pp. 279-287, 1995.

[6] C. Nieto-Draghi, G. Fayet, B. Creton, X. Rozanska, P. Rotureau, J.-C. de Hemptinne, P. Ungerer, B. Rousseau y C. Adamo, «A General Guidebook for the Theoretical Prediction of Physicochemical Properties of Chemicals for Regulatory Purposes,» Chemical Reviews, París, 2015.

[7] K. Roy, S. Kar y R. N. Das, Understanding the Basics of QSAR for Applications in Pharmaceutical Sciences and Risk Assessment, San Diego: Elsevier, 2015.

[8] H. Kubinyi, QSAR: Hansch Analysis and Related Approaches, Wenheim: VCH, 1993.

[9] J. Gasteiger y T. Engel, Chemoinformatics, Weinheim: Wiley-VCH, 2003.

[10] J. Devillers y J. Flatin, «A general QSAR model for predicting the acute toxicity of pesticides to LEPOMIS MACROCHIRUS,» SAR and QSAR in Environmental Research, pp. 397-417, 2001.

[11] R. Garcia-Domonech y P. Alarcon-Elbal, «Prediction of acute toxicity of organophosphorus pesticides using topological indices,» SAR and QSAR in Environmental Research, pp. 745-755, 2007.

[12] Canadian Centre for Occupational Health and Safety, «OSH Answers Fact Sheets,» 28 Agosto 2013. [En

línea]. Available:

http://www.ccohs.ca/oshanswers/chemicals/ld50.html. [Último acceso: 27 Febrero 2016].

[13] R. Todeschini, «Acute toxicity to fish dataset,» [En

línea]. Available:

http://michem.disat.unimib.it/chm/download/toxicityfish.ht m. [Último acceso: 27 Febrero 2016].

[14] The OECD QSAR Toolbox for Grouping Chemicals into Categories, «QSAR Toolbox,» Organisation for Economic Co-operation and Development, 2010. [En línea]. Available: http://www.qsartoolbox.org/.

[15] United States Environmental Protection Agency, «Ecotox Database,» [En línea]. Available: http://cfpub.epa.gov/ecotox/.

[16] ECETOC. European Centre For Ecotoxicology and Toxicology of Chemicals, «TR 091-ECETOC Aquatic Toxicity (EAT) database,» 2003. [En línea]. Available: http://www.ecetoc.org/technical-reports.

[17] M. Cassotti, D. Ballabio, R. Todeschini y V. Consonni, «A similarity-based QSAR model for predicting acute toxicity towards the fathead minnow (Pimephales promelas),» SAR and QSAR in Environmental Research, vol. 26, nº 3, pp. 217-243, 2015.

[18] D. Ballabio, A. Manganaro, V. Consonni, A. Mauri y R. Todeschini, «Introduction to MOLE DB - on-line

Molecular Descriptors Database,» MATCH

communications in mathematical and in computer chemistry, 2009. [En línea]. Available: http://michem.disat.unimib.it/mole_db/help/query_help_intr o.php. [Último acceso: 29 Febrero 2016].

[19] Agency for Toxic Substances and Disease Registry (ATSDR), «EPA Reportable Quantity Methodology Used to Establish Toxicity/Environmental Scores for the Substance Priority List,» ATSDR, Atlanta.

[20] G. James, D. Witten, T. Hastie y R. Tibshirani, «An Introduction to Statistical Learning,» Nueva York, Springer, 2013, p. 204.

[21] S. D. Krämer y H. Wunderli-Allenspach, «Physicochemical properties in pharmacokinetic lead optimization,» Elsevier, Zurich, 2001.

[22] P. C. Burcham, «An Introduction to Toxicology,» Nueva York, Springer, 2014, pp. 55-59.

[23] P. C. Burcham, «An Introduction to Toxicology,» Nueva York, Springer, 2014, pp. 59-60.

(15)

15

[24] P. C. Burcham, «An Introduction to Toxicology,»

Nueva york, Soringer, 2014, pp. 61-62.

[25] P. C. Burcham, «An Introduction to Toxicology,» Nueva York, Springer, 2014, p. 66.

[26] A. C. Acock, «Influential observation: DFbeta,» de A Gentle Introduction to Stata, College Station, Stata Press, 2008, p. 237.

[27] D. N. Gujarati, «Multicollinearity,» de Basic Econometrics, McGraw-Hill, 2002, p. 356.

[28] D. N. Gujarati, «Heteroscedasticity,» de Basic Econometrics, McGraw-Hill, 2002, p. 423.

[29] A. K. Ghose y G. M. Crippen, «Atomic Physicochemical Parameters for Three-Dimensional Structure-Directed Quantitative Structure-Activity Relationships I. Partition Coefficients as a Measure of hydrophobicity,» Michigan, 1986.

[30] P. Ertl, B. Rohde y P. Selzer, «Fast Calculation of Molecular Polar Surface Area as a Sum of Fragment-Based

Contributions and Its Application to the Prediction of Drug Transport Properties,» J. Med. Chem, vol. 43, pp. 3714-3717, 2000.

[31] K. Xu, K. C. Das y N. Trinajstic, «The Harary Index,» de The Harary Index of a Graph, Heidelberg, Springer, 2015, pp. 2-4.

[32] Kode Chemoinformatics, «Dragon 7.0,» Kode Chemoinformatics, [En línea]. Available: https://chm.kode-solutions.net/products_dragon.php. [Último acceso: 4 Mayo 2016].

[33] Talete, «Atom-centred fragments,» Talete, [En

línea]. Available:

http://www.talete.mi.it/help/dproperties_help/index.html?m olecular_properties.htm. [Último acceso: 8 Mayo 2016].

[34] Talete, «Molecular properties,» Talete, [En línea]. Available:

http://www.talete.mi.it/help/dproperties_help/index.html?m olecular_properties.htm. [Último acceso: 8 Mayo 2016].

(16)

16

Anexos

A.1. Modelo de regresión lineal múltiple establecido sin datos influyentes

A.2. Modelos de regresión lineal múltiple para variables ADME sin datos influyentes

_cons 2.125201 .1170979 18.15 0.000 1.894612 2.35579 h3d -.0045201 .0010955 -4.13 0.000 -.0066775 -.0023628 tpsatot .014965 .0019902 7.52 0.000 .0110459 .0188841 alogp2 .0214911 .0173928 1.24 0.218 -.0127589 .055741 alogp .7021858 .0790485 8.88 0.000 .5465233 .8578483 LC50 Coef. Std. Err. t P>|t| [95% Conf. Interval] Total 322.178354 262 1.22968837 Root MSE = .65931 Adj R-squared = 0.6465 Residual 112.150346 258 .434691264 R-squared = 0.6519 Model 210.028007 4 52.5070018 Prob > F = 0.0000 F( 4, 258) = 120.79 Source SS df MS Number of obs = 263

* p<0.05, ** p<0.01, *** p<0.001 Standard errors in parentheses

rmse 0.660 0.678 0.649 0.641 0.639 0.755 BIC 546.0 556.0 541.6 539.8 538.4 612.0 AIC 531.8 545.3 523.8 518.4 517.0 601.2 adj. R-sq 0.646 0.626 0.658 0.666 0.668 0.537 R-sq 0.650 0.629 0.663 0.672 0.674 0.540 N 263 263 263 263 263 263 (0.104) (0.106) (0.103) (0.121) (0.124) (0.123) _cons 2.057*** 2.009*** 2.010*** 1.831*** 2.200*** 2.017*** (0.0396) mlogp 0.692*** (0.0210) sp -0.125*** (0.0283) (0.0362) x0sol 0.0765** 0.163*** (0.0221) (0.0224) (0.0210) phi 0.0698** 0.0836*** 0.0720*** (0.00108) (0.00133) (0.00142) h3d -0.00429*** -0.00680*** -0.00831*** (0.00199) (0.00186) (0.00196) (0.00267) (0.00269) (0.00210) tpsatot 0.0151*** 0.0118*** 0.0148*** 0.00983*** 0.00827** 0.0132*** (0.0391) (0.0334) (0.0385) (0.0540) (0.0542) alogp 0.787*** 0.701*** 0.782*** 0.678*** 0.720*** LC50 LC50 LC50 LC50 LC50 LC50 (1) (2) (3) (4) (5) (6)

(17)

17

A.3. Modelo de regresión lineal múltiple final

A.4. Resultados análisis de multicolinealidad

A.5. Pruebas de heterocedasticidad de Breusch-Pagan

A.5.1. Prueba de heterocedasticidad modelo final

A.5.2 Prueba de heterocedasticidad para el descriptor AlogP

A.5.3 Prueba de heterocedasticidad para el descriptor TPSA(tot)

_cons 2.05734 .1035252 19.87 0.000 . h3d -.0042864 .0010802 -3.97 0.000 -.1804939 tpsatot .0150604 .0019907 7.57 0.000 .3177869 alogp .7871068 .0390944 20.13 0.000 .9227543 LC50 Coef. Std. Err. t P>|t| Beta Total 322.178354 262 1.22968837 Root MSE = .65998 Adj R-squared = 0.6458 Residual 112.814023 259 .435575379 R-squared = 0.6498 Model 209.36433 3 69.7881101 Prob > F = 0.0000 F( 3, 259) = 160.22 Source SS df MS Number of obs = 263

Mean VIF 1.46

tpsatot 1.31 0.766211 h3d 1.53 0.653482 alogp 1.55 0.643625 Variable VIF 1/VIF

Prob > chi2 = 0.0020 chi2(1) = 9.51

Variables: fitted values of LC50 Ho: Constant variance

Breusch-Pagan / Cook-Weisberg test for heteroskedasticity

Prob > chi2 = 0.0001 chi2(1) = 15.44 Variables: alogp Ho: Constant variance

Breusch-Pagan / Cook-Weisberg test for heteroskedasticity

Prob > chi2 = 0.0338 chi2(1) = 4.50 Variables: tpsatot Ho: Constant variance

Referencias

Documento similar

En la base de datos de seguridad combinados de IMFINZI en monoterapia, se produjo insuficiencia suprarrenal inmunomediada en 14 (0,5%) pacientes, incluido Grado 3 en 3

If certification of devices under the MDR has not been finalised before expiry of the Directive’s certificate, and where the device does not present an unacceptable risk to health

In addition to the requirements set out in Chapter VII MDR, also other MDR requirements should apply to ‘legacy devices’, provided that those requirements

The notified body that issued the AIMDD or MDD certificate may confirm in writing (after having reviewed manufacturer’s description of the (proposed) change) that the

En este ensayo de 24 semanas, las exacerbaciones del asma (definidas por el aumento temporal de la dosis administrada de corticosteroide oral durante un mínimo de 3 días) se

En un estudio clínico en niños y adolescentes de 10-24 años de edad con diabetes mellitus tipo 2, 39 pacientes fueron aleatorizados a dapagliflozina 10 mg y 33 a placebo,

• Descripción de los riesgos importantes de enfermedad pulmonar intersticial/neumonitis asociados al uso de trastuzumab deruxtecán. • Descripción de los principales signos

&#34;No porque las dos, que vinieron de Valencia, no merecieran ese favor, pues eran entrambas de tan grande espíritu […] La razón porque no vió Coronas para ellas, sería