Bioinformática. 2012
Modelado 3D.
“Introducción”
http://www.cbm.uam.es/bioweb
Paulino Gómez Puertas.
Centro de Biología Molecular "Severo Ochoa"
CSIC-UAM, Madrid
Centro de Investigacion y Tecnologia
Agroalimentaria. CITA - DGA.
Bioinformática. 2012
Predicción de estructura de proteínas:
Características 1D.
1 ASKGEELFTGVVPILVELDGDVNGHKFSVSGEGEGDATYGKLTLKFICTT
TTGGGGSSEEEEEEEEEEEETTEEEEEEEEEEEETTTTEEEEEEEETT
51 GKLPVPWPTLVTTFSYGVQCFSRYPDHMKRHDFFKSAMPEGYVQERTIFF
SS SS
GGGGHHHH
SSS
GGG
B
GGGGGG
HHHH
TTTT EEEEEEEEE
101 KDDGNYKTRAEVKFEGDTLVNRIELKGIDFKEDGNILGHKLEYNYNSHNV
TTS EEEEEEEEEEETTEEEEEEEEEEE TTSTTTTT B S
EEE
151 YIMADKQKNGIKVNFKIRHNIEDGSVQLADHYQQNTPIGDGPVLLPDNHY
EEEEE
GGG
TEEEEEEEEEEEETTS EEEEEEEEEEEESSSS SEE
201 LSTQSALSKDPNEKRDHMVLLEFVTAAGIT HGMDELYK
EEEEEEEE TT SSEEEEEEEEEEES
Notación de estructura secundaria
T=hydrogen bond turn, H=helix, G=310 helix, I=phi helix, B=residue in isolated beta bridge,
E=strand, and S=bend
Bioinformática. 2012
Métodos de 1
aGeneración :
Estos son métodos estadísticos basados en la tendencia que presentan los aminoácidos a adoptar estructuras secundarias.
El primero, propuesto por Chou y Fasman en 1974 empleaba estadísticas extrapoladas de las 15 estructuras de proteínas determinadas por rayos-X.
Tendencias que se basaban en las propiedades estereoquímicas y fisicoquímicas de los diferentes residuos (casos especiales son glicina y prolina). Este método se ha mejorado aumentando el número de proteínas empleadas.
El método presenta una fiabilidad de ~50% (cuando se emplean 62 proteínas para obtener las estadísticas).
Métodos de 2
aGeneración :
La principal mejora de esta 2a generación de métodos es la combinación de bases de datos mayores de estructura de
proteínas y el uso de estadísticas basadas en segmentos: típicamente 11-21 residuos adyacentes y las estadísticas se compilan para evaluar la propensión del residuo central de ese segmento a estar en una determinada estructura secundaria. Los algoritmos principalmente empleados estabann basados en información estadística, propiedades fisicoquímicas, perfiles de secuencia, redes de multicapas, teoría de grafos, estadísticas multivariable, reglas expertas, “nearest-neighbour”.
Métodos de 3
aGeneración :
La incorporación de la información evolutiva permite una mejora de estas predicciones. Los perfiles de intercambio de residuos extraídos de los alineamientos de una familia son indicativos de detalles estructurales específicos. Además estos perfiles implícitamente contienen información no local, ya que la selección evolutiva de proteínas se hace a nivel de estructura 3D y no a nivel de secuencia.
Scheme for PHD Protein Prediction Methods
Rost et al. (1997) J. Mol. Biol. 270: 471-480
Sequence information
from protein family
Profile divided from multiple aligment
for a window of adjacent residues
Two levels of neural network
systems: PHDsec and PHDhtm
One level of network
PHDacc
Bioinformática. 2012
Método de 3 fases :
- perfiles de secuencia (matriz
de sustitución como input para
la red neuronal)
- 1
a
red neuronal
(15 x 21 input, 3 output: h,s,c)
- 2
ared neuronal
(15 x 4 input, 3 output: h,s,c)
Q
3= 76.7 – 78.3%
Ventana óptima = 15 residuos
20+1 incluye la posible expansión de la
cadena; N-, C-
3+1 incluye la posibilidad de expansión
de N-
340.000 seqs.
non redundant
Databank
Query sequence
PSI-blast
3 Int.
PSI-blast hits
20aa
Seq
. L
en
g
.
Position specific
scoring matrix
(log odds)
i
15 aa
scrolling
window
around
residue i
2nd neural network
3x15 input, 3 output
3 state prediction
for residue 1
1st neural network
15x20 input, 3 output
3 state
prediction
for residue
i+1
3 state prediction
for residue i+2
Predicción de Estructura Secundaria, PSI-Pred
http://www.psipred.net
Ventajas y Problemas :
Ventajas:
• fiabilidad (predicciones 3-estados) > 70% • fiabilidad para las betas ~ alfa ~ “loops”
Problemas:
• malos alineamientos llevan a malas predicciones
• confusión de alfas y betas se da en regiones en que se establecen interacciones a largo rango • precaución al evaluar los resultados para proteínas con características inusuales
Servidores disponibles:
• PHDsec red neuronal que emplea alineamientos múltiples de secuencias. Fiabilidad ~70%.
• Jpred2 dos redes neuronales e información evolutiva (PsiBlast). Versión 2 combina los resultados de 4 redes (JNet, NSSP, Predator, PHD)
• PSIpred usa perfiles de PsiBlast (filtrando los resultados) y redes neuronales (combina los resultados de varios métodos de predicción de estructura secundaria). Acierto >76%.
Bioinformática. 2012
Predicción de Estructura Secundaria
Accesibilidad al Solvente
Predicción de Proteínas Transmembrana
Modificaciones Post-transcripcionales
http://www.expasy.ch/tools/
:
• SignalP predicción de péptidos señales
• ChloroP predicción de péptidos de cloroplastos • MITOPROT predicción de secuencias diana de mitocondria
• Predotar predicción de secuencias diana de mitocondria y plástidos
• NetOGlyc predicción de sitios de O-glicosilación en proteínas de mamíferos
• NDictyOGlyc predicción de sitos de GlcNAc O-glicosilación en “Dictyostelium”
Predicción de estructura de proteínas.
Reconocimiento de plegamiento
Bioinformática. 2012
Espacio Estructural
Espacio de Secuencias
Homology Modelling Targets
Fold Recognition Targets
Espacio de Secuencias vs. Espacio de Estructuras
El desarrollo de los métodos de reconocimiento de plegamiento
se deriva de la observación de que muchas secuencias
Bioinformática. 2012
Modelado por Homología
vs Reconocimiento de Plegamiento
Threading
Modelado por Homología
% seq. ID
0
30
100
Aplicación
Calidad del
Modelo
Cualquier Secuencia
>= 30-50% similitud
con el molde
Nivel de Plegamiento
Nivel Atómico
Secuencia
diana
Superfolds
Bioinformática. 2012
Algoritmos de threading. General.
Secuencia
problema
Count pairs of each residue
type at different separations
Algoritmos de threading
Potenciales de contacto
Energy of interaction =
-KT ln (frequency of interactions)
Boltzmann principle
d
Jones, 1992; Sippl, 1995Bioinformática. 2012
Algoritmos de threading
Coincidencia de estructura secundaria y accesibilidad
Rost, 1995
http://cubic.bioc.columbia.edu/predictprotein
secondary
structure
prediction
ALGUNOS SERVIDORES DE THREADING
Bioinformática. 2012
ALGUNOS SERVIDORES DE THREADING
ALGUNOS SERVIDORES DE THREADING
Bioinformática. 2012