VI-4.1. Índice de selección individual
VI-4.2. Índice de selección a partir de la información de uno de los padres
VI-4.3. Índice de selección a partir del dato de un hijo VI-4.4. Índice de selección a partir del dato de un nieto VI-4.5. Índice de selección a partir de la media de los n datos del propio individuo
VI-4.6. Índice de selección a partir de la media de los datos de n hermanos de padre
VI-4.6.1. La media de los datos no incluye el dato del individuo
VI-4.6.2. La media de los datos sí incluye el dato del individuo
VI-4.7. Índice de selección a partir de la media de los datos de n hijas
VI-4.8. Índice de selección cuando se utilizan varias fuentes de información
VI-4.9. Índice de selección cuando la fuente de información es un carácter diferente
VI-4.10. Índice de selección cuando la fuente de información es el dato del propio individuo en un carácter diferente VI-4.11. Índice de selección cuando se utilizan varias fuentes de información
VI-1. Valoración genética mediante BLP: Los
índices de selección
El método BLP descrito más arriba desde un punto de vista teórico equivale a lo que en la práctica se conoce como Índice de Selección. La expresión teórica desarrollada más arriba para este método es la siguiente:
( ) ( )
E K'b M'u+ =K'b C'V y Xb+ -1 −
En esta expresión los efectos fijos se asumen conocidos. Dado que necesitamos un valor para el vector b de efectos fijos, estos se obtienen previamente con el empleo de un modelo fijo. Así, en la ecuación del modelo mixto original se define un nuevo residuo e* = Zu + e. El nuevo modelo ignora las relaciones entre individuos y proporciona estimaciones a partir del estimador minimocuadrático:
(
1)
1 1ˆ ’ − − ’ −
=
b X R X X R y
Y a continuación se asume que estos estimadores son el verdadero valor:
Se ha querido encuadrar este paso porque tiene varias implicaciones.
En primer lugar, el hecho de ignorar los efectos aleatorios para estimar los efectos fijos provoca un sesgo en la estimación de los efectos fijos. Así, si la distribución de los niveles de los efectos aleatorios no es homogénea, se asignará parte de los efectos aleatorios al resultado de los efectos fijos. Pensemos por ejemplo en un efecto fijo “ganadero”. Imaginemos dos ganaderos con un nivel de manejo similar. Uno de ellos es un hombre preocupado
ˆ =
por tener animales de mayor producción por lo que tendrá producciones mayores que el otro ganadero si éste es un hombre despreocupado. La solución proporcionada por el modelo fijo dará valores superiores para el primero, y estas diferencias en el valor de las ganaderías serán asignadas a diferencias en el manejo cuando en realidad son diferencias en el valor genético medio.
Dado que conocemos los efectos fijos, la combinación lineal de efectos fijos y aleatorios deja de tener sentido. E(K’b) = K’b, y entonces el interés ya no se centra en ninguna combinación lineal de efectos aleatorios sino que sólo nos interesa el valor genético de cada uno de ellos:
( ) ( )
E u = =û C'V y Xb-1 −
Recordemos que los estimadores minimocuadráticos de los efectos fijos no son otra cosa que la media de los datos dentro de niveles de los efectos fijos. Así, en la práctica, se ajustan los datos para los efectos fijos restándoles las medias de sus grupos y se les ajusta un modelo aleatorio: y* = y – Xb = Zu + e, cuya solución es la expresada aquí:
*
= -1
û C'V y
En este ajuste se producen las otras implicaciones de asumir los estimadores de b como los verdaderos valores de b. En primer lugar, al ser estimaciones sesgadas se origina también un sesgo en la predicción de los efectos aleatorios. Y, finalmente, dado que el valor de los efectos fijos se asume conocido sin error, cuando en realidad lo tiene, se introduce un error en y* que no existía en y. La magnitud de este error va a depender del error del estimador de la media para la que se ha ajustado, ya que, recuérdese, la varianza de la media es igual a la varianza de la variable partido por el número de datos (
2 2
x = n
σ
σ ). Así pues, cuando se calcule la precisión de los valores genéticos se ignorará este error pudiendo dar por muy preciso un valor genético que en realidad no lo es tanto. Se originan así errores al medir la precisión que serán tan
grandes como los errores de las medias de los grupos a los que pertenecen.
En los índices de selección el vector u, vector de valores genéticos aditivos es aquello que se desea mejorar y se llama objetivo de selección. La información que se utiliza para lograr mejorar el objetivo es la fuente de información, lo que en el contexto de los índices de selección se llama criterio de selección. No existe una norma sobre el número de objetivos y criterios de selección a tener en cuenta, y éstos dependerán del índice concreto que estemos considerando. Dispondremos en el índice dos matrices cuya composición conviene recordar. Así, si se tienen en cuenta n objetivos y m criterios, los elementos C’ y V son:
1 1 1 2 1 3 1 2 1 2 2 2 3 2 1 2 3 .... .... ( , ) ... ... ... .... ... ... ... ... .... ... .... m m n n n n m u y u y u y u y u y u y u y u y u y u y u y u y Cov ⎡ ⎤ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ = = ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎣ ⎦ * C' u y ' σ σ σ σ σ σ σ σ σ σ σ σ 1 1 2 1 3 1 2 1 2 2 3 2 1 2 3 2 2 2 .... .... ( ) ... ... ... .... ... ... ... ... .... ... .... m m m m m m y y y y y y y y y y y y y y y y y y y y y Var ⎡ ⎤ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ = = ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎣ ⎦ * * * * * * * * * * * * * * * * * * * * * * V y σ σ σ σ σ σ σ σ σ σ σ σ
Obsérvese que al no aportar los efectos fijos varianza a los datos, se cumple:
Var (y*) = Var (y – Xb) = Var(y) = V
A pesar de ser sesgados, los índices de selección han sido ampliamente utilizados cuando no existían herramientas informáticas ni se había derivado una metodología que permitiera resolver conjuntamente efectos fijos y aleatorios. Hoy en día los
índices de selección forman parte del pasado y es la metodología BLUP la que ha sido extendida en la valoración genética de todos los esquemas de selección a nivel internacional. Sin embargo su estudio es muy interesante en el aprendizaje de la valoración genética porque permite comparar la precisión de las valoraciones genéticas cuando se utilizan distintas fuentes de información, lo que permite organizar la recogida de datos de manera que su uso posterior sea mejor aprovechado. Así pues, la medida de la precisión es un concepto de elevado interés en el contexto de los índices de selección.
VI-2. La medida del error y de la precisión
Mientras que la varianza de los estimadores proporciona una buena medida de su error, no ocurre así con la varianza de los predictores. Según fue comentado anteriormente, que a diferencia de los efectos fijos, los efectos aleatorios presentan conceptualmente una varianza en su definición. Optaremos entonces por un concepto cercano pero diferente. La medida del error se hará entonces a partir de la varianza del error de predicción ya que fue este concepto el que se empleo como mínimo en la definición de “mejor” predictor.
Así, u es el vector que contiene los verdaderos valores de los efectos aleatorios, û el vector con sus predictores, û – u es vector que contiene los errores de predicción, y su varianza (Varianza del Error de Predicción o VEP), se desarrolla a continuación:
(
)
( )
( )
(
, ')
(
, ')
VEP Var= û u− =Var û +Var u −Cov û u −Cov u û
Desarrollando por partes los distintos elementos de esta expresión:
( )
Var u = G por definición del modelo
( )
(
*)
( )*Var =Var = Var =
= =
-1 -1 -1
-1 -1 -1
û C'V y C'V y V C
(
,)
(
*,)
( , )*Cov û u' =Cov C'V y u'-1 =C'V-1Cov y u' =C'V C-1
(
,)
(
,)
(
)
Cov û u' =Cov u û' '= C'V C ' C'V C-1 = -1
Y sustituyendo:
VEP= −G C'V C -1
Si interesante es la medida del error, igualmente interesante es la medida de la precisión. Pero en el caso de la precisión el valor se puede dar de forma adimensional al proporcionar la correlación entre el predictor y el verdadero valor (ρûu). Como muchas de las correlaciones ésta se puede denominar repetibilidad del mérito genético. Por motivos de cálculo la precisión se calcula como su potencia al cuadrado, valor que se denomina fiabilidad y que es preferido en muchos catálogos como forma de informar del grado de certidumbre del valor genético de un individuo. Obtendremos entonces la fiabilidad a partir del cuadrado de ρûu para facilitar su desarrollo, aunque una vez calculada la precisión de cada individuo, debería obtenerse de ésta la raíz cuadrada. Como todas las correlaciones, se obtendrá la covarianza entre los vectores dividido por el producto de las desviaciones típicas. Dado que trabajamos el cuadrado del parámetro se dividiría por el producto de las matrices de varianzas y covarianzas, pero por tratarse de matrices en las que la operación división no se encuentra definida, se multiplicará por las inversas:
[
] [
2]
1( , ) ( ) ( )
Cov Var Var −
=
2 ûu
ρ û u' û u
Y como Cov( , )û u' =Var( )û =C'V C , el cuadrado del -1
numerador se cancela con Var(û) del denominador:
(
)
−1 = 2 -1 ûu ρ C'V C G Obsérvese que 2 ûuρ es una matriz de correlaciones entre cada valor
cuadrado de la precisión de cada uno de los predictores por lo que será necesario después extraer la raíz cuadrada.
RELACIÓN ENTRE LA VARIANZA DEL ERROR DE PREDICCIÓN Y LA FIABILIDAD
- Obtención de la fiabilidad a partir de la varianza del error de predicción. Partimos de VEP:
VEP= −G C'V C-1
Multiplicamos ambos lados de la igualdad por la inversa de G:
(
)
(
)
VEPG-1=GG-1− C'V C G-1 -1= −I C'V C G-1 -1
Despejamos
(
C'V C G para obtener la precisión: -1)
−1(
)
1 1
VEP − −
− = -1
I G C'V C G
- Obtención de la varianza del error de predicción a partir de la fiabilidad. Se deduce de la expresión anterior:
VI-3. Utilidad de los índices de selección en mejora
animal
Los índices de selección fueron ampliamente utilizados en el siglo pasado cuando aún no se había desarrollado la informática ni había sido desarrollada la forma de resolver el modelo lineal mixto. Teóricamente para cada individuo se debía estudiar la información de la que se disponía, es decir, si teníamos su propio dato, el de un hermano, el del padre, etc., es decir, los criterios de selección a considerar. En función del tipo de información se desarrollaría un índice que proporcionase los coeficientes que establecerían la combinación lineal de esos criterios de selección que llevarían al predictor de su valor genético aditivo. Para ello habría que desarrollar los coeficientes que formarían parte de las matrices C’ y
1 VEP − = − 2 ûu ρ I G
(
)
VEP= − 2 ûu I ρ GEl desarrollo de un índice de selección específico par cada individuo es una tarea inabordable ya que las combinaciones de criterios de selección disponibles posibles son infinitas por lo que esta forma de proceder no era operativa.
Así que la forma de proceder era bien distinta. Se comparaba la precisión que se obtenía al usar determinados tipos de información para cada caso y se diseñaba la recogida de datos de acuerdo con esa decisión. Así nacieron por ejemplo los centros de inseminación artificial, es decir, porque proporcionaban una precisión elevada para evaluar machos que pudieran ser concentrados en un centro de inseminación artificial.
El estudio de la precisión de diferentes tipos de índices de selección resulta enormemente didáctico por lo que a continuación se desarrollan algunos ejemplos.