Introduccion a La Bioestadistica Analisis de Variables Binarias Medilibros.com

(1)

(2)

introducción

a la

BIOESTADÍSTICA

ANÁLISIS DE

VARIABLES BINARIAS

ZZZPHGLOLEURVFRP

(3)

José Luis Pablos Mach Ingeniero Agrónomo,

Escuela Nacional de Agricultura Chapingo, Maestro en Ciencias,

Colegio de Posgraduados Chapingo, Profesor de Materia,

Facultad de Medicina Veterinaria y Zootecnia, UNAM

(4)

introducción

a la

BIOESTADÍSTICA

ANÁLISIS DE

VARIABLES BINARIAS

McGRAW-HILL

MÉXICO • BOGOTÁ • BUENOS AIRES • CARACAS • GUATEMALA • LISBOA MADRID • NUEVA YORK • PANAMÁ • SAN JUAN • SANTIAGO • SAO PAULO AUCKLAND • HAMBURGO • LONDRES • MILÁN • MONTREAL • NUEVA DELHI

PARIS • SAN FRANCISCO • SINGAPUR • ST. LOUIS SIDNEY • TOKIO • TORONTO

(5)

Análisis de variables binarias

Prohibida la reproducción total o parcial de esta obra, por cualquier medio, sin autorización escrita del editor.

Atlacomulco 499-501, Fracc. Industrial San Andrés Atoto 53500 Naucalpan de Juárez Edo. de México

Miembro de la Cámara de la Industria Editorial, Reg. Num. 465 ISBN 968-422-387-0

1234567890 P.E.-87 8012345697 Impreso en México Printed in Mexico Esta obra se terminó de

imprimir en noviembre de 1987 en Programas Educativos, S. A. Calz. Chabacano No. 65-A Col. Asturias

Delegación Cuauhtemoc 06860 México, D. F.

(6)

Cristina Ricardo Ricardo Mariamar

(7)

(8)

Acerca del autor

Ricardo R. Navarro Fierro es médico veterinario y zootecnista, título que recibió de la Universidad Nacional Autónoma de México, donde cursó la Maestría en Pro-ducción Animal en el área de Genética; asimismo, hizo la Especialidad en Estadísti-ca ApliEstadísti-cada en la Instituto de Investigaciones en MatemátiEstadísti-cas ApliEstadísti-cadas y en Siste-mas (IIMAS) de la misma universidad.

Ha colaborado por largo tiempo con el Departamento de Genética y Bioestadística de la Facultad de Veterinaria, donde coordinó el sistema de asesoría en estadística. Esta obra es, en parte, fruto de la experiencia adquirida en dicha acti-vidad. Durante más de dos años coordinó el Servicio Social de la misma Facultad. Recientemente organizó la creación del Centro de Cómputo de la Facultad.

En cuanto a docencia, ha impartido cursos de Bioestadística y de Genética a los estudiantes de medicina veterinaria y zootecnia, así como de Diseño de Experi-mentos y de Bioestadística a nivel de posgrado. Su producción científica incluye cerca quince artículos originales publicados en revistas científicas internacionales, tanto de América como de Europa, aproximadamente treinta y cinco artículos com-pletos y más de cuarenta resúmenes en memorias de congresos, al igual que más de veinte artículos de divulgación. Su labor incluye la asesoría en seis tesis de posgrado y unas setenta tesis de licenciatura, la mayoría de médicos veterinarios y zootecnistas. También ha participado en siete congresos nacionales y tres interna-cionales. Sus investigaciones le han valido, en dos ocasiones, el Premio al Mejor Tra-bajo en Genética y Reproducción de la Asociación Mexicana de Veterinarios Espe-cialistas en Cerdos; también se le ha distinguido con un nombramiento dentro del Sistema Nacional de Investigadores de la Secretaría de Educación Pública.

Actualmente trabaja en la Facultad de Medicina Veterinaria y Zootecnia de la Universidad Nacional Autónoma de México, donde dirige el centro de cómputo ya referido, practica la docencia e investiga acerca de cuestiones de producción ani-mal, sobre todo en el área de mejoramiento genético del cerdo.

(9)

(10)

Deseo agradecer a todas las personas que de una u otra manera contribuyeron al mejoramiento del libro. De manera especial agradezco los comentarios de Francisco Aranda y de José Luis Pablos acerca del contenido y su enfoque. A mi esposa Cristina le agradezco su paciente transcripción del manuscrito y a Joaquín Mejía y Ricardo Viesca la prolongada labor editorial. ¡En fin! De algu-na manera tengo que reconocer que Francisco y José Luis idearon el libro, Cris-tina lo escribió y Joaquín y Ricardo se encargaron de publicarlo; mi participa-ción se limita a recibir las críticas por los errores; así pues, asumo la responsabi-lidad por todos los errores reales o imaginarios que tenga este libro. Aprovecho para pedir a los lectores que me hagan saber los comentarios que tengan en relación a esta obra, ya sea sobre fallas que le encuentren o en cuanto a ideas que contribuyan a mejorar futuras ediciones. La correspondencia debe dirigirse a:

Ricardo Navarro Fierro Depto. de Genética y Bioestadística Facultad de Medicina Veterinaria y Zootecnia Universidad Nacional Autónoma de México México, D.F. 04520

(11)

(12)

Contenido

Prefacio

I. La tabla de contingencia 2x2

1. INTRODUCCIÓN 1

2. APLICACIÓN DE LA TABLA 2x2 2

3. VARIABLES QUE FORMAN LA TABLA 2x2 2

a) Dos valores exhaustivos 2

b) Valores mutuamente excluyentes 3

4. CUALIDADES DE LAS VARIABLES BINARIAS 3

a) Escala de medición más simple 4

b) Posesión de un orden intrínseco 5

5. NOMENCLATURA UTILIZADA EN LA TABLA 2x2 5

6. CÁLCULOS DE PROBABILIDAD EN UNA TABLA 2x2 6

a) Probabilidad de un evento 6

b) Probabilidad conjunta de dos eventos 8

c) Probabilidades condicionales 8

d) Independencia entre dos variables binarias 8

7. PREGUNTAS Y EJERCICIOS 9

8. GLOSARIO 10 II. Estudios que originan una tabla 2x2

1. INTRODUCCIÓN 13 2. DISTINCIÓN ENTRE EXPERIMENTOS Y

ESTUDIOS OBSERVACIONALES 14

3. TIPOS DE MUESTREO APLICABLES A LA TABLA 2x2 16

(13)

c) Muestreo experimental 19 4. MUESTRAS INDEPENDIENTES CONTRA DATOS APAREADOS 19

5. RELACIÓN DE LA POBLACIÓN CON LA MUESTRA 21

6. EJEMPLOS INTEGRADOS 21

8. GLOSARIO 24 III. Medidas descriptivas para una tabla 2x2

1. INTRODUCCIÓN 27

2. ESTIMACIÓN DE LAS MEDIDAS DESCRIPTIVAS 28

a) Estimación de punto o puntual 28

b) Estimación por intervalo 29

3. DESARROLLO DE UNA MEDIDA DESCRIPTIVA: LA PROPORCIÓN 30

4. CLASIFICACIÓN DE LAS MEDIDAS DESCRIPTIVAS 32

5. MEDIDAS DE ASOCIACIÓN 34

a) Phi cuadrada (I2

) 34

b) C de Cramer 35

c) Proporción explicada de la varianza (Pev) 35

d) Phi (I) 36

e) Tau b de Kendall (Wb) 36

f) Coeficiente medio de contingencia (Cm) 37

6. MEDIDAS DE PREDICCIÓN 40

a) Delta de Somers (G) 41

b) Gamma de Goodman y Kruskal (J) 43

c) Lambda de Goodman y Kruskal (O) 47

d) Riesgo atribuible (Ra) 50

e) Potencia atribuible (Pa) 51

f) Proporción atribuible (Prop a) 52

7. MEDIDAS DE COMPARACIÓN 53 a) Razón de momios (M) 53 b) Riesgo relativo (Rr) 57 c) Potencia relativa (Pr) 58 8. MEDIDAS DE CONCORDANCIA 59 a) Kappa de Cohen (K) 60

9. VALORACIÓN DE UNA PRUEBA DIAGNÓSTICA 64

a) Calidad general de una prueba 65

b) Estimación de la sensibilidad y la especificidad 65

(14)

11. GLOSARIO 76 IV. Pruebas estadísticas para una tabla 2x2

1. INTRODUCCIÓN 79 2. LÓGICA Y FUNCIONAMIENTO DE LAS PRUEBAS ESTADÍSTICAS 80

a) Tipos de fallas en la prueba de hipótesis 81

b) Indicadores de la calidad de una prueba 81

3. DESARROLLO DE UNA PRUEBA ESTADÍSTICA 82

4. APLICACIÓN DE UNA PRUEBA ESTADÍSTICA 83

5. PRUEBA DE JI CUADRADA (X2) 84

a) Corrección de yates 86

6. PRUEBA EXACTA DE FISHER 88

7. PRUEBA DE McNEMAR 91

8. PRUEBA DE GART 93

a) Prueba de Gart con muestras pequeñas 95

9. PRUEBA PARA GRADO DE CONCORDANCIA 100

11. GLOSARIO 103 V. Extensiones de la tabla 2x2

1. INTRODUCCIÓN 105

2. COMBINACIÓN DE VARIAS TABLAS 2x2 106

a) Método de Cochran 106

b) Método de Mantel-Haenzel 110

3. MÁS DE DOS PORCENTAJES POR COMPARAR: TABLA C x 2 112

a) Variable nominal de C niveles 116 Comparación de todos los pares de proporciones 116

Comparación con un testigo 119

b) C grupos con un orden propio 120

c) Variable cuantitativa en C puntos 124

VI. Determinación del tamaño de muestra

1. INTRODUCCIÓN 135 2. RELACIÓN DE LA POTENCIA CON EL TAMAÑO DE MUESTRA 136

3. DIFERENCIA MÍNIMA POR DETECTAR 136

a) Ventaja mínima sobre el estándar 137

(15)

MUESTREO MULTINOMIAL 138

a) Porcentajes medios 139

b) Porcentajes pequeños 140

c) Porcentajes graneles 140

5. TAMAÑO DE MUESTRA PARA ESTUDIOS COMPARATIVOS 141

7. GLOSARIO 145 Apéndice A. Tabla de la distribución de X2 147

Apéndice B. Programas de cómputo 149

Bibliografía 163

(16)

Prefacio

Este libro cubre una necesidad importante dentro de la bibilioteca de toda persona dedicada a las ciencias biológicas, ya que reúne, explica y relaciona los métodos estadísticos que permiten manejar un problema que surge con frecuencia en su cam-po profesional, el análisis de dicotomías, como son: muerte-sobrevivencia, salud-enfermedad, hembra-macho, éxito-fracaso y muchas otras del mismo tipo. Lo mismo si se dedica a la investigación que al ejercicio profesional, es usual que re-quiera tener una idea precisa de lo que ocurre con alguna dicotomía, para lograrlo debe utilizar la metodología estadística y, de modo especial, las técnicas estadísti-cas destinadas al análisis de tales dicotomías.

En el campo de las ciencias biológicas son abundantes los estudios de fenóme-nos que se expresan a través de dicotomías. A modo de ejemplo pueden mencionarse las siguientes preguntas: ¿es benéfico el medicamento?, lo que implica estudiar la relación entre las dicotomías "administrar o no el medicamento" y "registrar o no una mejoría del paciente"; ¿es efectiva la vacuna?, esto es, saber si "aplicar o no la vacuna" modifica la probabilidad de "contraer o no la enfermedad"; o bien, ¿la presencia del contaminante afecta la población en estudio?, es decir, ¿la exposición al contaminante aumenta la mortalidad? Si se piensa sobre este punto es fácil en-contrar una gran cantidad de casos cuya solución demanda saber si la presencia o ausencia de un factor está relacionada con el surgimiento de cierto hecho.

En el lenguaje de la metodología estadística se denomina variables binarias a tales dicotomías, y existe una amplia gama de métodos para trabajar los problemas relacionados con ellas. Desafortunadamente la descripción de estos métodos se en-cuentra dispersa en libros y revistas especializados, por lo que resulta muy difícil para quien no posee conocimientos profundos de estadística encontrar las técnicas que se adecuan al problema que le interesa en ese momento. Aun en el caso de en-contrarla, es frecuente que la manera en que está expuesta dificulte su correcta apli-cación y, lo que más grave, que no permita interpretar cabalmente los resultados.

Si bien entre los libros accesibles al profesional de las ciencias biológicas, cier-tos texcier-tos de estadística básica y algunos de epidemiología tratan un poco sobre el tema, es notoria la ausencia de un libro que haga una revisión a fondo de los mé-todos estadísticos enfocados al análisis de variables binarias. Para cubrir tal defi-ciencia se elaboró este libro.

La estructura del libro lleva de manera natural de un tema a otro, presentando en detalle los fundamentos de los aspectos más relevantes de la estadística, por lo que puede utilizarse con provecho como base para un primer curso de introducción

(17)

dera que será utilizado por personas sin una instrucción previa en estadística, de tal manera que también es útil como libro de consulta para los profesionales. El texto se inicia con una exposición de las variables binarias, sus cualidades y limitaciones, asimismo presenta una introducción a los conceptos de probabilidad que se aplican en los capítulos restantes. Siguiendo con el plan de lograr un libro que permita la fácil comprensión del tema, el capítulo II contiene una descripción de las posibles fuentes de información para el análisis de las variables binarias, en la que se detallan los diferentes conjuntos de datos en que puede basarse el estudio y las consecuencias derivadas de la clase de información utilizada como base.

El capítulo HI entra de modo más formal en el tema: reseña las medidas estadís-ticas que permiten describir variables binarias, e incluye una introducción al concepto de medida estadística y al de estimación de estadísticas. La información del tercer capítulo permite determinar cuál medida descriptiva es la más adecuada a un proble-ma en particular y, a la vez, proporciona las bases para su correcta interpretación.

Una vez que se cuenta con la estadística descriptiva adecuada, la consecuencia lógica es que se quiera inferir lo que ocurre en un conjunto mayor de datos. Parte de este problema se trata en el capítulo III —al hablar de estimación estadística—, pero la parte más importante de la inferencia se presenta en el capítulo IV, donde se describen las pruebas estadísticas aplicables a las tablas de contingencia 2 x 2 , esto es, las tablas que se forman con dos variables binarias. El capítulo V se enfoca a la presentación de pruebas estadísticas que permiten inferir acerca de grupos de tablas 2 x 2 y a la descripción de los métodos para analizar los casos en que se tiene una variable binaria y otra que no lo es, es decir el caso de la tabla C x 2.

El último capítulo proporciona la información para responder a una de las pri-meras preguntas que surgen al planear cualquier estudio: ¿cuanta información se necesita para tener conclusiones sólidas? Esto se determina a través de calcular el tamaño de la muestra. La razón para situar este capítulo al final es que para com-prenderlo se requiere entender el proceso de estimación y de inferencia que se ex-pone en los capítulos anteriores.

Después del capítulo VI se adjuntan dos apéndices; el A contiene una tabla es-tadística con valores para X2 que serán de gran utilidad al lector. El apéndice B contiene una serie de programas para computadora, escritos en lenguaje BASIC, que calculan todos los métodos estudiados a lo largo del libro y que se anexan para facili-tar lá resolución de los problemas relacionados con las variables binarias.

El conjunto descrito permite conocer qué son las variables binarias, aprender los conceptos de probabilidad elementales para su uso y análisis, calcular el tamaño de muestra necesario para alcanzar un fin definido, determinar cuál es la medida estadística que se debe aplicar a un problema específico, hacer las pruebas estadís-ticas apropiadas al caso y obtener las conclusiones pertinentes al contexto práctico del estudio. Todo lo anterior se apoya en un gran número de ejemplos, la mayor par-te obpar-tenidos de casos reales. Por tal motivo se puede afirmar que espar-te libro es un elemento valioso para todo profesional de las ciencias biológicas y que no debe fal-tar entre su bibliografía de consulta.

(18)

La tabla de contingencia 2 x 2

La tabla de contingencia 2 x 2 es un medio muy bien definido para expresar en forma resumida los resultados de ciertos estudios, y sirve de base para su análisis estadístico. La tabla de contingencia 2 x 2 es una herramienta de gran utilidad para los profesionales en general y en especial para aquellos relacionados con el área biológica. Es particularmente interesante porque no requiere conocimientos matemáticos profundos.

El objetivo de este capítulo es presentar la tabla 2x2, las variables que la forman y los cálculos de probabilidad asociados a ella, proporcionando los elementos indispensables para comprender los subsecuentes capítulos. Al término del capítulo el lector podrá:

— Explicar qué es una tabla de contingencia 2x2. — Reconocer las variables que la forman.

— Describir las características de las variables binarias. — Utilizar la nomenclatura de la tabla 2x2.

— Construir una tabla 2x2.

— Realizar cálculos de probabilidad en relación con la tabla 2x2.

1. INTRODUCCIÓN

La tabla 2 x 2 es un medio para resumir y presentar los resultados de cierta clase de estudios, su forma es familiar a la mayoría de los profesionales, por lo que es am-pliamente aceptada y cabalmente entendida.

El cuadro 1.1 muestra el esquema general de la tabla 2 x 2, en el se puede constatar la sencillez de esta herramienta estadística: su lectura es simple y, lo más importante, es fácil de analizar e interpretar.

(19)

Cuadro 1.1 Esquema general de la tabla de contingencia 2x2

2. APLICACIÓN DE LA TABLA 2x2

La tabla 2 x 2 es útil cuando se consideran dos variables en cada sujeto examina-do, y cada una de ellas sólo tiene dos resultados posibles; más adelante se verá cómo muchas variables pueden expresarse en esta forma, lo que proporciona una amplia aplicación en la tabla 2x2.

Estas dicotomías son muy frecuentes en la vida real; "éxito o fracaso" y "día y noche" son ejemplos en los que sólo se consideran dos resultados, sin valores intermedios entre ellos. Estos casos son aún más frecuentes en problemas biológicos, donde clasificaciones como "vivo o muerto" y "hembra o macho" no dejan lugar a puntos medios; en general, abundan las situaciones en que se examina la "presencia o ausencia" de alguna característica.

Es común asociar un código binario a los resultados de estas variables. Lo más frecuente es utilizar las cifras "cero" y "uno" para designar a cada valor la variable. El código binario 0 y 1 se aplicará a lo largo del texto.

3. VARIABLES QUE FORMAN LA TABLA 2x2

Para lograr un uso correcto de la tabla 2x2, las variables que la forman deben poseer dos características: que estén constituidas por dos valores exhaustivos y

mutuamente excluyentes. A continuación se explican cada una de ellas. a) DOS VALORES EXHAUSTIVOS

La condición de dos valores exhaustivos indica que los dos únicos niveles de la variable cubren todos los resultados posibles y, por tanto, no existe otro resultado viable; por ejemplo, al clasificar una hembra en gestante o vacía, la hembra está o no en gestación, no hay más.

En algunos casos puede ocurrir que a pesar de que existen otros resultados po-sibles, éstos salen de la población cubierta por el estudio. Por ejemplo, si se clasifica a un grupo de vacas de las razas Pardo Suiza y Holstein es evidente que no se abar-can todas las razas posibles, pero la población de referencia para la investigación

(20)

sólo incluye vacas de las dos razas citadas, y esta limitación deberá tenerse en cuenta al concluir sobre los resultados obtenidos.

b) VALORES MUTUAMENTE EXCLUYENTES

La condición de mutuamente excluyentes indica que cuando ocurre alguno de los re-sultados es imposible que suceda el otro. Así, no puede tenerse una hembra que al mismo tiempo esté y no en gestación.

También para esta segunda característica puede haber excepciones teórica-mente viables. Al buscar información sobre alumnos de las facultades de veterinaria y de administración (se supone que se tiene interés en investigar sólo a la pobla-ción de estas dos áreas), puede existir el caso, aunque es raro, de personas que cur-sen ambas carreras; por tanto el estudio y las conclusiones deberán limitarse a quienes siguen sólo una de estas dos profesiones.

Por supuesto, puede haber estudios en los que exista alguna sobreposición en-tre los resultados potenciales para alguna variable, con casos que combinen los dos niveles de la variable, pero quedan fuera de los propósitos de este libro.

4. CUALIDADES DE LAS VARIABLES BINARIAS

Las variables binarias tienen dos cualidades que les confieren ventajas interesantes: 1) cualquier medición puede reducirse a una escala dicotómica, y 2) pueden dar un orden propio a las variables nominales. Para apoyar la exposición, el cuadro 1.2 con-tiene un resumen de las escalas de medición.

Cuadro 1,2 Características de las escalas de medición

ESCALA CARACTERÍSTICAS NOMINAL = y BINARIA ORDINAL = , , < y >

— IGUALDAD DENTRO DE GRUPOS: todos los que tienen un

mismo valor son iguales para esa variable.

—DIFERENCIA ENTRE VALORES: los que muestran diferentes valores son distintos entre sí.

—EJEMPLO: al medir la especie, las vacas son iguales entre sí y diferentes de los cerdos.

—Variable nominal que comparte algunas cualidades de las ordi nales.

—Además de las características anteriores, presenta un

OR-DEN PROPIO entre los valores de la variable.

—EJEMPLO: al medir el estado de carnes en bueno, regular y malo hay una relación de orden en la que bueno es mejor que regular y que malo.

(21)

INTERVALO = ,  , <, > y distancia RAZÓN O PROPORCIÓN = ,  , <, >, distancia, cero y razón matemática ABSOLUTA = ,  , <, >, distancia, cero, razón matemática y escala única

— A las características anteriores se agrega la noción de DIS-

TANCIA de un punto a otro de la escala.

— Además de saber cuál es mejor, ahora se puede medir que tanto mejor.

— EJEMPLO: al medir la temperatura, 15°C es menor que 22°C, exactamente, 7°C menor.

— Aquí se añaden dos características importantes: el cero ya no es arbitrario, sino que indica un PUNTO DEPARTIDA REAL. Cero kg indica que no hay peso, y es el punto en que se basa la medición de éste, sin importar que se usen kg, Ib o ton. Ade- más, ahora la razón tiene sentido: 6 kg es el doble de 3 kg y aunque cambie la escala esta RAZÓN O PROPORCIÓN se mantiene.

— EJEMPLOS: todas las medidas de peso, volumen y distancia. — Se refiere a los conteos de objetos. Aquí la ESCALA ES ÚNI-

CA e invariable, ya que la medición se refiere al número de individuos o de objetos.

— EJEMPLOS: Número de aves en una parvada, cantidad de lechones en el momento del parto, conteo de parásitos en una muestra de heces.

a) LA ESCALA DE MEDICIÓN MAS SIMPLE

El hecho de que cualquier medida pueda simplificarse llevándola a una escala

bina-ria es fácil de intuir. Por ejemplo, una vabina-riable cuantificada en escala nominal, como

la raza de un borrego (Tabasco, Suffolk o Dorset), puede transformarse en dicotómi-ca: "raza de lana o de pelo", o bien, si se atiende al número de crías por carnada: "raza multípara o unípara", la clasificación dependerá del motivo de la investigación. Aun las variables numéricas, como el peso de una vaca, pueden reducirse a un juicio dicotómico: "estado de carnes aceptable o inaceptable"; otro ejemplo podría registrarse como "peso suficiente o insuficiente para salir al mercado".

Se debe hacer notar que reducir una variable cualquiera a una expresión dico-tómica implica, de manera inevitable, una pérdida de información sobre el evento medido; a cambio, la reducción ofrece mayor simplicidad en el análisis e interpreta-ción del fenómeno que se está estudiando.

Por otro lado, es claro que la reducción aplicable en cada caso particular de-pende del interés que haya motivado el estudio y de las preguntas que se pretende responder con la información que se obtenga al terminar el trabajo.

(22)

b) POSESIÓN DE UN ORDEN INTRÍNSECO

La segunda característica que favorece a las variables de dos niveles es que pueden dar un orden propio a las nominales, las cuales no poseen un orden intrínseco. Esto se debe a que cuando sólo hay dos valores posibles para la variable, puede juzgarse a cualquiera de los dos como mejor o mayor que el otro o simplemente asignarles los valores 0 y 1, sin importar a cuál se favorezca o se le dé el valor más grande, sin que esto afecte la estructura propia de los datos.

Se comprueba fácilmente que a una variable nominal con tres o más niveles no puede dársele un orden sin poner en juego un criterio subjetivo y poco sólido (o muy particular) para asignarles una posición relativa entre sí, ya que esta posición no forma parte de la organización de los datos, no puede ser única e in-equívoca.

Usando de nuevo el ejemplo sobre las razas de borregos, si se insistiera en dar-les un orden, alguien podría ordenarlas de acuerdo al tamaño medio; otra persona podría usar la capacidad reproductiva como criterio de clasificación; algún investi-gador emplearía la producción de lana para acomodarlas, ya sea conforme la longi-tud o de acuerdo con la calidad de la lana producida. Así, habría tantos criterios para ordenar las razas como diferentes intereses pudieran existir sobre estos grupos de borregos, lo cual hace patente que no tienen un orden intrínseco y único entre sí.

Lo mismo sucede con todas las variables nominales, exceptuando las de dos niveles, ya que para éstas sólo hay una sucesión factible: un valor al lado de otro, sin importar cuál se coloca primero. Al registrar el peso de un grupo de lechones, la medición no se afecta si se considera al macho mejor que a la hembra o viceversa. También es indistinto asignar el código "0 = hembra" y "1 = macho" o decidirse por "1 — hembra" y "0 = macho". Es claro que la sucesión de los valores es única y que el orden relativo entre ambos no afecta la medición de la variable.

5. NOMENCLATURA UTILIZADA EN LA TABLA 2x2

Los valores que aparecen en toda tabla 2x2 son el resultado de un conteo, es decir, son el número de casos registrados. Según el código del cuadro 1.1, el valor a es el número de casos en que se combina el nivel 0 para ambas variables, por lo que puede representarse como (0,0); b es la cantidad de individuos que tienen el valor 1 para la

variable X (clasificación vertical) y 0 para la variable Y (renglones), los casos

registrados en b pueden codificarse como (0,1); en forma similar c y d corresponden al conteo de sujetos del tipo (1,0) y (1,1), respectivamente.

En los valores r0, r1, c0 y c1se conocen como totales marginales de renglón los dos primeros y de columna los dos últimos, en tanto que N es el total de casos contenidos en la tabla.

Un ejemplo contribuirá a explicar la nomenclatura utilizada en la tabla 2x2. Considerando un total de 80 vacas (TV = 80) clasificadas en sanas o con mastitis y en gestantes o vacías, como aparece en el cuadro 1.3, r1indica el total de hembras que padecen mastitis (r1 = 50) y r0 incluye a las que no la padecen (r0 = 30). En cuanto al estado reproductivo, los totales de columna expresan las frecuencias para gestantes (c0= 20) y vacías (c1= 60). El número de vacas sanas gestantes se indi-

(23)

Cuadro 1.3 Ejemplo del uso de una tabla 2x2

Estado reproductivo

Gestante Vacía Total

Salud de la ubre Sana Mastitis 13 7 17 43 30 50 Total 20 60 80

can en a (a = 13); b es el número de las que aparecieron sanas y vacías (b = 17); de la misma manera se representa el estado reproductivo de las hembras con masti-tis: c y d reúnen a las gestantes (c = 7) y vacías (d = 43).

6. CÁLCULOS DE PROBABILIDAD EN UNA TABLA 2x2

La probabilidad de ocurrencia de un evento se expresa con un valor comprendido entre cero y uno. La probabilidad cero señala que es prácticamente imposible que suceda el evento, en tanto que el valor de uno se asocia con los resultados que con seguridad han de ocurrir. Los valores próximos a cero se aplican a resultados que difícilmente ocurren; a su vez, las probabilidades cercanas a uno se asignan a los eventos que suceden con mayor frecuencia.

a) PROBABILIDAD DE UN EVENTO

En el caso de la tabla 2x2, los conteos presentados pueden expresarse como

frac-ciones o porcentajes del total de los datos o de un subconjunto de éstos. Cada una de

estas fracciones se interpreta como una probabilidad; es decir, la probabilidad de que se encuentre cierta característica en un caso particular se indica con la fracción de los casos en que se presenta esa cualidad. En el cuadro 1.3 aparecen 20/80 = 0.25 vacas gestantes, por lo que la probabilidad, en ese grupo, de que una hembra cualquiera, esté gestante es de 0.25. En la tabla 2x2 estos cálculos se conocen como

probabilidades marginales, ya que se basan en los totales marginales.

Lo anterior muestra el concepto de probabilidad que se aplicará a lo largo del texto, entendiéndola como la frecuencia relativa con que ocurre un evento. Así, la probabilidad de encontrar una hembra sana es 30/80 = 0.375, expresándola en for-ma de porcentaje es: 0.375 (100) = 37.5%, lo que indica que hay un 37.5% de vacas sanas en este conjunto de 80 hembras y, por tanto, la probabilidad de que una de ellas, elegida al azar, esté libre de mastitis es 0.375. Por lo anterior, se utilizarán como sinónimos de probabilidad términos como proporción, porcentaje y tasa. La figura 1.1 muestra los distintos tipos de probabilidad que se pueden calcular en una tabla 2 x 2 .

(24)

Figura I.1

Representación gráfica de los distintos cálculos de probabilidad

PROBABILIDAD a) MARGINAL b) CONJUNTA DE DOS EVENTOS TOTAL DE DATOS c) CONDICIONAL SUBCONJUNTO

(25)

b) PROBABILIDAD CONJUNTA DE DOS EVENTOS

Se ha mostrado ya la manera de obtener la probabilidad de un evento, pero en la tabla 2 x 2 resulta de mucho interés calcular la probabilidad de que en un indivi-duo ocurran dos eventos a la vez, por ejemplo la probabilidad de encontrar una vaca gestante y de ubre sana. Este valor se conoce como probabilidad conjunta de dos eventos.

El cálculo de estas proporciones en la tabla 2 x 2 es sencillo, sólo se requiere dividir el valor de a, b, c o d, según corresponda, entre el total de los casos, es decir, entre N. Para el ejemplo del párrafo anterior, el cálculo es a/N = 13/80 = 0.1625, en porcentaje: 0.1625 (100) = 16.25%.

c) PROBABILIDADES CONDICIONALES

Cuando el porcentaje de casos que muestra cierta característica se calcula dentro de un subconjunto de los datos (r0, r1, c0 o c1) y no con respecto al total de ellos (TV), el resultado recibe el nombre de probabilidad condicional, y representa la fracción de casos que poseen la característica de referencia dentro del subconjunto definido. Usando el cuadro 1.3 como ejemplo, la posibilidad de encontrar una vaca vacía, en-tre las enfermas de mastitis, es de d/r1 = 43/50 = 0.86 -0.86 (100) = 86%-, lo cual señala que al considerar sólo las hembras enfermas, la probabilidad de encon-trar una vaca vacía es 0.86. Nótese que sólo el 75% del total de 80 animales están vacíos.

d) INDEPENDENCIA ENTRE DOS VARIABLES BINARIAS

Un concepto de gran importancia para los desarrollos posteriores es el de no

asocia-ción, también llamado independencia, entre las dos variables dicotómicas que

for-man la tabla 2 x 2 .

Si el valor que tiene un individuo para una de las variables no afecta las proba-bilidades para la otra, se dice que ambas son independientes, o bien, que no están asociadas.

En una tabla 2 x 2, el hecho de que las dos variables consideradas sean inde-pendientes implica que las probabilidades condicionales son iguales a la

probabili-dad marginal correspondiente. La no asociación también indica que la probabiliprobabili-dad

conjunta de dos eventos específicos es el producto de las probabilidades marginales correspondientes, por ejemplo: a/N = (r0/N) (c0/N), o bien b/N = (ro/N) (c1/N). El

cuadro 1.4 muestra un conjunto de datos hipotéticos en el que hay independencia en-tre la presencia de abortos y el síndrome del ojo azul en cerdos. La fracción de abor-tos en las cerdas enfermas (5/40 = 0.125) es igual a la tasa de aborabor-tos en el otro grupo (15/120 = 0.125) y también es idéntica a la probabilidad marginal correspon-diente (20/160 = 0.125), en tanto que la probabilidad conjunta de aborto y ausencia del síndrome (15/160 = 0.094) es igual al producto de las proporciones marginales respectivas: (20/160) (120/160) = 0.094.

Por el contrario, la asociación o falta de independencia se manifiesta en qué las proporciones marginales y sus respectivas probabilidades condicionales difieren; como ocurre en el cuadro 1.3, donde 13/30 = 0.433 7/50 = 0.140 20/80 =

(26)

Cuadro 1.4

No asociación entre dos variables binarias

Aborto

Síndrome del ojo azul Total Sí No

Sí 5 15 20

No 35 105 140 Total 40 120 160 0.25, de tal modo que las probabilidades difieren de una columna a la otra, lo mismo que de un renglón a otro.

La asociación también puede expresarse como el hecho de que las probabili-dades para una variable se modifican al conocer el valor de la otra, lo que se ve cla-ramente al considerar que la probabilidad de encontrar una vaca gestante, sin atender al estado de la ubre, es 25% (20/80 = 0.25), en tanto que al escoger sólo entre las enfermas de mastitis la probabilidad es 7/50 = 0.14, es decir 14%.

Como conclusión, si hay independencia entre dos variables binarias las proba-bilidades marginales son idénticas a sus correspondientes proporciones condicionales y la probabilidad condicional es igual al producto de las probabilidades marginales del renglón y la columna correspondientes. Cuando hay asociación no se presenta ninguna de los dos igualdades anteriores.

7. PREGUNTAS Y EJERCICIOS

a) Defina un mínimo de tres variables binarias. Asegúrese que cumplan con las

con-diciones de dos valores exhaustivos y mutuamente excluyentes.

b) Defina por lo menos tres variables cuantitativas y redúzcalas a variables binarias. c) Construya una tabla 2 x 2 utilizando la siguiente información: en una granja

existen 100 marranas, de las cuales 40 son de raza Landrace y 60 son Yorkshire. Para cada una se investigó si había parido en los últimos 6 meses, y se encontró que 35 Landrace y 44 Yorkshire parieron en ese periodo; las restantes no parieron en ese tiempo.

d) Con los datos del inciso anterior, y considerando que se toma aleatoriamente una

cerda de ese hato, calcule la probabilidad de que: — Sea Landrace.

— Haya parido.

— Sea Landrace y no haya parido. — Haya parido y sea de raza Yorkshire.

e) Obtenga datos referentes a un problema de su interés y plásmelos en una tabla 2 x 2. Si es necesario reduzca las variables a su expresión dicotómica. Con tal

(27)

información calcule todas las probabilidades marginales, conjuntas y condiciona-les posibcondiciona-les.

f) Con los datos siguientes, obtenidos en dos estudios, construya las tablas 2 x 2

correspondientes y determine en cada tabla si hay independencia entre las va-riables. Compare los resultados de ambas tablas.

— De 68 vacas aparentemente infértiles, 37 fueron tratadas con acupuntura re sultando 21 vacas gestantes; de las no tratadas sólo cuatro resultaron preña das.

— En un hato de 88 borregos Pelibuey y 124 de raza Blackbelly, se encontró que 53 habían tenido algún parto gemelar, siendo 22 los correspondientes a hem bras Pelibuey y el resto a las Blackbelly. Las demás ovejas tuvieron parto sim ple.

8. GLOSARIO

CÓDIGO: conjunto de símbolos, ya sean nombres o números, que se asocia a los distintos valores de una variable y que sirve para reconocerlos entre sí. CÓDIGO BINARIO: conjunto de dos símbolos que se asocia a los resultados de una

variable binaria. Lo más común es que se empleen los números cero y uno para este código.

ESCALAS DE MEDICIÓN: son los distintos niveles en que pueden medirse los resul-tados de una variable binaria. Indican la fuerza de la medición utilizada, es de-cir la capacidad del tipo de medida para reflejar lo sucedido en la variable. EVENTO: resultado que sucede al azar.

INDEPENDENCIA O NO ASOCIACIÓN: es la falta de relación entre las probabili-dades asociadas a cada uno de los valores de dos variables, es decir, que lo ocu-rrido en una no afecta las probabilidades de los valores de la otra.

NOMENCLATURA: conjunto de nombres utilizado para designar las partes de un objeto o de un método. Para la tabla 2 x 2 se aplican:

a b c d Representan el conteo del número de individuos que cae en

cada una de las cuatro categorías consideradas.

r0r1c0c1 Corresponden a los totales marginales; son el resultado de la suma de un renglón o de una columna de la tabla.

N Es el número total de casos o de sujetos considerados en la tabla 2 x 2 .

(28)

PROBABILIDAD: frecuencia relativa con que ocurre un determinado valor de la variable, o una combinación específica de valores de una o más variables. PROBABILIDAD CONDICIONAL: probabilidad calculada en un subconjunto de

da-tos. Se refiere a la frecuencia relativa con que sucede un evento en ese subcon-junto.

PORCENTAJE: es una manera informal de expresar una probabilidad. Consiste en multiplicar por cien la probabilidad: 70% indica una probabilidad de 0.70. PROPORCIÓN: en estadística se utiliza como sinónimo de probabilidad.

TABLA DE CONTINGENCIA: instrumento matemático que sirve para ordenar los resultados de un conjunto de mediciones en una tabla de doble entrada. TABLA 2 x 2: es el caso más simple de la tabla de contingencia. Cada una de las

clasificaciones utilizadas en la doble entrada sólo tiene dos valores.

TASA: frecuencia relativa con que ocurre un evento. Se utiliza como sinónimo de probabilidad.

VALORES: son los distintos estados que puede tomar la variable y, por extensión, las marcas o códigos empleados para reconocerlos entre sí. La edad puede te-ner una amplia gama de valores como: un mes, un año y medio, o 700 días; en tanto que el sexo sólo puede presentar dos valores: hembra o macho. VALORES EXHAUSTIVOS: se refieren al hecho de que un conjunto especificado

de valores cubre todos los casos posibles; es decir, representan a todos los dis-tintos estados que puede tomar la variable.

VALORES MUTUAMENTE EXCLUYENTES: indica que la ocurrencia de un valor excluye o elimina la posibilidad del otro. Al nacer un animal macho, es imposible que nazca hembra con lo que hembra o macho son valores mutuamente excluyentes. En cambio si se mide la salud de un grupo de vacas en sanas, con mastitis o con afecciones en las patas, existe la posibilidad de observar animales con mastitis y problemas de patas, por lo que estos valores no son excluyentes.

VARIABLE: característica que puede tomar diferentes estados o valores en distin-tos sujedistin-tos, pero que sólo puede tener un valor para un sujeto medido. La edad es una variable ya que puede tener diferentes valores en los distintos indivi-duos y es fija para cada persona al momento de medirla; el sexo también es un ejemplo de variable.

VARIABLE BINARIA: un tipo especial de variable, con sólo dos valores posibles, que son exhaustivos y mutuamente excluyentes.

(29)

VARIABLE DICOTÓMICA: variable binaria. VARIABLE DE DOS NIVELES: variable binaria.

(30)

Estudios que originan una

tabla 2 x 2

La forma en que se colecta la información para un estudio, influye de manera deter-minante en el significado de los resultados. Es claro que los datos tomados de un ar-chivo no pueden apoyar las mismas conclusiones que un grupo de datos similar registrado durante un experimento. En el primer caso no es posible garantizar la ca-lidad de la información, en cambio los registros experimentales son de caca-lidad cono-cida y además se sabe en qué circunstancias ocurrió el fenómeno estudiado. Por tal motivo, es de interés reconocer los factores que caracterizan a los distintos tipos de investigación y la manera en que influyen sobre el significado de los resultados. Al finalizar este capítulo, el lector será capaz:

— Clasificar un estudio conforme sus características básicas.

— Entender el efecto del tipo de estudio en los resultados obtenidos. — Diseñar un estudio que sea útil a sus propósitos de investigación.

1. INTRODUCCIÓN

Las tablas 2 x 2, a pesar de ser una de las formas más sencillas para resumir infor-mación, pueden presentar los resultados obtenidos en distintos tipos de estudios. Por ejemplo, un investigador puede seleccionar algunos casos y clasificarlos conforme a dos variables dicotómicas, en tanto que otro puede tomar un cierto número de sujetos con una característica y un grupo con otra característica, para medir en am-bos una variable binaria. Amam-bos plasmarán sus resultados en una tabla 2 x 2 ; sin embargo, las conclusiones que puedan obtener no son las mismas, por lo que es ne-cesario conocer las posibles variantes en los estudios cuyos resultados pueden resu-mirse en una tabla 2 x 2 y saber cómo se afectan las conclusiones a consecuencia del tipo de estudio empleado en la investigación.

En este capítulo se definen y describen los distintos tipos de estudio que pue-den originar una tabla 2 x 2. La clasificación que se expone atiende a diferentes

(31)

Cuadro II.1

Clasificación de los estudios que originan una tabla 2x2

Sección Clasificación

II.2* Estudio de atributos Estudio de tratamientos

II.3* Muestreo multinomial Muestreo comparativo Muestreo experimental II.4* Muestras independ. M. independientes M. apareadas M. independientes M. apareadas

\ \ A * ** ** Ƈ Ƈ * Ƈ **

Se obtiene una muestra de N indivi-duos, que re-presenta a la población de interés

Se toma una mues-tra de C() casos con nivel 0 para X y otro con c, ca-sos con la caracte-rística 1 en la va-riable X. Dando un total de N uni-dades distintas: N = c0 + c1 Se examinan c0 in-dividuos con la ca-racterística 0 en la variable X y lue-go se les estudia cuando poseen el valor 1. Cada uni-dad se registra dos veces.

c0= c1 = N / 2

Se eligen N unida-des experimenta-les, a c0 de ellas se les asigna el trata-miento 0 y a las restantes c, se les administra el otro. Como todo experi-mento implica la ma-nipulación de los tratamientos. N=c0 + c1 A una muestra de c0 sujetos se le da el trata-miento 0, luego se les somete al 1. En ambos ca-sos se registra el resultado en Y. Cada sujeto origina dos observaciones. c0= c1= N/2

Ejemplo*** II. 1 II.2 II.3 II.4 II.5

* Este número refiere a la sección del capítulo II en que se describe la clasificación. ** En todos los casos se puede dar la relación directa y la inversa entre la muestra y la población. *** Hace referencia a los ejemplos presentados en el capítulo II.

aspectos de las investigaciones; para hacerlo de manera ordenada primero se clasifi-can en trabajos experimentales y observacionales; después se les divide con base en el esquema de muestreo usado; luego se distinguen los estudios en que cada indivi-duo se registra sólo una vez de aquellos en los que se considera la respuesta del mismo individuo bajo diferentes condiciones; por último se comparan los casos en que la muestra se obtiene de una población definida, con aquellos en que la defini-ción de la pobladefini-ción surge de una muestra específica. El cuadro II. 1 contiene la cla-sificación propuesta.

2. DISTINCIÓN ENTRE EXPERIMENTOS Y ESTUDIOS OBSERVACIONALES

Uno de los aspectos más importantes al considerar un estudio, está en saber si los resultados provienen de un proceso experimental, en el que se ha controlado la in-tervención de factores extraños a la investigación, o si resultan la observación de algún fenómeno, tal como sucede en forma natural y sin haber intervenido en su desarrollo.

(32)

Por tanto, existe una distinción entre estudios experimentales y

observaciona-les: en un estudio experimental se controlan las condiciones en las que sucede el

evento de interés manipulando una de las variables, lo cual permite analizar el efec-to de ésta sobre la otra, llamada variable de respuesta. Por el contrario, en un estu-dio observacional sólo se registran las condiciones en que ocurre el evento, para evaluar las relaciones entre las distintas variables registradas.

La variable cuyo efecto se analiza a través de un experimento se conoce como

tratamiento, a diferencia de la que se evalúa mediante un estudio observacional,

que se le designa atributo. Ambos son factores; en general, se llama factor a cual-quier variable que pueda afectar la variable de respuesta.

Es importante considerar que el hacer referencia a tratamientos implica la ma-nipulación del factor. Un ejemplo de factor que puede considerarse como tratamiento es el siguiente: un veterinario desea conocer la efectividad de cierta vacuna de reciente aparición en el mercado, en relación con la eficiencia de la que él aplica. Para lograrlo, administra al azar la nueva vacuna a la mitad de un grupo de perros y la otra al resto de ellos. De este modo, las vacunas serán los tratamientos y su comparación se hará bajo un estudio experimental. Si al concluir encuentra que el resultado fue distinto en ambos grupos, podrá inferir que se debe al efecto de la vacuna.

El estudio de un atributo nunca lleva a la conclusión de que el factor conside-rado es la causa de la respuesta; sólo se puede afirmar —si así lo indican los datos— que el factor examinado y la respuesta de interés están asociados. Esto podrá dar origen a un experimento con el fin de averiguar si la relación es o no causal.

El cuadro II.2 contiene una parte de los resultados obtenidos por Rivero (1984) que servirán para ilustrar lo explicado acerca de los atributos. Al encontrar una relación entre la talla del perro y la probabilidad de contraer dirofilariasis, Rivero especula que tal asociación se debe a que los animales de talla pequeña permane-cen en interiores con mayor frecuencia que los más grandes, y por consecuencia están menos expuestos a los moscos que transmiten los parásitos causantes del pro-blema.

Si la proposición es correcta, un factor que permanece fuera del alcance de la investigación, que el perro viva a la intemperie o en interior, es lo que predispone a la enfermedad, pero al asociarse con el atributo registrado, la talla del perro, hace parecer a éste como un factor que modifica la posibilidad de enfermar.

Cuadro 11.2

Dirofilariasis de acuerdo a la tabla del perro*

Talla _Total Chica Grande Sí 1 35 36 Dirofilariasis No 19 19 38 Total 20 54 74 * Datos de Rivero (1984)

(33)

Para que los resultados de una investigación puedan apoyar la causalidad de un factor sobre determinada respuesta se requiere un estudio experimental basado en la aplicación de los tratamientos en forma aleatoria a los animales bajo estudio.

Incluso, existen estudios observacionales en los que no hay una separación cla-ra y formal entre el atributo y la respuesta: desde diferentes puntos de vista cada una de las variables puede ser considerada como atributo o como respuesta de la otra. Todo esto lleva a concluir, aunque sea de manera intuitiva, que el análisis de atributos produce información menos sólida sobre su relación con la respuesta, que la obtenida en los experimentos. Por ejemplo si se registra la presencia de enferme-dades repiratorias en la marrana y de diarreas en la carnada, habrá interés en saber si ambas se relacionan, y no en buscar causalidad de una sobre la otra, por tanto ninguna sería atributo o respuesta de la otra.

Muchos factores pueden estudiarse como atributos o como tratamientos, la dis-tinción en un caso particular se desprenderá de la manera en que se desarrolle el trabajo, por tanto el informe de la investigación deberá señalar la clase de estudio utilizado, y la discusión y conclusiones habrán de hacerse conforme el tipo de inves-tigación empleada.

3. TIPOS DE MUESTREO APLICABLES A LA TABLA 2x2

La forma en que se obtiene la muestra afecta de manera importante a la informa-ción contenida en ella; a la vez influye en el tipo y alcance de las conclusiones que pueden desprenderse del análisis. Por tanto, es importante conocer los diferentes procesos que pueden seguirse para obtener la muestra y cómo influyen los resulta-dos del estudio.

En esta sección se describen los distintos tipos de muestreo que pueden em-plearse en las investigaciones cuyos resultados pueden resumirse en tablas 2 x 2 . También se analiza la información que puede obtenerse en cada caso a partir de la muestra.

A pesar de que contar con muestras apareadas o independientes es resultado del proceso mismo de muestreo, para destacar este punto se le trata como tema cen-tral de la siguiente sección.

Se distinguen aquí tres procesos de muestreo; a) multinomial o natural; b)

com-parativo que puede ser transversal, prospectivo o retrospectivo, y c) experimental.

Estos procesos están representados esquemáticamente en la figura II. 1.

a) MUESTREO MULTINOMIAL

La forma más simple de tomar una muestra para estudiar la relación entre dos va-riables dicotómicas es elegir aleatoriamente un grupo de individuos de la población y luego clasificarlos de acuerdo con las dos variables de interés; esto se conoce co-mo muestreo multinomial.

Como ejemplo se puede citar el siguiente estudio: para analizar la relación en-tre la madurez de la vaca y la mortalidad de los becerros, se toman los registros individuales de un grupo de becerros, seleccionados al azar de los existentes en la granja, y después se clasifican por el grado de madurez de la madre (joven o adulta)

(34)

Figura 11.1

Esquema de los tres procesos de muestreo descritos

Población

(a)

(35)

y la supervivencia del becerro hasta el destete. Debe notarse que primero se integra la muestra por analizar y luego se miden las dos variables binarias de interés (véase la Fig. II. lo).

Un buen número de investigaciones siguen este esquema muestral, sobre todo de las que se realizan con base en registros de producción o a través de encuestas.

A partir de una muestra multinomial se puede estudiar la relación entre ambas variables, es decir la asociación de X con Y en la población de referencia.

Lo anterior implica que se pueden estimar todas las probabilidades marginales, lo mismo que las conjuntas de dos eventos, ya que el análisis de la asociación entre las variables requiere la comparación entre estos valores. El capítulo I contiene una explicación del concepto de asociación entre variables binarias y una descripción de la forma en que se manifiesta en la tabla 2 x 2 .

b) MUESTREO COMPARATIVO

Cuando se planea realizar una comparación de las probabilidades entre dos grupos de sujetos, se puede utilizar el muestreo comparativo, que consiste en seleccionar c0 observaciones de un grupo y c, del otro; y después clasificar a cada sujeto con-forme a la otra variable, denominada de respuesta.

Para ejemplificar el muestreo comparativo se empleará un brote de abortos en un rebaño. Si al analizar el problema surge la sospecha de que la enfermedad es más común en las borregas que reciben un cierto alimento concentrado comer-cial que en las hembras con distinta alimentación, se puede tomar una muestra

alea-toria de c0 animales que consumieron el alimento sospechoso y otra muestra de c, hembras que no lo comieron, para investigar a continuación cuántas borregas de cada muestra abortaron. En este caso se está aplicando el muestreo comparativo para comparar el porcentaje de abortos en ambos grupos de borregas mediante un estudio retrospectivo (véase la Fig. II.16).

Debe notarse que este esquema de muestreo sólo permite estimar las

probabi-lidades condicionales. Las probabiprobabi-lidades marginales reflejarán el número de casos

que el investigador haya incluido en cada muestra; las probabilidades marginales de

X provienen directamente del número de casos que forman cada muestra c0 y c,, en tanto que las probabilidades marginales de la variable Y sólo serán altera-das si hay diferencia en los porcentajes de ambos grupos. Por ejemplo, si la tasa de abortos es mayor en las hembras que recibieron el alimento problema y durante el estudio se decide investigar una muestra tres veces mayor para este grupo, es decir tres borregas de la ración sospechosa por cada hembra de las que consumieron otros alimentos, entonces el porcentaje global de abortos será sobreestimado por-que se vería más influido por el grupo por-que tuvo una mayor frecuencia del problema.

Incluso considerar el mismo número de observaciones en cada muestra no ga-rantiza una estimación válida de las probabilidades marginales de la variable de respuesta. Si en un hato donde la quinta parte de las borregas no recibió el alimento relacionado con el problema, se integran muestras del mismo tamaño para ambos grupos, se obtendrá una mayor influencia en la muestra (la mitad del valor global) que la importancia del grupo en el rebaño (la quinta parte). Resulta claro que al apli-car el muestreo comparativo, los valores de las probabilidades marginales tenderán

(36)

a mostrar sesgos importantes, por lo que no deben utilizarse como estimadores de la tasa global de respuesta, sino que, manteniendo la concepción original de este esquema de muestreo, debe considerarse que cada muestra proviene de una pobla-ción distinta y sólo deben estimarse los porcentajes de respuesta en cada una de ellas por separado.

El muestreo comparativo permite contrastar las muestras con respecto a la proporción de individuos que poseen cierta caraterística. Conforme al ejemplo ante-rior, este esquema de muestreo permite estudiar si la tasa de abortos es igual en am-bas poblaciones; o bien, si efectivamente difiere entre las hembras que recibieron distinta alimentación.

c) MUESTREO EXPERIMENTAL

El esquema de muestreo que falta describir se utiliza en los estudios experimentales y consiste en una combinación de los anteriores. Se obtiene una muestra de N indivi-duos y posteriormente se le asigna en forma aleatoria el tratamiento cero a c0 de ellos y el otro a los restantes clcasos. En la sección H.2 se describen en detalle las

características de un experimento.

Utilizando como ejemplo, de nuevo, el caso de los abortos en las borregas. Al sospechar la relación entre el aborto y el alimento concentrado podría seleccionar-se una muestra de N hembras gestantes para administrar, aleatoriamente, el alimen-to problema a c0 de ellas y el otro tipo de alimentación a las restantes cx. Así, se

aplicaría un estudio experimental para analizar el problema descrito (véase la Fig. II. le).

Un muestreo experimental conduce a un estudio comparativo; sin embargo, existe una diferencia fundamental que es aplicar la aleatorización, es decir asignar por azar cada individuo a uno de los dos grupos, lo que permite la eliminación de sesgos en los resultados. Por tal motivo la información colectada es mucho más só-lida en cuanto a la relación causa-efecto. En un muestreo comparativo del caso uti-lizado como ejemplo, podría ocurrir que por alguna razón técnica se diera el alimento problema a las borregas en peor estado físico y por este motivo, y no por el alimento, mostraran una alta tasa de abortos. Tal tipo de dificultades no se presen-tan en un muestreo experimental, ya que al formar por azar cada grupo, se espera que las distintas características de los individuos que pudieran afectar la respuesta queden equitativamente distribuidas en ambas muestras, evitando sesgos por facto-res ajenos a la investigación.

Debe notarse que el muestreo experimental permite inferir sobre la causalidad del alimento sobre los abortos, a diferencia del comparativo que sólo da base para investigar si la proporción de abortos es semejante entre los grupos de borregos que reciben una y otra ración, sin indicar una relación de causa a efecto.

4. MUESTRAS INDEPENDIENTES CONTRA DATOS APAREADOS

Este criterio de clasificación se basa en la relación existente entre las dos muestras resultantes de los muestreos comparativos y experimentales. Se llaman muestras

(37)

in-dependientes a las que se integran con individuos que no tienen una relación

espe-cial entre sí; a su vez, se designan como muestras apareadas las que surgen cuando ambas muestras se forman con datos del mismo sujeto o de parejas de individuos que comparten una o varias características que pueden afectar los resultados del es-tudio.

Por supuesto, los individuos considerados en todas las muestras tienen en común las características generales que delimitan la cobertura de los resultados de la investigación, es decir las que definen la población de interés. Por ejemplo, al es-tudiar la fertilidad de cerdas jóvenes y adultas inseminadas artificialmente, todas las hembras comparten las cualidades que delimitan la población, como son especie, clima, tipo de alimentación sistema de crianza y las condiciones particulares de la granja, entre otras. Los resultados, en forma estricta, sólo pueden aplicarse a los ani-males que posean características similares.

Si la muestra de cerdas jóvenes se constituye con c0 puercas tomadas

aleato-riamente y, por separado, se forma la muestra de hembras adultas con c, animales

elegidos al azar, se trata de un estudio con muestras independientes. Pero si se inte-gra la muestra de cerdas jóvenes, registrando la respuesta a la inseminación (ges-tante o no) y cuando las mismas hembras sean adultas se toman como muestra del otro grupo, entonces se trata de dos muestras relacionadas, ya que cada animal pro-porciona información a cada muestra.

No todas las muestras apareadas requieren que el mismo individuo se considere en ambos grupos, también pueden formarse parejas de sujetos semejantes en una o más características; éstas se utilizan como criterios de apareamiento porque se sabe o se cree que influyen en la variable de respuesta y se requiere evitar su efecto sobre el resultado de la investigación. Los factores o criterios de apareamiento no se estudian, sólo se controlan. Tal caso se presentaría al formar parejas de cerdas jóvenes y adultas que hayan sido similares en peso al nacimiento, número de her-manos de carnada, peso a los 100 días de edad y antecedentes reproductivos de su madre, para integrar las muestras de los dos grupos con un miembro de cada pareja. Aun cuando son dos animales distintos, cada pareja tiene similitudes importantes en factores que podrían influir los resultados de la investigación.

Si bien las muestras apareadas son un método muy útil para evitar que facto-res extraños a los analizados modifiquen y confundan los facto-resultados, es importante destacar que su uso implica una reducción de la potencia de las pruebas estadísticas (véase el Cap. IV. 1 para una explicación del término potencia). La reducción de la potencia puede constatarse a través del ejemplo de la inseminación artificial en cerdas: si un veterinario estudia dos muestras independientes, es decir un grupo de 20 hembras jóvenes y otro de 20 adultas constituidos por separado, cuenta con un total de 40 cerdas para su investigación. Por el contrario, si registra 20 puercas jóve-nes y después examina las mismas hembras ya adultas, tiene dos muestras de 20 animales cada una para su investigación , pero en realidad sólo tiene un total de 20 hembras, por lo cual el tamaño efectivo de la muestra es la mitad que en el primer caso. En el Cap. VI. 1 se explica la relación del tamaño de la muestra con la potencia de las pruebas estadísticas.

(38)

5. RELACIÓN DE LA POBLACIÓN CON LA MUESTRA

La relación de la población de interés con la muestra analizada es un punto de sin-gular importancia por su impacto en las conclusiones de la investigación. Se distin-guen dos tipos básicos en esta relación: La relación directa, que es cuando se define y especifica la población para luego extraer la muestra y la relación inversa, que se presenta cuando la muestra existe o se agrupa por alguna circunstancia y después se define la población representada en ella, es decir la población a la cual pueden aplicarse las conclusiones logradas.

Un ejemplo de relación directa de la población con la muestra es el de un vete-rinario que está interesado en la frecuencia de cierta enfermedad en las granjas de la zona en que trabaja, y selecciona en forma aleatoria una muestra de las granjas que le interesan a partir de un registro de todas las existentes en el área. Por otro lado, usando el mismo ejemplo, la relación inversa se presenta cuando el médico estudia la enfermedad de interés en las granjas que atiende y posteriormente analiza y describe la muestra para indicar cuál es la población que se representa en ella; se pretende que las conclusiones de la investigación se puedan generalizar a esa po-blación.

Es claro que la aplicación de los resultados de la investigación es más consis-tente y mejor fundamentada cuando la relación de la población con la muestra es directa que cuando esta relación es inversa. La relación inversa no invalida los re-sultados logrados pero sí implica que se debe tener precaución al extrapolar la in-formación generada.

6. EJEMPLOS INTEGRADOS

Los puntos de vista expuestos en las cuatro secciones anteriores estudian separada-mente los distintos aspectos de las investigaciones cuyos resultados se plasman en tablas 2 x 2. En esta sección se describen algunos casos que integran estos aspec-tos y que servirán para ejemplificar las combinaciones presentadas en el cuadro II. 1 Ejemplo II. 1: un caso de muestreo multinomial

Un médico veterinario desea comparar dos métodos para detectar cisticercos en canales de cerdo. Con tal propósito, acude a un rastro para examinar con ambos métodos las canales de los puercos ahí sa-crificados y registrar en cada caso el resultado de la inspección con cada método (contaminado o libre de cisticercos). Al mismo tiempo anota las características generales del rastro y de los animales sacrifi-cados.

Este caso presenta el estudio de atributos por medio de un muestreo

multino-mial. Se trata de una sola muestra, así que no existe el problema de clasificarla como

apareada o independiente, ya que este criterio señala el nexo entre dos muestras. La relación entre la muestra y la población es inversa, es decir, la población a la

(39)

que sean aplicables los resultados dependerá de la clase de cerdos que circunstan-cialmente constituyan la muestra; por tanto conviene contar con un registro detalla-do de las particularidades de la muestra de modetalla-do que puedan describirse minuciosamente en el informe final.

Si el investigador hubiera definido una población porcina de interés, extraído una muestra de ella y luego hubiera inspeccionado las canales con los dos métodos a comparar, consignando en cada caso el resultado, entonces se tendría una relación directa de la muestra con la población, lo que evitaría dudas al utilizar las conclusio-nes del trabajo, ya que la población de referencia estaría bien definida, a la vez que se tendría más confianza en la representatividad de la muestra.

Ejemplo II.2: el muestreo comparativo

Al investigar acerca del trasplante de embriones en vacas lecheras, se desea saber si el éxito del trasplante está influido por el historial reproductivo de la hembra nodriza. Con tal fin, dentro del hato de interés toma una muestra de c0 vacas con antecedentes de falla reproductiva y otra muestra de c, hembras que nunca han presen-tado tales problemas. Posteriormente, todas ellas se utilizan como nodrizas de embriones transferidos y se determina si quedan o no gestantes.

Este ejemplo muestra una investigación sobre atributos, basada en un

mues-treo comparativo con muestras independientes. Es importante notar que la

diferen-cia con el ejemplo anterior radica en que el número de vacas en cada tipo de historial reproductivo es decisión de quien diseña el estudio, con lo cual manipula este criterio de clasificación y sólo el éxito o fracaso del trasplante se da en forma aleatoria. La relación entre la muestra y la población es directa: las dos muestras provienen de sendas poblaciones previamente definidas, en este caso la población de vacas con fallas reproductivas previas y la población de aquellas con un historial reproductivo limpio. Estas dos poblaciones constituyen el hato de referencia. Ejemplo II.3: ejemplo de muestras apareadas

Para comparar la fertilidad de dos razas de cabras, en cierta zona, un investigador toma un grupo de animales de cada raza en la región de interés y forma parejas de hembras con el mismo número de par-tos y no más de 5 kg de diferencia en peso. En seguida les da servicio con el macho, registrando en ambos casos si hubo preñez.

El caso descrito presenta un ejemplo del estudio de atributos mediante un

muestreo comparativo con muestras apareadas. Es importante notar que aunque

ca-da par de mediciones se obtiene de dos hembras distintas, ambas representan un tipo de cabra de cierta edad y peso. Dado que el investigador definió la población de interés y luego extrajo las muestras de cada raza, la relación entre la muestra y la población es directa.

(40)

Ejemplo II.4: un estudio experimental

Como parte de una investigación se desea conocer la eficacia de cier-ta vacuna para gallinas de postura. Con cier-tal propósito, se reúne una muestra de esas aves y se divide aleatoriamente en dos grupos. Un grupo es tratado con la vacuna y el resto de las aves no reciben trata-miento. Se anota el número de gallinas enfermas de cada grupo du-rante los seis meses siguientes.

El párrafo anterior presenta el caso de un estudio experimental basado en

muestras independientes, el cual se aplica para analizar tratamientos. El proceso

par-te de una sola muestra que luego se subdivide en dos y cada una de éstas recibe uno de los tratamientos. A cada uno de los sujetos experimentales puede tocarle en suer-te cualquiera de los tratamientos. Frecuensuer-temensuer-te essuer-te tipo de estudios se utiliza pa-ra compapa-rar el resultado de la aplicación de un tpa-ratamiento con la ausencia de éste o la eficiencia de un nuevo proceso con el que se encuentra en uso.

Ejemplo II .5: un experimento con muestras apareadas

Para estudiar las ventajas de un sustituto de leche para lechones, sa-biendo que hay muchas características peculiares a cada carnada que pueden influir en el resultado, un grupo de investigadores toma un par de lechones de varias carnadas y asigna aleatoriamente uno de cada par a cada tratamiento: leche de cerda o sustituto de leche. Para cada par registran si se presenta diarrea durante la lactancia en uno (marcando cuál de los dos fue), ninguno o ambos de los lechones. Ahora se tiene un ejemplo de estudio experimental basado en muestras

apareadas. Se ha utilizado nuevamente un caso en que cada pareja de datos se

obtie-ne de dos individuos distintos, con objeto de recalcar este tipo de muestras aparea-das; sin embargo, el esquema descrito es más usual en los estudios de antes y

después, donde un individuo aporta datos antes del tratamiento y después de

recibir-lo, obteniéndose cada par de mediciones a partir de un solo individuo.

7. PREGUNTAS Y EJERCICIOS

a) En esencia, ¿qué indica si un factor ha sido estudiado como atributo o como trata

miento?

b) Mencione los tres procesos de muestreo definidos y diga los pasos que se siguen

en cada uno de ellos.

c) ¿En qué difiere la relación entre dos muestras independientes de la existente en

(41)

d) ¿Que importancia tiene la relación de la muestra con la población y cómo influ-

ye en los resultados?

e) Clasifique el siguiente estudio: con el fin de comparar dos métodos para el

diagnóstico de parásitos, se muestrean heces de 50 animales infectados para la investigación. Una fracción de heces de cada animal es examinada con cada uno de los dos métodos de interés, determinando en cada caso si se detectaron pará- sitos.

f) Diga qué tipo de estudio se aplicó en la siguiente investigación: al analizar el

efecto de cierta droga sobre la fertilidad se tomó una muestra de 80 hembras, se administró la droga a 40 de ellas, elegidas al azar y se dejó al resto como testigo; luego del periodo de servicio se diagnosticó la gestación en cada una.

g) Con base en la siguiente información diga qué tipo de estudio se usó: durante

una investigación epidemiológica sobre parvovirus se desea saber si la enfermedad se presenta lo mismo en perros callejeros que en animales criados en casa. Con tal propósito se extraen muestras de sangre de un grupo de perros recogidos por un centro antirrábico, lo mismo que de cierta cantidad de pacientes atendidos en una clínica veterinaria particular; a través de un examen de laboratorio se determina si cada perro ha padecido la enfermedad.

8. GLOSARIO

ATRIBUTO: factor cuyo efecto sobre la variable de respuesta se investiga a través

de un estudio observacional.

ESTUDIO: proceso de colección y registro de información en que se basa una

investigación.

EXPERIMENTO: estudio en el cual se provoca un fenómeno de interés, a fin de que

suceda en condiciones controladas.

FACTOR: nombre genérico que se aplica a una variable que puede influir sobre la

variable de respuesta. Los nombres específicos son atributo y tratamiento.

MUESTRA: subconjunto de la población constituido por los individuos, casos o

re-gistros que se utilizarán en un estudio.

MUESTREO: proceso de elección de los casos que habrán de integrar el grupo en

que se desarrolle un estudio.

POBLACIÓN: conjunto de individuos, casos, mediciones u objetos a los cuales se

de-sean aplicar las conclusiones de una investigación. La totalidad del conjunto que sirve como referencia a una investigación.

(42)

TRATAMIENTO: variable controlada por el investigador. Se aplica a un estudio ex-perimental para analizar su efecto sobre la variable de respuesta.

Introduccion a La Bioestadistica Analisis de Variables Binarias Medilibros.com

introducción

a la

BIOESTADÍSTICA

ANÁLISIS DE

VARIABLES BINARIAS

ZZZPHGLOLEURVFRP

introducción

a la

BIOESTADÍSTICA

ANÁLISIS DE

VARIABLES BINARIAS

McGRAW-HILL

Acerca del autor

Contenido

Prefacio

La tabla de contingencia 2 x 2

Estudios que originan una

tabla 2 x 2

ZZZPHGLOLEURVFRP