• No se han encontrado resultados

CLASIFICACIÓN CON VARIABLES DISCRETAS OBSERVADAS CON ERROR Y CON VARIABLES CONTINUAS

N/A
N/A
Protected

Academic year: 2021

Share "CLASIFICACIÓN CON VARIABLES DISCRETAS OBSERVADAS CON ERROR Y CON VARIABLES CONTINUAS"

Copied!
8
0
0

Texto completo

(1)

No. 1+ - 1981

CLASIFICACIÓN CON VARIABLES DISCRETAS OBSERVADAS

CON ERROR Y CON VARIABLES CONTINUAS

Víctor Hugo Prieto Bernal

Profesor Asociado

Universidad Nacional de Colombia

Abstract.

This article is concerned with a probiem of classifi-cation with discretes variables observable with error and with contlnuous variables. A classification rule is given by the Bayesian method and the parsneters are estlmated by the method of Máximum likelihood described by R.D. Day

(1969) for mixtxire of normal distributions. Resumen.

Este articulo considera un problema de clasificación con variables discretas observables con error y con varia-bles continuas. Se da una regla de clasificación por el método Bayesiano y se estiman los parámetros por el méto-do de máxima verosimilitud descrito por N.E. Day (1969) para mezcla de distribuciones nonnales.

1- INTRODUCCIÓN.

El problema de discriminación entre dos grupos cuan-do la información disponible consta de variables, discretas (binarias) y continuas fue considerado por Krzanowski (1975).

(2)

En dicho trabajo,se considera un vector de variables bi-narias X=(x.,x„,...,x ) y uno de variables continuas Y=(y.,, y^,...,y )-'•. Cada valor de las componentes de X define una celda, resultando asi M=2^ celdas. Se su-pone que la distribución de W =(X, Y) en la población

TT (k=l,2) es tal que, condicionalmente, (Y|X=m)'\' ^^^v »^^ donde X=m indica que X condujo a la celda m. Además, la probabilidad de obtener una observación de la celda m en la población Tt es p.^- Bajo estas hipótesis y supo-niendo probabilidades a priori iguales y costos de mala clasificación iguales, se obtiene la siguiente regla de clasificación Bayesiana :

R^:WcTi, si (u^ -p^ ) ^ ^ Y 1 ^ 2 ^J- n p — ^^-^^

R : Wef„ , en otro caso.

Además las probabilidades de mala clasificación están dadas por M (m) , P(l/2) = E, p_ P(D^"'' > O Ti_) (1.2) m=l 2m — / P(2/l).= E p ^ ^ P ( D ^ - > < 0 I .,) m=l donde

D<'">=(p<"'>-

^ l ^ h '

E - H Y - I Í P } ' " ^

y^"'^] - ^ ^ .

Im

Cuando los parámetros en ambas poblaciones son desco-nocidos, como es el caso más usual en problemas prácticos.

(3)

se consideran dos muestras de .amaño n. y n„ de it.y TT , respectivamente. Estas muestras son utilizadas para cons-truir una regla de clasificación estimada reemplazando los parámeti^'os por las estimaciones de ios p<^ ame tros en la regla dada anteriormente.

f

En el problema descrito hasta aquí, p)odría pensarse que la inforiTiacion proporcionada cr¡ l.ic v^í-'iables discre-tas es factible de contener error, lo cual, nos lleva, en este trabajo, a considerar el problema teniendo en cuenta dos tipos de variables discretas, las observables con error y las no observables, además de las variables conti-nuas. En esta situación, el propósito de este trabajo es determinar una regla de clasificación usando el método Ba-yediano, similar al analizado por Krzanowski, ef'-ctuando las estimaciones de los parámetros por el método de má-xima verosimilitud descrito por N.E. Day (1969) para mezcla de distribuciones normales. Debe notarse que la si -tuación en que las variables discretas se observan con error, se ha estudiado en problemas de análisis de datos categóricos, ver por ejemplo J. Hochberg (1977), quien presenta dos metodologías de estimación usando esquemas de doble muestreo.

2. DISCRIMINACIÓN CON VARIABLES DISCRETAS OBSERVABLES CON ERROR Y CON VARIABLES CONTINUAS, ESTIMACIÓN POR MÁXIMA VEROSIMILITUD.

Sea Z=( Zj5-*'«»z )' un vector de variables binarias observables con error y sea X = (x,,...,x )' el vector

(4)

no obseiwable que contiene los valores verdaderos de las variables Z. (i=l,2,...,q).

Supongamos qu# si se observa un vector Z de variables binarias pertenecientes a la celda m-ésima, la probabili-dad de que el verdfpdero valor de dichas variables sea probabili-dado por X perteneciente a la celda j-ésima, viene dada por

P(X|Z) = P(X = j |Z = m) = p^^,

y que la distribución conjunta de X y Z es dada por P( X,Z) = q.^ ,

de modo que

p . ^ . q . J U q . J

Además, supongamos que la distribución condicional de Y dado Z,X , es l H v j v»^ )

Para Z fijo S9 tiene.entonces que

J(y|z) = I jal», xyxlz)

es decir, que l a dlstrttucíSn condicidnal de Y, á a ^ Z,

eá una mexela de norhiale» «ultIvaS'iantcA.

(5)

W =(Z,Y) en n, (k-1,2), podt.. -s tomar como criterio de clasificación (suponiendo probabilidades a priori iguales y costos de mala clasificación iguales) la de asignar W a ir si p.(W)/p2(W) >_ 1 y a -n de otra manera. Pero Pj^(W) = p^(Z,Y) = Pj^(Z)^^(Y|Z) (k=l,2) V por tanto asig-namos la observación W= (Z,Y) a la población TT si

P^(W) ^^(Y|Z) p^(Z) P ¡ ^ ' Ío(Y|Z)p.(Z)

> 1

y a la población rr _ de otra manera. • Se tiene entonces que :

í,(YlZ)p^(Z) [Jexp(-|(Y->fflE-^(Y-py).V.^}jp^(Z)

^ ( Y Í ñ ¡ ¡ ( Z ) " f E ^ ^ " '

es decir (2.2) P,(Z) ^ j,exp(-|<Y-uy)-I-'(Y-..yH t„ p^„)

i=i

entonces, transformando la expresión (2.3) se obtiene :

P2<Z) M . - - - - < E i - _ (2.U) Pl(Z)-j.l J {Y' A +b } 1=1 ^ 13 iJ j j , _ - l , ( m ) ( m ) V donde A.. = E (p^. - p.. ) , 13 2i 13 '

(6)

, . (m)' „-l (ra) (m)' -i (m)^ Pjn

^ij- <^lj ^

\ ^

-^2i ^ 4 i ) ^ ^ n - 7 ^

•^ *^im

De nuevo, en la práctica los parámetros poblacionales £,e-neralmente son desconocidos de modo que la regla de cla-sificación dada no puede usarse directamente y es necesa-rio estimar tales ^rámetros. Con este fin podemos consi-derar muestras de tamaños, n. y n^ de las poblaciones TT^ y TI , respectivamente, y para cada una seguir el mé-todo de máxima verosimilitud descrito por N. E. Day (1969) para estimar los parámetros de una mezcla de distribucio-nes normales. En este caso, para una muestra de tamaño n, se obtienen las siguientes ecuaciones de máxima verosimi-miJitud : A 1 '^ p. = i E P(3|Y.) (j = 1,2, ..., M) (2.5a) *^3m n . . ' 1 -' 1=1

¡í"'^= { E Y P(j|¥^)}/ { E

P ( J 1 Y J }

(j::l,2,...,M) (2.5b)

^ i=l i=l

E = 1 E E (Y.- p("'^(Y.-p!'"^* P(jtY.) (2.5c)

n . . . . a 3 1 3 -"'i 1=13=1 .

donde

M

P(j|Y.)=exp(A'. Y.+b.) / E exp(A' Y. + b. ) si • _ _-l (m) A . = E u. + t , 1 1 : - , . . • , ( m ) ' _-l (ra) ^ . • u

b . = w . E

y.

+ í , p .

+ h , 3 3 *^3

n *^3m

(7)

siendo t un vector y h un. constante escalar.

A partir de estas ecuaciones y mediante un proceso de iteración se obtienen las estimaciones de los pará-metros en consideración.

Esta estimación podría realizarse por otros métodos tales como el de mínimos cuadrados descrito por el mismo Day (1969), o por el método de la función generatriz de momentos descrito por Quandt y Ramsey (1978). En todos estos casos es factible usar el método iterado (algoritmo EM) descrito por Dempster, Laird y Rubin (1977) para ob-tener las estimaciones.

BIBLIOGRAFÍA

Day, N.E. (1969), Estimating the ccwponents of a mix-ture of Normal Distributions. Biometrika, 53,3, p. «*63-»»7U.

Hochberg, Y. (1977), On the use of Double Sampling Scheme» in Analyzing Categorical Data with Missclassifícation Errors , Journal of the American Statistical Associa-tion, 72, 914-921.

Krzanowski, W.J. (1975) Discriraination and.Classificaticaí Using Both Binary and Contlnuous Variables , Journal of the American Statistical Association, 70,782-790.

•' • '

Dempster, A.P., Laird, N.M. , and Rubin, D.B." (1977), Má-ximum likelihood from Incomplete Data Via the EM

(8)

Algorlthm , Journal of the Royal Statistical Society, ser B. vol. 39, 1-38.

Quandt, R. and Ramsey, B.R. (1978), Estimating Mixtures of Normal Distributions and Switching Regressions with Comments, Journal of the American Statistical Associa-tion ; 73, 730-752.

Referencias

Documento similar

Las características del trabajo con grupos que se debería llevar a cabo en los Servicios Sociales de Atención Primaria (SSAP), en términos de variabilidad o estabilidad

The part I assessment is coordinated involving all MSCs and led by the RMS who prepares a draft assessment report, sends the request for information (RFI) with considerations,

o Si dispone en su establecimiento de alguna silla de ruedas Jazz S50 o 708D cuyo nº de serie figura en el anexo 1 de esta nota informativa, consulte la nota de aviso de la

 Tejidos de origen humano o sus derivados que sean inviables o hayan sido transformados en inviables con una función accesoria..  Células de origen humano o sus derivados que

El propósito de la tesis y de esta entrevista es determinar cuáles son los medios de comunicación que, actualmente, contribuyen al fomento y difusión de la

Para representar opciones lógicas con el uso de variables binarias y continuas, es útil escribir el problema en forma disyuntiva, y luego transformarlo, de

En el encargo de inspección se comunicarán al inspector los requisitos a evaluar durante las inspecciones adicionales aleatorias y las no-anunciadas. Los insumos para determinar

social en el RPC.. Una vez constituida cualquier tipo de sociedad, se requiere obtener su Registro Federal de Contribuyentes ante el SAT y su Registro Patronal ante