Novos Desenvolvimentos em Análise de Dados

(1)

Novos

Desenvolvimentos

em Análise de Dados

Fábio José Nogueira Ferreria

Dissertação de Mestrado apresentada à

Faculdade de Ciências da Universidade do Porto em

Engenharia Matemática

2017

N ov os D es en v olv imentos em A ná lise de D ad os F ábio José No g u eir a F er reir a

MSc

FCUP 2017 2.º CICLO

(2)

(3)

Novos

Desenvolvimentos em

Análise de Dados

Fábio José Nogueira Ferreira

Mestrado em Engenharia Matemática

Departamento de Matemática 2017

Orientadores

Joaquim Fernando Pinto da Costa, Professor / Investigador, Faculdade de Ciências da Universidade do Porto, CMUP

Ana Rita Pires Gaio, Professora / Investigadora, Faculdade de Ciências da Universidade do Porto, CMUP

(4)

(5)

Todas as correções determinadas pelo júri, e só essas, foram

efetuadas.

O Presidente do Júri,

(6)

(7)

FCUP

Novos Desenvolvimentos em An ´alise de Dados

Agradecimentos

A realizaç ão desta dissertaç ão marca o fim de uma das fases mais importantes da minha vida, portanto quero aqui deixar algumas palavras a pessoas que se mostraram essenciais nesta concretizaç ão.

Inicialmente, agradeço à minha fam´ılia e amigos, com especial ênfase aos meus pais e av ós, pelo apoio incondicional e incentivo para a chegada a este n´ıvel, s ão sem d úvida muito importantes na minha vida, toda a força e ensinamentos que me t êm dado mostraram-se essenciais neste caminho.

De seguida, quero agradecer claramente à minha namorada, por toda a força, paci ência e motivaç ão que me tem dado, principalmente nos momentos de maior nervosismo. É muito bom ser apoiado naquilo que acredito, nos meus objetivos profissionais e pessoais e ainda mais ter a sorte de contermos tantos objetivos coincidentes.

Tamb ém deixo um agradecimento especial aos colegas J úlio Silva e Martina Mascarello pela disponibilidade e apoio prestados. E por fim, com a maior das consideraç ões e admiraçç ões, agradeço aos meus professores orientadores, Prof. Joaquim Costa e Prof. Rita Gaio, por todo o conhecimento transmitido, disponibilidade, compreens ão e apoio. Saio do mestrado com toda a certeza que n ão podia ter sido melhor guiado.

Tese realizada no âmbito do mestrado em Engenharia Matem ática Departamento de Matem ática

Faculdade de Ci ˆencias da Universidade do Porto

(8)

(9)

FCUP

Resumo

Esta dissertaç ão prop õe dois m étodos inovadores de classificaç ão. A primeira metodolo-gia proposta enquadra-se no âmbito da classificaç ão supervisionada e é motivada pelo facto de alguns problemas reais requererem uma classificaç ão de objetos ou indiv´ıduos em classes com uma ordem natural. Estes problemas s ão tradicionalmente resolvidos usando m étodos convencionais destinados a uma classificaç ão de classes nominais onde a noç ão de ordem é ignorada. A segunda metodologia proposta concerne a an álise de clusters em dados longitu-dinais, caindo portanto no âmbito da classificaç ão n ão supervisionada.

A primeira parte da dissertaç ão é dedicada à adaptaç ão do m étodo tradicional de an álise discriminante linear para classes ordinais. Sob o ponto de vista metodol ógico, utiliza o m étodo da m áxima verosimilhança e o m étodo dos m´ınimos quadrados para estimaç ão dos par âmetros. Restriç ões gen éricas sobre as m édias das classes e as probabilidades à priori s ão considera-das. Foram testadas tr ês metodologias ordinais e uma parcialmente ordinal. Estas foram apli-cadas em quatro conjuntos de dados reais e posteriormente comparadas com a metodologia tradicional atrav és de quatro medidas de performance. Os resultados para uma das metodo-logias ordinais e para a metodologia parcialmente ordinal compararam-se favoravelmente com a an álise discriminante linear usual.

O segundo m étodo proposto nesta dissertaç ão introduz uma metodologia de classificaç ão n ão supervisionada para dados longitudinais. Um conjunto de dados é considerado longitudi-nal se cada indiv´ıduo é medido repetidamente atrav és do tempo, fazendo assim crescer um vetor de observaç ões para cada indiv´ıduo que tende a ter componentes substancialmente cor-relacionadas. Em estudos longitudinais com um grande n úmero de trajet órias, o agrupamento destas e a obtenç ão de trajet órias m édias podem ser de interesse. A metodologia proposta começa por modelar as correlaç ões existentes entre observaç ões de traject órias individuais atrav és de uma matriz pr é-definida com par âmetros estimados dos dados. Depois é conside-rada uma dist ância do tipo Mahalanobis e o algoritmo das K-m édias longitudinal é aplicado. Mostra-se depois que a metodologia desenvolvida é equivalente a usar o algoritmo longitu-dinal das K-m édias em dados adequadamente transformados. Esta propriedade simplifica o processo para utilizadores gerais. Na circunst ância particular de o interesse do estudo incidir sobre as traject órias relativas (e n ão as absolutas), aconselhamos a utilizaç ão de um de dois perfis propostos antes da entrada do algoritmo. A metodologia foi testada em dados simulados e tamb ém em dados reais, usando traject órias uni- e bi-dimensionais. A nova metodologia produziu em geral melhores resultados do que os obtidos por aplicaç ão direta do algoritmo das K-m édias longitudinal nos dados originais.

(10)

Palavras-chave:Classificaç ão; An álise Discriminante Linear; Classes Ordenadas; K-M édias; Clustering Longitudinal.

(11)

FCUP

Abstract

This dissertation intends to propose two innovative methods of classification. The first pro-posed methodology fits into the supervised classification and this is motivated by the fact that many real life problems require the classification of objects or individuals into naturally ordered classes. These problems are traditionally handled by conventional methods intended for the supervised classification of nominal classes where the order is ignored. The second proposed methodology concerns cluster analysis in longitudinal data, falling, therefore, in the scope of the unsupervised classification.

The first part of the dissertation is dedicated to the adaptation of the traditional method of linear discriminant analysis to ordinal classes. From the methodological point of view, it uses the maximum likelihood method and the least squares method to estimate the parameters. Generic restrictions on the means and prior probabilities of the classes are considered. Three ordinal and one partially ordinal methodologies were tested. The results for one of the ordinal methodologies and for the partially ordinal methodology were compared favorably with the usual Linear Discriminant Analysis.

The second method proposed in this dissertation introduces an unsupervised classifica-tion methodology for longitudinal data. The defining feature of a longitudinal data set is that individuals are measured repeatedly through time, giving rise to a vector of observations that tend to be intercorrelated. In longitudinal studies with a large number of subjects, clustering of the longitudinal trajectories and the definition of a much smaller number of mean trajectories is often of interest. The proposed methodology starts by modeling the existing correlations between observations of individual trajectories through a predefined matrix. Then a distance of the Mahalanobis type is considered and the longitudinal K-means algorithm is applied. It is later shown that the methodology developed is equivalent to using the longitudinal algorithm of the K-means in appropriately transformed data. This property simplifies the process for general users. Whenever the interest of the study concerns the relative (and not absolute) tra-jectories, we recommend using one of two proposed profiles before the algorithm enters. The methodology was tested in simulated data and also in real data, using uni- and bi-dimensional trajectories. The new methodology generally produced better results than those obtained by direct application of the longitudinal K-means algorithm in the original data.

Keywords:Classification; Linear discriminant analysis; Ordered classes; K-Means; Longi-tudinal clustering.

(12)

(13)

Conte ´

udo

Agradecimentos . . . i

Resumo . . . iii

Abstract . . . v

Lista de Tabelas . . . ix

Lista de Figuras . . . xii

1 Introduç ão 1 2 An álise discriminante linear para classes ordinais 5 2.1 Introduç ão . . . 5

2.2 Modelo Tradicional . . . 8

2.3 Modelo Inovador . . . 8

2.4 Resultados . . . 14

2.4.1 Detalhes de implementac¸ ˜ao . . . 14

2.4.2 Medidas de Performance . . . 16

2.4.3 Aplicac¸ ˜ao da metodologia . . . 17

2.5 Discuss ˜ao . . . 20

3 Clustering longitudinal 21 3.1 Introduc¸ ˜ao . . . 21

3.2 C ´alculo de dist ˆancias . . . 23

3.3 M ´etodo das K-M ´edias . . . 24

3.4 Crit ´erios para a escolha do no_{de grupos} _{. . . .} ₂₅

3.4.1 Crit ´erio de Calinski Harabasz . . . 26

3.4.2 Outros crit ´erios . . . 30

3.5 Metodologia proposta . . . 32

3.6 Resultados em dados simulados . . . 34

3.7 Resultados em dados reais . . . 39

(14)

(15)

Lista de Tabelas

2.1 Resultados para o conjunto de dados LEV. . . 17

2.2 Resultados para o conjunto de dados CPU. . . 18

2.3 Resultados para o conjunto de dados Housing. . . 19

2.4 Resultados para o conjunto de dados ESL. . . 19

3.1 Dados originais X (lado esquerdo); Dados transformados YA s/ perfis e YA c/ perfil I (lado direito, resultados coincidentes). . . 36 3.2 Dados originais X (lado esquerdo); Dados transformadosYAs/ perfis (lado direito). 37

(16)

(17)

Lista de Figuras

2.1 Paradigma unimodal . . . 7

3.1 Trajet ´orias simuladas. Conjunto de dados 1 (lado esquerdo), Conjunto de dados 2 (lado direito). . . 35 3.2 Trajet ´orias afins. Da esquerda para a direita: Dados originais X, Dados

transfor-madosYAs/ perfis, Dados transformadosYAc/ perfil I. . . 35

3.3 Trajet ´orias trigonom ´etricas. Dados originais X, Dados transformadosYAs/

per-fis. . . 37 3.4 Trajet órias afins - Trajet órias com a verdadeira atribuiç ão vs Metodologia

tra-dicional. Em baixo - Trajet órias com a verdadeira atribuiç ão vs Metodologia inovadora (com e sem perfis, uma vez que os resultados foram coincidentes). . . 38 3.5 Trajet órias trigonom étricas - Trajet órias com a verdadeira atribuiç ão vs

logia tradicional. Em baixo: Trajet órias com a verdadeira atribuiç ão vs Metodo-logia inovadora. . . 39 3.6 Conjunto de dados WeightLoss - Dados originais X, Dados transformadosYAe

YAcom perfil II . . . 40

3.7 Conjunto de dados Sleepstudy - Dados originais X, Dados transformadosYAs/

perfis . . . 41 3.8 Conjunto de dados Longair, primeira vari ´avel - Dados originais X, Dados

trans-formadosYAs/ perfis,YAc/ perfil I Em baixo: Trajet ´orias m ´edias: Dados originais

X, Dados transformadosYAs/ perfis eYAc/ perfil I . . . 42

3.9 Conjunto de dados Longair, segunda vari ´avel - Dados originais X, Dados trans-formadosYAs/ perfis eYAc/ perfil I . . . 43

3.10 Conjunto de dados Longair - Dados originais X Em baixo: Dados transformados

YAc/ perfil I . . . 43

3.11 Conjunto de dados WeightLoss - Metodologia tradicional, Metodologia inovadora s/ perfis Em baixo: Metodologia tradicional, Metodologia inovadora c/ perfil II . . 44

(18)

3.12 Conjunto de dados Sleepstudy - Metodologia tradicional, Metodologia inovadora s/ perfis . . . 45 3.13 Conjunto de dados Longair V1 - Metodologia tradicional, Metodologia inovadora

s/ perfis Em baixo: Metodologia tradicional, Metodologia inovadora c/ perfil I . . . 45 3.14 Conjunto de dados Longair V2 - Metodologia tradicional, Metodologia inovadora

s/ perfis Em baixo: Metodologia tradicional, Metodologia inovadora c/ perfil I, Trajet ´orias m ´edias da metodologia inovadora c/ perfil I . . . 46

(19)

Cap´ıtulo 1

Introduc¸ ˜ao

Esta dissertaç ão prop õe duas metodologias inovadoras, uma para classificaç ão supervisio-nada e outra para classificaç ão n ão supervisiosupervisio-nada, sendo estas motivadas pela sua utilidade em panoramas reais ainda n ão muito explorados.

No cap´ıtulo 2 propomos uma metodologia espec´ıfica para classificaç ão supervisionada de classes ordinais. De facto, muitos problemas reais requerem uma classificaç ão de objetos ou indiv´ıduos em classes contendo uma ordem natural, por ém estes problemas s ão tradicional-mente tratados com o uso de m étodos convencionais onde a noç ão de ordem é ignorada. Um exemplo desses m étodos é a An álise Discriminante Linear, que assume que cada classe pode ser modelada por uma funç ão gaussiana.

Neste trabalho introduz´ımos tr ês m étodos de An álise Discriminante Linear espec´ıficos para classes ordinais e utiliz ámos o m étodo de m áxima verosimilhança, o m étodo dos m´ınimos quadrados e ainda alguns m étodos de otimizaç ão para estimar os par âmetros do modelo. Inclu´ımos ainda um m étodo que n ão é rigorosamente espec´ıfico para dados ordinais pois a probabilidade de respeitar um comportamento ordinal é maior do que no m étodo usual de An álise Discriminante Linear.

Para estas metodologias impusemos uma condiç ão para que as probabilidades à posteriori seguissem um comportamento unimodal, obedecendo assim ao paradigma unimodal introdu-zido por J. Pinto da Costa (2005, 2008, 2010), e restriç ões gen éricas sobre as m édias das classes e as probabilidades à priori foram consideradas.

Por fim, foi criada uma funç ão em linguagem R, na vers ão 3.3.2, onde test ámos as me-todologias propostas em quatro conjuntos de dados reais e compar ámos com a metodologia tradicional atrav és de quatro medidas de performance. Como funç ão de otimizaç ão us ámos o algoritmo cobyla da biblioteca nloptr, onde o ponto inicial a considerar é escolhido como o melhor dentro de uma grelha de pontos definida pelo utilizador. Os resultados para uma

(20)

das metodologias ordinais e para a metodologia parcialmente ordinal compararam-se favo-ravelmente com a An álise Discriminante Linear usual tornando-se assim uma boa alternativa, especialmente porque cont êm um modelo de respostas mais apropriado a este tipo de classes. No cap´ıtulo 3 apresent ámos uma metodologia direcionada para a classificaç ão n ão su-pervisionada em dados longitudinais. Numa primeira fase introduzimos uma nova metodo-logia n ão param étrica de clustering de dados longitudinais. A motivaç ão desta metodometodo-logia é que nos m étodos tradicionais os agrupamentos das trajet órias apenas s ão feitos tomando em consideraç ão a dist ância entre estas ignorando o seu comportamento ao longo do tempo, por ém em muitos casos reais tamb ém é do interesse que nesse agrupamento o comporta-mento das trajet órias seja levado em conta.

Ao contr ário dos m étodos tradicionais tamb ém as correlaç ões entre observaç ões de tra-jet órias individuais s ão tomadas em conta com uma matriz de correlaç ões pr é-definida e par âmetros que s ão estimados dos dados. Assim sendo, como alternativa à dist ância Euclidi-ana usualmente utilizada no algoritmo das K-M édias longitudinal consider ámos a aplicaç ão de uma dist ância de Mahalanobis original que inclui esta matriz de correlaç ões.

Para completude desta dissertaç ão, incluimos uma breve apresentaç ão sobre c álculo de dist âncias longitudinais e ainda uma apresentaç ão de alguns crit érios para a escolha do n úmero mais adequado de clusters, onde expomos os algoritmos e exemplos ilustrativos para uma melhor compreens ão dos mesmos. A definiç ão de alguns conceitos base necess ários à com-preens ão destes algoritmos tamb ém foram apresentados.

Simplific ámos o processo de clustering ao considerar uma transformaç ão adequada dos dados que permite a utilizaç ão direta de um processo de clustering conhecido (e j á imple-mentado no R). De facto, mostramos que o nosso m étodo com a nova dist ância Mahalanobis coincide com a aplicaç ão do algoritmo K-M édias longitudinal usando a dist ância Euclidiana para certas trajet órias transformadas. Esta propriedade simplifica o processo para utilizadores gerais.

Posteriormente, sabendo que em certas circunst âncias pode ser importante o comporta-mento relativo em vez dos valores absolutos, aconselhamos a utilizaç ão, antes da entrada do algoritmo, de um de dois perfis propostos. Assim program ámos a metodologia proposta com a utilizaç ão da linguagem R, vers ão 3.3.2, onde utiliz ámos as bibliotecas kml ou kml3d

e test ámos a metodologia em dados simulados com diferentes caracter´ısticas e em dados re-ais. Consider ámos trajet órias unidimensionais e bidimensionais para ilustrar a aplicaç ão do m étodo desenvolvido e os resultados foram comparados com os obtidos pela aplicaç ão direta do algoritmo K-M édias longitudinal nos dados originais. Os resultados favoreceram a nova

(21)

FCUP

metodologia.

Finalmente, gostariamos de referir que a presente tese n ão inclui um cap´ıtulo de consideraç ões finais e trabalhos futuros de forma expl´ıcita. Optou-se por se fazer essa cr´ıtica no final do cap´ıtulo correspondente a cada metodologia, por se achar que isso facilitaria a leitura da tese e a tornaria mais coerente.

(22)

(23)

Cap´ıtulo 2

An ´alise discriminante linear para classes

ordinais

2.1 Introduc¸ ˜ao

Muitos problemas de classificaç ão supervisionada t êm a particularidade das classes possu´ırem uma ordem natural, e neles é pretendido atribuir uma classe a uma dada observaç ão. É fre-quente encontrarmos este tipo de situaç ões em temas como a modelaç ão econom étrica, pro-blemas de classificaç ão biom édica, ci ências sociais e comportamentais. Embora esta situaç ão seja bastante frequente, quase nunca é considerada nos modelos tradicionais de classificaç ão supervisionada.

Neste cap´ıtulo, utiliz ámos o m étodo de m áxima verosimilhança e o m étodo dos m´ınimos quadrados para estimar os par âmetros da metodologia de an álise discriminante linear pro-posta.

Considere-se o problema de classificac¸ ˜ao supervisionada com o objetivo de separar K

classes ordenadas C1 < . . . < CK, de um determinado espac¸o χ. Sejam n1, . . . , nK os

ta-manhos das classes, com n1+· · ·+nK = n. A probabilidade `a priori da classe k ´e πk com

PK

k=1πk= 1.

Parak= 1, . . . , K ej = 1, . . . , nk, denotamos porxkj ∈ Rp o vetor daj- ésima observaç ão

da classe k. Como as classes s ão conhecidas desde o in´ıcio, a realizaç ão de uma amostra aleat ória de tamanhonconsiste no par

{(xkj, ck)}k=1,...,K;j=1,...,nk.

A funç ão (densidade) de probabilidadeX∈χna classeC_k é representada porfk(x).

(24)

classeC_kmaximize a probabilidade `a posterioriP(C_k|x)dada por

P(C_k|x) = πkfk(x)

PK

`=1π`f`(x)

(2.1.1)

O nosso m étodo assume que num problema de classificaç ão supervisionada com classes ordenadas, a vari ável aleat ória classe Cx associada à nova observaç ão x deve seguir uma

distribuiç ão de probabilidade unimodal, seguindo trabalhos anteriores de J. Pinto da Costa [9, 11, 12]. Isto significa que as probabilidades devem decrescer monotonamente para a esquerda e para a direita da classe onde a probabilidade m áxima é obtida (ilustrado na figura 2.1). Por exemplo, suponhamos que pretendemos prever a temperatura para amanh ã dentro de cinco classes: Muito frio, Frio, Ameno, Quente e Muito quente. Dada uma nova observaç ão x, e depois de calculadas as probabilidades à posterioriP(C1|x),...,P(C5|x), se o valor mais alto for

P(C₄|x), isto é, o mais prov ável é estar um dia Quente, ent ão a segunda maior probabilidade deve ser um dia Muito quente ou um dia Ameno. A segunda maior probabilidade nunca devia ser, neste caso, um dia Muito frio. Por outras palavras, se a maior probabilidade é estar um dia Quente, n ão faz sentido que a segunda maior probabilidade seja um dia Muito frio. Por ém, um facto como este nos m étodos tradicionais de an álise discriminante pode acontecer.

Desde o último meio s éculo j á alguns autores t êm vindo a propor modelos de classificaç ão supervisionada para classes ordinais. Em trabalhos espec´ıficos de modelos de An álise Discri-minante Linear (Linear Discriminant Analysis - LDA1) podemos destacar B. Sun et al. [17] que propuseram em 2010 um novo m étodo de regress ão ordinal baseado na An álise Discriminante de N úcleo (Kernel Discriminant Analysis, KDA). Os autores imp õem duas restriç ões ao modelo convencional que passa pela escolha de uma projeç ão que satisfaça os seguintes requisitos: 1) A projeç ão deve minimizar a dist ância dentro das classes e maximizar a dist ância entre clas-ses simultaneamente. 2) A projeç ão deve garantir a informaç ão ordinal das diferentes clasclas-ses, ou seja, a projeç ão m édia das observaç ões das classes mais altas devem ser maiores do que a projeç ão das classes de classificaç ão mais baixas. W. Deng et al. [4] em 2014 extenderam a t écnica de LDA à An álise de Classificaç ão Linear (Linear Ranks Analysis - LRA) considerando a ordem de classificaç ão dos centroides de cada classe num subspaço projetado. Sob uma restriç ão na ordem de classificaç ão das classes, s ão propostos dois crit érios: 1) minimizaç ão do erro de classificaç ão com o pressuposto de que cada classe é homog énea com distribuiç ão Gaussiana; 2) maximizaç ão da soma (m édia) das dist âncias entre todos os pares de classes vizinhas. Ambos os crit érios podem ser resolvidos de forma eficiente com otimizaç ão num subespaço unidimensional.

1

(25)

FCUP

Outros modelos t êm sido sugeridos para a classificaç ão de classes ordinais, principalmente modelos de M áquinas de Suporte Vetorial (SVMs), Redes Neuronais ou Árvores de Decis ão. E. Frank e M. Hall [5] introduziram um simples processo de exploraç ão de classes ordinais usando classificadores bin ários convencionais. Em 1980, P. McCullagh [15] prop ôs um mo-delo de regress ão que incluiu informaç ões ordinais dos dados, eliminando a necessidade de atribuiç ão de r ótulos às classes. Uma extens ão deste trabalho é feita em 2001 por G. Tutz [18] atrav és da generalizaç ão do modelo aditivo de Hastie e Tibshirani [6] incorporando termos n ão param étricos. Shashua e Levin [16] introduziram uma formulaç ão generalizada para o m étodo de SVMs para classes ordinais. Mais recentemente, Kotsiantis [13] prop ôs uma t écnica de classificaç ão em cascata abrangendo um classificador de Árvores de Decis ão e um algoritmo para um modelo de árvores. Herbrich et al. [7] aplicaram o Princ´ıpio da Minimizaç ão do Risco Estrutural natural para SVMs de Vapnik [19] para obter um novo esquema de aprendizagem baseado numa grande margem para a tarefa de regress ão ordinal. Jianlin Cheng et al. [2] apresentaram uma adaptaç ão às tradicionais Redes Neuronais para aprender categorias or-dinais, atrav és de uma generalizaç ão do m étodo do percetr ão. Em 2005, Joaquim Costa e Jaime Cardoso [11] introduziram um novo modelo de Redes Neuronais feedforward, para pro-blemas de classificaç ão de multiclasses, onde as classes s ão ordenadas. Os mesmos autores em 2007 [8] apresentaram um novo paradigma de aprendizagem de m áquinas de vetores de suporte especificamente para classes ordinais. A t écnica reduz o problema de classificar clas-ses ordenadas para um problema padr ão de duas clasclas-ses. O m étodo introduzido é mapeado em SVMs e Redes Reuronais. Em 2008, J. Costa et al. [9] no seguimento de trabalhos ante-riores, introduziram duas aproximaç ões para SVMs e Redes Neuronais feedforward, uma pa-ram étrica, e uma n ão papa-ram étrica e tamb ém uma nova medida de performance para classes ordinais, nomeadamente o coeficiente rint utilizado mais à frente neste cap´ıtulo.

Posterior-mente, em 2010, J. Costa et al. [12] elaboraram uma nova metodologia para SVMs baseada no paradigma unimodal com o esquema All-at-Once para a classificac¸ ˜ao ordinal.

(26)

2.2 Modelo Tradicional

A An álise Discriminante Linear é uma t écnica que se baseia em modelos para as funç ões de probabilidade.

Sejafk(x)a funç ão densidade gaussiana multivariada da classekcom m édiaµ(k)∈ Rp e

matriz de vari âncias-covari ânciasΣk∈ Rp×p, com a restriç ãoΣk= Σ,∀k= 1, ..., K.

´

E pretendido maximizar (2.1.1) ou de forma equivalente

log(πk) +log(fk(x)) =log(π(k))−

1

2(x−µ(k))

t_Σ−1₍_x₋_µ₍_k₎₎

uma vez que o denominador ´e sempre positivo.

Ent ão, para estimarmos os par âmetros do modelo podemos utilizar, por exemplo, o m étodo de m áxima verosimilhança e obtemos o seguinte resultado:

ˆ π(k) = nk n ˆ µ(k) = 1 nk nk X i=1 xki ˆ Σ = 1 n−K K X k=1 nk X i=1 (xki−µ¯(k))(xki−µ¯(k))t

Assim, para compararmos duas classes,kel, ´e suficiente considerar

log(P(Ck|x) P(Cl|x) ) =log(fk(x) fl(x) ) +log(π(k) π(l)) =log(π(k) π(l))− 1 2(µ(k)−µ(l)) t_Σ−1₍_µ₍_k₎₋_µ₍_l₎₎ | {z } c0 +xtΣ−1(µ(k)−µ(l)) =c0+xtΣ−1(µ(k)−µ(l)) , c0∈ R

que é, uma equaç ão linear emx.

2.3 Modelo Inovador

Assumindo os pressupostos usuais da An álise Discriminante Linear, ondefk(x) é a funç ão

densidade gaussiana multivariada com m édia µ(k) ∈ Rp _{e matriz de vari âncias-covari âncias}

Σ ∈ Rp×p_{, independente das classes, uma condiç ão suficiente para as probabilidades à}

pos-teriori seguirem uma distribuiç ão unimodal é que a funç ãog=g(k)definida por

(27)

FCUP

tenha sempre a segunda derivada negativa, uma vez que o denominador em (2.1.1) é sem-pre positivo. Note-se que, embora k seja um inteiro, estamos a consider á-lo aqui como um real, para podermos efetuar a derivada. Nesse sentido, a condiç ão da derivada ser negativa, satisfaz os nossos objetivos de unimodalidade, incluindo para os valores inteiros dek.

A funç ãog é dada ent ão por

g(k) =π(k) 1 |Σ|1/2₍₂_π₎p/2e −1 2(x−µ(k)) t_Σ−1₍_x−µ₍_k₎₎ (2.3.1)

onde usamos a notaç ãoπ(k)eµ(k)para mostrar explicitamente que os par âmetros dependem da classe.

Agora impomos duas condiç ões. A primeira é que a m édiaµ(k)de cada classe k é uma funç ão afim. Escrevemos

µ(k) = (a1+b1k, . . . , ap+bpk) =a+bk, k= 1, . . . , K

para vetores de valores reais a = (a1, . . . , ap) e b = (b1, . . . , bp) em Rp. Isto significa que

estamos a assumir que as m édias das K classes se encontram sobre uma reta. A segunda condiç ão é que as probibilidades à priori sejam escritas de uma das seguintes formas:

1. Funç ão Exponencial com um par âmetro:

π(k) =ce−(k−α)2, k= 1, . . . , K

onde a condic¸ ˜aoPK

k=1π(k) = 1, implica que,c=

1

PK

i=1e−(i−α)

2.

2. Funç ão Quadr ática com dois par âmetros:

π(k) =c1+c2k+c3k2, k= 1, . . . , K

onde de forma an áloga a condiç ão PK

k=1π(k) = 1, implica que, c1 = _K1 −c2K₂+1 −

c3(K+1)(2₆K+1).

De forma a garantir a condiç ão de unimodalidade começamos por aplicar a transformaç ão logar´ıtmica à funç ãog(2.3.1)

(ln◦g)(k) = ln(π(k))−ln(|Σ|1/2₍₂_π₎p/2₎₋1

2(x−µ(k))

t_Σ−1₍_x₋_µ₍_k₎₎

Usando regras de c ´alculo diferencial matricial [14], temos

(ln◦g)0(k) = π

0₍_k₎

π(k) + (x−µ(k))

(28)

e portanto (ln◦g)00(k) =−µ0(k)tΣ−1µ0(k) | {z } (a) + (x−µ(k))tΣ−1µ00(k) | {z } (b) +π 00₍_k₎_π₍_k₎₋_π0₍_k₎2 π(k)2 | {z } (c)

Dado que Σ−1 é definida positiva2_{, resulta que} ₍_a₎ _< ₀_{. Pela nossa primeira condiç ão}

imposta (b) = 0. Resta explorarmos as duas hip óteses apresentadas na segunda condiç ão para garantirmos a unimodalidade.

Para a func¸ ˜ao exponencial temos

π0(k) = (−2k+ 2α)ce−(k−α)2 e π00(k) =−2ce−(k−α)2 + (−2k+ 2α)2ce−(k−α)2 Posto isto (c) = −2c2e−2(k−α)2+ (−2k+ 2α)2c2e−2(k−α)2 −(−2k+ 2α)2c2e−2(k−α)2 c2_e−2(k−α)2 =−2<0

E portanto ficam garantidas as condiç ões de unimodalidade para este caso. Para a funç ão quadr ática temos

π0(k) =c2+ 2c3k; π00(k) = 2c3 Portanto (c) = 2c3(c1 +c2k+c3k 2₎₋₍_c 2+ 2c3k)2 (c1+c2k+c3k2)2

Ou seja, neste caso se garantirmos que

2c3(c1+c2k+c3k2)−(c2+ 2c3k)2≤0,∀k ⇔3₋₂_c 3( 1 K −c2 K+ 1 2 −c3 (K+ 1)(2K+ 1) 6 − c2₂ 2c3 + c 2 2 4c3 )≥0 ⇔ −2c3 K +c2c3(K+ 1) +c 2 3 (K+ 1)(2K+ 1) 3 + c2₂ 2 >0

é tamb ém satisfeita a condiç ão(ln◦g)00(k)<0,∀k.

Queremos realçar que as condiç ões impostas aqui, quer à posiç ão das m édias sobre uma reta, quer às express ões para as probabilidades à priori, s ão demasiado restritivas. Eventu-almente existir ão outras condiç ões mais suaves que garantam a unimodalidade pretendida. Todavia, no âmbito desta tese de mestrado, n ão foram consideradas outras condiç ões.

2_{Demonstraç ão:}_{Dado que}_Σ _{é definida positiva ent ão}_Σ _{é invert´ıvel. Se definirmos}_y_{= Σ}_x_{ent ão}_yt_Σ−1_y₌

xt_Σt_Σ−1_Σ_x₌_xt_Σ_{x >}₀

3_{O termo de maior grau da primeira inequaç ão é sempre negativo portanto se a inequaç ão é respeitada em}

(29)

FCUP

Garantidas as condiç ões de unimodalidade, deduzimos a f órmula para os estimadores de m áxima verosimilhança para os par âmetros desconhecidos no modelo discriminante unimodal com a funç ão exponencial, nomeadamenteα,a,beΣ.

A funç ão de m áxima verosimilhança é dada por

L(α, a, b,Σ;x1, x2, ..., xn) =f(x1;α, a, b,Σ)×...×f(xn;α, a, b,Σ) = K Y k=1 nk Y i=1 πk 1 |Σ|1/2₍₂_π₎p/2e −1 2(xki−µ(k))tΣ−1(xki−µ(k))

Se aplicarmos o logaritmo temos

v= log(L) = K X k=1 nk X i=1 ln(πk)− ln (|Σ|) 2 − p 2ln(2π)− 1 2(xki−a−bk) t_Σ−1₍_x ki−a−bk) =−n 2ln (|Σ|)−n p 2ln(2π) + K X k=1 nkln(πk)− 1 2 K X k=1 nk X i=1 (xki−a−bk)tΣ−1(xki−a−bk) (2.3.2) Novamente com o recurso ao c ´alculo diferencial matricial, paraαobtemos

dv dα = K X k=1 −2nk(k−α) dv dα = 0⇔ K X k=1 −2nkk+ 2nkα= 0 ⇔nα= K X k=1 nkk ∴ αb= 1 n K X k=1 knk

que ´e uma m ´edia pesada dos ´ındices das classesk= 1, . . . , K da forma

b α= K X k=1 ζkk com K X k=1 ζk= 1.

De igual forma, para obtermos o estimador de m áxima verosimilhança de a e bcomeçamos por dv da =− 1 2 K X k=1 nk X i=1 (xki−a−bk)t[Σ−1+ (Σ−1)t]×(−1) = K X k=1 nk X i=1 (xki−a−bk)tΣ−1 = K X k=1 nk X i=1 Σ−1xki−nΣ−1a− K X k=1 nkkΣ−1b

(30)

dv db =− 1 2 K X k=1 nk X i=1 (xki−a−bk)t×2Σ−1(−k) = K X k=1 nk X i=1 kΣ−1xki− K X k=1 knkΣ−1a− K X k=1 k2nkΣ−1b E seguidamente dv da = 0⇔nΣ −1_a₌ K X k=1 nk X i=1 Σ−1xki− K X k=1 nkkΣ−1b ⇔a= 1 n K X k=1 nk X i=1 xki− 1 n K X k=1 nkkb dv db = 0⇔ K X k=1 k2nkΣ−1b+ K X k=1 knkΣ−1a= K X k=1 nk X i=1 kΣ−1xki ⇔ K X k=1 k2nkΣ−1b+ K X k=1 knkΣ−1 1 n K X s=1 nk X i=1 xsi− 1 n K X s=1 nssb ! = K X k=1 nk X i=1 kΣ−1xki ⇔ K X k=1 k2nkb− 1 n K X k=1 knk K X s=1 nssb= K X k=1 nk X i=1 kxki− 1 n K X k=1 knk K X s=1 nk X i=1 xsi ⇔   K X k=1 k2nk− 1 n K X k=1 knk !2 b= K X k=1 (k− 1 n K X s=1 sns) K X j=1 xkj ∴bb= K X s=1 s2ns− 1 n( K X s=1 sns)2 !−1 _K X k=1 k− 1 n K X s=1 sns ! _n_k X j=1 xkj. (2.3.3)

Esta f ´ormula pode ser escrita na forma

bb= K X k=1 γkxk com K X k=1 γk = 0 onde γk=   K X s=1 s2ns− 1 n K X s=1 sns !2  −1 nk k− 1 n K X s=1 sns ! .

Daqui resulta que

a= 1 n K X k=1 nk X i=1 xki− 1 n K X k=1 nkk PK m=1 m− 1 n PK s=1sns PK s=1s2ns−_n1(PKs=1sns)2 nk X j=1 xkj ∴ba= 1 n K X k=1 1−nk( PK s=1sns)−( PK s=1sns)2 nPK s=1s2ns−( PK s=1sns)2 ! _n_k X j=1 xkj

que, por sua vez, pode ser expresso como uma combinaç ão linear das m édias amostrais das classes b a= K X wkxk com K X wk= 1.

(31)

FCUP

onde wk= nk n(1− nk(PK s=1sns)−(PKs=1sns)2 nPK s=1s2ns−(PKs=1sns)2 ).

Ou seja, a reta que cont ém as m édias no nosso modelo passa pelo ponto m édio (ponde-rado) das m édias amostrais. Uma esp écie de ”centro de gravidade”.

O estimador de m áxima verosimilhança paraΣ é conseguido de forma an áloga fazendo

dv dΣ−1 =− −n 2 ln(|Σ −1_|₎0₋1 2 " 2 K X k=1 nk X i=1 (xki−a−bk) (xki−a−bk)t − K X k=1 nk X i=1 diag (xki−a−bk) (xki−a−bk)t # = n 2 (2Σ−diag[Σ])− K X k=1 nk X i=1 (xki−a−bk) (xki−a−bk)t +1 2 K X k=1 nk X i=1 diag (xki−a−bk) (xki−a−bk)t =nΣ−n 2diag[Σ]− K X k=1 nk X i=1 (xki−a−bk) (xki−a−bk)t +1 2 K X k=1 nk X i=1 diag (xki−a−bk) (xki−a−bk)t dv dΣ−1 = 0 4_⇔_n_Σ₋n 2diag[Σ]− K X k=1 nk X i=1 (xki−a−bk) (xki−a−bk)t +1 2 K X k=1 nk X i=1 diag (xki−a−bk) (xki−a−bk)t = 0 ∴Σ =b 1 n K X k=1 nk X `=1 (xk`−µk)(xk`−µk)t. (2.3.4)

que ´e um valor nosso familiar.

Para a primeira funç ão de probabilidades à priori tamb ém estim ámosα pelo m étodo dos m´ınimos quadrados, por ém aqui apenas é poss´ıvel obter o estimador com a utilizaç ão de m étodos num éricos. N ós utiliz ámos o m étodo de Newton, com funç ão objectivo dada por

min α K X i=1 (ni n − e−(i−α)2 PK l=1e−(l−α) 2) 2_. _(2.3.5)

Isto é, pretendemos o valor de α que melhor aproxima as probabilidades à priori deste modelo das frequ ências das v árias classes, no sentido dos m´ınimos quadrados.

4_{Pelo Lema 3.2.3 de [1], temos a garantia que ´e poss´ıvel obter o estimador de}

Σa partir da diferenciac¸ ˜ao em ordem aSigma−1_.

(32)

Para a segunda funç ão de probabilidades à priori estim ámosc2ec3atrav és de m étodos de

otimizaç ão e tamb ém pelo m étodo dos m´ınimos quadrados, pois aqui existem restriç ões de de-sigualdades: uma para implicar que(ln◦g)00(k) <0, e tr ês para n ão gerarmos probabilidades negativas.

Portanto, neste caso pretendeu-se

min c2,c3 K X i=1 (ni n − 1 K +c2 K+ 1 2 +c3 (K+ 1)(2K+ 1) 6 −c2i−c3i 2₎2 _(2.3.6) , s.a.                      1 K −c2 K+1 2 −c3 (K+1)(2K+1) 6 +c2+c3 ≥0 −c3≥0 1 K −c2 K+1 2 −c3 (K+1)(2K+1) 6 +c2K+c3K2 ≥0 c2c3(K+ 1) +c23 (K+1)(2K+1) 3 + c22 2 −2 c3 K ≥0

2.4 Resultados

2.4.1 Detalhes de implementac¸ ˜ao

Os nossos programas foram criados em linguagem R na vers ão 3.3.2. No m étodo de otimizaç ão us ámos o algoritmocobylada bibliotecanloptr, onde o ponto inicial é considerado num dos par âmetros da nossa funç ão e escolhido posteriormente como o melhor dentro de uma grelha de pontos definida pelo utilizador.

Este problema cont ém uma funç ão objetivo n ão linear e restriç ões tamb ém n ão lineares. Dada esta complexidade a soluç ão que consider ámos mais ajustada foi a utilizaç ão de um algor´ıtmo de procura blindada5_{pois as alternativas testadas em bibliotecas do R j á existentes}

mostraram-se incapazes de solucionar a quest ão. Nestas alternativas foram testados algo-ritmos como Particle Swarm Optimization (PSO), Differential Evolution Optimization, que se enquadram numa procura baseada na populaç ão (t êm a vantagem do utilizador n ão necessi-tar indicar um ponto inicial). Por ém, a nosso ver, a implementaç ão existente no R n ão est á ainda muito robusta.

Um exemplo que confirma esta consideraç ão pertence ao m étodo PSO e pode ser testado com o seguinte c ódigo:

l i b r a r y( mopsocd )

5

(33)

FCUP

f<−f u n c t i o n( x ){ r e t u r n( x [ 1 ] ˆ 2 + x [ 2 ] ˆ 2 ) } gn <− f u n c t i o n( x ){ g1 <− −x [ 2 ] + 1 0 <= 0 . 0 g2 <− x [ 1 ] <= 0 . 0 r e t u r n(c( g1 , g2 ) ) } coef=mopsocd ( f , gn , v a r c n t =2 , f n c n t =1 , o p t =0 , lowerbound = c(−100 ,−100) , upperbound = c( 1 0 0 , 1 0 0 ) ) # Outputs coef[ [ 1 ] ] [ 1 ] #x1=−2.989822e−12 coef[ [ 1 ] ] [ 2 ] #x2 =3.860841e−12 coef[ [ 2 ] ] # f ( x1 , x2 )=2.384513 e−23

Neste exemplo pretendia-se

min x1,x2 x2₁+x2₂, s.a.      x2 ≥10 x1 ≤0

os par âmetros t êm os seguintes significados;varcnt: o node restriç ões,fncnt: o node funç ões objetivo,opt:0minimizaç ão;1maximizaç ão elowerbound, upperbound o dom´ınio de procura. Por ém as soluç ões obtidas pelo algor´ıtmo foram aproximadamente 0 para as duas vari áveis. Outros algor´ıtmos foram testados e desconsiderados por raz ões semelhantes a esta.

Para avaliar os nossos m ´etodos, separ ´amos aleatoriamente os dados, em cada classe, em duas partes:

• 70% para treino;

• 30% para teste.

Este processo foi repetido 10 vezes e a m ´edia do erro e o desvio-padr ˜ao foram registadas. Neste esquema, foram comparados os resultados obtidos pelas seguintes metodologias:

• An ´alise discriminante linear conventional (cLDA);

(34)

• An álise discriminante linear unimodal com funç ão de probabilidades à priori exponencial onde os par âmetros foram estimados pelos m´ınimos quadrados (lseUDA);

• An álise discriminante linear unimodal com funç ão de probabilidades à priori quadr ática onde os par âmetros foram estimados pelos m´ınimos quadrados (lsqUDA);

• O nosso modelo de an álise discriminante linear unimodal com a funç ão de probabili-dades à priori estimada da forma usual, isto é, dada pelas frequ ências relativas dos dados (freqUDA). Com esta funç ão de probabilidades n ão conseguimos assegurar a condiç ão de unimodalidade para as probabilidades à posteriori, contudo é mais prov ável que aconteça do que no modelo de an álise discriminante linear tradicional.

2.4.2 Medidas de Performance

Para avaliarmos e compararmos os m étodos acima referidos, temos que tomar em conta que a vari ável que estamos a tentar prever é ordinal e portanto os erros n ão t êm todos a mesma import ância. Por exemplo, se prevermos a classe 2 para uma observaç ão que pertence à classe 1 este erro n ão é t ão mau como se tivessemos previsto a classe 5. Por esta raz ão temos que escolher medidas adequadas de erro. Por isso, para al ém da medida mais comum (MRE), que d á a mesma import ância a todos os erros, us ámos as outras que se seguem:

• ErroM´edioRelativo (MRE): percentagem de elementos que foram mal classificados. MRE= 1 n n X i=1 ζi, ondeζi =   

1 seCb(i)6=C(i) (classe prevista diferente da classe real)

0 outros casos

• ErroM´edioAbsoluto (MAE).

MAE= 1 n n X i=1 |Cb(i)−C(i)|

• Coeficiente de correlac¸ ˜ao de Kendall entre a classe previstaCb e a classe realC. Esta

na nossa opini ão é uma boa medida de erro para classificadores de dados ordinais. Como complemento tamb ém inclu´ımos uma outra medida, introduzida em [9, 10] que é semelhante a esta e que se apresenta no item seguinte.

(35)

FCUP

C/Cb 1 2 ... K Total 1 n11 n12 ... n1K n1• 2 n21 n22 ... n2K n2• ... ... ... ... ... K nK1 nK2 ... nKK nK• Total n•1 n•2 ... n•K n

O c ´alculo desde coeficiente ´e dado por

rint=−1 + 2 PK i=1 PK j=1 PK i0₌_i PK j0₌_jnijni0_j0−n q (PK i=1 PK j=ini•nj•−n)( PK i=1 PK j=in•in•j−n)

2.4.3 Aplicac¸ ˜ao da metodologia

Nesta subsecç ão iremos apresentar a performance dos nossos m étodos, comparando-os com o m étodo tradicional em quatro conjuntos de dados reais.

1. O primeiro conjunto de dados cont ém 1000 exemplos de avaliaç ões an ónimas, de alunos aos seus professores, realizadas no final de um MBA. Antes de receberem as notas finais os alunos foram convidados a avaliar os seus professores em quatro atributos tal como, apresentaç ão oral e contribuiç ão para o seu conhecimento profissional.

A única vari ável de sa´ıda era a avaliaç ão total do desempenho do professor.

Vari áveis: 4 vari áveis de entrada ordinais e uma de sa´ıda tamb ém ordinal (5 classes).

M ´etodos / Medidas MRE MAE Kendall rint

cLDA 0.401 (0.025) 0.433 (0.027) 0.629 (0.030) 0.679 (0.019) freqUDA 0.391 (0.023) 0.424 (0.029) 0.640 (0.031) 0.685 (0.022) mleUDA 0.424 (0.011) 0.455 (0.013) 0.615 (0.023) 0.69 (0.013) lseUDA 0.431 (0.021) 0.464 (0.024) 0.605 (0.031) 0.685 (0.017) lsqUDA 0.392 (0.024) 0.430 (0.027) 0.650 (0.023) 0.685 (0.016)

(36)

Para este conjunto de dados os m étodos freqUDA e lsqUDA superaram o m étodo con-vencional (cUDA) em todos os crit érios. O m étodo freqUDA obteve um melhor resultado na medida MAE por ém o m étodo lsqUDA foi superior na medida de Kendall. No que diz respeito à vari ância o m étodo lsqUDA consegiu ser um pouco melhor do que o m étodo freqUDA.

2. Este conjunto de dados pretende associar as caracter´ısticas das placas de circuito do processador com o desempenho do processamento das placas. Existem 209 observac¸ ˜oes.

Vari ´aveis: 6 vari ´aveis de entrada e uma ordinal de sa´ıda (10 classes).

Tabela 2.2: Resultados para o conjunto de dados CPU.

Neste conjunto de dados o m étodo lsqUDA superou o m étodo convencional em todos os crit érios exceto no primeiro. Contudo, tal como indicado anteriormente, a primeira medida n ão é a mais indicada para este tipo de estudo e portanto o resultado é completamente positivo. O m étodo freqUDA apenas foi inferior à metodologia usual na medida de kendall. A respeito da vari ância o m étodo freqUDA consegiu ser um pouco melhor do que o m étodo lsqUDA.

3. Esta base de dados cont ém informaç ões adquiridas nos censos na área de Boston, EUA. Existem 506 observaç ões.

(37)

FCUP

Tabela 2.3: Resultados para o conjunto de dados Housing.

Aqui o m étodo freqUDA superou o m étodo convencional em todos os crit érios. A respeito dos crit érios mais adequados para o estudo o m étodo lsqUDA apenas n ão superou o m étodo usual na medida MAE, ainda assim teve um bom desempenho nas medidas mais importantes (kendall erint). Quanto à vari ância o m étodo lsqUDA consegiu ser um

pouco melhor do que o m ´etodo freqUDA.

4. Esta base de dados cont ém 488 perfis de candidados a um emprego. Os resultados atribuidos por uma empresa de recrutamento a certos atributos determinam a vari ável de sa´ıda correspondente à avaliaç ão final de cada candidato.

Vari ´aveis: 4 vari ´aveis de entrada e uma ordinal de sa´ıda (9 classes).

Tabela 2.4: Resultados para o conjunto de dados ESL.

Novamente os m étodos freqUDA e lsqUDA superaram o m étodo convencional em todos os crit érios. Aqui tamb ém o m étodo lsqUDA conseguiu ser um pouco melhor que o m étodo freqUDA em todas as medidas, mesmo no que diz respeito à vari ância.

(38)

de an álise discriminante unimodal é uma boa alternativa à tradicional an álise discriminante linear. N ão s ó o modelo das respostas é mais apropriado para este tipo de classes como tamb ém as medidas de erro obtidas s ão competitivas com o m étodo tradicional. De facto, no que diz respeito às quatro medidas MER, MAE, kendall’s tau-b andrint, temos sempre um dos

nossos modelos com melhores resultados que o modelo convencional. Particularmente nas medidas que s ão mais apropriadas a este tipo de estudo, podemos ver que os nossos modelos s ão sempre melhores e em particular o modelo lsqUDA é o que se destaca mais. Este é um aspeto importante porque neste modelo podemos assegurar que as respostas respeitam a condiç ão de unimodalidade, sem perder qualidade no desempenho quando comparado com o da an álise discriminante usual.

2.5 Discuss ˜ao

Neste estudo apresent ámos uma nova abordagem à an álise discriminante linear em da-dos ordinais. A ideia principal é manter a ordinalidade das classes, impondo um modelo pa-ram étrico para as probabilidades de sa´ıda.

Modelando a funç ão de probabilidades à priori por uma funç ão quadr ática, produzimos um classificador mais simples e robusto, que se comparou favoravelmente com a metodologia convencional. O resultado comparativo n ão foi t ão expressivo quando a funç ão de probabidade à priori consistiu apenas das frequ ências relativas, mas mesmo nessa situaç ão os resultados obtidos ainda foram razo áveis.

Para a funç ão de probabilidades à priori exponencial os resultados n ão foram muito bons e uma causa disto poder á ser o facto destas funç ões s ó conterem um par âmetro de liberdade,

α, e assim n ˜ao serem suficientemente adapt ´aveis.

Outras direç ões para trabalhos futuros poder ão incluir outras funç ões de probabilidades à priori com mais par âmetros de liberdade, como por exemplo, Pearson tipo III e Pearson tipo IV.

Funç ão de distribuiç ão Person tipo III:

f(x) =k 1 +x a

µa

e−µx,−a < x <∞, µ, a >−1

Funç ão de distribuiç ão Person tipo IV:

f(x) =k 1 +x 2

a2 −m

e−µarctg(x/a),−∞< x <∞, µ, a, m >0

(39)

Cap´ıtulo 3

Clustering longitudinal

3.1 Introduc¸ ˜ao

Um conjunto de dados é considerado longitudinal se cada indiv´ıduo é medido repetida-mente ao longo do tempo, dando origem a um vetor de observaç ões para cada indiv´ıduo que tende a ter componentes correlacionadas. Isto apresenta um claro contraste com o estudo de dados transversais em que a informaç ão conhecida para uma vari ável é única para cada indiv´ıduo.

Dados longitudinais combinam elementos de dados multivariados e s éries temporais. Con-tudo, diferem dos dados multivariados tradicionais ao incorporarem um padr ão muito mais estruturado de interdepend ência entre as mediç ões e diferem das cl ássicas s éries temporais por consistirem de um grande n úmero de s éries curtas, em vez de s éries longas.

Ao longo do último meio s éculo, tem-se assistido a um progresso consider ável no desen-volvimento de m étodos estat´ısticos para an álise de dados longitudinais [24, 32, 40, 49, 52]. Em particular, s ão bastantes os crit érios que t êm vindo a ser propostos para a escolha do ”melhor n úmero de clusters”[22, 26, 34, 36, 44, 50] bem como m étodos para o tratamento de dados em falta [34–36]. Aplicaç ões desta teoria podem ser encontradas num largo dom´ınio, desde a biomedicina at é às ci ências sociais e comportamentais [28, 30, 38, 45, 47, 48]. Tamb ém novas metodologias t êm sido propostas [27, 42]. A. Ciampi et al. [27] consideraram o pro-blema de clustering em dados dependentes no tempo. O modelo consiste de uma mistura de extens ões de modelos lineares mistos (Extended Linear Mixed Models) e a estimaç ão é feita por m áxima verosimilhança, usando o m étodo Expectation-Maximization (EM). Os dados s ão modelados por uma mistura de distribuiç ões normais multivariadas e é considerada uma parametrizaç ão nas matrizes de vari ância-covari ância atrav és da decomposiç ão espectral das matrizes. Antonello Maruotti et al. [42] proposeram um m étodo que se baseia numa extens ão

(40)

do algoritmo K-m édias cl ássico, onde um modelo auto-regressivo de vetor multivariado (mul-tivariate vector autoregressive model - MVAR) é adicionalmente assumido, para modelar a evoluç ão dos centros dos clusters ao longo do tempo. Este m étodo agrupa as observaç ões longitudinais multivariadas com foco na evoluç ão das partiç ões ao longo do tempo e simultane-amente tem em consideraç ão a heterogeneidade latente e a depend ência do tempo. Atrav és de uma configuraç ão longitudinal univariada, o m étodo tenta descrever a din âmica dos pro-cessos modelando o valor atual do resultado como uma soma linear ponderada dos valores anteriores. A infer ência do modelo é baseada no m étodo do gradiente descendente.

Mesmo para a situaç ão de uma única vari ável resposta, a visualizaç ão de todas as tra-jet órias pode tornar-se insuficiente para uma identificaç ão eficaz dos padr ões importantes, portanto em estudos longitudinais, o agrupamento das trajet órias e a obtenç ão de trajet órias m édias podem ser facilmente de interesse.

V ários m étodos foram constru´ıdos para extender a an álise de agrupamento a dados lon-gitudinais. A maioria deles pode ser agrupada em m étodos n ão param étricos ou m étodos baseados em modelos [34, 39].

Os m étodos de clustering n ão param étricos integram a abordagem tradicional. N ão exis-tem suposiç ões sobre como os dados foram gerados e trajet órias pr óximas s ão agrupadas de acordo com alguma medida de dissemelhança. Os principais ingredientes s ão a medida de dissemelhança, o algoritmo de agrupamento e o n úmero de clusters a considerar [39]. En-quanto a medida de dissemelhança quantifica o car ácter distintivo das trajet órias, o algoritmo de agrupamento visa optimizar um crit ério baseado na medida de dissemelhança. Um dos al-goritmos de agrupamento mais simples e amplamente utilizado é o K-m édias [37] e exemplos desta metodologia podem ser encontrados em [25, 41, 51].

Os m étodos baseados em modelos assumem que os dados prov êm de um n úmero finito de populaç ões e que, dentro de cada populaç ão, os dados podem ser modelados usando um modelo estat´ıstico padr ão. Por outras palavras, assume-se que os dados prov êm de uma mistura de distribuiç ões [33, 43, 46, 53]. Esta abordagem baseada em modelos é conhecida como clustering em modelos de misturas.

Neste estudo, introduzimos uma nova metodologia n ão param étrica para agrupamento de dados longitudinais. As correlaç ões entre as observaç ões das trajet órias individuais s ão le-vadas em conta por matrizes de correlaç ão pr é-definidas com par âmetros que s ão estimados a partir dos dados. É considerada uma dist ância do tipo Mahalanobis com uma matriz de correlaç ão pr é-especificada e posteriormente o algoritmo das K-m édias é aplicado. Um re-sultado útil é que o processo coincide com a aplicaç ão do algoritmo K-M édias longitudinal,

(41)

FCUP

acess´ıvel por exemplo na bibliotecakml ekml3d do R, usando a dist ˆancia euclidiana em cer-tas trajet ´orias transformadas, simplificando assim o processo para o utilizador.

3.2 C ´alculo de dist ˆancias

Num cap´ıtulo em que temos como objetivo agrupar traject órias em classes homog éneas torna-se essencial ter bem presente a noç ão de dist ância. Estando as nossas trajet órias inde-xadas no tempo, explicamos agora como podemos calcular dist âncias nos casos unidimensio-nal e multidimensiounidimensio-nal.

• Caso unidimensional

Considere-se um conjunto S de n observaç ões onde cada observaç ão é medida em t

tempos diferentes. Para a observac¸ ˜ao i, denomina-se xi = (xi1, xi2, ..., xit) como uma

trajet ória e para calcular a dist ância entre duas trajet óriasxiexlo m étodo mais simples

passa por utilizar as f órmulas j á existentes para dist âncias entre dois individuos com t

vari ´aveis.

Por exemplo, para o c álculo da dist ância Euclidiana entre duas trajet órias temos:

d(xi, xl) = v u u t t X j=1 (xij−xlj)2

Este ´e o m ´etodo que vigora na bibliotecakml.

• Caso multidimensional

Considere-se para a trajet óriai, no tempoje vari ávelpdenotado comoxijp. Ent ão

xi.. =         xi.1 xi.2 ... xi.p         =         xi11 xi21 ... xit1 xi12 xi22 ... xit2 ... ... ... xi1p xi2p ... xitp        

Para definir a dist ância entre duas trajet órias conjuntas muitos m étodos s ão poss´ıveis. A bibliotecakml3dfoca-se nos dois m étodos seguintes.

Seja Dist uma funç ão dist ância e ||.|| uma norma. No primeiro m étodo, de forma a calcular a dist ânciadentrex1..ex2.., para cada tempoj fixado definimos

(42)

O resultado d ´a um vetor

d1.(x11., x21.), d2.(x12., x22.), ..., dt.(x1t., x2t.)

Posteriormente combinamos estastdist âncias usando a funç ão que algebricamente cor-responde à norma||.||do vetor de dist âncias. Ou seja, a dist ância entrex1..ex2.. é dada

por d(x1.., x2..) =|| d1.(x11., x21.), d2.(x12., x22.), ..., dt.(x1t., x2t.) ||

O segundo m étodo consiste em calcular a dist ânciad0entrex1..ex2.., para cada vari ável

X. Definimos a dist ˆancia como

d0_.X(x1.X, x2.X) =Dist(x1.X, x2.X)

e de forma an áloga, a dist ância é dada por

d0(x1.., x2..) =||

d.1(x1.1, x2.1), d.2(x1.2, x2.2), ..., d.p(x1.p, x2.p)

||

Escolhas diferentes para a norma||.||e da dist ânciaDistpodem conduzir à definiç ão de um grande n úmero de dist âncias.

Refira-se que, no caso em que||.|| corresponde à norma-p usual eDist à dist ância de Minkowski com par âmetroq, escolhendo o m étododoud0 obtemos o mesmo resultado. Assim, caso se utilize a dist ância Euclidiana (q = 2), ou a de Manhattan (q = 1) ou o M áximo (q = +∞) a escolha do m étodo (1 ou 2) é indiferente. De facto tem-se

3.3 M ´etodo das K-M ´edias

Ao processo de particionamento de um grupo de dados num n úmero menor de classes chamamos de Clustering. No nosso caso, o objetivo é atribuir a cada trajet ória um grupo.

(43)

FCUP

K-M édias é um dos v ários m étodos de agrupamento que visa encontrar os melhores agru-pamentos que minimizem a dist ância das trajet órias, dentro do seu grupo e maximizam essas dist âncias entre grupos diferentes. Um grupo fica definido pela sua trajet ória m édia.

Primeiro é necess ário indicarmos o n úmero de grupos a atribuir aos nossos dados, normal-mente denominado por k. Posteriormente devemos escolher os centros iniciais dos clusters,

¯

xi, i ∈ 1, .., k. É usual atribuitem-se trajet órias aleat órias como centros iniciais. O passo

se-guinte consiste em percorrer todas as trajet órias e atribuir-lhes o centro mais pr óximo, devendo este ser atualizado cada vez que uma trajet ória é analizada. Este passo deve ser percorrido iterativamente at é que nunhuma alteraç ão se verifique.

Por outras palavras e em suma, o m ´etodo das K-M ´edias pretende encontrar

arg min c k X i=1 X x∈ci d(x,x¯i)

ondeci ´e o conjunto de trajet ´orias que pertencem ao clusteri, ou seja,

ci={j:d(xj,x¯i)≤d(xj,x¯l), l6=i, j= 1, ..., n}

e os centros de cada cluster s ão calculados atrav és da m édia usual

¯ xi = 1 |ci| X j∈ci xj,∀i

3.4 Crit ´erios para a escolha do n

o

de grupos

O in´ıcio desta secç ão consiste da introduç ão de alguns conceitos base para a posterior definiç ão dos crit érios.

O´ındice de Gower[20] é um coeficiente gen érico de dissemelhança que toma em consideraç ão os v ários tipos de natureza das vari áveis. Suponha-se que os dados cont êmpvari áveis de na-tureza mista. Ent ão a dissimilhançad(i, j)entre os objetosiej é definida como

dij =d(i, j) = Pp l=1δij;ldij,l Pp l=1δij;l ,

sendo queδij;l é uma vari ável dicot ómica e é 0 quando pelo menos uma das medidasxi;le

xj;lda vari ávellest ão em falta. Se a natureza da vari ável é quantitativa toma-sedij;l=

|xil−xjl|

Rl ,

onde Rl é a amplitude da vari ávell. No caso em que l é uma vari ável nominal ou bin áriadij;l

é sempre 1 eδij;l é 1 quandoxi;l6=xj;l e 0 caso contr ário.

(44)

Em suma, amatriz de dist ˆanciasQde Gowercorresponde a uma matriz da forma Q=         d11 d21 ... dn1 d21 d22 ... dn2 ... ... ... dn1 dn2 ... dnp        

A dist ância de Gower é a dist ância utilizada em dados longitudinais sempre que existem dados em falta ou vari áveis qualitativas.

Amatriz de dispers ˜aoR[21]∈_Rp×p ´e dada por

R= g X k=1 nk X l=1 (xkl−x¯)(xkl−x¯)0

onde xkl ∈ Rp representa um vetor de observaç ões da l- ésima trajet ória do grupo k e

¯

x∈Rp representa a trajet ória m édia de todas as observaç ões.

Em espac¸os euclidianos, a matriz R decomp ˜oe-se na somaR=B+W [21], sendo que a

matriz de dispers ˜ao dentro dos gruposW ´e dada por

W = g X k=1 nk X l=1 (xkl−x¯k)(xkl−x¯k)0

ondex¯k∈Rprepresenta a m édia das observaç ões dentro do grupok, e amatriz de dispers ão entre gruposB corresponde a

B =

g

X

k=1

nk(¯xk−x¯)(¯xk−x¯)0

Os crit érios a serem apresentados nas secç ões que se seguem s ão os encorporados nas bibliotecas utilizadas, sendo estes os mais usados e com melhores desempenhos segundo a literatura [50].

3.4.1 Crit ´erio de Calinski Harabasz

Se representarmos o no_{de indiv´ıduos por}_n_{e o n}o_{de vari ´aveis por}_p_{, podemos representar}

os pontosP1, P2, ..., Pnno espac¸o Euclidiano pela matriz:

X =         P11 P21 ... Pn1 P12 P22 ... Pn2 ... ... ... P1p P2p ... Pnp        

(45)

FCUP

onde linhas correspondem a vari áveis e colunas a indiv´ıduos. Depois disto, é poss´ıvel construir a matriz de dist ânciasQde Gower, essencial para o in´ıcio do m étodo, e a matriz de dispers ão

R. A dist ância ao quardrado dedij entrePi ePj ser á definida pela funç ão

d2_ij = (X.i−X.j)0(X.i−X.j) i, j= 1,2, ..., n.

Um elemento importante na an álise de clusters é a dispers ão de um grupo, e para um grupo denindiv´ıduos ela é dada pela soma dos quadrados das dist âncias entre cada ponto e o seu centroide. Esta soma é igual aoT r(R)e pode ser obtida da seguinte forma [23]:

T r(R) =n−1(d2₁₂+d2₁₃+...+d2_n−₁_,n) (3.4.1)

Esta f órmula é muito útil pois evita o c álculo da matrizR e deve-se referir que é v álida no espaço Euclidiano mesmo quando os eixos n ão s ão ortogonais.

Pretendem-se separarnindiv´ıduos emkclusters, ent ˜ao temosn−1intervalos entre os in-div´ıduos e precisamos de escolher apenask−1desses intervalos. Isto perfazn−1Ck−1

possibi-lidades de separac¸ ˜ao. Se representarmos o no_{de indiv´ıduos em cada cluster por}_n

1, n2, ..., nk,

podemos calcular a soma dos quadrados dentro de cada cluster (Within Group Sum of Squa-res), por aplicac¸ ˜ao de (3.4.1), e no final considerar a soma para os todos os clusters. A matriz

Rpode ser decomposta emR=B+W, sendo que

W GSS=T r(W) =T r(R1) +T r(R2) +...+T r(Rk)

onde

T r(Rg) =n−g1(d212(g) +d213(g) +...+d2n−1,n(g))

comdij(g)denotando a dist ˆancia entrePiePj do clusterg(g= 1,2, ..., k).

Sekn ão é conhecido ent ão este crit ério pode ser utilizado da seguinte maneira: primeiro utilizamos k = 2, depois k = 3, e assim sucessivamente. Em cada caso pretendemos n ão s ó encontrar o m´ınimoW GSS mas tamb ém o m áximoBGSS =T r(B)(soma dos quadrados entre os grupos - Between-Group Sum of Squares). O crit ério é dado por

CH = BGSS k−1 ÷

W GSS

n−k (3.4.2)

Sendo este crit ério um informal indicador para o melhor node grupos. De facto este quoci-ente é an álogo à estat´ıstica F, associada a modelos de regress ão.

Apesar de efetivamente n ˜ao existir teoria estat´ıstica satisfat ´oria para justificar o uso deCH

(46)

Sejad¯2 m édia das dist âncias quadradas (existem n(n−₂ 1) valores distintos de dist âncias) e

¯

d2₍_g₎_{a m édia an áloga para o cluster g; ent ão, de (3.4.1)}

T SS =n−1n(n−1) 2 ¯ d2 = 1 2(n−1) ¯d 2 W GSS=T r(R1) +T r(R2) +...+T r(Rk) = 1 2[(n1−1) ¯d 2_{(1) + (}_n 2−1) ¯d2(2) +...+ (nk−1) ¯d2(k)]

sendo que uma outra interessante forma de escrita ´e

2×W GSS= ¯d2×(n−n1−n2−...−nk−k+k) + 2×W GSS = ¯d2×(n−k−n1+ 1−n2+ 1−...−nk+ 1) + 2×W GSS = ¯d2×(n−k)−(n1−1) ¯d2−...−(nk−1) ¯d2+ 2×W GSS = ¯d2×(n−k)−[(n1−1)( ¯d2−d¯2(1))−...−(nk−1)( ¯d2−d¯2(k))] = (n−k)( ¯d2−Ak) onde Ak = 1 n−k[(n1−1)( ¯d 2₋_d_¯2_{(1)) + (}_n 2−1)( ¯d2−d¯2(2)) +...+ (nk−1)( ¯d2−d¯2(k))]

de onde resulta que

BGSS =T SS−W GSS= 1

2[(k−1) ¯d

2_{+ (}_n₋_k₎_A

k]

Esta deduc¸ ˜ao permite reescreverCH da seguinte maneira:

CH = (3.4.2) = ( ¯d2+ n−k

k−1Ak)÷( ¯d

2₋_A

k)

e aqui o caminho passa apenas pela maximizac¸ ˜ao deAk.

Algumas modificaç ões a este crit étio t êm vindo a ser sugeridas [36], nomeadamente:

• Crit ´erio Calinski Harabasz 2, sugerido por Kryszczuk [36]

CH2 = BGSS n−k ÷

W GSS n−1

• Crit ´erio Calinski Harabasz 3, sugerido por Genolini [36]

CH3 = √BGSS

k−1 ÷

W GSS n−k

Para uma melhor compreens ˜ao do crit ´erio, inclu´ımos de seguida dois exemplos elucidati-vos.

(47)

FCUP

Exemplo 3.4.1.1. Seja S o conjunto das 3 traject ´oriasy1, y2, y3 seguintes, indexadas em 2 tempos:

y1= (5,2); y2 = (−1,0); y3= (9,4)

Estas trajet órias est ão claramente divididas em dois gruposg1={y1, y3}eg2 ={y2}. Começamos por determinar as dist âncias entre cada uma das trajet órias:

d2₁₂= 62+ 22= 40;

d2₁₃= 42+ 22= 20;

d2

23= 102+ 42 = 116

Seguindo o c ´alculo dos trac¸os das matrizes:

T r(R) = 1 3(d 2 12+d213+d223) = 176 3 ; T r(W) =T r(R1) +T r(R2) = 1 2d 2 13+ 0 = 10; T r(B) = 176 3 −10 = 146 3 ∴CH = 146 3 2−1÷ 10 3−2 '4,867 • Caso multidimensional

Exemplo 3.4.1.2. Seja S o conjunto das 3 traject ´orias bivariadas y1, y2, y3 seguintes, indexadas em 2 tempos: y1..=   5 2 3 −2  ; y2..=   −1 0 9 0  ; y3..=   9 4 1 0  

Estas trajet órias est ão novamente divididas em dois gruposg1 ={y1, y3}eg2 ={y2}. Para o c álculo das dist âncias entre cada uma das trajet órias utilizou-se o primeiro m étodo exposto anteriormente, com a norma Euclidiana:

d2₁₂=||(√62_{+ 6}2_,√₂2_{+ 2}2₎_||2_{= 6}2_{+ 6}2_{+ 2}2_{+ 2}2_{= 80;}

d2₁₃= 42+ 22+ 22+ 22 = 28;

d2

23= 102+ 82+ 44= 180

(48)

T r(R) = 1 3(d 2 12+d213+d223) = 96; T r(W) =T r(R1) +T r(R2) = 1 2d 2 28+ 0 = 14; T r(B) = 96−14 = 82 ∴CH = 82 2−1÷ 14 3−2 '5,857

Estes resultados podem ser obtidos atrav ´es do seguinte c ´odigo (incluimos um alerta para um comando desatualizado):

v1 <− matrix(c( 5 ,−1 , 9 , 2 , 0 , 4 ) ,ncol= 2 ) ; v1 v2 <− matrix(c( 3 , 9 , 1 ,−2 , 0 , 0 ) ,ncol= 2 ) ; v2

raw <− c l u s t e r L o n g D a t a 3 d (array(cbind(data.matrix( v1 ) ,

data.matrix( v2 ) ) , dim=c(nrow( v1 ) ,ncol( v1 ) , 2 ) ) ) kml3d ( raw , n b C l u s t e r s =2)

#comando c o r r e t o

ob1 <− p a r t i t i o n ( g e t C l u s t e r s ( raw , 2 ) , raw ) ob1 [ ” C a l i n s k i . Harabatz ” ] #5.857143

#comando d e s a t u a l i z a d o

L i s t P a r t i t i o n show( raw ) #5.779127

3.4.2 Outros crit ´erios

Para al ém dos crit érios Calinski-Harabasz j á descritos ainda iremos considerar outros dois (todos inclu´ıdos na biblioteca kml), nomeadamente

• Crit ´erio Davies - Bouldin: [36]

DB =mean(P rox(clusteri, clusterj))

com a proximidadeProxdefinida por

P rox(i, j) = DistInt(i) +DistInt(j) DistExt(i, j)

onde DistInt(i) representa a dist ância m áxima entre duas trajet órias do cluster i e

(49)

FCUP

• Crit ´erio Ray - Turi: 1

RT = 1 n×t

W GSS mink<k0∆2

kk0

onde denotamos∆kk0 como a dist ˆancia entre os centros dos clusterskek0, ou seja

∆kk0 =||C{k

0_}

−C{k}||

Tal como atr ás, calcul ámos os valores dos crit érios em dada um dos exemplos introduzidos anteriormente.

• Caso unidimensional

Exemplo 3.4.2.1. Recorde-se que as trajet ´orias s ˜ao

y1= (5,2); y2 = (−1,0); y3= (9,4)

e est ˜ao divididas em dois gruposg1 ={y1, y3}eg2={y2}. Sendo assim

C{1}= (7,3) ; C{2}= (−1,0) ∴DistExt(1,2) =√73 = ∆12 Portanto DB =P rox(1,2) = √d13 73 = √ 20 √ 73 '0,523 e RT = 1 6 × 10 73 '0,0228 • Caso multidimensional

Exemplo 3.4.2.2. Novamente recordando as trajet ´orias temos

y1..=   5 2 3 −2  ; y2..=   −1 0 9 0  ; y3..=   9 4 1 0  

estas est ˜ao tamb ´em divididas emg1 ={y1, y3}eg2 ={y2}. Assim

C{1}=   7 3 2 −1   ; C{2} =   −1 0 9 0   ∴DistExt(1,2) =||(p82_{+ 7}2_,p₃2_{+ 1}2₎_||₌√_{123 = ∆} 12 Portanto DB =P rox(1,2) = √d13 123 = √ 28 √ 123 '0,477 e RT = 1 12 × 10 73 '9,49×10 −3 1