Novos
Desenvolvimentos
em Análise de Dados
Fábio José Nogueira Ferreria
Dissertação de Mestrado apresentada à
Faculdade de Ciências da Universidade do Porto em
Engenharia Matemática
2017
N ov os D es en v olv imentos em A ná lise de D ad os F ábio José No g u eir a F er reir aMSc
FCUP 2017 2.º CICLONovos
Desenvolvimentos em
Análise de Dados
Fábio José Nogueira Ferreira
Mestrado em Engenharia MatemáticaDepartamento de Matemática 2017
Orientadores
Joaquim Fernando Pinto da Costa, Professor / Investigador, Faculdade de Ciências da Universidade do Porto, CMUP
Ana Rita Pires Gaio, Professora / Investigadora, Faculdade de Ciências da Universidade do Porto, CMUP
Todas as correções determinadas pelo júri, e só essas, foram
efetuadas.
O Presidente do Júri,
FCUP
Novos Desenvolvimentos em An ´alise de Dados
Agradecimentos
A realizac¸ ˜ao desta dissertac¸ ˜ao marca o fim de uma das fases mais importantes da minha vida, portanto quero aqui deixar algumas palavras a pessoas que se mostraram essenciais nesta concretizac¸ ˜ao.
Inicialmente, agradec¸o `a minha fam´ılia e amigos, com especial ˆenfase aos meus pais e av ´os, pelo apoio incondicional e incentivo para a chegada a este n´ıvel, s ˜ao sem d ´uvida muito importantes na minha vida, toda a forc¸a e ensinamentos que me t ˆem dado mostraram-se essenciais neste caminho.
De seguida, quero agradecer claramente `a minha namorada, por toda a forc¸a, paci ˆencia e motivac¸ ˜ao que me tem dado, principalmente nos momentos de maior nervosismo. ´E muito bom ser apoiado naquilo que acredito, nos meus objetivos profissionais e pessoais e ainda mais ter a sorte de contermos tantos objetivos coincidentes.
Tamb ´em deixo um agradecimento especial aos colegas J ´ulio Silva e Martina Mascarello pela disponibilidade e apoio prestados. E por fim, com a maior das considerac¸ ˜oes e admirac¸c¸ ˜oes, agradec¸o aos meus professores orientadores, Prof. Joaquim Costa e Prof. Rita Gaio, por todo o conhecimento transmitido, disponibilidade, compreens ˜ao e apoio. Saio do mestrado com toda a certeza que n ˜ao podia ter sido melhor guiado.
Tese realizada no ˆambito do mestrado em Engenharia Matem ´atica Departamento de Matem ´atica
Faculdade de Ci ˆencias da Universidade do Porto
FCUP
Novos Desenvolvimentos em An ´alise de Dados
Resumo
Esta dissertac¸ ˜ao prop ˜oe dois m ´etodos inovadores de classificac¸ ˜ao. A primeira metodolo-gia proposta enquadra-se no ˆambito da classificac¸ ˜ao supervisionada e ´e motivada pelo facto de alguns problemas reais requererem uma classificac¸ ˜ao de objetos ou indiv´ıduos em classes com uma ordem natural. Estes problemas s ˜ao tradicionalmente resolvidos usando m ´etodos convencionais destinados a uma classificac¸ ˜ao de classes nominais onde a noc¸ ˜ao de ordem ´e ignorada. A segunda metodologia proposta concerne a an ´alise de clusters em dados longitu-dinais, caindo portanto no ˆambito da classificac¸ ˜ao n ˜ao supervisionada.
A primeira parte da dissertac¸ ˜ao ´e dedicada `a adaptac¸ ˜ao do m ´etodo tradicional de an ´alise discriminante linear para classes ordinais. Sob o ponto de vista metodol ´ogico, utiliza o m ´etodo da m ´axima verosimilhanc¸a e o m ´etodo dos m´ınimos quadrados para estimac¸ ˜ao dos par ˆametros. Restric¸ ˜oes gen ´ericas sobre as m ´edias das classes e as probabilidades `a priori s ˜ao considera-das. Foram testadas tr ˆes metodologias ordinais e uma parcialmente ordinal. Estas foram apli-cadas em quatro conjuntos de dados reais e posteriormente comparadas com a metodologia tradicional atrav ´es de quatro medidas de performance. Os resultados para uma das metodo-logias ordinais e para a metodologia parcialmente ordinal compararam-se favoravelmente com a an ´alise discriminante linear usual.
O segundo m ´etodo proposto nesta dissertac¸ ˜ao introduz uma metodologia de classificac¸ ˜ao n ˜ao supervisionada para dados longitudinais. Um conjunto de dados ´e considerado longitudi-nal se cada indiv´ıduo ´e medido repetidamente atrav ´es do tempo, fazendo assim crescer um vetor de observac¸ ˜oes para cada indiv´ıduo que tende a ter componentes substancialmente cor-relacionadas. Em estudos longitudinais com um grande n ´umero de trajet ´orias, o agrupamento destas e a obtenc¸ ˜ao de trajet ´orias m ´edias podem ser de interesse. A metodologia proposta comec¸a por modelar as correlac¸ ˜oes existentes entre observac¸ ˜oes de traject ´orias individuais atrav ´es de uma matriz pr ´e-definida com par ˆametros estimados dos dados. Depois ´e conside-rada uma dist ˆancia do tipo Mahalanobis e o algoritmo das K-m ´edias longitudinal ´e aplicado. Mostra-se depois que a metodologia desenvolvida ´e equivalente a usar o algoritmo longitu-dinal das K-m ´edias em dados adequadamente transformados. Esta propriedade simplifica o processo para utilizadores gerais. Na circunst ˆancia particular de o interesse do estudo incidir sobre as traject ´orias relativas (e n ˜ao as absolutas), aconselhamos a utilizac¸ ˜ao de um de dois perfis propostos antes da entrada do algoritmo. A metodologia foi testada em dados simulados e tamb ´em em dados reais, usando traject ´orias uni- e bi-dimensionais. A nova metodologia produziu em geral melhores resultados do que os obtidos por aplicac¸ ˜ao direta do algoritmo das K-m ´edias longitudinal nos dados originais.
Palavras-chave:Classificac¸ ˜ao; An ´alise Discriminante Linear; Classes Ordenadas; K-M ´edias; Clustering Longitudinal.
FCUP
Novos Desenvolvimentos em An ´alise de Dados
Abstract
This dissertation intends to propose two innovative methods of classification. The first pro-posed methodology fits into the supervised classification and this is motivated by the fact that many real life problems require the classification of objects or individuals into naturally ordered classes. These problems are traditionally handled by conventional methods intended for the supervised classification of nominal classes where the order is ignored. The second proposed methodology concerns cluster analysis in longitudinal data, falling, therefore, in the scope of the unsupervised classification.
The first part of the dissertation is dedicated to the adaptation of the traditional method of linear discriminant analysis to ordinal classes. From the methodological point of view, it uses the maximum likelihood method and the least squares method to estimate the parameters. Generic restrictions on the means and prior probabilities of the classes are considered. Three ordinal and one partially ordinal methodologies were tested. The results for one of the ordinal methodologies and for the partially ordinal methodology were compared favorably with the usual Linear Discriminant Analysis.
The second method proposed in this dissertation introduces an unsupervised classifica-tion methodology for longitudinal data. The defining feature of a longitudinal data set is that individuals are measured repeatedly through time, giving rise to a vector of observations that tend to be intercorrelated. In longitudinal studies with a large number of subjects, clustering of the longitudinal trajectories and the definition of a much smaller number of mean trajectories is often of interest. The proposed methodology starts by modeling the existing correlations between observations of individual trajectories through a predefined matrix. Then a distance of the Mahalanobis type is considered and the longitudinal K-means algorithm is applied. It is later shown that the methodology developed is equivalent to using the longitudinal algorithm of the K-means in appropriately transformed data. This property simplifies the process for general users. Whenever the interest of the study concerns the relative (and not absolute) tra-jectories, we recommend using one of two proposed profiles before the algorithm enters. The methodology was tested in simulated data and also in real data, using uni- and bi-dimensional trajectories. The new methodology generally produced better results than those obtained by direct application of the longitudinal K-means algorithm in the original data.
Keywords:Classification; Linear discriminant analysis; Ordered classes; K-Means; Longi-tudinal clustering.
Conte ´
udo
Agradecimentos . . . i
Resumo . . . iii
Abstract . . . v
Lista de Tabelas . . . ix
Lista de Figuras . . . xii
1 Introduc¸ ˜ao 1 2 An ´alise discriminante linear para classes ordinais 5 2.1 Introduc¸ ˜ao . . . 5
2.2 Modelo Tradicional . . . 8
2.3 Modelo Inovador . . . 8
2.4 Resultados . . . 14
2.4.1 Detalhes de implementac¸ ˜ao . . . 14
2.4.2 Medidas de Performance . . . 16
2.4.3 Aplicac¸ ˜ao da metodologia . . . 17
2.5 Discuss ˜ao . . . 20
3 Clustering longitudinal 21 3.1 Introduc¸ ˜ao . . . 21
3.2 C ´alculo de dist ˆancias . . . 23
3.3 M ´etodo das K-M ´edias . . . 24
3.4 Crit ´erios para a escolha do node grupos . . . . 25
3.4.1 Crit ´erio de Calinski Harabasz . . . 26
3.4.2 Outros crit ´erios . . . 30
3.5 Metodologia proposta . . . 32
3.6 Resultados em dados simulados . . . 34
3.7 Resultados em dados reais . . . 39
Lista de Tabelas
2.1 Resultados para o conjunto de dados LEV. . . 17
2.2 Resultados para o conjunto de dados CPU. . . 18
2.3 Resultados para o conjunto de dados Housing. . . 19
2.4 Resultados para o conjunto de dados ESL. . . 19
3.1 Dados originais X (lado esquerdo); Dados transformados YA s/ perfis e YA c/ perfil I (lado direito, resultados coincidentes). . . 36 3.2 Dados originais X (lado esquerdo); Dados transformadosYAs/ perfis (lado direito). 37
Lista de Figuras
2.1 Paradigma unimodal . . . 7
3.1 Trajet ´orias simuladas. Conjunto de dados 1 (lado esquerdo), Conjunto de dados 2 (lado direito). . . 35 3.2 Trajet ´orias afins. Da esquerda para a direita: Dados originais X, Dados
transfor-madosYAs/ perfis, Dados transformadosYAc/ perfil I. . . 35
3.3 Trajet ´orias trigonom ´etricas. Dados originais X, Dados transformadosYAs/
per-fis. . . 37 3.4 Trajet ´orias afins - Trajet ´orias com a verdadeira atribuic¸ ˜ao vs Metodologia
tra-dicional. Em baixo - Trajet ´orias com a verdadeira atribuic¸ ˜ao vs Metodologia inovadora (com e sem perfis, uma vez que os resultados foram coincidentes). . . 38 3.5 Trajet ´orias trigonom ´etricas - Trajet ´orias com a verdadeira atribuic¸ ˜ao vs
logia tradicional. Em baixo: Trajet ´orias com a verdadeira atribuic¸ ˜ao vs Metodo-logia inovadora. . . 39 3.6 Conjunto de dados WeightLoss - Dados originais X, Dados transformadosYAe
YAcom perfil II . . . 40
3.7 Conjunto de dados Sleepstudy - Dados originais X, Dados transformadosYAs/
perfis . . . 41 3.8 Conjunto de dados Longair, primeira vari ´avel - Dados originais X, Dados
trans-formadosYAs/ perfis,YAc/ perfil I Em baixo: Trajet ´orias m ´edias: Dados originais
X, Dados transformadosYAs/ perfis eYAc/ perfil I . . . 42
3.9 Conjunto de dados Longair, segunda vari ´avel - Dados originais X, Dados trans-formadosYAs/ perfis eYAc/ perfil I . . . 43
3.10 Conjunto de dados Longair - Dados originais X Em baixo: Dados transformados
YAc/ perfil I . . . 43
3.11 Conjunto de dados WeightLoss - Metodologia tradicional, Metodologia inovadora s/ perfis Em baixo: Metodologia tradicional, Metodologia inovadora c/ perfil II . . 44
3.12 Conjunto de dados Sleepstudy - Metodologia tradicional, Metodologia inovadora s/ perfis . . . 45 3.13 Conjunto de dados Longair V1 - Metodologia tradicional, Metodologia inovadora
s/ perfis Em baixo: Metodologia tradicional, Metodologia inovadora c/ perfil I . . . 45 3.14 Conjunto de dados Longair V2 - Metodologia tradicional, Metodologia inovadora
s/ perfis Em baixo: Metodologia tradicional, Metodologia inovadora c/ perfil I, Trajet ´orias m ´edias da metodologia inovadora c/ perfil I . . . 46
Cap´ıtulo 1
Introduc¸ ˜ao
Esta dissertac¸ ˜ao prop ˜oe duas metodologias inovadoras, uma para classificac¸ ˜ao supervisio-nada e outra para classificac¸ ˜ao n ˜ao supervisiosupervisio-nada, sendo estas motivadas pela sua utilidade em panoramas reais ainda n ˜ao muito explorados.
No cap´ıtulo 2 propomos uma metodologia espec´ıfica para classificac¸ ˜ao supervisionada de classes ordinais. De facto, muitos problemas reais requerem uma classificac¸ ˜ao de objetos ou indiv´ıduos em classes contendo uma ordem natural, por ´em estes problemas s ˜ao tradicional-mente tratados com o uso de m ´etodos convencionais onde a noc¸ ˜ao de ordem ´e ignorada. Um exemplo desses m ´etodos ´e a An ´alise Discriminante Linear, que assume que cada classe pode ser modelada por uma func¸ ˜ao gaussiana.
Neste trabalho introduz´ımos tr ˆes m ´etodos de An ´alise Discriminante Linear espec´ıficos para classes ordinais e utiliz ´amos o m ´etodo de m ´axima verosimilhanc¸a, o m ´etodo dos m´ınimos quadrados e ainda alguns m ´etodos de otimizac¸ ˜ao para estimar os par ˆametros do modelo. Inclu´ımos ainda um m ´etodo que n ˜ao ´e rigorosamente espec´ıfico para dados ordinais pois a probabilidade de respeitar um comportamento ordinal ´e maior do que no m ´etodo usual de An ´alise Discriminante Linear.
Para estas metodologias impusemos uma condic¸ ˜ao para que as probabilidades `a posteriori seguissem um comportamento unimodal, obedecendo assim ao paradigma unimodal introdu-zido por J. Pinto da Costa (2005, 2008, 2010), e restric¸ ˜oes gen ´ericas sobre as m ´edias das classes e as probabilidades `a priori foram consideradas.
Por fim, foi criada uma func¸ ˜ao em linguagem R, na vers ˜ao 3.3.2, onde test ´amos as me-todologias propostas em quatro conjuntos de dados reais e compar ´amos com a metodologia tradicional atrav ´es de quatro medidas de performance. Como func¸ ˜ao de otimizac¸ ˜ao us ´amos o algoritmo cobyla da biblioteca nloptr, onde o ponto inicial a considerar ´e escolhido como o melhor dentro de uma grelha de pontos definida pelo utilizador. Os resultados para uma
das metodologias ordinais e para a metodologia parcialmente ordinal compararam-se favo-ravelmente com a An ´alise Discriminante Linear usual tornando-se assim uma boa alternativa, especialmente porque cont ˆem um modelo de respostas mais apropriado a este tipo de classes. No cap´ıtulo 3 apresent ´amos uma metodologia direcionada para a classificac¸ ˜ao n ˜ao su-pervisionada em dados longitudinais. Numa primeira fase introduzimos uma nova metodo-logia n ˜ao param ´etrica de clustering de dados longitudinais. A motivac¸ ˜ao desta metodometodo-logia ´e que nos m ´etodos tradicionais os agrupamentos das trajet ´orias apenas s ˜ao feitos tomando em considerac¸ ˜ao a dist ˆancia entre estas ignorando o seu comportamento ao longo do tempo, por ´em em muitos casos reais tamb ´em ´e do interesse que nesse agrupamento o comporta-mento das trajet ´orias seja levado em conta.
Ao contr ´ario dos m ´etodos tradicionais tamb ´em as correlac¸ ˜oes entre observac¸ ˜oes de tra-jet ´orias individuais s ˜ao tomadas em conta com uma matriz de correlac¸ ˜oes pr ´e-definida e par ˆametros que s ˜ao estimados dos dados. Assim sendo, como alternativa `a dist ˆancia Euclidi-ana usualmente utilizada no algoritmo das K-M ´edias longitudinal consider ´amos a aplicac¸ ˜ao de uma dist ˆancia de Mahalanobis original que inclui esta matriz de correlac¸ ˜oes.
Para completude desta dissertac¸ ˜ao, incluimos uma breve apresentac¸ ˜ao sobre c ´alculo de dist ˆancias longitudinais e ainda uma apresentac¸ ˜ao de alguns crit ´erios para a escolha do n ´umero mais adequado de clusters, onde expomos os algoritmos e exemplos ilustrativos para uma melhor compreens ˜ao dos mesmos. A definic¸ ˜ao de alguns conceitos base necess ´arios `a com-preens ˜ao destes algoritmos tamb ´em foram apresentados.
Simplific ´amos o processo de clustering ao considerar uma transformac¸ ˜ao adequada dos dados que permite a utilizac¸ ˜ao direta de um processo de clustering conhecido (e j ´a imple-mentado no R). De facto, mostramos que o nosso m ´etodo com a nova dist ˆancia Mahalanobis coincide com a aplicac¸ ˜ao do algoritmo K-M ´edias longitudinal usando a dist ˆancia Euclidiana para certas trajet ´orias transformadas. Esta propriedade simplifica o processo para utilizadores gerais.
Posteriormente, sabendo que em certas circunst ˆancias pode ser importante o comporta-mento relativo em vez dos valores absolutos, aconselhamos a utilizac¸ ˜ao, antes da entrada do algoritmo, de um de dois perfis propostos. Assim program ´amos a metodologia proposta com a utilizac¸ ˜ao da linguagem R, vers ˜ao 3.3.2, onde utiliz ´amos as bibliotecas kml ou kml3d
e test ´amos a metodologia em dados simulados com diferentes caracter´ısticas e em dados re-ais. Consider ´amos trajet ´orias unidimensionais e bidimensionais para ilustrar a aplicac¸ ˜ao do m ´etodo desenvolvido e os resultados foram comparados com os obtidos pela aplicac¸ ˜ao direta do algoritmo K-M ´edias longitudinal nos dados originais. Os resultados favoreceram a nova
FCUP
Novos Desenvolvimentos em An ´alise de Dados
metodologia.
Finalmente, gostariamos de referir que a presente tese n ˜ao inclui um cap´ıtulo de considerac¸ ˜oes finais e trabalhos futuros de forma expl´ıcita. Optou-se por se fazer essa cr´ıtica no final do cap´ıtulo correspondente a cada metodologia, por se achar que isso facilitaria a leitura da tese e a tornaria mais coerente.
Cap´ıtulo 2
An ´alise discriminante linear para classes
ordinais
2.1
Introduc¸ ˜ao
Muitos problemas de classificac¸ ˜ao supervisionada t ˆem a particularidade das classes possu´ırem uma ordem natural, e neles ´e pretendido atribuir uma classe a uma dada observac¸ ˜ao. ´E fre-quente encontrarmos este tipo de situac¸ ˜oes em temas como a modelac¸ ˜ao econom ´etrica, pro-blemas de classificac¸ ˜ao biom ´edica, ci ˆencias sociais e comportamentais. Embora esta situac¸ ˜ao seja bastante frequente, quase nunca ´e considerada nos modelos tradicionais de classificac¸ ˜ao supervisionada.
Neste cap´ıtulo, utiliz ´amos o m ´etodo de m ´axima verosimilhanc¸a e o m ´etodo dos m´ınimos quadrados para estimar os par ˆametros da metodologia de an ´alise discriminante linear pro-posta.
Considere-se o problema de classificac¸ ˜ao supervisionada com o objetivo de separar K
classes ordenadas C1 < . . . < CK, de um determinado espac¸o χ. Sejam n1, . . . , nK os
ta-manhos das classes, com n1+· · ·+nK = n. A probabilidade `a priori da classe k ´e πk com
PK
k=1πk= 1.
Parak= 1, . . . , K ej = 1, . . . , nk, denotamos porxkj ∈ Rp o vetor daj- ´esima observac¸ ˜ao
da classe k. Como as classes s ˜ao conhecidas desde o in´ıcio, a realizac¸ ˜ao de uma amostra aleat ´oria de tamanhonconsiste no par
{(xkj, ck)}k=1,...,K;j=1,...,nk.
A func¸ ˜ao (densidade) de probabilidadeX∈χna classeCk ´e representada porfk(x).
classeCkmaximize a probabilidade `a posterioriP(Ck|x)dada por
P(Ck|x) = πkfk(x)
PK
`=1π`f`(x)
(2.1.1)
O nosso m ´etodo assume que num problema de classificac¸ ˜ao supervisionada com classes ordenadas, a vari ´avel aleat ´oria classe Cx associada `a nova observac¸ ˜ao x deve seguir uma
distribuic¸ ˜ao de probabilidade unimodal, seguindo trabalhos anteriores de J. Pinto da Costa [9, 11, 12]. Isto significa que as probabilidades devem decrescer monotonamente para a esquerda e para a direita da classe onde a probabilidade m ´axima ´e obtida (ilustrado na figura 2.1). Por exemplo, suponhamos que pretendemos prever a temperatura para amanh ˜a dentro de cinco classes: Muito frio, Frio, Ameno, Quente e Muito quente. Dada uma nova observac¸ ˜ao x, e depois de calculadas as probabilidades `a posterioriP(C1|x),...,P(C5|x), se o valor mais alto for
P(C4|x), isto ´e, o mais prov ´avel ´e estar um dia Quente, ent ˜ao a segunda maior probabilidade deve ser um dia Muito quente ou um dia Ameno. A segunda maior probabilidade nunca devia ser, neste caso, um dia Muito frio. Por outras palavras, se a maior probabilidade ´e estar um dia Quente, n ˜ao faz sentido que a segunda maior probabilidade seja um dia Muito frio. Por ´em, um facto como este nos m ´etodos tradicionais de an ´alise discriminante pode acontecer.
Desde o ´ultimo meio s ´eculo j ´a alguns autores t ˆem vindo a propor modelos de classificac¸ ˜ao supervisionada para classes ordinais. Em trabalhos espec´ıficos de modelos de An ´alise Discri-minante Linear (Linear Discriminant Analysis - LDA1) podemos destacar B. Sun et al. [17] que propuseram em 2010 um novo m ´etodo de regress ˜ao ordinal baseado na An ´alise Discriminante de N ´ucleo (Kernel Discriminant Analysis, KDA). Os autores imp ˜oem duas restric¸ ˜oes ao modelo convencional que passa pela escolha de uma projec¸ ˜ao que satisfac¸a os seguintes requisitos: 1) A projec¸ ˜ao deve minimizar a dist ˆancia dentro das classes e maximizar a dist ˆancia entre clas-ses simultaneamente. 2) A projec¸ ˜ao deve garantir a informac¸ ˜ao ordinal das diferentes clasclas-ses, ou seja, a projec¸ ˜ao m ´edia das observac¸ ˜oes das classes mais altas devem ser maiores do que a projec¸ ˜ao das classes de classificac¸ ˜ao mais baixas. W. Deng et al. [4] em 2014 extenderam a t ´ecnica de LDA `a An ´alise de Classificac¸ ˜ao Linear (Linear Ranks Analysis - LRA) considerando a ordem de classificac¸ ˜ao dos centroides de cada classe num subspac¸o projetado. Sob uma restric¸ ˜ao na ordem de classificac¸ ˜ao das classes, s ˜ao propostos dois crit ´erios: 1) minimizac¸ ˜ao do erro de classificac¸ ˜ao com o pressuposto de que cada classe ´e homog ´enea com distribuic¸ ˜ao Gaussiana; 2) maximizac¸ ˜ao da soma (m ´edia) das dist ˆancias entre todos os pares de classes vizinhas. Ambos os crit ´erios podem ser resolvidos de forma eficiente com otimizac¸ ˜ao num subespac¸o unidimensional.
1
FCUP
Novos Desenvolvimentos em An ´alise de Dados
Outros modelos t ˆem sido sugeridos para a classificac¸ ˜ao de classes ordinais, principalmente modelos de M ´aquinas de Suporte Vetorial (SVMs), Redes Neuronais ou ´Arvores de Decis ˜ao. E. Frank e M. Hall [5] introduziram um simples processo de explorac¸ ˜ao de classes ordinais usando classificadores bin ´arios convencionais. Em 1980, P. McCullagh [15] prop ˆos um mo-delo de regress ˜ao que incluiu informac¸ ˜oes ordinais dos dados, eliminando a necessidade de atribuic¸ ˜ao de r ´otulos `as classes. Uma extens ˜ao deste trabalho ´e feita em 2001 por G. Tutz [18] atrav ´es da generalizac¸ ˜ao do modelo aditivo de Hastie e Tibshirani [6] incorporando termos n ˜ao param ´etricos. Shashua e Levin [16] introduziram uma formulac¸ ˜ao generalizada para o m ´etodo de SVMs para classes ordinais. Mais recentemente, Kotsiantis [13] prop ˆos uma t ´ecnica de classificac¸ ˜ao em cascata abrangendo um classificador de ´Arvores de Decis ˜ao e um algoritmo para um modelo de ´arvores. Herbrich et al. [7] aplicaram o Princ´ıpio da Minimizac¸ ˜ao do Risco Estrutural natural para SVMs de Vapnik [19] para obter um novo esquema de aprendizagem baseado numa grande margem para a tarefa de regress ˜ao ordinal. Jianlin Cheng et al. [2] apresentaram uma adaptac¸ ˜ao `as tradicionais Redes Neuronais para aprender categorias or-dinais, atrav ´es de uma generalizac¸ ˜ao do m ´etodo do percetr ˜ao. Em 2005, Joaquim Costa e Jaime Cardoso [11] introduziram um novo modelo de Redes Neuronais feedforward, para pro-blemas de classificac¸ ˜ao de multiclasses, onde as classes s ˜ao ordenadas. Os mesmos autores em 2007 [8] apresentaram um novo paradigma de aprendizagem de m ´aquinas de vetores de suporte especificamente para classes ordinais. A t ´ecnica reduz o problema de classificar clas-ses ordenadas para um problema padr ˜ao de duas clasclas-ses. O m ´etodo introduzido ´e mapeado em SVMs e Redes Reuronais. Em 2008, J. Costa et al. [9] no seguimento de trabalhos ante-riores, introduziram duas aproximac¸ ˜oes para SVMs e Redes Neuronais feedforward, uma pa-ram ´etrica, e uma n ˜ao papa-ram ´etrica e tamb ´em uma nova medida de performance para classes ordinais, nomeadamente o coeficiente rint utilizado mais `a frente neste cap´ıtulo.
Posterior-mente, em 2010, J. Costa et al. [12] elaboraram uma nova metodologia para SVMs baseada no paradigma unimodal com o esquema All-at-Once para a classificac¸ ˜ao ordinal.
2.2
Modelo Tradicional
A An ´alise Discriminante Linear ´e uma t ´ecnica que se baseia em modelos para as func¸ ˜oes de probabilidade.
Sejafk(x)a func¸ ˜ao densidade gaussiana multivariada da classekcom m ´ediaµ(k)∈ Rp e
matriz de vari ˆancias-covari ˆanciasΣk∈ Rp×p, com a restric¸ ˜aoΣk= Σ,∀k= 1, ..., K.
´
E pretendido maximizar (2.1.1) ou de forma equivalente
log(πk) +log(fk(x)) =log(π(k))−
1
2(x−µ(k))
tΣ−1(x−µ(k))
uma vez que o denominador ´e sempre positivo.
Ent ˜ao, para estimarmos os par ˆametros do modelo podemos utilizar, por exemplo, o m ´etodo de m ´axima verosimilhanc¸a e obtemos o seguinte resultado:
ˆ π(k) = nk n ˆ µ(k) = 1 nk nk X i=1 xki ˆ Σ = 1 n−K K X k=1 nk X i=1 (xki−µ¯(k))(xki−µ¯(k))t
Assim, para compararmos duas classes,kel, ´e suficiente considerar
log(P(Ck|x) P(Cl|x) ) =log(fk(x) fl(x) ) +log(π(k) π(l)) =log(π(k) π(l))− 1 2(µ(k)−µ(l)) tΣ−1(µ(k)−µ(l)) | {z } c0 +xtΣ−1(µ(k)−µ(l)) =c0+xtΣ−1(µ(k)−µ(l)) , c0∈ R
que ´e, uma equac¸ ˜ao linear emx.
2.3
Modelo Inovador
Assumindo os pressupostos usuais da An ´alise Discriminante Linear, ondefk(x) ´e a func¸ ˜ao
densidade gaussiana multivariada com m ´edia µ(k) ∈ Rp e matriz de vari ˆancias-covari ˆancias
Σ ∈ Rp×p, independente das classes, uma condic¸ ˜ao suficiente para as probabilidades `a
pos-teriori seguirem uma distribuic¸ ˜ao unimodal ´e que a func¸ ˜aog=g(k)definida por
FCUP
Novos Desenvolvimentos em An ´alise de Dados
tenha sempre a segunda derivada negativa, uma vez que o denominador em (2.1.1) ´e sem-pre positivo. Note-se que, embora k seja um inteiro, estamos a consider ´a-lo aqui como um real, para podermos efetuar a derivada. Nesse sentido, a condic¸ ˜ao da derivada ser negativa, satisfaz os nossos objetivos de unimodalidade, incluindo para os valores inteiros dek.
A func¸ ˜aog ´e dada ent ˜ao por
g(k) =π(k) 1 |Σ|1/2(2π)p/2e −1 2(x−µ(k)) tΣ−1(x−µ(k)) (2.3.1)
onde usamos a notac¸ ˜aoπ(k)eµ(k)para mostrar explicitamente que os par ˆametros dependem da classe.
Agora impomos duas condic¸ ˜oes. A primeira ´e que a m ´ediaµ(k)de cada classe k ´e uma func¸ ˜ao afim. Escrevemos
µ(k) = (a1+b1k, . . . , ap+bpk) =a+bk, k= 1, . . . , K
para vetores de valores reais a = (a1, . . . , ap) e b = (b1, . . . , bp) em Rp. Isto significa que
estamos a assumir que as m ´edias das K classes se encontram sobre uma reta. A segunda condic¸ ˜ao ´e que as probibilidades `a priori sejam escritas de uma das seguintes formas:
1. Func¸ ˜ao Exponencial com um par ˆametro:
π(k) =ce−(k−α)2, k= 1, . . . , K
onde a condic¸ ˜aoPK
k=1π(k) = 1, implica que,c=
1
PK
i=1e−(i−α)
2.
2. Func¸ ˜ao Quadr ´atica com dois par ˆametros:
π(k) =c1+c2k+c3k2, k= 1, . . . , K
onde de forma an ´aloga a condic¸ ˜ao PK
k=1π(k) = 1, implica que, c1 = K1 −c2K2+1 −
c3(K+1)(26K+1).
De forma a garantir a condic¸ ˜ao de unimodalidade comec¸amos por aplicar a transformac¸ ˜ao logar´ıtmica `a func¸ ˜aog(2.3.1)
(ln◦g)(k) = ln(π(k))−ln(|Σ|1/2(2π)p/2)−1
2(x−µ(k))
tΣ−1(x−µ(k))
Usando regras de c ´alculo diferencial matricial [14], temos
(ln◦g)0(k) = π
0(k)
π(k) + (x−µ(k))
e portanto (ln◦g)00(k) =−µ0(k)tΣ−1µ0(k) | {z } (a) + (x−µ(k))tΣ−1µ00(k) | {z } (b) +π 00(k)π(k)−π0(k)2 π(k)2 | {z } (c)
Dado que Σ−1 ´e definida positiva2, resulta que (a) < 0. Pela nossa primeira condic¸ ˜ao
imposta (b) = 0. Resta explorarmos as duas hip ´oteses apresentadas na segunda condic¸ ˜ao para garantirmos a unimodalidade.
Para a func¸ ˜ao exponencial temos
π0(k) = (−2k+ 2α)ce−(k−α)2 e π00(k) =−2ce−(k−α)2 + (−2k+ 2α)2ce−(k−α)2 Posto isto (c) = −2c2e−2(k−α)2+ (−2k+ 2α)2c2e−2(k−α)2 −(−2k+ 2α)2c2e−2(k−α)2 c2e−2(k−α)2 =−2<0
E portanto ficam garantidas as condic¸ ˜oes de unimodalidade para este caso. Para a func¸ ˜ao quadr ´atica temos
π0(k) =c2+ 2c3k; π00(k) = 2c3 Portanto (c) = 2c3(c1 +c2k+c3k 2)−(c 2+ 2c3k)2 (c1+c2k+c3k2)2
Ou seja, neste caso se garantirmos que
2c3(c1+c2k+c3k2)−(c2+ 2c3k)2≤0,∀k ⇔3−2c 3( 1 K −c2 K+ 1 2 −c3 (K+ 1)(2K+ 1) 6 − c22 2c3 + c 2 2 4c3 )≥0 ⇔ −2c3 K +c2c3(K+ 1) +c 2 3 (K+ 1)(2K+ 1) 3 + c22 2 >0
´e tamb ´em satisfeita a condic¸ ˜ao(ln◦g)00(k)<0,∀k.
Queremos realc¸ar que as condic¸ ˜oes impostas aqui, quer `a posic¸ ˜ao das m ´edias sobre uma reta, quer `as express ˜oes para as probabilidades `a priori, s ˜ao demasiado restritivas. Eventu-almente existir ˜ao outras condic¸ ˜oes mais suaves que garantam a unimodalidade pretendida. Todavia, no ˆambito desta tese de mestrado, n ˜ao foram consideradas outras condic¸ ˜oes.
2Demonstrac¸ ˜ao:Dado queΣ ´e definida positiva ent ˜aoΣ ´e invert´ıvel. Se definirmosy= Σxent ˜aoytΣ−1y=
xtΣtΣ−1Σx=xtΣx >0
3O termo de maior grau da primeira inequac¸ ˜ao ´e sempre negativo portanto se a inequac¸ ˜ao ´e respeitada em
FCUP
Novos Desenvolvimentos em An ´alise de Dados
Garantidas as condic¸ ˜oes de unimodalidade, deduzimos a f ´ormula para os estimadores de m ´axima verosimilhanc¸a para os par ˆametros desconhecidos no modelo discriminante unimodal com a func¸ ˜ao exponencial, nomeadamenteα,a,beΣ.
A func¸ ˜ao de m ´axima verosimilhanc¸a ´e dada por
L(α, a, b,Σ;x1, x2, ..., xn) =f(x1;α, a, b,Σ)×...×f(xn;α, a, b,Σ) = K Y k=1 nk Y i=1 πk 1 |Σ|1/2(2π)p/2e −1 2(xki−µ(k))tΣ−1(xki−µ(k))
Se aplicarmos o logaritmo temos
v= log(L) = K X k=1 nk X i=1 ln(πk)− ln (|Σ|) 2 − p 2ln(2π)− 1 2(xki−a−bk) tΣ−1(x ki−a−bk) =−n 2ln (|Σ|)−n p 2ln(2π) + K X k=1 nkln(πk)− 1 2 K X k=1 nk X i=1 (xki−a−bk)tΣ−1(xki−a−bk) (2.3.2) Novamente com o recurso ao c ´alculo diferencial matricial, paraαobtemos
dv dα = K X k=1 −2nk(k−α) dv dα = 0⇔ K X k=1 −2nkk+ 2nkα= 0 ⇔nα= K X k=1 nkk ∴ αb= 1 n K X k=1 knk
que ´e uma m ´edia pesada dos ´ındices das classesk= 1, . . . , K da forma
b α= K X k=1 ζkk com K X k=1 ζk= 1.
De igual forma, para obtermos o estimador de m ´axima verosimilhanc¸a de a e bcomec¸amos por dv da =− 1 2 K X k=1 nk X i=1 (xki−a−bk)t[Σ−1+ (Σ−1)t]×(−1) = K X k=1 nk X i=1 (xki−a−bk)tΣ−1 = K X k=1 nk X i=1 Σ−1xki−nΣ−1a− K X k=1 nkkΣ−1b
dv db =− 1 2 K X k=1 nk X i=1 (xki−a−bk)t×2Σ−1(−k) = K X k=1 nk X i=1 kΣ−1xki− K X k=1 knkΣ−1a− K X k=1 k2nkΣ−1b E seguidamente dv da = 0⇔nΣ −1a= K X k=1 nk X i=1 Σ−1xki− K X k=1 nkkΣ−1b ⇔a= 1 n K X k=1 nk X i=1 xki− 1 n K X k=1 nkkb dv db = 0⇔ K X k=1 k2nkΣ−1b+ K X k=1 knkΣ−1a= K X k=1 nk X i=1 kΣ−1xki ⇔ K X k=1 k2nkΣ−1b+ K X k=1 knkΣ−1 1 n K X s=1 nk X i=1 xsi− 1 n K X s=1 nssb ! = K X k=1 nk X i=1 kΣ−1xki ⇔ K X k=1 k2nkb− 1 n K X k=1 knk K X s=1 nssb= K X k=1 nk X i=1 kxki− 1 n K X k=1 knk K X s=1 nk X i=1 xsi ⇔ K X k=1 k2nk− 1 n K X k=1 knk !2 b= K X k=1 (k− 1 n K X s=1 sns) K X j=1 xkj ∴bb= K X s=1 s2ns− 1 n( K X s=1 sns)2 !−1 K X k=1 k− 1 n K X s=1 sns ! nk X j=1 xkj. (2.3.3)
Esta f ´ormula pode ser escrita na forma
bb= K X k=1 γkxk com K X k=1 γk = 0 onde γk= K X s=1 s2ns− 1 n K X s=1 sns !2 −1 nk k− 1 n K X s=1 sns ! .
Daqui resulta que
a= 1 n K X k=1 nk X i=1 xki− 1 n K X k=1 nkk PK m=1 m− 1 n PK s=1sns PK s=1s2ns−n1(PKs=1sns)2 nk X j=1 xkj ∴ba= 1 n K X k=1 1−nk( PK s=1sns)−( PK s=1sns)2 nPK s=1s2ns−( PK s=1sns)2 ! nk X j=1 xkj
que, por sua vez, pode ser expresso como uma combinac¸ ˜ao linear das m ´edias amostrais das classes b a= K X wkxk com K X wk= 1.
FCUP
Novos Desenvolvimentos em An ´alise de Dados
onde wk= nk n(1− nk(PK s=1sns)−(PKs=1sns)2 nPK s=1s2ns−(PKs=1sns)2 ).
Ou seja, a reta que cont ´em as m ´edias no nosso modelo passa pelo ponto m ´edio (ponde-rado) das m ´edias amostrais. Uma esp ´ecie de ”centro de gravidade”.
O estimador de m ´axima verosimilhanc¸a paraΣ ´e conseguido de forma an ´aloga fazendo
dv dΣ−1 =− −n 2 ln(|Σ −1|)0−1 2 " 2 K X k=1 nk X i=1 (xki−a−bk) (xki−a−bk)t − K X k=1 nk X i=1 diag (xki−a−bk) (xki−a−bk)t # = n 2 (2Σ−diag[Σ])− K X k=1 nk X i=1 (xki−a−bk) (xki−a−bk)t +1 2 K X k=1 nk X i=1 diag (xki−a−bk) (xki−a−bk)t =nΣ−n 2diag[Σ]− K X k=1 nk X i=1 (xki−a−bk) (xki−a−bk)t +1 2 K X k=1 nk X i=1 diag (xki−a−bk) (xki−a−bk)t dv dΣ−1 = 0 4⇔nΣ−n 2diag[Σ]− K X k=1 nk X i=1 (xki−a−bk) (xki−a−bk)t +1 2 K X k=1 nk X i=1 diag (xki−a−bk) (xki−a−bk)t = 0 ∴Σ =b 1 n K X k=1 nk X `=1 (xk`−µk)(xk`−µk)t. (2.3.4)
que ´e um valor nosso familiar.
Para a primeira func¸ ˜ao de probabilidades `a priori tamb ´em estim ´amosα pelo m ´etodo dos m´ınimos quadrados, por ´em aqui apenas ´e poss´ıvel obter o estimador com a utilizac¸ ˜ao de m ´etodos num ´ericos. N ´os utiliz ´amos o m ´etodo de Newton, com func¸ ˜ao objectivo dada por
min α K X i=1 (ni n − e−(i−α)2 PK l=1e−(l−α) 2) 2. (2.3.5)
Isto ´e, pretendemos o valor de α que melhor aproxima as probabilidades `a priori deste modelo das frequ ˆencias das v ´arias classes, no sentido dos m´ınimos quadrados.
4Pelo Lema 3.2.3 de [1], temos a garantia que ´e poss´ıvel obter o estimador de
Σa partir da diferenciac¸ ˜ao em ordem aSigma−1.
Para a segunda func¸ ˜ao de probabilidades `a priori estim ´amosc2ec3atrav ´es de m ´etodos de
otimizac¸ ˜ao e tamb ´em pelo m ´etodo dos m´ınimos quadrados, pois aqui existem restric¸ ˜oes de de-sigualdades: uma para implicar que(ln◦g)00(k) <0, e tr ˆes para n ˜ao gerarmos probabilidades negativas.
Portanto, neste caso pretendeu-se
min c2,c3 K X i=1 (ni n − 1 K +c2 K+ 1 2 +c3 (K+ 1)(2K+ 1) 6 −c2i−c3i 2)2 (2.3.6) , s.a. 1 K −c2 K+1 2 −c3 (K+1)(2K+1) 6 +c2+c3 ≥0 −c3≥0 1 K −c2 K+1 2 −c3 (K+1)(2K+1) 6 +c2K+c3K2 ≥0 c2c3(K+ 1) +c23 (K+1)(2K+1) 3 + c22 2 −2 c3 K ≥0
2.4
Resultados
2.4.1
Detalhes de implementac¸ ˜ao
Os nossos programas foram criados em linguagem R na vers ˜ao 3.3.2. No m ´etodo de otimizac¸ ˜ao us ´amos o algoritmocobylada bibliotecanloptr, onde o ponto inicial ´e considerado num dos par ˆametros da nossa func¸ ˜ao e escolhido posteriormente como o melhor dentro de uma grelha de pontos definida pelo utilizador.
Este problema cont ´em uma func¸ ˜ao objetivo n ˜ao linear e restric¸ ˜oes tamb ´em n ˜ao lineares. Dada esta complexidade a soluc¸ ˜ao que consider ´amos mais ajustada foi a utilizac¸ ˜ao de um algor´ıtmo de procura blindada5pois as alternativas testadas em bibliotecas do R j ´a existentes
mostraram-se incapazes de solucionar a quest ˜ao. Nestas alternativas foram testados algo-ritmos como Particle Swarm Optimization (PSO), Differential Evolution Optimization, que se enquadram numa procura baseada na populac¸ ˜ao (t ˆem a vantagem do utilizador n ˜ao necessi-tar indicar um ponto inicial). Por ´em, a nosso ver, a implementac¸ ˜ao existente no R n ˜ao est ´a ainda muito robusta.
Um exemplo que confirma esta considerac¸ ˜ao pertence ao m ´etodo PSO e pode ser testado com o seguinte c ´odigo:
l i b r a r y( mopsocd )
5
FCUP
Novos Desenvolvimentos em An ´alise de Dados
f<−f u n c t i o n( x ){ r e t u r n( x [ 1 ] ˆ 2 + x [ 2 ] ˆ 2 ) } gn <− f u n c t i o n( x ){ g1 <− −x [ 2 ] + 1 0 <= 0 . 0 g2 <− x [ 1 ] <= 0 . 0 r e t u r n(c( g1 , g2 ) ) } coef=mopsocd ( f , gn , v a r c n t =2 , f n c n t =1 , o p t =0 , lowerbound = c(−100 ,−100) , upperbound = c( 1 0 0 , 1 0 0 ) ) # Outputs coef[ [ 1 ] ] [ 1 ] #x1=−2.989822e−12 coef[ [ 1 ] ] [ 2 ] #x2 =3.860841e−12 coef[ [ 2 ] ] # f ( x1 , x2 )=2.384513 e−23
Neste exemplo pretendia-se
min x1,x2 x21+x22, s.a. x2 ≥10 x1 ≤0
os par ˆametros t ˆem os seguintes significados;varcnt: o node restric¸ ˜oes,fncnt: o node func¸ ˜oes objetivo,opt:0minimizac¸ ˜ao;1maximizac¸ ˜ao elowerbound, upperbound o dom´ınio de procura. Por ´em as soluc¸ ˜oes obtidas pelo algor´ıtmo foram aproximadamente 0 para as duas vari ´aveis. Outros algor´ıtmos foram testados e desconsiderados por raz ˜oes semelhantes a esta.
Para avaliar os nossos m ´etodos, separ ´amos aleatoriamente os dados, em cada classe, em duas partes:
• 70% para treino;
• 30% para teste.
Este processo foi repetido 10 vezes e a m ´edia do erro e o desvio-padr ˜ao foram registadas. Neste esquema, foram comparados os resultados obtidos pelas seguintes metodologias:
• An ´alise discriminante linear conventional (cLDA);
• An ´alise discriminante linear unimodal com func¸ ˜ao de probabilidades `a priori exponencial onde os par ˆametros foram estimados pelos m´ınimos quadrados (lseUDA);
• An ´alise discriminante linear unimodal com func¸ ˜ao de probabilidades `a priori quadr ´atica onde os par ˆametros foram estimados pelos m´ınimos quadrados (lsqUDA);
• O nosso modelo de an ´alise discriminante linear unimodal com a func¸ ˜ao de probabili-dades `a priori estimada da forma usual, isto ´e, dada pelas frequ ˆencias relativas dos dados (freqUDA). Com esta func¸ ˜ao de probabilidades n ˜ao conseguimos assegurar a condic¸ ˜ao de unimodalidade para as probabilidades `a posteriori, contudo ´e mais prov ´avel que acontec¸a do que no modelo de an ´alise discriminante linear tradicional.
2.4.2
Medidas de Performance
Para avaliarmos e compararmos os m ´etodos acima referidos, temos que tomar em conta que a vari ´avel que estamos a tentar prever ´e ordinal e portanto os erros n ˜ao t ˆem todos a mesma import ˆancia. Por exemplo, se prevermos a classe 2 para uma observac¸ ˜ao que pertence `a classe 1 este erro n ˜ao ´e t ˜ao mau como se tivessemos previsto a classe 5. Por esta raz ˜ao temos que escolher medidas adequadas de erro. Por isso, para al ´em da medida mais comum (MRE), que d ´a a mesma import ˆancia a todos os erros, us ´amos as outras que se seguem:
• ErroM´edioRelativo (MRE): percentagem de elementos que foram mal classificados. MRE= 1 n n X i=1 ζi, ondeζi =
1 seCb(i)6=C(i) (classe prevista diferente da classe real)
0 outros casos
• ErroM´edioAbsoluto (MAE).
MAE= 1 n n X i=1 |Cb(i)−C(i)|
• Coeficiente de correlac¸ ˜ao de Kendall entre a classe previstaCb e a classe realC. Esta
na nossa opini ˜ao ´e uma boa medida de erro para classificadores de dados ordinais. Como complemento tamb ´em inclu´ımos uma outra medida, introduzida em [9, 10] que ´e semelhante a esta e que se apresenta no item seguinte.
FCUP
Novos Desenvolvimentos em An ´alise de Dados
C/Cb 1 2 ... K Total 1 n11 n12 ... n1K n1• 2 n21 n22 ... n2K n2• ... ... ... ... ... K nK1 nK2 ... nKK nK• Total n•1 n•2 ... n•K n
O c ´alculo desde coeficiente ´e dado por
rint=−1 + 2 PK i=1 PK j=1 PK i0=i PK j0=jnijni0j0−n q (PK i=1 PK j=ini•nj•−n)( PK i=1 PK j=in•in•j−n)
2.4.3
Aplicac¸ ˜ao da metodologia
Nesta subsecc¸ ˜ao iremos apresentar a performance dos nossos m ´etodos, comparando-os com o m ´etodo tradicional em quatro conjuntos de dados reais.
1. O primeiro conjunto de dados cont ´em 1000 exemplos de avaliac¸ ˜oes an ´onimas, de alunos aos seus professores, realizadas no final de um MBA. Antes de receberem as notas finais os alunos foram convidados a avaliar os seus professores em quatro atributos tal como, apresentac¸ ˜ao oral e contribuic¸ ˜ao para o seu conhecimento profissional.
A ´unica vari ´avel de sa´ıda era a avaliac¸ ˜ao total do desempenho do professor.
Vari ´aveis: 4 vari ´aveis de entrada ordinais e uma de sa´ıda tamb ´em ordinal (5 classes).
M ´etodos / Medidas MRE MAE Kendall rint
cLDA 0.401 (0.025) 0.433 (0.027) 0.629 (0.030) 0.679 (0.019) freqUDA 0.391 (0.023) 0.424 (0.029) 0.640 (0.031) 0.685 (0.022) mleUDA 0.424 (0.011) 0.455 (0.013) 0.615 (0.023) 0.69 (0.013) lseUDA 0.431 (0.021) 0.464 (0.024) 0.605 (0.031) 0.685 (0.017) lsqUDA 0.392 (0.024) 0.430 (0.027) 0.650 (0.023) 0.685 (0.016)
Para este conjunto de dados os m ´etodos freqUDA e lsqUDA superaram o m ´etodo con-vencional (cUDA) em todos os crit ´erios. O m ´etodo freqUDA obteve um melhor resultado na medida MAE por ´em o m ´etodo lsqUDA foi superior na medida de Kendall. No que diz respeito `a vari ˆancia o m ´etodo lsqUDA consegiu ser um pouco melhor do que o m ´etodo freqUDA.
2. Este conjunto de dados pretende associar as caracter´ısticas das placas de circuito do processador com o desempenho do processamento das placas. Existem 209 observac¸ ˜oes.
Vari ´aveis: 6 vari ´aveis de entrada e uma ordinal de sa´ıda (10 classes).
M ´etodos / Medidas MRE MAE Kendall rint
cLDA 0.329 (0.032) 0.455 (0.040) 0.775 (0.035) 0.829 (0.021) freqUDA 0.318 (0.033) 0.423 (0.063) 0.768 (0.034) 0.829 (0.024) mleUDA 0.763 (0.040) 1.069 (0.070) 0.760 (0.031) 0.822 (0.020) lseUDA 0.397 (0.037) 0.773 (0.051) 0.759 (0.071) 0.817 (0.046) lsqUDA 0.356 (0.043) 0.442 (0.069) 0.802 (0.041) 0.836 (0.034)
Tabela 2.2: Resultados para o conjunto de dados CPU.
Neste conjunto de dados o m ´etodo lsqUDA superou o m ´etodo convencional em todos os crit ´erios exceto no primeiro. Contudo, tal como indicado anteriormente, a primeira medida n ˜ao ´e a mais indicada para este tipo de estudo e portanto o resultado ´e completamente positivo. O m ´etodo freqUDA apenas foi inferior `a metodologia usual na medida de kendall. A respeito da vari ˆancia o m ´etodo freqUDA consegiu ser um pouco melhor do que o m ´etodo lsqUDA.
3. Esta base de dados cont ´em informac¸ ˜oes adquiridas nos censos na ´area de Boston, EUA. Existem 506 observac¸ ˜oes.
FCUP
Novos Desenvolvimentos em An ´alise de Dados
M ´etodos / Medidas MRE MAE Kendall rint
cLDA 0.316 (0.038) 0.350 (0.040) 0.720 (0.035) 0.751 (0.027) freqUDA 0.303 (0.031) 0.329 (0.036) 0.723 (0.037) 0.761 (0.024) mleUDA 0.372 (0.037) 0.401 (0.041) 0.695 (0.042) 0.742 (0.029) lseUDA 0.361 (0.026) 0.406 (0.027) 0.689 (0.025) 0.744 (0.018) lsqUDA 0.357 (0.032) 0.381 (0.033) 0.741 (0.028) 0.751 (0.019)
Tabela 2.3: Resultados para o conjunto de dados Housing.
Aqui o m ´etodo freqUDA superou o m ´etodo convencional em todos os crit ´erios. A respeito dos crit ´erios mais adequados para o estudo o m ´etodo lsqUDA apenas n ˜ao superou o m ´etodo usual na medida MAE, ainda assim teve um bom desempenho nas medidas mais importantes (kendall erint). Quanto `a vari ˆancia o m ´etodo lsqUDA consegiu ser um
pouco melhor do que o m ´etodo freqUDA.
4. Esta base de dados cont ´em 488 perfis de candidados a um emprego. Os resultados atribuidos por uma empresa de recrutamento a certos atributos determinam a vari ´avel de sa´ıda correspondente `a avaliac¸ ˜ao final de cada candidato.
Vari ´aveis: 4 vari ´aveis de entrada e uma ordinal de sa´ıda (9 classes).
M ´etodos / Medidas MRE MAE Kendall rint
cLDA 0.301 (0.034) 0.317 (0.037) 0.867 (0.017) 0.842 (0.019) freqUDA 0.297 (0.036) 0.316 (0.038) 0.869 (0.017) 0.843 (0.018) mleUDA 0.410 (0.035) 0.449 (0.039) 0.840 (0.019) 0.814 (0.019) lseUDA 0.386 (0.022) 0.431 (0.029) 0.838 (0.022) 0.816 (0.020) lsqUDA 0.295 (0.036) 0.308 (0.034) 0.871 (0.014) 0.844 (0.016)
Tabela 2.4: Resultados para o conjunto de dados ESL.
Novamente os m ´etodos freqUDA e lsqUDA superaram o m ´etodo convencional em todos os crit ´erios. Aqui tamb ´em o m ´etodo lsqUDA conseguiu ser um pouco melhor que o m ´etodo freqUDA em todas as medidas, mesmo no que diz respeito `a vari ˆancia.
de an ´alise discriminante unimodal ´e uma boa alternativa `a tradicional an ´alise discriminante linear. N ˜ao s ´o o modelo das respostas ´e mais apropriado para este tipo de classes como tamb ´em as medidas de erro obtidas s ˜ao competitivas com o m ´etodo tradicional. De facto, no que diz respeito `as quatro medidas MER, MAE, kendall’s tau-b andrint, temos sempre um dos
nossos modelos com melhores resultados que o modelo convencional. Particularmente nas medidas que s ˜ao mais apropriadas a este tipo de estudo, podemos ver que os nossos modelos s ˜ao sempre melhores e em particular o modelo lsqUDA ´e o que se destaca mais. Este ´e um aspeto importante porque neste modelo podemos assegurar que as respostas respeitam a condic¸ ˜ao de unimodalidade, sem perder qualidade no desempenho quando comparado com o da an ´alise discriminante usual.
2.5
Discuss ˜ao
Neste estudo apresent ´amos uma nova abordagem `a an ´alise discriminante linear em da-dos ordinais. A ideia principal ´e manter a ordinalidade das classes, impondo um modelo pa-ram ´etrico para as probabilidades de sa´ıda.
Modelando a func¸ ˜ao de probabilidades `a priori por uma func¸ ˜ao quadr ´atica, produzimos um classificador mais simples e robusto, que se comparou favoravelmente com a metodologia convencional. O resultado comparativo n ˜ao foi t ˜ao expressivo quando a func¸ ˜ao de probabidade `a priori consistiu apenas das frequ ˆencias relativas, mas mesmo nessa situac¸ ˜ao os resultados obtidos ainda foram razo ´aveis.
Para a func¸ ˜ao de probabilidades `a priori exponencial os resultados n ˜ao foram muito bons e uma causa disto poder ´a ser o facto destas func¸ ˜oes s ´o conterem um par ˆametro de liberdade,
α, e assim n ˜ao serem suficientemente adapt ´aveis.
Outras direc¸ ˜oes para trabalhos futuros poder ˜ao incluir outras func¸ ˜oes de probabilidades `a priori com mais par ˆametros de liberdade, como por exemplo, Pearson tipo III e Pearson tipo IV.
Func¸ ˜ao de distribuic¸ ˜ao Person tipo III:
f(x) =k 1 +x a
µa
e−µx,−a < x <∞, µ, a >−1
Func¸ ˜ao de distribuic¸ ˜ao Person tipo IV:
f(x) =k 1 +x 2
a2 −m
e−µarctg(x/a),−∞< x <∞, µ, a, m >0
Cap´ıtulo 3
Clustering longitudinal
3.1
Introduc¸ ˜ao
Um conjunto de dados ´e considerado longitudinal se cada indiv´ıduo ´e medido repetida-mente ao longo do tempo, dando origem a um vetor de observac¸ ˜oes para cada indiv´ıduo que tende a ter componentes correlacionadas. Isto apresenta um claro contraste com o estudo de dados transversais em que a informac¸ ˜ao conhecida para uma vari ´avel ´e ´unica para cada indiv´ıduo.
Dados longitudinais combinam elementos de dados multivariados e s ´eries temporais. Con-tudo, diferem dos dados multivariados tradicionais ao incorporarem um padr ˜ao muito mais estruturado de interdepend ˆencia entre as medic¸ ˜oes e diferem das cl ´assicas s ´eries temporais por consistirem de um grande n ´umero de s ´eries curtas, em vez de s ´eries longas.
Ao longo do ´ultimo meio s ´eculo, tem-se assistido a um progresso consider ´avel no desen-volvimento de m ´etodos estat´ısticos para an ´alise de dados longitudinais [24, 32, 40, 49, 52]. Em particular, s ˜ao bastantes os crit ´erios que t ˆem vindo a ser propostos para a escolha do ”melhor n ´umero de clusters”[22, 26, 34, 36, 44, 50] bem como m ´etodos para o tratamento de dados em falta [34–36]. Aplicac¸ ˜oes desta teoria podem ser encontradas num largo dom´ınio, desde a biomedicina at ´e `as ci ˆencias sociais e comportamentais [28, 30, 38, 45, 47, 48]. Tamb ´em novas metodologias t ˆem sido propostas [27, 42]. A. Ciampi et al. [27] consideraram o pro-blema de clustering em dados dependentes no tempo. O modelo consiste de uma mistura de extens ˜oes de modelos lineares mistos (Extended Linear Mixed Models) e a estimac¸ ˜ao ´e feita por m ´axima verosimilhanc¸a, usando o m ´etodo Expectation-Maximization (EM). Os dados s ˜ao modelados por uma mistura de distribuic¸ ˜oes normais multivariadas e ´e considerada uma parametrizac¸ ˜ao nas matrizes de vari ˆancia-covari ˆancia atrav ´es da decomposic¸ ˜ao espectral das matrizes. Antonello Maruotti et al. [42] proposeram um m ´etodo que se baseia numa extens ˜ao
do algoritmo K-m ´edias cl ´assico, onde um modelo auto-regressivo de vetor multivariado (mul-tivariate vector autoregressive model - MVAR) ´e adicionalmente assumido, para modelar a evoluc¸ ˜ao dos centros dos clusters ao longo do tempo. Este m ´etodo agrupa as observac¸ ˜oes longitudinais multivariadas com foco na evoluc¸ ˜ao das partic¸ ˜oes ao longo do tempo e simultane-amente tem em considerac¸ ˜ao a heterogeneidade latente e a depend ˆencia do tempo. Atrav ´es de uma configurac¸ ˜ao longitudinal univariada, o m ´etodo tenta descrever a din ˆamica dos pro-cessos modelando o valor atual do resultado como uma soma linear ponderada dos valores anteriores. A infer ˆencia do modelo ´e baseada no m ´etodo do gradiente descendente.
Mesmo para a situac¸ ˜ao de uma ´unica vari ´avel resposta, a visualizac¸ ˜ao de todas as tra-jet ´orias pode tornar-se insuficiente para uma identificac¸ ˜ao eficaz dos padr ˜oes importantes, portanto em estudos longitudinais, o agrupamento das trajet ´orias e a obtenc¸ ˜ao de trajet ´orias m ´edias podem ser facilmente de interesse.
V ´arios m ´etodos foram constru´ıdos para extender a an ´alise de agrupamento a dados lon-gitudinais. A maioria deles pode ser agrupada em m ´etodos n ˜ao param ´etricos ou m ´etodos baseados em modelos [34, 39].
Os m ´etodos de clustering n ˜ao param ´etricos integram a abordagem tradicional. N ˜ao exis-tem suposic¸ ˜oes sobre como os dados foram gerados e trajet ´orias pr ´oximas s ˜ao agrupadas de acordo com alguma medida de dissemelhanc¸a. Os principais ingredientes s ˜ao a medida de dissemelhanc¸a, o algoritmo de agrupamento e o n ´umero de clusters a considerar [39]. En-quanto a medida de dissemelhanc¸a quantifica o car ´acter distintivo das trajet ´orias, o algoritmo de agrupamento visa optimizar um crit ´erio baseado na medida de dissemelhanc¸a. Um dos al-goritmos de agrupamento mais simples e amplamente utilizado ´e o K-m ´edias [37] e exemplos desta metodologia podem ser encontrados em [25, 41, 51].
Os m ´etodos baseados em modelos assumem que os dados prov ˆem de um n ´umero finito de populac¸ ˜oes e que, dentro de cada populac¸ ˜ao, os dados podem ser modelados usando um modelo estat´ıstico padr ˜ao. Por outras palavras, assume-se que os dados prov ˆem de uma mistura de distribuic¸ ˜oes [33, 43, 46, 53]. Esta abordagem baseada em modelos ´e conhecida como clustering em modelos de misturas.
Neste estudo, introduzimos uma nova metodologia n ˜ao param ´etrica para agrupamento de dados longitudinais. As correlac¸ ˜oes entre as observac¸ ˜oes das trajet ´orias individuais s ˜ao le-vadas em conta por matrizes de correlac¸ ˜ao pr ´e-definidas com par ˆametros que s ˜ao estimados a partir dos dados. ´E considerada uma dist ˆancia do tipo Mahalanobis com uma matriz de correlac¸ ˜ao pr ´e-especificada e posteriormente o algoritmo das K-m ´edias ´e aplicado. Um re-sultado ´util ´e que o processo coincide com a aplicac¸ ˜ao do algoritmo K-M ´edias longitudinal,
FCUP
Novos Desenvolvimentos em An ´alise de Dados
acess´ıvel por exemplo na bibliotecakml ekml3d do R, usando a dist ˆancia euclidiana em cer-tas trajet ´orias transformadas, simplificando assim o processo para o utilizador.
3.2
C ´alculo de dist ˆancias
Num cap´ıtulo em que temos como objetivo agrupar traject ´orias em classes homog ´eneas torna-se essencial ter bem presente a noc¸ ˜ao de dist ˆancia. Estando as nossas trajet ´orias inde-xadas no tempo, explicamos agora como podemos calcular dist ˆancias nos casos unidimensio-nal e multidimensiounidimensio-nal.
• Caso unidimensional
Considere-se um conjunto S de n observac¸ ˜oes onde cada observac¸ ˜ao ´e medida em t
tempos diferentes. Para a observac¸ ˜ao i, denomina-se xi = (xi1, xi2, ..., xit) como uma
trajet ´oria e para calcular a dist ˆancia entre duas trajet ´oriasxiexlo m ´etodo mais simples
passa por utilizar as f ´ormulas j ´a existentes para dist ˆancias entre dois individuos com t
vari ´aveis.
Por exemplo, para o c ´alculo da dist ˆancia Euclidiana entre duas trajet ´orias temos:
d(xi, xl) = v u u t t X j=1 (xij−xlj)2
Este ´e o m ´etodo que vigora na bibliotecakml.
• Caso multidimensional
Considere-se para a trajet ´oriai, no tempoje vari ´avelpdenotado comoxijp. Ent ˜ao
xi.. = xi.1 xi.2 ... xi.p = xi11 xi21 ... xit1 xi12 xi22 ... xit2 ... ... ... xi1p xi2p ... xitp
Para definir a dist ˆancia entre duas trajet ´orias conjuntas muitos m ´etodos s ˜ao poss´ıveis. A bibliotecakml3dfoca-se nos dois m ´etodos seguintes.
Seja Dist uma func¸ ˜ao dist ˆancia e ||.|| uma norma. No primeiro m ´etodo, de forma a calcular a dist ˆanciadentrex1..ex2.., para cada tempoj fixado definimos
O resultado d ´a um vetor
d1.(x11., x21.), d2.(x12., x22.), ..., dt.(x1t., x2t.)
Posteriormente combinamos estastdist ˆancias usando a func¸ ˜ao que algebricamente cor-responde `a norma||.||do vetor de dist ˆancias. Ou seja, a dist ˆancia entrex1..ex2.. ´e dada
por d(x1.., x2..) =|| d1.(x11., x21.), d2.(x12., x22.), ..., dt.(x1t., x2t.) ||
O segundo m ´etodo consiste em calcular a dist ˆanciad0entrex1..ex2.., para cada vari ´avel
X. Definimos a dist ˆancia como
d0.X(x1.X, x2.X) =Dist(x1.X, x2.X)
e de forma an ´aloga, a dist ˆancia ´e dada por
d0(x1.., x2..) =||
d.1(x1.1, x2.1), d.2(x1.2, x2.2), ..., d.p(x1.p, x2.p)
||
Escolhas diferentes para a norma||.||e da dist ˆanciaDistpodem conduzir `a definic¸ ˜ao de um grande n ´umero de dist ˆancias.
Refira-se que, no caso em que||.|| corresponde `a norma-p usual eDist `a dist ˆancia de Minkowski com par ˆametroq, escolhendo o m ´etododoud0 obtemos o mesmo resultado. Assim, caso se utilize a dist ˆancia Euclidiana (q = 2), ou a de Manhattan (q = 1) ou o M ´aximo (q = +∞) a escolha do m ´etodo (1 ou 2) ´e indiferente. De facto tem-se
d(x1.., x2..) = q s X j (dj.(x1j., x2j.))q= q s X j q pP X|x1jX −x2jX|q q = q s X j X X |x1jX −x2jX|q= q s X X q q P j|x1jX −x2jX|q q = q s X X (d.X(x1.X, x2.X))q =d0(x1.., x2..)
3.3
M ´etodo das K-M ´edias
Ao processo de particionamento de um grupo de dados num n ´umero menor de classes chamamos de Clustering. No nosso caso, o objetivo ´e atribuir a cada trajet ´oria um grupo.
FCUP
Novos Desenvolvimentos em An ´alise de Dados
K-M ´edias ´e um dos v ´arios m ´etodos de agrupamento que visa encontrar os melhores agru-pamentos que minimizem a dist ˆancia das trajet ´orias, dentro do seu grupo e maximizam essas dist ˆancias entre grupos diferentes. Um grupo fica definido pela sua trajet ´oria m ´edia.
Primeiro ´e necess ´ario indicarmos o n ´umero de grupos a atribuir aos nossos dados, normal-mente denominado por k. Posteriormente devemos escolher os centros iniciais dos clusters,
¯
xi, i ∈ 1, .., k. ´E usual atribuitem-se trajet ´orias aleat ´orias como centros iniciais. O passo
se-guinte consiste em percorrer todas as trajet ´orias e atribuir-lhes o centro mais pr ´oximo, devendo este ser atualizado cada vez que uma trajet ´oria ´e analizada. Este passo deve ser percorrido iterativamente at ´e que nunhuma alterac¸ ˜ao se verifique.
Por outras palavras e em suma, o m ´etodo das K-M ´edias pretende encontrar
arg min c k X i=1 X x∈ci d(x,x¯i)
ondeci ´e o conjunto de trajet ´orias que pertencem ao clusteri, ou seja,
ci={j:d(xj,x¯i)≤d(xj,x¯l), l6=i, j= 1, ..., n}
e os centros de cada cluster s ˜ao calculados atrav ´es da m ´edia usual
¯ xi = 1 |ci| X j∈ci xj,∀i
3.4
Crit ´erios para a escolha do n
o
de grupos
O in´ıcio desta secc¸ ˜ao consiste da introduc¸ ˜ao de alguns conceitos base para a posterior definic¸ ˜ao dos crit ´erios.
O´ındice de Gower[20] ´e um coeficiente gen ´erico de dissemelhanc¸a que toma em considerac¸ ˜ao os v ´arios tipos de natureza das vari ´aveis. Suponha-se que os dados cont ˆempvari ´aveis de na-tureza mista. Ent ˜ao a dissimilhanc¸ad(i, j)entre os objetosiej ´e definida como
dij =d(i, j) = Pp l=1δij;ldij,l Pp l=1δij;l ,
sendo queδij;l ´e uma vari ´avel dicot ´omica e ´e 0 quando pelo menos uma das medidasxi;le
xj;lda vari ´avellest ˜ao em falta. Se a natureza da vari ´avel ´e quantitativa toma-sedij;l=
|xil−xjl|
Rl ,
onde Rl ´e a amplitude da vari ´avell. No caso em que l ´e uma vari ´avel nominal ou bin ´ariadij;l
´e sempre 1 eδij;l ´e 1 quandoxi;l6=xj;l e 0 caso contr ´ario.
Em suma, amatriz de dist ˆanciasQde Gowercorresponde a uma matriz da forma Q= d11 d21 ... dn1 d21 d22 ... dn2 ... ... ... dn1 dn2 ... dnp
A dist ˆancia de Gower ´e a dist ˆancia utilizada em dados longitudinais sempre que existem dados em falta ou vari ´aveis qualitativas.
Amatriz de dispers ˜aoR[21]∈Rp×p ´e dada por
R= g X k=1 nk X l=1 (xkl−x¯)(xkl−x¯)0
onde xkl ∈ Rp representa um vetor de observac¸ ˜oes da l- ´esima trajet ´oria do grupo k e
¯
x∈Rp representa a trajet ´oria m ´edia de todas as observac¸ ˜oes.
Em espac¸os euclidianos, a matriz R decomp ˜oe-se na somaR=B+W [21], sendo que a
matriz de dispers ˜ao dentro dos gruposW ´e dada por
W = g X k=1 nk X l=1 (xkl−x¯k)(xkl−x¯k)0
ondex¯k∈Rprepresenta a m ´edia das observac¸ ˜oes dentro do grupok, e amatriz de dispers ˜ao entre gruposB corresponde a
B =
g
X
k=1
nk(¯xk−x¯)(¯xk−x¯)0
Os crit ´erios a serem apresentados nas secc¸ ˜oes que se seguem s ˜ao os encorporados nas bibliotecas utilizadas, sendo estes os mais usados e com melhores desempenhos segundo a literatura [50].
3.4.1
Crit ´erio de Calinski Harabasz
Se representarmos o node indiv´ıduos porne o node vari ´aveis porp, podemos representar
os pontosP1, P2, ..., Pnno espac¸o Euclidiano pela matriz:
X = P11 P21 ... Pn1 P12 P22 ... Pn2 ... ... ... P1p P2p ... Pnp
FCUP
Novos Desenvolvimentos em An ´alise de Dados
onde linhas correspondem a vari ´aveis e colunas a indiv´ıduos. Depois disto, ´e poss´ıvel construir a matriz de dist ˆanciasQde Gower, essencial para o in´ıcio do m ´etodo, e a matriz de dispers ˜ao
R. A dist ˆancia ao quardrado dedij entrePi ePj ser ´a definida pela func¸ ˜ao
d2ij = (X.i−X.j)0(X.i−X.j) i, j= 1,2, ..., n.
Um elemento importante na an ´alise de clusters ´e a dispers ˜ao de um grupo, e para um grupo denindiv´ıduos ela ´e dada pela soma dos quadrados das dist ˆancias entre cada ponto e o seu centroide. Esta soma ´e igual aoT r(R)e pode ser obtida da seguinte forma [23]:
T r(R) =n−1(d212+d213+...+d2n−1,n) (3.4.1)
Esta f ´ormula ´e muito ´util pois evita o c ´alculo da matrizR e deve-se referir que ´e v ´alida no espac¸o Euclidiano mesmo quando os eixos n ˜ao s ˜ao ortogonais.
Pretendem-se separarnindiv´ıduos emkclusters, ent ˜ao temosn−1intervalos entre os in-div´ıduos e precisamos de escolher apenask−1desses intervalos. Isto perfazn−1Ck−1
possibi-lidades de separac¸ ˜ao. Se representarmos o node indiv´ıduos em cada cluster porn
1, n2, ..., nk,
podemos calcular a soma dos quadrados dentro de cada cluster (Within Group Sum of Squa-res), por aplicac¸ ˜ao de (3.4.1), e no final considerar a soma para os todos os clusters. A matriz
Rpode ser decomposta emR=B+W, sendo que
W GSS=T r(W) =T r(R1) +T r(R2) +...+T r(Rk)
onde
T r(Rg) =n−g1(d212(g) +d213(g) +...+d2n−1,n(g))
comdij(g)denotando a dist ˆancia entrePiePj do clusterg(g= 1,2, ..., k).
Sekn ˜ao ´e conhecido ent ˜ao este crit ´erio pode ser utilizado da seguinte maneira: primeiro utilizamos k = 2, depois k = 3, e assim sucessivamente. Em cada caso pretendemos n ˜ao s ´o encontrar o m´ınimoW GSS mas tamb ´em o m ´aximoBGSS =T r(B)(soma dos quadrados entre os grupos - Between-Group Sum of Squares). O crit ´erio ´e dado por
CH = BGSS k−1 ÷
W GSS
n−k (3.4.2)
Sendo este crit ´erio um informal indicador para o melhor node grupos. De facto este quoci-ente ´e an ´alogo `a estat´ıstica F, associada a modelos de regress ˜ao.
Apesar de efetivamente n ˜ao existir teoria estat´ıstica satisfat ´oria para justificar o uso deCH
Sejad¯2 m ´edia das dist ˆancias quadradas (existem n(n−2 1) valores distintos de dist ˆancias) e
¯
d2(g)a m ´edia an ´aloga para o cluster g; ent ˜ao, de (3.4.1)
T SS =n−1n(n−1) 2 ¯ d2 = 1 2(n−1) ¯d 2 W GSS=T r(R1) +T r(R2) +...+T r(Rk) = 1 2[(n1−1) ¯d 2(1) + (n 2−1) ¯d2(2) +...+ (nk−1) ¯d2(k)]
sendo que uma outra interessante forma de escrita ´e
2×W GSS= ¯d2×(n−n1−n2−...−nk−k+k) + 2×W GSS = ¯d2×(n−k−n1+ 1−n2+ 1−...−nk+ 1) + 2×W GSS = ¯d2×(n−k)−(n1−1) ¯d2−...−(nk−1) ¯d2+ 2×W GSS = ¯d2×(n−k)−[(n1−1)( ¯d2−d¯2(1))−...−(nk−1)( ¯d2−d¯2(k))] = (n−k)( ¯d2−Ak) onde Ak = 1 n−k[(n1−1)( ¯d 2−d¯2(1)) + (n 2−1)( ¯d2−d¯2(2)) +...+ (nk−1)( ¯d2−d¯2(k))]
de onde resulta que
BGSS =T SS−W GSS= 1
2[(k−1) ¯d
2+ (n−k)A
k]
Esta deduc¸ ˜ao permite reescreverCH da seguinte maneira:
CH = (3.4.2) = ( ¯d2+ n−k
k−1Ak)÷( ¯d
2−A
k)
e aqui o caminho passa apenas pela maximizac¸ ˜ao deAk.
Algumas modificac¸ ˜oes a este crit ´etio t ˆem vindo a ser sugeridas [36], nomeadamente:
• Crit ´erio Calinski Harabasz 2, sugerido por Kryszczuk [36]
CH2 = BGSS n−k ÷
W GSS n−1
• Crit ´erio Calinski Harabasz 3, sugerido por Genolini [36]
CH3 = √BGSS
k−1 ÷
W GSS n−k
Para uma melhor compreens ˜ao do crit ´erio, inclu´ımos de seguida dois exemplos elucidati-vos.
FCUP
Novos Desenvolvimentos em An ´alise de Dados
Exemplo 3.4.1.1. Seja S o conjunto das 3 traject ´oriasy1, y2, y3 seguintes, indexadas em 2 tempos:
y1= (5,2); y2 = (−1,0); y3= (9,4)
Estas trajet ´orias est ˜ao claramente divididas em dois gruposg1={y1, y3}eg2 ={y2}. Comec¸amos por determinar as dist ˆancias entre cada uma das trajet ´orias:
d212= 62+ 22= 40;
d213= 42+ 22= 20;
d2
23= 102+ 42 = 116
Seguindo o c ´alculo dos trac¸os das matrizes:
T r(R) = 1 3(d 2 12+d213+d223) = 176 3 ; T r(W) =T r(R1) +T r(R2) = 1 2d 2 13+ 0 = 10; T r(B) = 176 3 −10 = 146 3 ∴CH = 146 3 2−1÷ 10 3−2 '4,867 • Caso multidimensional
Exemplo 3.4.1.2. Seja S o conjunto das 3 traject ´orias bivariadas y1, y2, y3 seguintes, indexadas em 2 tempos: y1..= 5 2 3 −2 ; y2..= −1 0 9 0 ; y3..= 9 4 1 0
Estas trajet ´orias est ˜ao novamente divididas em dois gruposg1 ={y1, y3}eg2 ={y2}. Para o c ´alculo das dist ˆancias entre cada uma das trajet ´orias utilizou-se o primeiro m ´etodo exposto anteriormente, com a norma Euclidiana:
d212=||(√62+ 62,√22+ 22)||2= 62+ 62+ 22+ 22= 80;
d213= 42+ 22+ 22+ 22 = 28;
d2
23= 102+ 82+ 44= 180
T r(R) = 1 3(d 2 12+d213+d223) = 96; T r(W) =T r(R1) +T r(R2) = 1 2d 2 28+ 0 = 14; T r(B) = 96−14 = 82 ∴CH = 82 2−1÷ 14 3−2 '5,857
Estes resultados podem ser obtidos atrav ´es do seguinte c ´odigo (incluimos um alerta para um comando desatualizado):
v1 <− matrix(c( 5 ,−1 , 9 , 2 , 0 , 4 ) ,ncol= 2 ) ; v1 v2 <− matrix(c( 3 , 9 , 1 ,−2 , 0 , 0 ) ,ncol= 2 ) ; v2
raw <− c l u s t e r L o n g D a t a 3 d (array(cbind(data.matrix( v1 ) ,
data.matrix( v2 ) ) , dim=c(nrow( v1 ) ,ncol( v1 ) , 2 ) ) ) kml3d ( raw , n b C l u s t e r s =2)
#comando c o r r e t o
ob1 <− p a r t i t i o n ( g e t C l u s t e r s ( raw , 2 ) , raw ) ob1 [ ” C a l i n s k i . Harabatz ” ] #5.857143
#comando d e s a t u a l i z a d o
L i s t P a r t i t i o n show( raw ) #5.779127
3.4.2
Outros crit ´erios
Para al ´em dos crit ´erios Calinski-Harabasz j ´a descritos ainda iremos considerar outros dois (todos inclu´ıdos na biblioteca kml), nomeadamente
• Crit ´erio Davies - Bouldin: [36]
DB =mean(P rox(clusteri, clusterj))
com a proximidadeProxdefinida por
P rox(i, j) = DistInt(i) +DistInt(j) DistExt(i, j)
onde DistInt(i) representa a dist ˆancia m ´axima entre duas trajet ´orias do cluster i e
FCUP
Novos Desenvolvimentos em An ´alise de Dados
• Crit ´erio Ray - Turi: 1
RT = 1 n×t
W GSS mink<k0∆2
kk0
onde denotamos∆kk0 como a dist ˆancia entre os centros dos clusterskek0, ou seja
∆kk0 =||C{k
0}
−C{k}||
Tal como atr ´as, calcul ´amos os valores dos crit ´erios em dada um dos exemplos introduzidos anteriormente.
• Caso unidimensional
Exemplo 3.4.2.1. Recorde-se que as trajet ´orias s ˜ao
y1= (5,2); y2 = (−1,0); y3= (9,4)
e est ˜ao divididas em dois gruposg1 ={y1, y3}eg2={y2}. Sendo assim
C{1}= (7,3) ; C{2}= (−1,0) ∴DistExt(1,2) =√73 = ∆12 Portanto DB =P rox(1,2) = √d13 73 = √ 20 √ 73 '0,523 e RT = 1 6 × 10 73 '0,0228 • Caso multidimensional
Exemplo 3.4.2.2. Novamente recordando as trajet ´orias temos
y1..= 5 2 3 −2 ; y2..= −1 0 9 0 ; y3..= 9 4 1 0
estas est ˜ao tamb ´em divididas emg1 ={y1, y3}eg2 ={y2}. Assim
C{1}= 7 3 2 −1 ; C{2} = −1 0 9 0 ∴DistExt(1,2) =||(p82+ 72,p32+ 12)||=√123 = ∆ 12 Portanto DB =P rox(1,2) = √d13 123 = √ 28 √ 123 '0,477 e RT = 1 12 × 10 73 '9,49×10 −3 1