• No se han encontrado resultados

Adaptação de hierarquias de dados conectados para análise de informação

N/A
N/A
Protected

Academic year: 2021

Share "Adaptação de hierarquias de dados conectados para análise de informação"

Copied!
77
0
0

Texto completo

(1)

Juarez Angelo Piazza Sacenti

ADAPTAC

¸ ˜

AO DE HIERARQUIAS DE DADOS

CONECTADOS PARA AN ´

ALISE DE INFORMAC

¸ ˜

AO

Disserta¸c˜ao submetida ao Programa de P´os-Gradua¸c˜ao em Ciˆencia da Com-puta¸c˜ao da Universidade Federal de Santa Catarina para a obten¸c˜ao do Grau de Mestre em Ciˆencia da Com-puta¸c˜ao.

Orientador: Prof. Renato Fileto, Dr.

Florian´

opolis

2016

(2)

Ficha de identifica¸

ao da obra elaborada pelo autor atrav´

es do

Programa de Gera¸

ao Autom´

atica da Biblioteca Universit´

aria da

UFSC.

A ficha de identifica¸c˜ao ´e elaborada pelo pr´oprio autor INSERIDA APENAS NA VERS ˜AO FINAL

Maiores informa¸c˜oes em: http://portalbu.ufsc.br/ficha

(3)

Juarez Angelo Piazza Sacenti

ADAPTAC

¸ ˜

AO DE HIERARQUIAS DE DADOS

CONECTADOS PARA AN ´

ALISE DE INFORMAC

¸ ˜

AO

Esta disserta¸

ao foi julgada adequada para obten¸

ao do t´ıtulo de

mestre e aprovada em sua forma final pelo Programa de P´

os-Gradua¸

ao

em Ciˆ

encia da Computa¸

ao.

Florian´

opolis, 23 de fevereiro 2016.

Prof. Carina Friedrich Dorneles, Dr

a

.

Coordenadora do Programa

Banca Examinadora:

Prof. Renato Fileto, Dr.

Universidade Federal de Santa Catarina

Orientador

Prof. Jos´

e Antonio Fernandes de Macedo, Dr.

Universidade Federal do Cear´

a

Prof. Denilson Sell, Dr.

Universidade Federal de Santa Catarina

Prof. Roberto Willrich, Dr.

Universidade Federal de Santa Catarina

Prof. Mario Antonio Ribeiro Dantas, Dr.

Universidade Federal de Santa Catarina

(4)
(5)

Este trabalho ´e dedicado aos meus pais, familiares e todos aqueles que incentivaram-me a continuar estudando.

(6)
(7)

AGRADECIMENTOS

Grato a paciente orienta¸

ao de Renato Fileto e toda sua

de-dica¸

ao proporcionar as melhores oportunidades de aprendizado e

cres-cimento para formar futuros pesquisadores.

Agrade¸co aos meus colegas do LISA (Laborat´

orio para

Inte-gra¸

ao de Sistema e Aplica¸

oes Avan¸

cadas) que criaram um ambiente

de amizade, integra¸c˜

ao, e conhecimento. Entre eles, aos meus amigos:

Andr´

e Salvaro, Areli Santos, Cleto May, Douglas Klein, Felipe Pinto,

Felipe Born, Filipe Silva, Geomar Schreiner, Jean Gon¸

calves, Lucas de

Alencar, Ramon Hugo de Souza e Ricardo Nabo, pelas cr´ıticas

constru-tivas, aux´ılio e companheirismo. Em especial aos meus amigos: Douglas

Klein, pela coleta e minera¸

ao textual em

tweets

e a Cleto May, pela

as-socia¸

ao semˆ

antica de

tweets

com dados de movimento, ambas tarefas

essenciais para este trabalho.

Agradecimentos a Alessandra Rafaett`

a, Alessandro Roncato,

Fa-bio Salvini pela orienta¸c˜

ao, contribui¸

ao acadˆ

emica e acolhimento

calo-roso por suas fam´ılias em terras extrangeiras. Obrigado ao

companhei-rismo de Chiara Gaetani e Edson J. M. Fumagalli durante a estadia na

bella Italia

.

Grato a toda minha fam´ılia, em especial: a minha m˜

ae,

Mi-rian C´

elia Piazza Sacenti, por todo amor, caridade, entrega, resigna¸

ao

e carinho; ao meu pai, Juarez Angelo Sacenti, por toda dedica¸

ao e

compreens˜

ao pelas minhas escolhas; a minhas tia Odete Maria de

Ol-veira por todo carinho, orienta¸

ao e instru¸

ao, muito muito obrigado;

a minha tia Doroti Sacenti pelo carinho e conforto; a meu tio Mario

ergio Piazza pela fidelidade nas caminhadas de fim de tarde durante

os ´

ultimos meses do mestrado.

Por fim, agrade¸

co a banca examinadora deste trabalho por suas

cr´ıticas, considera¸

oes e indica¸

oes de trabalho futuros.

(8)
(9)

Corcovado, the hill in Rio where stands the statue of Christ the Redeemer, can be categorized (typed) as instance of Moun-tainandTouristic Placeat the same time. (FILETO et al., 2014)

(10)
(11)

RESUMO

Diversas abordagens tˆ

em sido propostas para o enriquecimento semˆ

an-tico de dados sobre movimento, incluindo propostas para a sua anota¸

ao

com dados abertos conectados (LOD). Contudo, ainda h´

a uma carˆ

encia

de solu¸

oes para modelagem dimensional de dados semanticamente

ano-tados, visando sua an´

alise em

data warehouses

. Este trabalho de

pes-quisa prop˜

oe um m´

etodo para a gera¸

ao automatizada de dimens˜

oes de

an´

alise de dados a partir da adapta¸

ao de hierarquias de recursos (sobre

instˆ

ancias e conceitos) de LOD usados para anotar semanticamente tais

dados. Este m´

etodo extrai hierarquias de recursos de cole¸

oes de LOD

por meio da explora¸

ao de rela¸

oes de ordenamento parcial (como

part

of

e

is a

) e adapta tais hierarquias, reduzindo o n´

umero de recursos de

acordo com o n´

umero de vezes que um recurso aparece em anota¸

oes

semˆ

anticas de uma dada cole¸

ao de dados. Dimens˜

oes assim

produzi-das s˜

ao potencialmente menores que a hierarquia usada para ger´

a-las,

pois escondem recursos com baixa frequˆ

encia de uso em anota¸

oes. Isso

tem potencial para propiciar ganhos de eficiˆ

encia e facilidade de uso em

data warehouses

, entre outros benef´ıcios. Resultados de experimentos

com a adapta¸c˜

ao de hierarquias de recursos para a an´

alise de

tweets

anotados com LOD sugerem a viabilidade do m´

etodo. Os resultados

mostram consider´

avel redu¸c˜

ao no n´

umero de recursos de hierarquias

adaptadas a medida que se aumenta o limiar de frequˆ

encia de uso de

recursos em anota¸

oes semˆ

anticas.

Palavras-chave:

Dados sobre movimento.

Data Warehouse

.

Di-mens˜

oes de an´

alise.

Web

semˆ

antica. Dados abertos conectados (LOD).

M´ıdias Sociais.

Tweets

geo-localizados.

(12)
(13)

ABSTRACT

Several approaches have been proposed to semantic enrich data about

movement, including proposals to annotate it with linked open data

(LOD). However, there is still a lack of solutions for

multidimensio-nal modelling semantic annotated data, in order to amultidimensio-nalyse it in data

warehouses. This research work proposes a method for automated

ge-neration of data analysis dimensions from the adaptation of hierarchies

of resources (about instances and concepts) of LOD used to annotate

semantically such data. This method extract hierarchies of resources

from LOD collections through exploration of partial ordering relations

(like

part of

and

is a

) and adapt such hierarchies, reducing the number

of resources according to the number of times a resource appears in

se-mantic annotations of a particular dataset. Thus produced dimensions

are potentially lower than the hierarchy used to generate them, because

they hide resources having low frequency of use in annotations. This

has the potential to provide efficiency gains and ease of use in data

wa-rehouses, among other benefits. Experiments results in adaptation of

hierarchies of resources for the analysis of tweets annotated with LOD

suggest the feasibility of the method. The results show considerable

re-duction of the number of adapted hierarchies’ resources as it increases

the threshold of frequency of use of resources in semantic annotations.

Keywords:

Movement data. Data warehouses. Analysis dimensions.

Semantic Web. Linked open data. Social media. Geo-located tweets.

(14)
(15)

LISTA DE FIGURAS

Figura 1

Exemplo da an´

alise de trilha de usu´

ario . . . 26

Figura 2

Segmento de dados sobre movimento . . . 32

Figura 3

Trilha anotada com PoI visitados . . . 33

Figura 4

Instˆ

ancias, conceitos e propriedades das cole¸

oes de

da-dos abertos conectada-dos DBpedia, LGD e GeoNames . . . 35

Figura 5

Triplas RDF, formato N3, adaptadas da DBpedia . . . 37

Figura 6

Consulta SPARQL sob DBpedia . . . 37

Figura 7

Representa¸

ao gr´

afica de um hipercubo de dados . . . 39

Figura 8

Exemplo de hierarquia sobre a dimens˜

ao

Spatial Object

39

Figura 9

O esquema de fato

Movement Segment

. . . 40

Figura 10 Esquema relacional do DW . . . 41

Figura 11 Modelo geral do m´

etodo de adapta¸

ao de hierarquias de

recursos . . . 45

Figura 12 Associa¸

oes entre

tweets

e recursos de LOD . . . 47

Figura 13 M´

etodo iterativo para a adapta¸c˜

ao de hierarquias de

re-cursos . . . 49

Figura 14 Anota¸

ao semˆ

antica de

tweet

considerando proximidade

espacial e similaridade textual . . . 50

Figura 15 Associa¸

oes entre

tweets

e recursos de LOD . . . 52

Figura 16 Exemplo 1 da aplica¸

ao do algoritmo SimpleTailoring

-entrada de dado . . . 56

Figura 17 Exemplo 2 da aplica¸

ao do algoritmo SimpleTailoring

-omiss ˜

ao de recursos . . . 56

Figura 18 Exemplo 3 da aplica¸

ao do algoritmo SimpleTailoring

-agrega¸

ao de recursos . . . 57

Figura 19 Extrato da hierarquia de recursos sobre objetos . . . 62

Figura 20 Extrato da hierarquia de recursos sobre conceitos . . . 62

Figura 21 N´

umero de recursos de cada n´ıvel de hierarquias de

recur-sos sobre objetos adaptadas por valores de

σ

em ordem ascendente 63

Figura 22 Esquema l´

ogico de referˆ

encia para MDW (

FILETO et al.

,

2014) . . . 64

(16)
(17)

LISTA DE TABELAS

Tabela 1

Dimens˜

ao de cole¸

oes de LOD . . . 60

Tabela 2

SMoDs que explicitam o lugar visitado no

tweet

. . . 61

Tabela 3

Tabela comparativa de trabalhos correlatos . . . 70

(18)
(19)

LISTA DE ABREVIATURAS E SIGLAS

GPS

Global Positioning System . . . 25

GSM

Global System for Mobile communication . . . 25

MO

Moving Object . . . 25

KB

Knowledge Base . . . 25

PoI

Place of Interest . . . 25

SMoD

Semantically annotated Moving Data . . . 25

MDW

Movement Data Warehouse . . . 25

DW

Data Warehouse . . . 25

LOD

Linked Open Data . . . 27

MoD

Movement Dataset . . . 31

MDS

Movement Data Segment . . . 31

URI

Uniform Resource Identifier . . . 36

RDF

Resource Description Framework . . . 36

SPARQL SPA RDF Query Language . . . 36

SQL

Structured Query Language . . . 37

DFM

Dimensional Fact Model . . . 40

ETL

Extraction, Transformation and Loading . . . 41

OLAP

On-Line Analytical Processing . . . 41

XML

Extensible Markup Language . . . 42

SMoD

Semantically annotated Movement Dataset . . . 46

DAG

Directed Acyclic Graph . . . 47

(20)
(21)

LISTA DE S´

IMBOLOS

mds

Segmento de dado sobre movimento . . . 31

M O

Objeto m´

ovel . . . 31

p

Posi¸

ao . . . 31

(

x, y

) Coordenada geogr´

afica . . . 31

(22)
(23)

SUM ´

ARIO

1

INTRODUC

¸ ˜

AO . . . .

25

1.1

DEFINIC

¸ ˜

AO DO PROBLEMA E DELINEAMENTO DA

PROPOSTA . . . 27

1.2

OBJETIVOS . . . 28

1.3

MATERIAL E M ´

ETODOS . . . 28

1.4

ESTRUTURA DO TRABALHO . . . 29

2

FUNDAMENTAC

¸ ˜

AO TE ´

ORICA . . . .

31

2.1

DADOS SOBRE MOVIMENTO . . . 31

2.2

ANOTAC

¸ ˜

OES . . . 32

2.3

WEB SEM ˆ

ANTICA E LOD . . . 34

2.4

DATA WAREHOUSING . . . 38

2.5

CONSIDERAC

¸ ˜

OES FINAIS . . . 43

3

ADAPTAC

¸ ˜

AO DE HIERARQUIAS DE

RECUR-SOS . . . .

45

3.1

DEFINIC

¸ ˜

OES B ´

ASICAS . . . 46

3.2

M ´

ETODO PARA A ADAPTAC

¸ ˜

AO DE HIERARQUIAS . 48

3.2.1

Enriquecimento Semˆ

antico

. . . 48

3.2.2

Modelagem de Hierarquias

. . . 50

3.2.3

Adapta¸

ao de Hierarquias

. . . 53

3.2.4

Algoritmo para adapta¸

ao automatizada de

hie-rarquias

. . . 54

3.3

CONSIDERAC

¸ ˜

OES FINAIS . . . 57

4

AMBIENTE E RESULTADOS EXPERIMENTAIS

59

4.1

AMBIENTE EXPERIMENTAL . . . 59

4.1.1

Ambiente Computacional e Ferramenta SeMovDim

60

4.1.2

Execu¸

ao do m´

etodo para adapta¸

ao de hierarquias

60

4.2

RESULTADOS EXPERIMENTAIS . . . 62

4.3

USO DE HIERARQUIAS EM DATA WAREHOUSE . . . . 63

4.4

CONSIDERAC

¸ ˜

OES FINAIS . . . 66

5

TRABALHOS RELACIONADOS . . . .

67

6

CONCLUS ˜

AO E TRABALHOS FUTUROS . . . . .

71

REFER ˆ

ENCIAS . . . .

73

(24)
(25)

25

1 INTRODUC

¸ ˜

AO

As tecnologias de posicionamento e comunica¸

ao (

e.g.

, GPS,

GSM) possibilitam o ac´

umulo de grandes volumes de dados sobre

mo-vimento (

movement data

), tais como trajet´

orias de objetos m´

oveis

(

moving objects

- MOs) (

PARENT et al.

, 2013;

PELEKIS; THEODORIDIS

,

2014) ou trilhas (

trails

),

i.e.

sequˆ

encias de intera¸

oes geo-localizadas

de um usu´

ario com um sistema de informa¸

ao (

e.g.

,

posts

de usu´

arios

em m´ıdias sociais, tais como Facebook

1

, Twitter

2

ou Instagram

3

; ou

sistemas que produzam

Web

ou

mobile logs

geo-localizados) (

FILETO et al.

, 2015). Novos m´

etodos tˆ

em sido propostos para enriquecer

seman-ticamente dados sobre movimento,

e.g.

atrav´

es de sua anota¸

ao com

recursos sobre instˆ

ancias (objetos) e conceitos (classes de objetos)

des-critos em bases de conhecimento (

Knowledge Bases

- KBs). Anota¸

oes

emanticas com recursos de KBs associam informa¸

ao aos dados sobre

movimento, tais como: lugares de interesse (

Place of Interest

- PoI)

visitados, meios de transporte empregados, atividades realizadas,

ob-jetivos de paradas (

stops

) e deslocamentos (

moves

) (

YAN et al.

, 2013;

FILETO et al.

, 2013;

BOGORNY et al.

, 2014;

MAY; FILETO

, 2014).

Conjuntos de dados sobre movimento semanticamente anotados

(

Semantically annotated Movement Dataset

- SMoD) oportunizam a

constru¸

ao de

Movement Data Warehouses

(MDWs),

i.e. Data

Wa-rehouses

(DW) para a an´

alise de dados sobre movimento, que

explo-rem a informa¸

ao associada por anota¸

oes semˆ

anticas em dimens˜

oes de

an´

alise. Dimens˜

oes de an´

alise s˜

ao hierarquias para organiza¸

ao e an´

alise

dos fatos de um DW em diversos n´ıveis de abstra¸

ao (

CABIBBO; TOR-LONE

, 1998). Diversos campos de aplica¸

ao beneficiam-se da an´

alise

de dados sobre movimento, tais como a gest˜

ao de tr´

afego, seguran¸

ca

urbana,

marketing

geogr´

afico e estudos de comportamento social.

Por exemplo, considere a an´

alise de um trecho da trilha de

usu´

ario do Twitter, ilustrada na Figura 1. Os r´

otulos associados a

certas posi¸

oes da trilha representam anota¸

oes semˆ

anticas que

expli-citam o tipo e o nome de PoI visitados (

e.g.

,

BusStation::TICEN

,

Me-morial::Monumento ao Soldado

,

Supermarket::Angeloni Agronˆ

omica

).

As dimens˜

oes espaciais de an´

alise

Spatial Object Dim

e

Spatial

Con-cept Dim

ao hierarquias de recursos que exploram rela¸

oes de

orde-namento parcial (respectivamente,

part of

e

is a

) de recursos de

en-1https://www.facebook.com/ 2https://twitter.com/ 3https://instagram.com/

(26)

26

riquecimento semˆ

antico referenciados em anota¸

oes semˆ

anticas. Por

exemplo, o lugar visitado

Supermarket::Angeloni Agronˆ

omica

possui a

cadeia de rela¸

oes

part of

District::Agrˆ

onomica

-

City::Florian´

opolis

-State::Santa Catarina

-

Country::Brazil

”. Os conceitos

PoI / Address

,

District

,

City

,

State

e

Country

comp˜

oem os n´ıveis de hierarquia da

dimens˜

ao de an´

alise

Spatial Object Dim

. Por outro lado, a dimens˜

ao

Spatial Concept Dim

ao apresenta conceitos bem definidos para

clas-sificar seus n´ıveis e por isso ´

e representada em forma de ´

arvore.

Spatial Object Dim

County::Brazil State::Santa Catarina

City::Florianópolis District::Agronômica PoI / Address:: Av. Gov. Irineu

Bornhausen, 5288 Fact #positions elapsed_time ... Space

relações part_of relações is_a

Thing Shop Amenity School Supermarket Pharmacy Bar Spatial Concept Dim

Mall::Floripa Shopping Supermarket:: Angeloni Agronômica Memorial:: Monumento ao Soldado BusStation::TITRI School::IFSC BusStation::TICEN Florianópolis Objetos Móveis

Figura 1 – Exemplo da an´

alise de trilha de usu´

ario

A an´

alise de

tweets

geo-localizados, como no exemplo anterior,

possibilita responder quest˜

oes como (

HONG et al.

, 2012):

Como a informa¸

ao ´

e criada e compartilhada em diferentes lugares

geogr´

aficos? Como o conte´

udo textual varia de acordo com o

espa¸

co geogr´

afico?

Quais s˜

ao as caracter´ısticas espaciais e lingu´ısticas das pessoas?

Como a linguagem varia de acordo com a regi˜

ao e tipo de lugar?

Quais s˜

ao os padr˜

oes de movimenta¸

ao dos usu´

arios ao utilizar o

servi¸

co?

Al´

em destas, dimens˜

oes espaciais de an´

alise permitem

consul-tas como:

“Qual o tempo decorrido (

elapsed time

) de MOs

em locais da classe

Shop

?”. Nesta consulta, a resposta ´

e obtida

pela soma do tempo de visita de cada MO em locais da classe

Shop

,

(27)

27

tal como o supermercado

Supermarket::Angeloni Agronˆ

omica

4

.

Su-permarket::Angeloni Agronˆ

omica

´

e instˆ

ancia de

Supermarket

e,

conse-quentemente, ´

e tamb´

em instˆ

ancia da classe

Shop

, de acordo com

Spatial

Concept Dim

.

1.1 DEFINIC

¸ ˜

AO DO PROBLEMA E DELINEAMENTO DA

PRO-POSTA

A constru¸c˜

ao do MDW ilustrado na Figura 1 exige, al´

em da

acomoda¸

ao de SMoDs no modelo dimensional (

FILETO et al.

, 2014),

etodos apropriados para explorar a informa¸

ao dispon´ıvel sobre os

recursos de KBs associados pelas anota¸c˜

oes semˆ

anticas. E al´

em disso,

ainda h´

a uma carˆ

encia de solu¸

oes para a gera¸

ao de dimens˜

oes de

an´

alise para dados anotados com recursos de dados conectados

aber-tos (

Linked Open Data

- LOD), assim como trabalhos que descrevam

a constru¸

ao de

data warehouses

como o MDW exemplificado acima.

Dado o problema da gera¸

ao de dimens˜

oes de an´

alise de dados

se-manticamente anotados com LOD, este trabalho prop˜

oe as seguintes

hip´

oteses:

Hip´

otese 1.

Dados sobre movimento anotados com recursos de LOD

podem ser analisados em

data warehouses

, ao utilizar hierarquias de

recursos constru´ıdas a partir de rela¸

oes de ordem parcial (

e.g.

,

part of

,

is a

) descritas em cole¸

oes de LOD.

Hip´

otese 2.

Hierarquias de recursos podem ser adaptadas com o

in-tuito de reduzir o n´

umero de recursos da hierarquia, considerando o

umero de dados alvos de anota¸

oes que cada recurso da hierarquia

anotou (

i.e.

frequˆ

encia de uso do recurso em anota¸

oes semˆ

anticas).

Hip´

otese 3.

Hierarquias de conceitos baseadas em rela¸

oes

is a

(

sub-sumption

), quando utilizadas como dimens˜

oes de an´

alise, proporcionam

novos meios de analisar conjuntos de dados semanticamente anotados.

Este trabalho prop˜

oe um m´

etodo para a gera¸

ao automatizada

de dimens˜

oes de an´

alise de dados a partir da adapta¸

ao de hierarquias

de recursos (instˆ

ancias e conceitos) conectados a recursos usados em

anota¸

oes semˆ

anticas. Este m´

etodo explora hierarquias derivadas de

propriedades existentes em cole¸

oes de LOD e reduz o n´

umero de

recur-sos das hierarquias de acordo com o n´

umero de anota¸

oes semˆ

anticas a

que cada recurso est´

a (direta ou indiretamente) relacionado. O m´

etodo

(28)

28

´

e validado utilizando uma base de

tweets

semanticamente anotados com

recursos de KBs.

Dimens˜

oes assim produzidas s˜

ao potencialmente menores que a

hierarquia usada para ger´

a-las, pois ocultam recursos pouco usados em

anota¸

oes. A fase de adapta¸c˜

ao de hierarquias proporciona ganhos em

eficiˆ

encia e facilidade no uso das dimens˜

oes de an´

alise em

data

warehou-ses

, entre outros benef´ıcios, tal como a disponibiliza¸

ao de dimens˜

oes

de an´

alise baseadas em hierarquias de conceitos.

O m´

etodo proposto suporta a an´

alise de qualquer cole¸

ao de

da-dos semanticamente anotada-dos, por´

em os estudos de caso limitam-se a

dados sobre movimento semanticamente anotados devido ao interesse

atual do grupo de pesquisa no qual este trabalho foi realizado. O

de-senvolvimento de um MDW como do exemplo proposto foi um objetivo

ao alcan¸

cado deste trabalho, devido a limita¸

oes de escopo e tempo.

Experimentos com outros tipos de dados e o desenvolvimento do MDW

ao sugeridos como futuros trabalhos.

1.2 OBJETIVOS

O objetivo geral deste trabalho de pesquisa ´

e contribuir para

a modelagem dimensional de dados de movimento anotados com

re-cursos (instˆ

ancias e conceitos) de KBs.

Especificamente, esta

dis-serta¸

ao prop˜

oe um m´

etodo para a gera¸

ao automatizada de dimens˜

oes

de an´

alise a partir de conjuntos de dados semanticamente anotados e

por meio da adapta¸

ao de hierarquias de recursos.

Os objetivos espec´ıficos desta disserta¸

ao s˜

ao:

1. Estabelecer estrat´

egia para gerar hierarquias de recursos (instˆ

ancias

e conceitos) a partir de recursos referenciados por conjuntos de

dados semanticamente anotados.

2. Estabelecer algoritmo para adapta¸

ao de hierarquias de recursos

considerando o n´

umero de dados alvos de anota¸

oes que cada

recurso da hierarquia anotou.

3. Analisar os efeitos da adapta¸

ao de hierarquias de recursos.

1.3 MATERIAL E M ´

ETODOS

O m´

etodo empregado nesta disserta¸

ao compreende os seguintes

passos:

(29)

29

1. Levantamento bibliogr´

afico nas ´

areas de an´

alise de dados sobre

movimento em DW, uso de tecnologias da

Web

semˆ

antica para

constru¸

ao de DW, e an´

alise de informa¸

ao de m´ıdias sociais em

DW;

2. Desenvolver um m´

etodo de gera¸

ao de dimens˜

oes de an´

alise de

SMoDs a partir de hierarquias de recursos;

3. Definir e implementar algoritmos de extra¸

ao e adapta¸

ao de

hi-erarquias de recursos a partir de SMoDs;

4. Obter SMoDs para realiza¸

ao de experimentos: utilizar-se-´

a

da-dos gerada-dos por trabalhos anteriores (

MAY; FILETO

, 2014);

5. Realizar experimentos para analisar os efeitos da adapta¸

ao de

hierarquias de recursos extra´ıdas a partir de diferentes SMoDs;

6. Escrita de um artigo cient´ıfico relacionado ao trabalho proposto

e publica¸

ao do mesmo em evento com Qualis-CC CAPES, com

estrato superior ou equivalente a B3;

7. Escrita da disserta¸

ao.

1.4 ESTRUTURA DO TRABALHO

O restante deste trabalho ´

e estruturado em 4 cap´ıtulos. O

cap´ıtu-lo 2 define fundamentos te´

oricos a respeito de dados sobre movimento,

anota¸

oes,

Web

semˆ

antica, LOD e

data warehouses

. O cap´ıtulo 3

apre-senta as defini¸

oes b´

asicas necess´

arias para o entendimento da proposta

e o m´

etodo proposto para a extra¸

ao e adapta¸

ao de hierarquias de

recursos. O cap´ıtulo 4 ilustra a utiliza¸

ao do prot´

otipo ferramental

Se-MovDim

para a adapta¸

ao de quatro SMoDs de

tweets

anotados com

recursos sobre PoI visitados pelo usu´

ario autor do

tweet

. O cap´ıtulo 5

apresenta e compara trabalhos relacionados. O cap´ıtulo 6 apresenta as

conclus˜

oes obtidas durante a pesquisa e enumera trabalhos futuros.

(30)
(31)

31

2 FUNDAMENTAC

¸ ˜

AO TE ´

ORICA

Este cap´ıtulo define a representa¸

ao de dados sobre movimento

em diferentes n´ıveis de abstra¸

ao e como estes podem ser

semantica-mente anotados. Ele tamb´

em descreve os elementos b´

asicos de um

data

warehouse

.

2.1 DADOS SOBRE MOVIMENTO

O termo dado sobre movimento se refere a todos os dados sobre

o movimento de objetos m´

oveis (MOs). Um conjunto de dados brutos

sobre movimento (

Movement Dataset

- MoD) ´

e um conjunto de

seg-mentos de dados sobre movimento como o formalmente descrito pela

Defini¸

ao 1.

Defini¸

ao 1.

Um

segmento de dados brutos sobre movimento

(

Movement Data Segment

- MDS) ´

e uma sequˆ

encia temporalmente

or-denada

mds

=

h

p

1

, . . . , pn

i

(

n

N

+

) de posi¸

oes espa¸

co-temporais de

um objeto m´

ovel

M O

, onde cada posi¸

ao ´

e uma tupla

pi

= (

xi, yi, ti

)

com 1

i

n

, onde (

x

i

, y

i

) s˜

ao coordenadas geogr´

aficas e

t

i

´

e um

time-stamp

indicando o instante quando

M O

ocupava tais coordenadas.

Por exemplo, a Figura 2 ilustra dois MDSs. A Figura 2(a)

apre-senta uma trajet´

oria bruta (

raw trajectory

) coletada por meio de um

aplicativo baseado em tecnologias de posicionamento (

e.g.

, GPS). A

Figura 2(b) mostra uma trilha (

trail

),

i.e.

sequˆ

encia de intera¸

oes

geo-localizadas de um usu´

ario de m´ıdia social. Na Figura 2(a) os bal˜

oes

representam paradas (stops) enquanto que na Figura 2(b) eles

repre-sentam posi¸

oes donde foram enviadas postagens. Note que trajet´

orias

possuem alta precis˜

ao espa¸

cotemporal devido a taxa de amostragem

regular e curta (

e.g.

, a cada poucos segundos), enquanto trilhas

pos-suem taxa de amostragem variada, devido a natureza ass´ıncrona de

postagens dos usu´

arios (

e.g.

, em m´ıdias sociais). Por outro lado,

pos-tagens em m´ıdias sociais usualmente vˆ

em acompanhadas de diversas

informa¸

oes adicionais, tais como perfis de usu´

ario e conte´

udos

textu-ais, que apesar de imprecisos podem indicar o estado e situa¸

ao do MO

em dada coordenada.

Ainda, um MDS pode representar subtrajet´

orias e trajet´

orias

estruturadas por epis´

odios como

stops

e

moves

(

YAN et al.

, 2013).

En-tretanto, um MDS n˜

ao suporta a descri¸

ao de caracter´ısticas comums

(32)

32

(a) Trajet´oria bruta (b) Trilha social

Figura 2 – Segmentos de dado sobre movimento (MDS)

da sequˆ

encia de posi¸c˜

oes representada por um segmento (caracter´ısticas

do MO, da localidade e/ou do momento, como atividades planejadas e

realizadas, objetivos, meios de transporte empregados, condi¸

oes

am-bientais relevantes, PoI visitados, participa¸

ao em eventos), por vezes

importantes para a interpreta¸

ao do movimento.

Similarmente a dados meramente espaciais, dados espa¸

cotempo-rais sobre movimento necessitam de dois componentes para representar

o movimento de um objeto m´

ovel (

RIGAUX; SCHOLL; VOISARD

, 2000):

Atributo espa¸

co-temporal: descreve a localiza¸

ao, forma,

ori-enta¸

ao e tamanho do movimento de um objeto m´

ovel no espa¸

co,

de duas ou trˆ

es dimens˜

oes, e no tempo, dentro da dura¸

ao do

movimento.

Atributo tem´

atico ou descritivo: descreve caracter´ısticas do

mo-vimento por meio de atributos alfanum´

ericos e/ou referˆ

encias a

recursos semˆ

anticos,

i.e.

conceitos (classes) e objetos (instˆ

ancias

de classes) definidos em uma base de conhecimento (KB).

Neste trabalho, o atributo tem´

atico enriquece semˆ

anticamente o

MDS e ´

e representado por meio de anota¸

oes.

2.2 ANOTAC

¸ ˜

OES

A anota¸

ao digital, tamb´

em chamada de r´

otulo (

label

) ou

eti-queta (

tag

), ´

e uma associa¸

ao de uma informa¸

ao sobreposta (

(33)

supe-33

rimposed information

) (

DELCAMBRE; MAIER

, 1999) a uma informa¸

ao

base (alvo da anota¸

ao), que ajuda a, por exemplo, explicar, avaliar,

corrigir ou refutar o alvo. A abordagem de anota¸

ao facilita a

adminis-tra¸

ao das diferentes caracter´ısticas, perspectivas e interpreta¸

oes do

dado sobre movimento. Um MDS representando parte (subsegmento)

ou todo o movimento de um objeto m´

ovel pode ser anotado com

atri-butos tem´

aticos, pelo uso de associa¸

oes formalmente descritas pela

Defini¸

ao 2.

Defini¸

ao 2.

Uma

associa¸

ao

´

e uma tupla

a

= (

mds, rel, at

), onde

mds

´

e um segmento de dado sobre movimento,

rel

´

e uma rela¸

ao

semˆ

antica e

at

´

e um atributo tem´

atico (

e.g.

, um literal ou uma

re-ferˆ

encia a um recursos descrito em base de conhecimento). Uma

asso-cia¸

ao descreve uma caracter´ıstica comum a todas as posi¸

oes espa¸

co-temporais do MO descritas por

mds

(

e.g.

, local visitado em uma parada

stop

, meio de transporte usado em um movimento –

move

).

Por exemplo, a Figura 3 apresenta o MDS

mds

0

=

h

p

1

...p

8

i

, uma

sequˆ

encia de

tweets

do usu´

ario

@somebody

. A associa¸

ao

a

0

= (

mds

00

,

associated text

,

“I’m at Angeloni”

) define a anota¸

ao de

mds

00

com

o conte´

udo textual

“I’m at Angeloni”

. Deste modo,

mds

00

=

h

p

3

i

e

mds

00

mds

0

,

i.e.

mds

00

´

e subsegmento de

mds

0

. Outro exemplo, a

associa¸

ao

a

00

= (

mds

00

,

labeled

,

“Angeloni”

) define a anota¸

ao de

mds

00

com o conte´

udo textual

“Angeloni”

, utilizado como r´

otulo de

mds

00

no

mapa.

Floripa Shopping Angeloni Monumento ao Soldado TITRI IFSC TICEN Florianópolis @somebody 2:36 PM 11 Out 2014 I'm at Angeloni at (lon, lat) 3:05 PM 07 Out 2014 I'm at TICEN 1:52 PM 11 Out 2014 I'm at Monum.

10:57 AM 13 Out 2014 I'm at IFSC 3:59 PM 13 Out 2014 I'm at Floripa.

Trilha Social (mds') – Trilha Social Anotada –

p1 p2 p3 p4 p5 p6 p7 p8 p1 p2 p3 p4 p5

(34)

34

Anota¸

oes podem ser classificadas de acordo com a forma de

armazenamento da informa¸

ao sobreposta, como intrusivas ou n˜

ao

in-trusivas (

OREN et al.

, 2006). Anota¸c˜

oes intrusivas s˜

ao acopladas a

in-forma¸

ao base, enquanto as n˜

ao intrusivas s˜

ao armazenadas

separada-mente e referenciam a informa¸

ao base com aux´ılio de identificadores e

endere¸

camentos. Outra classifica¸

ao de anota¸

oes considera o modo de

representa¸

ao da informa¸

ao sobreposta, podendo ser livre ou semˆ

an-tica (

BERNERS-LEE; HENDLER; LASSILA

, 2001).

A anota¸

ao livre associa a informa¸

ao base com um texto ou

ou-tra informa¸

ao escrita livremente. Por n˜

ao apresentar nenhum tipo de

estrutura¸

ao de seu conte´

udo, a anota¸

ao livre ´

e mais vers´

atil e f´

acil de

ser coletada. Entretanto, a liberdade da anota¸

ao livre acarreta

pro-blemas como: sinˆ

onimos, ambiguidades e erros ortogr´

aficos, tornando

complexa a interpreta¸

ao e utiliza¸

ao em aplica¸

oes.

As anota¸

oes semˆ

anticas, por outro lado, associam a informa¸

ao

base a descri¸

oes com semˆ

antica bem definida, referenciando a

in-forma¸

ao sobreposta com o aux´ılio de recursos de bases de

conheci-mento, ontologias (

GUARINO

, 1998) ou cole¸

oes dados conectados (

lin-ked data

). A representa¸

ao da anota¸

ao semˆ

antica, quando intrusiva,

´

e tamb´

em chamada de

atributo semˆ

antico

.

Diversos m´

etodos tem sido propostos para descrever com maior

exatid˜

ao o significado de anota¸

oes textuais livres (

e.g.

,

a

0

e

a

00

), tais

como os m´

etodos propostos por (

MAY; FILETO

, 2014). Usando tais

etodos, ´

e poss´ıvel obter anota¸c˜

oes semˆ

anticas como

a

000

= (

mds

00

,

visits

,

lgd:way73321157

), sendo

lgd:way73321157

1

o recurso sobre

Su-permarket::Angeloni Agronˆ

omica

descrito no LOD LinkedGeoData

2

.

2.3 WEB SEM ˆ

ANTICA E LOD

Web

Semˆ

antica ´

e uma sub´

area de pesquisa de banco de dados

que objetiva extender o papel dos computadores no suporte de

diver-sas atividades humanas, por meio da descri¸

ao, composi¸

ao e

recu-pera¸

ao de dados e servi¸

cos que suportam diversas aplica¸

oes. A

Web

semˆ

antica fundamenta-se na utiliza¸

ao de tecnologias como: anota¸

oes

semˆ

anticas, ontologias, bases de conhecimento, dados abertos

conecta-dos.

Uma ontologia ´

e uma especifica¸

ao expl´ıcita de uma

conceitu-aliza¸

ao (

GRUBER

, 1995), em um ou mais dom´ınios de conhecimento.

1lgd ´e prefixo para http://linkedgeodata.org/triplify/ 2http://linkedgeodata.org/

(35)

35

As primitivas da representa¸

ao de conhecimento em ontologias s˜

ao

con-ceitos (classes), objetos (instˆ

ancias) e propriedades (

i.e.

rela¸

oes entre

conceitos, instˆ

ancias e valores alfanum´

ericos).

Por exemplo, a Figura 4 apresenta uma vis˜

ao ontol´

ogica (

i.e.

ex-trato de ontologia) composta de trechos das KBs DBpedia,

LinkedGeo-Data (LGD) e GeoNames. Elipses verdes representam instˆ

ancias,

elip-ses roxas representam conceitos, retˆ

angulos representam literais (

i.e.

valores alfanum´

ericos) e as arestas indicam propriedades. A

especi-fica¸

ao de uma ontologia se divide em dois n´ıveis: o intencional e o

n´ıvel extensional. No n´ıvel intencional s˜

ao definidos os conceitos do

universo de discurso, as rela¸c˜

oes entre conceitos (

e.g.

, hierarquias de

classes (

subsumption

)) e suas propriedades (

e.g.

, tipos de comida

servi-dos em restaurantes). O n´ıvel extensional descreve instˆ

ancias de acordo

com o que ´

e previsto pelo n´ıvel intencional (

e.g.

, um restaurante serve

certos tipos de comida).

POINT( -73.997016906738 40.719039916992) lgdo:Amenity rdf:type geo:geometry lgdo:Restaurant rdf:type Ferrara Bakery and Cafe Conceito

Instância Literal Propriedade

rdfs:label owl:sameAs gn:7288706 db:Ferrara_Bakery_and_Cafe dbo:Restaurant schema:Restaurant

dbo:Building building, farm)gno:S (spot,

rdfs:subClassOf rdfs:subClassOf rdfs:subClassOf

gn:NY gn:US gn:NY County gno:parentADM2 gno:parentADM1 gno:parentCountry gno:parentFeature owl:equivalentClass owl:equivalentClass owl:equivalentClass owl:equivalentClass gno:S.REST (restaurant) gno:parentFeature gno:parentFeature Nível intencional (RDFS) Nível extensional (RDF)

Figura 4 – Instˆ

ancias, conceitos e propriedades das cole¸

oes de dados

abertos conectados DBpedia, LGD e GeoNames

Na Figura 4, pode-se observar no n´ıvel superior (intensional) a

defini¸

ao do conceito

Restaurant

nas fontes de dados DBpedia, LGD

e GeoNames. Note tamb´

em a rela¸

ao dessas classes com classes

su-periores de cada fonte (

rdfs:subclassOf

) e suas rela¸

oes de equivalˆ

encia

(36)

36

(

owl:equivalentClass

). No n´ıvel inferior (extensional) da Figura 4, est˜

ao

representadas duas instˆ

ancias de restaurante de fontes distintas

(DBpe-dia e GeoNames) ligadas pela rela¸

ao de iguadade (

owl:sameAs

), o que

indica que se referem a mesma entidade, o restaurante

Ferrara Bakery

and Cafe

.

Uma base de conhecimento ´

e um conjunto de descri¸

oes de

con-ceitos (conceitualiza¸

oes em uma ou mais ontologias) e de instˆ

ancias.

A ontologia ´

e ao mesmo tempo dado e modelo conceitual de uma base

de conhecimento. A publica¸

ao e consumo de bases de conhecimento

na

Web

´

e orientada por um conjunto de diretrizes que permitem

co-nex˜

oes entre recursos de diferentes fontes de dados por meio

links

,

i.e.

propriedades como

owl:sameAs

(para instˆ

ancias) e

owl:equivalentClass

(para os conceitos), como ilustrado na Figura 4. As diretrizes para a

publica¸

ao de dados conectados (

Linked Data

) (

BERNERS-LEE

, 2006)

ao:

1. Usar URIs como nomes para coisas.

2. Usar URIs HTTP para que as pessoas possam procurar esses

nomes.

3. Quando algu´

em procurar uma URI, prover informa¸

ao ´

util, usando

padr˜

oes (RDF, SPARQL).

4. Incluir

links

para outras URIs de modo que possam permitir a

descoberta de mais coisas.

Os dados conectados alicer¸

cam a

Web

de dados pela ado¸

ao de

alguns padr˜

oes: um mecanismo de identifica¸

ao global e ´

unico (

Uniform

Resource Identifiers

- URIs), um modelo de dados comum (

Resource

Description Framework

- RDF) e um protocolo e linguagem de consulta

para acesso aos dados (SPA RDF

Query Language

- SPARQL).

URIs (

BERNERS-LEE

, 2005) s˜

ao utilizadas no contexto de dados

ligados para identificar unicamente conceitos, instˆ

ancias e

proprieda-des. Ao dereferenciar uma URI, ´

e obtida a descri¸

ao RDF do conceito,

instˆ

ancia ou propriedade identificado. O modelo RDF (

MANOLA; MIL-LER

, 2004) ´

e descentralizado, baseado em grafo e extens´ıvel, projetado

para a representa¸

ao integrada de dados de fontes diversas. Uma

des-cri¸

ao RDF composta de declara¸

oes, como a formalmente definida pela

Defini¸

ao 3.

Defini¸

ao 3.

Uma

declara¸

ao RDF

´

e uma tripla

d

= (

s, p, o

), onde

s

´

e o sujeito,

p

´

e o predicado e

o

´

e o objeto da declara¸

ao. Sujeito

e predicado s˜

ao representados por um recurso unicamente identificado

(37)

37

por uma URI

u

. O predicado

p

representa uma propriedade de

s

. O

objeto ´

e um valor de uma propriedade de

s

, podendo ser representado

por outro recurso ou por um valor alfanum´

erico.

@prefix dbr: <http://dbpedia.org/resource/>.

@prefix gn: <http://sws.geonames.org/>.

@prefix gno: <http://www.geonames.org/ontology#>

dbr:Ferrara_Bakery_and_Cafe

rdfs:label "Ferrara Bakery and Cafe"@en;

geo:geometry "POINT(-73.997016906738 40.719039916992)"

^^virtrdf:Geometry;

owl:sameAs dbr:Ferrara_Bakery_and_Cafe, gn:7288706.

gn:7288706

gn:featurecode gno:S.REST.

Figura 5 – Triplas RDF, formato N3, adaptadas da DBpedia

O SPARQL ´

e um protocolo e uma linguagem de consulta e

ma-nipula¸

ao de dados armazenados em reposit´

orios RDF. Sua linguagem

possui expressividade equivalente a da ´

algebra relacional e SQL (

Struc-tured Query Language

) (

ANGLES; GUTIERREZ

, 2008;

PERRY; SHETH; JAIN

, 2008).

A Figura 5 mostra algumas triplas sobre o recurso

Ferrara

3

obtidas a partir da consulta SPARQL ilustrada pela Figura 6.

Fo-ram selecionados os valores das propriedades

rdfs:label

,

geo:geometry

,

owl:sameAs

. Al´

em deste recurso, a Figura 5 mostra o valor da

propri-edade

gn:featurecode

do recurso

gn:7288706

4

.

PREFIX dbr:<http://dbpedia.org/resource/>

SELECT * WHERE {

dbr:Ferrara_Bakery_and_Cafe ?p ?o.

} LIMIT 100

Figura 6 – Consulta SPARQL sob DBpedia

Recursos de KB, quando referenciados como informa¸

ao

sobre-posta em um conjunto de anota¸

oes semˆ

anticas, caracterizam-se como

3dbr:Ferrara Bakery and Cafe, dbr ´e prefixo para http://dbpedia.org/resource/

(38)

38

recursos de enriquecimento semˆ

antico (Defini¸

ao 4).

Esta defini¸

ao

limita-se apenas a MDSs semanticamente anotados neste trabalho,

em-bora estenda-se a qualquer tipo de dado alvo de uma anota¸

ao semˆ

antica.

Defini¸

ao 4.

Um

recurso de enriquecimento semˆ

antico

(

Seman-tically Enriching Resource

) ´

e um URI

res

que referencia um conceito

ou uma instˆ

ancia de base de conhecimento, o qual foi utilizado como

valor de uma anota¸c˜

ao semˆ

antica

a

= (

mds, rel, res

).

Por exemplo, o conceito de restaurante e/ou instˆ

ancia espec´ıfica

de restaurante podem ser utilizados como valor de uma anota¸

ao de um

MDS para indicar um local visitado em tal segmento de movimento.

No exemplo da subse¸c˜

ao anterior,

lgd:way73321157

´

e o recurso de

en-riquecimento semˆ

antico utilizado na associa¸

ao

a

000

= (

mds

00

,

visits

,

lgd:way73321157

).

2.4 DATA WAREHOUSING

As t´

ecnicas de

Data Warehousing

(

KIMBALL

, 1996) permitem

gerir e reorganizar vasta quantidade de dados relativos a um

determi-nado fenˆ

omeno (

e.g.

condi¸

oes metereol´

ogicas, de neg´

ocio) em

Data

Warehouses

(DWs),

i.e.

bases de dados multidimensionais, com o

in-tuito de realizar an´

alises e predi¸c˜

oes a respeito deste fenˆ

omeno. O DW

´

e uma cole¸

ao de dados que apresenta as seguintes caracter´ısticas:

Integrada – composta de dados provenientes de diferentes fontes

(

e.g.

, sistemas transacionais, fontes externas);

Orientada a um assunto – formada com o intuito de resolver um

problema espec´ıfico (an´

alise de fenˆ

omeno);

Vari´

avel no tempo – que cont´

em dados que compreendem um

la¸

co temporal mais extenso que cole¸

oes de dados normalmente

memorizados em sistemas operacionais;

ao vol´

atil – cuja informa¸

ao armazenada ´

e est´

atica.

O modelo multidimensional de DWs organiza dados em fatos e

dimens˜

oes de an´

alise, com o intuito de produzir um

hipercubo de dados

(

data cube

), cuja cada c´

elula possui medidas de interesse.

Por exemplo, a Figura 7 ilustra um hipercubo de dados

so-bre

tweets

, organizados pelas dimens˜

oes de an´

alise

spatial object

(

e.g.

,

(39)

39

(

e.g.

,

11/10/2014

). Um fato corresponde, por exemplo, a medidas de

tweets

postados num dia particular do ano, num lugar e num tipo de

lugar espec´ıficos. Um exemplo das medidas que podem ser colocadas

em cada c´

elula deste cubo ´

e o n´

umero de

tweets

postados (

e.g.

,

qty

).

Al´

em disso, a Figura 7 tamb´

em mostra que h´

a apenas 2

tweets

posta-dos em supermercaposta-dos do bairro Agronˆ

omica no dia 11 de Outubro de

2014.

times tam p spatial object sp at ia l c on ce pt '11/10/2014' 'District::Agronômica' 'Supermarket' qty: 2

Figura 7 – Representa¸

ao gr´

afica de um hipercubo de dados

Dimens˜

oes de an´

alise s˜

ao hierarquias para organiza¸

ao e an´

alise

dos fatos em diversos n´ıveis de abstra¸

ao (

CABIBBO; TORLONE

, 1998).

Por exemplo, a Figura 8 ilustra uma hierarquia de dimens˜

ao com os

n´ıveis:

Spatial Object

(lugares),

District

(bairro),

City

(cidade),

Coun-try

(pa´ıs). Esta hierarquia agrupa lugares em n´ıveis administrativos de

acordo com a conten¸

ao espacial. As setas entre membros de n´ıveis da

dimens˜

ao (

e.g.

,

Angeloni

→Agronˆ

omica

→Florian´

opolis

) representam a

rela¸

ao de estar contido (

part of

). A raiz desta hierarquia ´

e

Earth

, pois

todos os

Spatial Object

est˜

ao cont´ıdos na Terra.

Spatial Obj Earth Monumento. Angeloni TICEN Centro

Agronômica Florianópolis Brazil

Country City District IFSC TITRI Floripa. Trindade João Paulo

(40)

40

A representa¸c˜

ao gr´

afica de DWs torna-se mais complexa a

me-dida que aumenta o n´

umero de dimens˜

oes de an´

alise. A modelagem

conceitual, como por meio do modelo de fato dimensional (

Dimensio-nal Fact Model

- DFM) (

GOLFARELLI; MAIO; RIZZI

, 1998), ´

e um

funda-mento necess´

ario para a constru¸

ao de um DW bem documentado e que

satisfa¸

ca os requisitos espec´ıficos da an´

alise de determinado fenˆ

omeno.

A Figura 9 ilustra o esquema de fato (

fact scheme

)

Movement

Segment

, representado por DFM. Este esquema descreve o movimento

de objetos m´

oveis, onde o fato ´

e representado por uma caixa rotulada

pelo nome do fato (

Movement Segment

) e, tipicamente, com uma ou

mais medidas de fato (

episodyQty

,

elapsedTime

,

distanceTravelled

).

Di-mens˜

oes s˜

ao representadas por c´ırculos diretamente conectados ao fato

(

i.e. M.O.

,

spatial concept

,

spatial object

,

timestamp

), e os c´ırculos

re-manescentes s˜

ao atributos das dimens˜

oes. Atributos n˜

ao-dimensionais

ao sempre terminais e s˜

ao representados por linhas (

e.g.

,

address

,

ca-tegory

).

timestamp spatial object M.O. address district city kind state country continent spatial concept Mov. Segment episodyQty elapsedTime distanceTravelled hour date holiday weekday week month season year category

Figura 9 – O esquema de fato

Movement Segment

No DFM, cada dimens˜

ao ´

e composta por uma hierarquia de

atributos, cuja aresta direcional (de sentido: fato, dimens˜

ao,

atribu-tos) entre atributos representa uma rela¸

ao de cardinalidade

-para-um

(41)

41

de cardinalidade

-para-um

entre atributos de dimens˜

ao ´

e respeitada

pelos valores que estes atributos assumem (

e.g.

, o

country

(pa´ıs) de

Agronˆ

omica (valor de

district

) ´

e Florian´

opolis,

i.e.

Agronˆ

omica.

city

=

Florian´

opolis).

´

E poss´ıvel representar o hipercubo de dados tamb´

em utilizando

o modelo relacional. A Figura 10 apresenta um exemplo de esquema

relacional de um DW. A tabela

FactMO

armazena fatos no formato

de tuplas – idMO, idSpatialC, idSpatialO, idTime, episodyQty,

elap-sedTime, distanceTravelled – onde os 4 primeiros atributos forma o

identificador prim´

ario e os trˆ

es ´

ultimos s˜

ao medidas de fatos. A tabela

SpatialC

,

SpatialO

e

Time

armazenam dimens˜

oes de an´

alise descritas

por tuplas contendo o identificador (

e.g.

,

idTime

) e atributos de

di-mens˜

ao (

e.g.

,

year

,

month

,

day

,

hour

). Neste DW, a dimens˜

ao

SpatialC

apresenta uma hierarquia de atributos de um ´

unico n´ıvel. A tabela

Spa-tialGeom

armazena geometrias de lugares referenciados pela dimens˜

ao

SpatialO

.

FactMO PK int idMO FK int idSpatialC FK int idSpatialO FK int idTime int episodyQty time elapsedTime real distanceTravelled SpatialC PK int idSpatialC FK char category SpatialO PK int idSpatialO FK int idGeomContinent FK int idGeomCountry FK int idGeomAdmin1 FK int idGeomAdmin2 FK int idGeomAdmin3 Time PK int idTime int year int month int day int hour SpatialGeom PK int idGeom char description geometry geom

Figura 10 – Esquema relacional do DW

Os dados de DWs podem provir de diversas fontes, as quais

in-cluem sistemas legados e a pr´

opria

Web

. Tais dados precisam passar por

um proceso de Extra¸

ao, Transforma¸

ao e Carga (

Extraction,

Transfor-mation and Loading

- ETL) para serem acomodados em um esquema

dimensional de um DW. Uma vez acomodados no DW, os dados podem

ser analisados atrav´

es do OLAP (On-Line Analytical Processing). O

processo OLAP ´

e suportado por um conjunto de ferramentas que

ofe-recem implementa¸

oes eficientes de algoritmos para realizar operadores

como

drill-down

,

roll-up

,

slice

e

dice

, os quais permitem avaliar

medi-das contimedi-das nas tabelas fato em diversos n´ıveis de abstra¸

ao e foco, de

(42)

42

acordo com as dimens˜

oes de an´

alise.

As iniciativas da

Web 2.0

e

3.0

(tamb´

em chamada

Web

de

Da-dos e

Web

Semˆ

antica) tornaram acess´ıveis grandes quantidades de

da-dos semiestruturada-dos (

e.g.

,

Extensible Markup Language

- XML, RDF)

e n˜

ao estruturados (

e.g.

, textos livres de corpos de email, posts em

m´ıdias sociais), importantes ou convenientes para a an´

alise de dados

em DWs (

INMON; STRAUSS; NEUSHLOSS

, 2008).

Por exemplo, considere que o DW ilustrado pela figura 7 deve

analisar os lugares onde houveram

tweets

, durante os eventos

esporti-vos de 2014, nos diferentes bairros e cidades da regi˜

ao de

Grande

Flo-rian´

opolis

, no estado de Santa Catarina, Brasil. A an´

alise deve

conside-rar a data e hora de postagem dos

tweets

, localiza¸

ao, e categoria de

lu-gar, onde cada uma dessas dimens˜

oes de an´

alise devem ser organizadas

em hierarquias de n´ıveis bem definidos,

e.g.

,

Dia→Semana

→Mˆ

es→Ano

,

Endere¸

co→Bairro→Cidade→Regi˜

ao

, e

Subsubcategoria

→Subcategoria

→Categoria

. Para isto, o DW deve integrar dados de

tweets

(cole-tado em uma base NO-SQL a partir da API da m´ıdia social Twitter)

com dados geogr´

aficos sobre lugares (coletados de LODs em formato

RDF), lista de eventos esportivos de 2014 (em formato n˜

ao estruturado

coletado de blogs e wikis esportivas), e finalmente de ontologias

descre-vendo a hierarquia de conten¸

ao geogr´

afica e a hierarquia de categorias

de lugar.

As tecnologias da

Web

Semˆ

antica tˆ

em sido aplicadas de

diferen-tes modos para suportar an´

alise em DW (

PARDILLO; MAZ ´ON

, 2011).

Em Abell´

o et al. (2015), s˜

ao definidos 5 crit´

erios de categoriza¸

ao de

sistemas OLAP:

Materializa¸

ao – que considera o n´ıvel de materializa¸

ao dos

da-dos integrada-dos: completo, parcial, armazenamento de resultado e

virtual.

Transforma¸

oes – que considera a complexidade das

transforma-¸

oes: complexa, tolerante a parti¸

ao, leve.

Atualiza¸

ao – que considera com qual frequˆ

encia ´

e realizada a

integra¸

ao de dados: peri´

odica, microlotes, sob demanda,

Right-time

, fluxo de dados.

Estrutura¸

ao – que considera a estrutura das fontes de dados:

estruturada, semiestruturada, n˜

ao estruturada.

Extensibilidade – que considera qu˜

ao dinˆ

amico ´

e o conjunto de

fonte de dados de entrada: est´

atico, evolu¸

ao, dinˆ

amico.

(43)

43

DWs tradicionais caracterizam-se pela materializa¸

ao completa,

transforma¸

oes complexas, atualiza¸

ao peri´

odica, fontes de dados

es-truturadas e extensibilidade est´

atica.

Situados entre os DWs tradicional e explorat´

orio, os DWs semˆ

an-tico-conscientes (

Semantic-aware

ou

Semantic-enable

) aplicam

tecno-logias da

Web

Semˆ

antica para satisfazer requisitos de DW tradicionais.

Estes sistemas necessitam explorar fontes de dados semiestruturados

ou n˜

ao estruturados (

Web 2.0

e

3.0

) n˜

ao necessariamente est´

aticos,

sem utilizar materializa¸

ao virtual e atualiza¸

ao sob demanda.

Dos usos de tecnologias da

Web

Semˆ

antica em DWs, a an´

alise

de dados semanticamente anotados por recursos que referenciam

on-tologias seguem diferentes abordagens. A primeira mapeia hierarquias

de recursos de enriquecimento semˆ

antico em hierarquias de dimens˜

ao

com n´ıveis bem definidos para formar dimens˜

oes semˆ

anticas (

seman-tic dimensions

) (

ANDERLIK; NEUMAYR; SCHREFL

, 2012;

NEBOT; BER-LANGA

, 2012). A segunda n˜

ao transforma a ontologia em modelo

re-lacional e realiza a an´

alise dos dados triplificados (

K¨aMPGEN; HARTH

,

2011;

ETCHEVERRY; VAISMAN; ZIM ´ANYI

, 2014).

2.5 CONSIDERAC

¸ ˜

OES FINAIS

Este cap´ıtulo apresentou fundamentos b´

asicos sobre dados sobre

movimento, anota¸

oes,

Web

semˆ

antica, LOD e

data warehouses

.

Em-bora j´

a existam trabalhos na literatura que mapeiam hierarquias de

recursos de enriquecimento semˆ

antico em hierarquias de dimens˜

ao com

n´ıveis bem definidos para formar dimens˜

oes semˆ

anticas (

ANDERLIK; NEUMAYR; SCHREFL

, 2012;

NEBOT; BERLANGA

, 2012), pouco ´

e

discu-tido sobre a extra¸

ao e adapta¸

ao de hierarquias de recursos fontes de

dados como KBs e LOD.

Esta disserta¸

ao contribui com um m´

etodo que prop˜

oe: criar

anota¸

oes semˆ

anticas; extrair hierarquias de recursos de diversas fontes

de dados a partir das anota¸

oes semˆ

anticas criadas; e adaptar as

hie-rarquias de recursos extra´ıdas por meio de algoritmos automatizados e

da edi¸

ao manual. Este m´

etodo, assim como suas defini¸

oes b´

asicas e

exemplos de utiliza¸

ao, no cap´ıtulo a seguir.

(44)

Referencias

Documento similar

¿Recuerdas alguna canción que te cantaran en tu familia para dormir o

Sem uma mais profunda análise a todos os dados não nos será possível extrair informação mais preci- sa, no entanto, baseados nos dados que temos, pode- remos assumir que a relação

41 Como su nombre lo indica, el teorema fundamental de la aritmética es la propiedad más importante de los números primos en el sentido que a través de ellos, a todos

DESCRIPCIÓN  En esta aplicación podemos encontrar varios apartados con información, tareas y juegos propuestos para conocer y trabajar los distintos tipos de textos:

El Título ha de contar con sistemas adecuados de transferencia y El Título ha de contar con sistemas adecuados de transferencia y reconocimiento de créditos, que deben estar

161. Un ejemplo de lo que se especifica en este apartado VII podría considerarse un organismo que adapta el aviso legal como régimen general,

Título: Fomento de las relaciones de colaboración entre las familias y el profesorado a través de un programa de desarrollo de habilidades para el uso del lenguaje en

La campaña ha consistido en la revisión del etiquetado e instrucciones de uso de todos los ter- mómetros digitales comunicados, así como de la documentación técnica adicional de