Juarez Angelo Piazza Sacenti
ADAPTAC
¸ ˜
AO DE HIERARQUIAS DE DADOS
CONECTADOS PARA AN ´
ALISE DE INFORMAC
¸ ˜
AO
Disserta¸c˜ao submetida ao Programa de P´os-Gradua¸c˜ao em Ciˆencia da Com-puta¸c˜ao da Universidade Federal de Santa Catarina para a obten¸c˜ao do Grau de Mestre em Ciˆencia da Com-puta¸c˜ao.
Orientador: Prof. Renato Fileto, Dr.
Florian´
opolis
2016
Ficha de identifica¸
c˜
ao da obra elaborada pelo autor atrav´
es do
Programa de Gera¸
c˜
ao Autom´
atica da Biblioteca Universit´
aria da
UFSC.
A ficha de identifica¸c˜ao ´e elaborada pelo pr´oprio autor INSERIDA APENAS NA VERS ˜AO FINAL
Maiores informa¸c˜oes em: http://portalbu.ufsc.br/ficha
Juarez Angelo Piazza Sacenti
ADAPTAC
¸ ˜
AO DE HIERARQUIAS DE DADOS
CONECTADOS PARA AN ´
ALISE DE INFORMAC
¸ ˜
AO
Esta disserta¸
c˜
ao foi julgada adequada para obten¸
c˜
ao do t´ıtulo de
mestre e aprovada em sua forma final pelo Programa de P´
os-Gradua¸
c˜
ao
em Ciˆ
encia da Computa¸
c˜
ao.
Florian´
opolis, 23 de fevereiro 2016.
Prof. Carina Friedrich Dorneles, Dr
a.
Coordenadora do Programa
Banca Examinadora:
Prof. Renato Fileto, Dr.
Universidade Federal de Santa Catarina
Orientador
Prof. Jos´
e Antonio Fernandes de Macedo, Dr.
Universidade Federal do Cear´
a
Prof. Denilson Sell, Dr.
Universidade Federal de Santa Catarina
Prof. Roberto Willrich, Dr.
Universidade Federal de Santa Catarina
Prof. Mario Antonio Ribeiro Dantas, Dr.
Universidade Federal de Santa Catarina
Este trabalho ´e dedicado aos meus pais, familiares e todos aqueles que incentivaram-me a continuar estudando.
AGRADECIMENTOS
Grato a paciente orienta¸
c˜
ao de Renato Fileto e toda sua
de-dica¸
c˜
ao proporcionar as melhores oportunidades de aprendizado e
cres-cimento para formar futuros pesquisadores.
Agrade¸co aos meus colegas do LISA (Laborat´
orio para
Inte-gra¸
c˜
ao de Sistema e Aplica¸
c˜
oes Avan¸
cadas) que criaram um ambiente
de amizade, integra¸c˜
ao, e conhecimento. Entre eles, aos meus amigos:
Andr´
e Salvaro, Areli Santos, Cleto May, Douglas Klein, Felipe Pinto,
Felipe Born, Filipe Silva, Geomar Schreiner, Jean Gon¸
calves, Lucas de
Alencar, Ramon Hugo de Souza e Ricardo Nabo, pelas cr´ıticas
constru-tivas, aux´ılio e companheirismo. Em especial aos meus amigos: Douglas
Klein, pela coleta e minera¸
c˜
ao textual em
tweets
e a Cleto May, pela
as-socia¸
c˜
ao semˆ
antica de
tweets
com dados de movimento, ambas tarefas
essenciais para este trabalho.
Agradecimentos a Alessandra Rafaett`
a, Alessandro Roncato,
Fa-bio Salvini pela orienta¸c˜
ao, contribui¸
c˜
ao acadˆ
emica e acolhimento
calo-roso por suas fam´ılias em terras extrangeiras. Obrigado ao
companhei-rismo de Chiara Gaetani e Edson J. M. Fumagalli durante a estadia na
bella Italia
.
Grato a toda minha fam´ılia, em especial: a minha m˜
ae,
Mi-rian C´
elia Piazza Sacenti, por todo amor, caridade, entrega, resigna¸
c˜
ao
e carinho; ao meu pai, Juarez Angelo Sacenti, por toda dedica¸
c˜
ao e
compreens˜
ao pelas minhas escolhas; a minhas tia Odete Maria de
Ol-veira por todo carinho, orienta¸
c˜
ao e instru¸
c˜
ao, muito muito obrigado;
a minha tia Doroti Sacenti pelo carinho e conforto; a meu tio Mario
S´
ergio Piazza pela fidelidade nas caminhadas de fim de tarde durante
os ´
ultimos meses do mestrado.
Por fim, agrade¸
co a banca examinadora deste trabalho por suas
cr´ıticas, considera¸
c˜
oes e indica¸
c˜
oes de trabalho futuros.
Corcovado, the hill in Rio where stands the statue of Christ the Redeemer, can be categorized (typed) as instance of Moun-tainandTouristic Placeat the same time. (FILETO et al., 2014)
RESUMO
Diversas abordagens tˆ
em sido propostas para o enriquecimento semˆ
an-tico de dados sobre movimento, incluindo propostas para a sua anota¸
c˜
ao
com dados abertos conectados (LOD). Contudo, ainda h´
a uma carˆ
encia
de solu¸
c˜
oes para modelagem dimensional de dados semanticamente
ano-tados, visando sua an´
alise em
data warehouses
. Este trabalho de
pes-quisa prop˜
oe um m´
etodo para a gera¸
c˜
ao automatizada de dimens˜
oes de
an´
alise de dados a partir da adapta¸
c˜
ao de hierarquias de recursos (sobre
instˆ
ancias e conceitos) de LOD usados para anotar semanticamente tais
dados. Este m´
etodo extrai hierarquias de recursos de cole¸
c˜
oes de LOD
por meio da explora¸
c˜
ao de rela¸
c˜
oes de ordenamento parcial (como
part
of
e
is a
) e adapta tais hierarquias, reduzindo o n´
umero de recursos de
acordo com o n´
umero de vezes que um recurso aparece em anota¸
c˜
oes
semˆ
anticas de uma dada cole¸
c˜
ao de dados. Dimens˜
oes assim
produzi-das s˜
ao potencialmente menores que a hierarquia usada para ger´
a-las,
pois escondem recursos com baixa frequˆ
encia de uso em anota¸
c˜
oes. Isso
tem potencial para propiciar ganhos de eficiˆ
encia e facilidade de uso em
data warehouses
, entre outros benef´ıcios. Resultados de experimentos
com a adapta¸c˜
ao de hierarquias de recursos para a an´
alise de
tweets
anotados com LOD sugerem a viabilidade do m´
etodo. Os resultados
mostram consider´
avel redu¸c˜
ao no n´
umero de recursos de hierarquias
adaptadas a medida que se aumenta o limiar de frequˆ
encia de uso de
recursos em anota¸
c˜
oes semˆ
anticas.
Palavras-chave:
Dados sobre movimento.
Data Warehouse
.
Di-mens˜
oes de an´
alise.
Web
semˆ
antica. Dados abertos conectados (LOD).
M´ıdias Sociais.
Tweets
geo-localizados.
ABSTRACT
Several approaches have been proposed to semantic enrich data about
movement, including proposals to annotate it with linked open data
(LOD). However, there is still a lack of solutions for
multidimensio-nal modelling semantic annotated data, in order to amultidimensio-nalyse it in data
warehouses. This research work proposes a method for automated
ge-neration of data analysis dimensions from the adaptation of hierarchies
of resources (about instances and concepts) of LOD used to annotate
semantically such data. This method extract hierarchies of resources
from LOD collections through exploration of partial ordering relations
(like
part of
and
is a
) and adapt such hierarchies, reducing the number
of resources according to the number of times a resource appears in
se-mantic annotations of a particular dataset. Thus produced dimensions
are potentially lower than the hierarchy used to generate them, because
they hide resources having low frequency of use in annotations. This
has the potential to provide efficiency gains and ease of use in data
wa-rehouses, among other benefits. Experiments results in adaptation of
hierarchies of resources for the analysis of tweets annotated with LOD
suggest the feasibility of the method. The results show considerable
re-duction of the number of adapted hierarchies’ resources as it increases
the threshold of frequency of use of resources in semantic annotations.
Keywords:
Movement data. Data warehouses. Analysis dimensions.
Semantic Web. Linked open data. Social media. Geo-located tweets.
LISTA DE FIGURAS
Figura 1
Exemplo da an´
alise de trilha de usu´
ario . . . 26
Figura 2
Segmento de dados sobre movimento . . . 32
Figura 3
Trilha anotada com PoI visitados . . . 33
Figura 4
Instˆ
ancias, conceitos e propriedades das cole¸
c˜
oes de
da-dos abertos conectada-dos DBpedia, LGD e GeoNames . . . 35
Figura 5
Triplas RDF, formato N3, adaptadas da DBpedia . . . 37
Figura 6
Consulta SPARQL sob DBpedia . . . 37
Figura 7
Representa¸
c˜
ao gr´
afica de um hipercubo de dados . . . 39
Figura 8
Exemplo de hierarquia sobre a dimens˜
ao
Spatial Object
39
Figura 9
O esquema de fato
Movement Segment
. . . 40
Figura 10 Esquema relacional do DW . . . 41
Figura 11 Modelo geral do m´
etodo de adapta¸
c˜
ao de hierarquias de
recursos . . . 45
Figura 12 Associa¸
c˜
oes entre
tweets
e recursos de LOD . . . 47
Figura 13 M´
etodo iterativo para a adapta¸c˜
ao de hierarquias de
re-cursos . . . 49
Figura 14 Anota¸
c˜
ao semˆ
antica de
tweet
considerando proximidade
espacial e similaridade textual . . . 50
Figura 15 Associa¸
c˜
oes entre
tweets
e recursos de LOD . . . 52
Figura 16 Exemplo 1 da aplica¸
c˜
ao do algoritmo SimpleTailoring
-entrada de dado . . . 56
Figura 17 Exemplo 2 da aplica¸
c˜
ao do algoritmo SimpleTailoring
-omiss ˜
ao de recursos . . . 56
Figura 18 Exemplo 3 da aplica¸
c˜
ao do algoritmo SimpleTailoring
-agrega¸
c˜
ao de recursos . . . 57
Figura 19 Extrato da hierarquia de recursos sobre objetos . . . 62
Figura 20 Extrato da hierarquia de recursos sobre conceitos . . . 62
Figura 21 N´
umero de recursos de cada n´ıvel de hierarquias de
recur-sos sobre objetos adaptadas por valores de
σ
em ordem ascendente 63
Figura 22 Esquema l´
ogico de referˆ
encia para MDW (
FILETO et al.,
2014) . . . 64
LISTA DE TABELAS
Tabela 1
Dimens˜
ao de cole¸
c˜
oes de LOD . . . 60
Tabela 2
SMoDs que explicitam o lugar visitado no
tweet
. . . 61
Tabela 3
Tabela comparativa de trabalhos correlatos . . . 70
LISTA DE ABREVIATURAS E SIGLAS
GPS
Global Positioning System . . . 25
GSM
Global System for Mobile communication . . . 25
MO
Moving Object . . . 25
KB
Knowledge Base . . . 25
PoI
Place of Interest . . . 25
SMoD
Semantically annotated Moving Data . . . 25
MDW
Movement Data Warehouse . . . 25
DW
Data Warehouse . . . 25
LOD
Linked Open Data . . . 27
MoD
Movement Dataset . . . 31
MDS
Movement Data Segment . . . 31
URI
Uniform Resource Identifier . . . 36
RDF
Resource Description Framework . . . 36
SPARQL SPA RDF Query Language . . . 36
SQL
Structured Query Language . . . 37
DFM
Dimensional Fact Model . . . 40
ETL
Extraction, Transformation and Loading . . . 41
OLAP
On-Line Analytical Processing . . . 41
XML
Extensible Markup Language . . . 42
SMoD
Semantically annotated Movement Dataset . . . 46
DAG
Directed Acyclic Graph . . . 47
LISTA DE S´
IMBOLOS
mds
Segmento de dado sobre movimento . . . 31
M O
Objeto m´
ovel . . . 31
p
Posi¸
c˜
ao . . . 31
(
x, y
) Coordenada geogr´
afica . . . 31
SUM ´
ARIO
1
INTRODUC
¸ ˜
AO . . . .
25
1.1
DEFINIC
¸ ˜
AO DO PROBLEMA E DELINEAMENTO DA
PROPOSTA . . . 27
1.2
OBJETIVOS . . . 28
1.3
MATERIAL E M ´
ETODOS . . . 28
1.4
ESTRUTURA DO TRABALHO . . . 29
2
FUNDAMENTAC
¸ ˜
AO TE ´
ORICA . . . .
31
2.1
DADOS SOBRE MOVIMENTO . . . 31
2.2
ANOTAC
¸ ˜
OES . . . 32
2.3
WEB SEM ˆ
ANTICA E LOD . . . 34
2.4
DATA WAREHOUSING . . . 38
2.5
CONSIDERAC
¸ ˜
OES FINAIS . . . 43
3
ADAPTAC
¸ ˜
AO DE HIERARQUIAS DE
RECUR-SOS . . . .
45
3.1
DEFINIC
¸ ˜
OES B ´
ASICAS . . . 46
3.2
M ´
ETODO PARA A ADAPTAC
¸ ˜
AO DE HIERARQUIAS . 48
3.2.1
Enriquecimento Semˆ
antico
. . . 48
3.2.2
Modelagem de Hierarquias
. . . 50
3.2.3
Adapta¸
c˜
ao de Hierarquias
. . . 53
3.2.4
Algoritmo para adapta¸
c˜
ao automatizada de
hie-rarquias
. . . 54
3.3
CONSIDERAC
¸ ˜
OES FINAIS . . . 57
4
AMBIENTE E RESULTADOS EXPERIMENTAIS
59
4.1
AMBIENTE EXPERIMENTAL . . . 59
4.1.1
Ambiente Computacional e Ferramenta SeMovDim
60
4.1.2
Execu¸
c˜
ao do m´
etodo para adapta¸
c˜
ao de hierarquias
60
4.2
RESULTADOS EXPERIMENTAIS . . . 62
4.3
USO DE HIERARQUIAS EM DATA WAREHOUSE . . . . 63
4.4
CONSIDERAC
¸ ˜
OES FINAIS . . . 66
5
TRABALHOS RELACIONADOS . . . .
67
6
CONCLUS ˜
AO E TRABALHOS FUTUROS . . . . .
71
REFER ˆ
ENCIAS . . . .
73
25
1 INTRODUC
¸ ˜
AO
As tecnologias de posicionamento e comunica¸
c˜
ao (
e.g.
, GPS,
GSM) possibilitam o ac´
umulo de grandes volumes de dados sobre
mo-vimento (
movement data
), tais como trajet´
orias de objetos m´
oveis
(
moving objects
- MOs) (
PARENT et al., 2013;
PELEKIS; THEODORIDIS,
2014) ou trilhas (
trails
),
i.e.
sequˆ
encias de intera¸
c˜
oes geo-localizadas
de um usu´
ario com um sistema de informa¸
c˜
ao (
e.g.
,
posts
de usu´
arios
em m´ıdias sociais, tais como Facebook
1ou Instagram
3; ou
sistemas que produzam
Web
ou
mobile logs
geo-localizados) (
FILETO et al., 2015). Novos m´
etodos tˆ
em sido propostos para enriquecer
seman-ticamente dados sobre movimento,
e.g.
atrav´
es de sua anota¸
c˜
ao com
recursos sobre instˆ
ancias (objetos) e conceitos (classes de objetos)
des-critos em bases de conhecimento (
Knowledge Bases
- KBs). Anota¸
c˜
oes
sˆ
emanticas com recursos de KBs associam informa¸
c˜
ao aos dados sobre
movimento, tais como: lugares de interesse (
Place of Interest
- PoI)
visitados, meios de transporte empregados, atividades realizadas,
ob-jetivos de paradas (
stops
) e deslocamentos (
moves
) (
YAN et al., 2013;
FILETO et al., 2013;
BOGORNY et al., 2014;
MAY; FILETO, 2014).
Conjuntos de dados sobre movimento semanticamente anotados
(
Semantically annotated Movement Dataset
- SMoD) oportunizam a
constru¸
c˜
ao de
Movement Data Warehouses
(MDWs),
i.e. Data
Wa-rehouses
(DW) para a an´
alise de dados sobre movimento, que
explo-rem a informa¸
c˜
ao associada por anota¸
c˜
oes semˆ
anticas em dimens˜
oes de
an´
alise. Dimens˜
oes de an´
alise s˜
ao hierarquias para organiza¸
c˜
ao e an´
alise
dos fatos de um DW em diversos n´ıveis de abstra¸
c˜
ao (
CABIBBO; TOR-LONE, 1998). Diversos campos de aplica¸
c˜
ao beneficiam-se da an´
alise
de dados sobre movimento, tais como a gest˜
ao de tr´
afego, seguran¸
ca
urbana,
marketing
geogr´
afico e estudos de comportamento social.
Por exemplo, considere a an´
alise de um trecho da trilha de
usu´
ario do Twitter, ilustrada na Figura 1. Os r´
otulos associados a
certas posi¸
c˜
oes da trilha representam anota¸
c˜
oes semˆ
anticas que
expli-citam o tipo e o nome de PoI visitados (
e.g.
,
BusStation::TICEN
,
Me-morial::Monumento ao Soldado
,
Supermarket::Angeloni Agronˆ
omica
).
As dimens˜
oes espaciais de an´
alise
Spatial Object Dim
e
Spatial
Con-cept Dim
s˜
ao hierarquias de recursos que exploram rela¸
c˜
oes de
orde-namento parcial (respectivamente,
part of
e
is a
) de recursos de
en-1https://www.facebook.com/ 2https://twitter.com/ 3https://instagram.com/
26
riquecimento semˆ
antico referenciados em anota¸
c˜
oes semˆ
anticas. Por
exemplo, o lugar visitado
Supermarket::Angeloni Agronˆ
omica
possui a
cadeia de rela¸
c˜
oes
part of
“
District::Agrˆ
onomica
-
City::Florian´
opolis
-State::Santa Catarina
-
Country::Brazil
”. Os conceitos
PoI / Address
,
District
,
City
,
State
e
Country
comp˜
oem os n´ıveis de hierarquia da
dimens˜
ao de an´
alise
Spatial Object Dim
. Por outro lado, a dimens˜
ao
Spatial Concept Dim
n˜
ao apresenta conceitos bem definidos para
clas-sificar seus n´ıveis e por isso ´
e representada em forma de ´
arvore.
Spatial Object Dim
County::Brazil State::Santa Catarina
City::Florianópolis District::Agronômica PoI / Address:: Av. Gov. Irineu
Bornhausen, 5288 Fact #positions elapsed_time ... Space
relações part_of relações is_a
Thing Shop Amenity School Supermarket Pharmacy Bar Spatial Concept Dim
Mall::Floripa Shopping Supermarket:: Angeloni Agronômica Memorial:: Monumento ao Soldado BusStation::TITRI School::IFSC BusStation::TICEN Florianópolis Objetos Móveis
Figura 1 – Exemplo da an´
alise de trilha de usu´
ario
A an´
alise de
tweets
geo-localizados, como no exemplo anterior,
possibilita responder quest˜
oes como (
HONG et al., 2012):
•
Como a informa¸
c˜
ao ´
e criada e compartilhada em diferentes lugares
geogr´
aficos? Como o conte´
udo textual varia de acordo com o
espa¸
co geogr´
afico?
•
Quais s˜
ao as caracter´ısticas espaciais e lingu´ısticas das pessoas?
Como a linguagem varia de acordo com a regi˜
ao e tipo de lugar?
•
Quais s˜
ao os padr˜
oes de movimenta¸
c˜
ao dos usu´
arios ao utilizar o
servi¸
co?
Al´
em destas, dimens˜
oes espaciais de an´
alise permitem
consul-tas como:
“Qual o tempo decorrido (
elapsed time
) de MOs
em locais da classe
Shop
?”. Nesta consulta, a resposta ´
e obtida
pela soma do tempo de visita de cada MO em locais da classe
Shop
,
27
tal como o supermercado
Supermarket::Angeloni Agronˆ
omica
4.
Su-permarket::Angeloni Agronˆ
omica
´
e instˆ
ancia de
Supermarket
e,
conse-quentemente, ´
e tamb´
em instˆ
ancia da classe
Shop
, de acordo com
Spatial
Concept Dim
.
1.1 DEFINIC
¸ ˜
AO DO PROBLEMA E DELINEAMENTO DA
PRO-POSTA
A constru¸c˜
ao do MDW ilustrado na Figura 1 exige, al´
em da
acomoda¸
c˜
ao de SMoDs no modelo dimensional (
FILETO et al., 2014),
m´
etodos apropriados para explorar a informa¸
c˜
ao dispon´ıvel sobre os
recursos de KBs associados pelas anota¸c˜
oes semˆ
anticas. E al´
em disso,
ainda h´
a uma carˆ
encia de solu¸
c˜
oes para a gera¸
c˜
ao de dimens˜
oes de
an´
alise para dados anotados com recursos de dados conectados
aber-tos (
Linked Open Data
- LOD), assim como trabalhos que descrevam
a constru¸
c˜
ao de
data warehouses
como o MDW exemplificado acima.
Dado o problema da gera¸
c˜
ao de dimens˜
oes de an´
alise de dados
se-manticamente anotados com LOD, este trabalho prop˜
oe as seguintes
hip´
oteses:
Hip´
otese 1.
Dados sobre movimento anotados com recursos de LOD
podem ser analisados em
data warehouses
, ao utilizar hierarquias de
recursos constru´ıdas a partir de rela¸
c˜
oes de ordem parcial (
e.g.
,
part of
,
is a
) descritas em cole¸
c˜
oes de LOD.
Hip´
otese 2.
Hierarquias de recursos podem ser adaptadas com o
in-tuito de reduzir o n´
umero de recursos da hierarquia, considerando o
n´
umero de dados alvos de anota¸
c˜
oes que cada recurso da hierarquia
anotou (
i.e.
frequˆ
encia de uso do recurso em anota¸
c˜
oes semˆ
anticas).
Hip´
otese 3.
Hierarquias de conceitos baseadas em rela¸
c˜
oes
is a
(
sub-sumption
), quando utilizadas como dimens˜
oes de an´
alise, proporcionam
novos meios de analisar conjuntos de dados semanticamente anotados.
Este trabalho prop˜
oe um m´
etodo para a gera¸
c˜
ao automatizada
de dimens˜
oes de an´
alise de dados a partir da adapta¸
c˜
ao de hierarquias
de recursos (instˆ
ancias e conceitos) conectados a recursos usados em
anota¸
c˜
oes semˆ
anticas. Este m´
etodo explora hierarquias derivadas de
propriedades existentes em cole¸
c˜
oes de LOD e reduz o n´
umero de
recur-sos das hierarquias de acordo com o n´
umero de anota¸
c˜
oes semˆ
anticas a
que cada recurso est´
a (direta ou indiretamente) relacionado. O m´
etodo
28
´
e validado utilizando uma base de
tweets
semanticamente anotados com
recursos de KBs.
Dimens˜
oes assim produzidas s˜
ao potencialmente menores que a
hierarquia usada para ger´
a-las, pois ocultam recursos pouco usados em
anota¸
c˜
oes. A fase de adapta¸c˜
ao de hierarquias proporciona ganhos em
eficiˆ
encia e facilidade no uso das dimens˜
oes de an´
alise em
data
warehou-ses
, entre outros benef´ıcios, tal como a disponibiliza¸
c˜
ao de dimens˜
oes
de an´
alise baseadas em hierarquias de conceitos.
O m´
etodo proposto suporta a an´
alise de qualquer cole¸
c˜
ao de
da-dos semanticamente anotada-dos, por´
em os estudos de caso limitam-se a
dados sobre movimento semanticamente anotados devido ao interesse
atual do grupo de pesquisa no qual este trabalho foi realizado. O
de-senvolvimento de um MDW como do exemplo proposto foi um objetivo
n˜
ao alcan¸
cado deste trabalho, devido a limita¸
c˜
oes de escopo e tempo.
Experimentos com outros tipos de dados e o desenvolvimento do MDW
s˜
ao sugeridos como futuros trabalhos.
1.2 OBJETIVOS
O objetivo geral deste trabalho de pesquisa ´
e contribuir para
a modelagem dimensional de dados de movimento anotados com
re-cursos (instˆ
ancias e conceitos) de KBs.
Especificamente, esta
dis-serta¸
c˜
ao prop˜
oe um m´
etodo para a gera¸
c˜
ao automatizada de dimens˜
oes
de an´
alise a partir de conjuntos de dados semanticamente anotados e
por meio da adapta¸
c˜
ao de hierarquias de recursos.
Os objetivos espec´ıficos desta disserta¸
c˜
ao s˜
ao:
1. Estabelecer estrat´
egia para gerar hierarquias de recursos (instˆ
ancias
e conceitos) a partir de recursos referenciados por conjuntos de
dados semanticamente anotados.
2. Estabelecer algoritmo para adapta¸
c˜
ao de hierarquias de recursos
considerando o n´
umero de dados alvos de anota¸
c˜
oes que cada
recurso da hierarquia anotou.
3. Analisar os efeitos da adapta¸
c˜
ao de hierarquias de recursos.
1.3 MATERIAL E M ´
ETODOS
O m´
etodo empregado nesta disserta¸
c˜
ao compreende os seguintes
passos:
29
1. Levantamento bibliogr´
afico nas ´
areas de an´
alise de dados sobre
movimento em DW, uso de tecnologias da
Web
semˆ
antica para
constru¸
c˜
ao de DW, e an´
alise de informa¸
c˜
ao de m´ıdias sociais em
DW;
2. Desenvolver um m´
etodo de gera¸
c˜
ao de dimens˜
oes de an´
alise de
SMoDs a partir de hierarquias de recursos;
3. Definir e implementar algoritmos de extra¸
c˜
ao e adapta¸
c˜
ao de
hi-erarquias de recursos a partir de SMoDs;
4. Obter SMoDs para realiza¸
c˜
ao de experimentos: utilizar-se-´
a
da-dos gerada-dos por trabalhos anteriores (
MAY; FILETO, 2014);
5. Realizar experimentos para analisar os efeitos da adapta¸
c˜
ao de
hierarquias de recursos extra´ıdas a partir de diferentes SMoDs;
6. Escrita de um artigo cient´ıfico relacionado ao trabalho proposto
e publica¸
c˜
ao do mesmo em evento com Qualis-CC CAPES, com
estrato superior ou equivalente a B3;
7. Escrita da disserta¸
c˜
ao.
1.4 ESTRUTURA DO TRABALHO
O restante deste trabalho ´
e estruturado em 4 cap´ıtulos. O
cap´ıtu-lo 2 define fundamentos te´
oricos a respeito de dados sobre movimento,
anota¸
c˜
oes,
Web
semˆ
antica, LOD e
data warehouses
. O cap´ıtulo 3
apre-senta as defini¸
c˜
oes b´
asicas necess´
arias para o entendimento da proposta
e o m´
etodo proposto para a extra¸
c˜
ao e adapta¸
c˜
ao de hierarquias de
recursos. O cap´ıtulo 4 ilustra a utiliza¸
c˜
ao do prot´
otipo ferramental
Se-MovDim
para a adapta¸
c˜
ao de quatro SMoDs de
tweets
anotados com
recursos sobre PoI visitados pelo usu´
ario autor do
tweet
. O cap´ıtulo 5
apresenta e compara trabalhos relacionados. O cap´ıtulo 6 apresenta as
conclus˜
oes obtidas durante a pesquisa e enumera trabalhos futuros.
31
2 FUNDAMENTAC
¸ ˜
AO TE ´
ORICA
Este cap´ıtulo define a representa¸
c˜
ao de dados sobre movimento
em diferentes n´ıveis de abstra¸
c˜
ao e como estes podem ser
semantica-mente anotados. Ele tamb´
em descreve os elementos b´
asicos de um
data
warehouse
.
2.1 DADOS SOBRE MOVIMENTO
O termo dado sobre movimento se refere a todos os dados sobre
o movimento de objetos m´
oveis (MOs). Um conjunto de dados brutos
sobre movimento (
Movement Dataset
- MoD) ´
e um conjunto de
seg-mentos de dados sobre movimento como o formalmente descrito pela
Defini¸
c˜
ao 1.
Defini¸
c˜
ao 1.
Um
segmento de dados brutos sobre movimento
(
Movement Data Segment
- MDS) ´
e uma sequˆ
encia temporalmente
or-denada
mds
=
h
p
1, . . . , pn
i
(
n
∈
N
+) de posi¸
c˜
oes espa¸
co-temporais de
um objeto m´
ovel
M O
, onde cada posi¸
c˜
ao ´
e uma tupla
pi
= (
xi, yi, ti
)
com 1
≤
i
≤
n
, onde (
x
i, y
i) s˜
ao coordenadas geogr´
aficas e
t
i´
e um
time-stamp
indicando o instante quando
M O
ocupava tais coordenadas.
Por exemplo, a Figura 2 ilustra dois MDSs. A Figura 2(a)
apre-senta uma trajet´
oria bruta (
raw trajectory
) coletada por meio de um
aplicativo baseado em tecnologias de posicionamento (
e.g.
, GPS). A
Figura 2(b) mostra uma trilha (
trail
),
i.e.
sequˆ
encia de intera¸
c˜
oes
geo-localizadas de um usu´
ario de m´ıdia social. Na Figura 2(a) os bal˜
oes
representam paradas (stops) enquanto que na Figura 2(b) eles
repre-sentam posi¸
c˜
oes donde foram enviadas postagens. Note que trajet´
orias
possuem alta precis˜
ao espa¸
cotemporal devido a taxa de amostragem
regular e curta (
e.g.
, a cada poucos segundos), enquanto trilhas
pos-suem taxa de amostragem variada, devido a natureza ass´ıncrona de
postagens dos usu´
arios (
e.g.
, em m´ıdias sociais). Por outro lado,
pos-tagens em m´ıdias sociais usualmente vˆ
em acompanhadas de diversas
informa¸
c˜
oes adicionais, tais como perfis de usu´
ario e conte´
udos
textu-ais, que apesar de imprecisos podem indicar o estado e situa¸
c˜
ao do MO
em dada coordenada.
Ainda, um MDS pode representar subtrajet´
orias e trajet´
orias
estruturadas por epis´
odios como
stops
e
moves
(
YAN et al., 2013).
En-tretanto, um MDS n˜
ao suporta a descri¸
c˜
ao de caracter´ısticas comums
32
(a) Trajet´oria bruta (b) Trilha social
Figura 2 – Segmentos de dado sobre movimento (MDS)
da sequˆ
encia de posi¸c˜
oes representada por um segmento (caracter´ısticas
do MO, da localidade e/ou do momento, como atividades planejadas e
realizadas, objetivos, meios de transporte empregados, condi¸
c˜
oes
am-bientais relevantes, PoI visitados, participa¸
c˜
ao em eventos), por vezes
importantes para a interpreta¸
c˜
ao do movimento.
Similarmente a dados meramente espaciais, dados espa¸
cotempo-rais sobre movimento necessitam de dois componentes para representar
o movimento de um objeto m´
ovel (
RIGAUX; SCHOLL; VOISARD, 2000):
•
Atributo espa¸
co-temporal: descreve a localiza¸
c˜
ao, forma,
ori-enta¸
c˜
ao e tamanho do movimento de um objeto m´
ovel no espa¸
co,
de duas ou trˆ
es dimens˜
oes, e no tempo, dentro da dura¸
c˜
ao do
movimento.
•
Atributo tem´
atico ou descritivo: descreve caracter´ısticas do
mo-vimento por meio de atributos alfanum´
ericos e/ou referˆ
encias a
recursos semˆ
anticos,
i.e.
conceitos (classes) e objetos (instˆ
ancias
de classes) definidos em uma base de conhecimento (KB).
Neste trabalho, o atributo tem´
atico enriquece semˆ
anticamente o
MDS e ´
e representado por meio de anota¸
c˜
oes.
2.2 ANOTAC
¸ ˜
OES
A anota¸
c˜
ao digital, tamb´
em chamada de r´
otulo (
label
) ou
eti-queta (
tag
), ´
e uma associa¸
c˜
ao de uma informa¸
c˜
ao sobreposta (
supe-33
rimposed information
) (
DELCAMBRE; MAIER, 1999) a uma informa¸
c˜
ao
base (alvo da anota¸
c˜
ao), que ajuda a, por exemplo, explicar, avaliar,
corrigir ou refutar o alvo. A abordagem de anota¸
c˜
ao facilita a
adminis-tra¸
c˜
ao das diferentes caracter´ısticas, perspectivas e interpreta¸
c˜
oes do
dado sobre movimento. Um MDS representando parte (subsegmento)
ou todo o movimento de um objeto m´
ovel pode ser anotado com
atri-butos tem´
aticos, pelo uso de associa¸
c˜
oes formalmente descritas pela
Defini¸
c˜
ao 2.
Defini¸
c˜
ao 2.
Uma
associa¸
c˜
ao
´
e uma tupla
a
= (
mds, rel, at
), onde
mds
´
e um segmento de dado sobre movimento,
rel
´
e uma rela¸
c˜
ao
semˆ
antica e
at
´
e um atributo tem´
atico (
e.g.
, um literal ou uma
re-ferˆ
encia a um recursos descrito em base de conhecimento). Uma
asso-cia¸
c˜
ao descreve uma caracter´ıstica comum a todas as posi¸
c˜
oes espa¸
co-temporais do MO descritas por
mds
(
e.g.
, local visitado em uma parada
–
stop
, meio de transporte usado em um movimento –
move
).
Por exemplo, a Figura 3 apresenta o MDS
mds
0=
h
p
1...p
8i
, uma
sequˆ
encia de
tweets
do usu´
ario
@somebody
. A associa¸
c˜
ao
a
0= (
mds
00,
associated text
,
“I’m at Angeloni”
) define a anota¸
c˜
ao de
mds
00com
o conte´
udo textual
“I’m at Angeloni”
. Deste modo,
mds
00=
h
p
3i
e
mds
00⊂
mds
0,
i.e.
mds
00´
e subsegmento de
mds
0. Outro exemplo, a
associa¸
c˜
ao
a
00= (
mds
00,
labeled
,
“Angeloni”
) define a anota¸
c˜
ao de
mds
00com o conte´
udo textual
“Angeloni”
, utilizado como r´
otulo de
mds
00no
mapa.
Floripa Shopping Angeloni Monumento ao Soldado TITRI IFSC TICEN Florianópolis @somebody 2:36 PM 11 Out 2014 I'm at Angeloni at (lon, lat) 3:05 PM 07 Out 2014 I'm at TICEN 1:52 PM 11 Out 2014 I'm at Monum.10:57 AM 13 Out 2014 I'm at IFSC 3:59 PM 13 Out 2014 I'm at Floripa.
Trilha Social (mds') – Trilha Social Anotada –
p1 p2 p3 p4 p5 p6 p7 p8 p1 p2 p3 p4 p5
34
Anota¸
c˜
oes podem ser classificadas de acordo com a forma de
armazenamento da informa¸
c˜
ao sobreposta, como intrusivas ou n˜
ao
in-trusivas (
OREN et al., 2006). Anota¸c˜
oes intrusivas s˜
ao acopladas a
in-forma¸
c˜
ao base, enquanto as n˜
ao intrusivas s˜
ao armazenadas
separada-mente e referenciam a informa¸
c˜
ao base com aux´ılio de identificadores e
endere¸
camentos. Outra classifica¸
c˜
ao de anota¸
c˜
oes considera o modo de
representa¸
c˜
ao da informa¸
c˜
ao sobreposta, podendo ser livre ou semˆ
an-tica (
BERNERS-LEE; HENDLER; LASSILA, 2001).
A anota¸
c˜
ao livre associa a informa¸
c˜
ao base com um texto ou
ou-tra informa¸
c˜
ao escrita livremente. Por n˜
ao apresentar nenhum tipo de
estrutura¸
c˜
ao de seu conte´
udo, a anota¸
c˜
ao livre ´
e mais vers´
atil e f´
acil de
ser coletada. Entretanto, a liberdade da anota¸
c˜
ao livre acarreta
pro-blemas como: sinˆ
onimos, ambiguidades e erros ortogr´
aficos, tornando
complexa a interpreta¸
c˜
ao e utiliza¸
c˜
ao em aplica¸
c˜
oes.
As anota¸
c˜
oes semˆ
anticas, por outro lado, associam a informa¸
c˜
ao
base a descri¸
c˜
oes com semˆ
antica bem definida, referenciando a
in-forma¸
c˜
ao sobreposta com o aux´ılio de recursos de bases de
conheci-mento, ontologias (
GUARINO, 1998) ou cole¸
c˜
oes dados conectados (
lin-ked data
). A representa¸
c˜
ao da anota¸
c˜
ao semˆ
antica, quando intrusiva,
´
e tamb´
em chamada de
atributo semˆ
antico
.
Diversos m´
etodos tem sido propostos para descrever com maior
exatid˜
ao o significado de anota¸
c˜
oes textuais livres (
e.g.
,
a
0e
a
00), tais
como os m´
etodos propostos por (
MAY; FILETO, 2014). Usando tais
m´
etodos, ´
e poss´ıvel obter anota¸c˜
oes semˆ
anticas como
a
000= (
mds
00,
visits
,
lgd:way73321157
), sendo
lgd:way73321157
1o recurso sobre
Su-permarket::Angeloni Agronˆ
omica
descrito no LOD LinkedGeoData
2.
2.3 WEB SEM ˆ
ANTICA E LOD
Web
Semˆ
antica ´
e uma sub´
area de pesquisa de banco de dados
que objetiva extender o papel dos computadores no suporte de
diver-sas atividades humanas, por meio da descri¸
c˜
ao, composi¸
c˜
ao e
recu-pera¸
c˜
ao de dados e servi¸
cos que suportam diversas aplica¸
c˜
oes. A
Web
semˆ
antica fundamenta-se na utiliza¸
c˜
ao de tecnologias como: anota¸
c˜
oes
semˆ
anticas, ontologias, bases de conhecimento, dados abertos
conecta-dos.
Uma ontologia ´
e uma especifica¸
c˜
ao expl´ıcita de uma
conceitu-aliza¸
c˜
ao (
GRUBER, 1995), em um ou mais dom´ınios de conhecimento.
1lgd ´e prefixo para http://linkedgeodata.org/triplify/ 2http://linkedgeodata.org/
35
As primitivas da representa¸
c˜
ao de conhecimento em ontologias s˜
ao
con-ceitos (classes), objetos (instˆ
ancias) e propriedades (
i.e.
rela¸
c˜
oes entre
conceitos, instˆ
ancias e valores alfanum´
ericos).
Por exemplo, a Figura 4 apresenta uma vis˜
ao ontol´
ogica (
i.e.
ex-trato de ontologia) composta de trechos das KBs DBpedia,
LinkedGeo-Data (LGD) e GeoNames. Elipses verdes representam instˆ
ancias,
elip-ses roxas representam conceitos, retˆ
angulos representam literais (
i.e.
valores alfanum´
ericos) e as arestas indicam propriedades. A
especi-fica¸
c˜
ao de uma ontologia se divide em dois n´ıveis: o intencional e o
n´ıvel extensional. No n´ıvel intencional s˜
ao definidos os conceitos do
universo de discurso, as rela¸c˜
oes entre conceitos (
e.g.
, hierarquias de
classes (
subsumption
)) e suas propriedades (
e.g.
, tipos de comida
servi-dos em restaurantes). O n´ıvel extensional descreve instˆ
ancias de acordo
com o que ´
e previsto pelo n´ıvel intencional (
e.g.
, um restaurante serve
certos tipos de comida).
POINT( -73.997016906738 40.719039916992) lgdo:Amenity rdf:type geo:geometry lgdo:Restaurant rdf:type Ferrara Bakery and Cafe Conceito
Instância Literal Propriedade
rdfs:label owl:sameAs gn:7288706 db:Ferrara_Bakery_and_Cafe dbo:Restaurant schema:Restaurant
dbo:Building building, farm)gno:S (spot,
rdfs:subClassOf rdfs:subClassOf rdfs:subClassOf
gn:NY gn:US gn:NY County gno:parentADM2 gno:parentADM1 gno:parentCountry gno:parentFeature owl:equivalentClass owl:equivalentClass owl:equivalentClass owl:equivalentClass gno:S.REST (restaurant) gno:parentFeature gno:parentFeature Nível intencional (RDFS) Nível extensional (RDF)
Figura 4 – Instˆ
ancias, conceitos e propriedades das cole¸
c˜
oes de dados
abertos conectados DBpedia, LGD e GeoNames
Na Figura 4, pode-se observar no n´ıvel superior (intensional) a
defini¸
c˜
ao do conceito
Restaurant
nas fontes de dados DBpedia, LGD
e GeoNames. Note tamb´
em a rela¸
c˜
ao dessas classes com classes
su-periores de cada fonte (
rdfs:subclassOf
) e suas rela¸
c˜
oes de equivalˆ
encia
36
(
owl:equivalentClass
). No n´ıvel inferior (extensional) da Figura 4, est˜
ao
representadas duas instˆ
ancias de restaurante de fontes distintas
(DBpe-dia e GeoNames) ligadas pela rela¸
c˜
ao de iguadade (
owl:sameAs
), o que
indica que se referem a mesma entidade, o restaurante
Ferrara Bakery
and Cafe
.
Uma base de conhecimento ´
e um conjunto de descri¸
c˜
oes de
con-ceitos (conceitualiza¸
c˜
oes em uma ou mais ontologias) e de instˆ
ancias.
A ontologia ´
e ao mesmo tempo dado e modelo conceitual de uma base
de conhecimento. A publica¸
c˜
ao e consumo de bases de conhecimento
na
Web
´
e orientada por um conjunto de diretrizes que permitem
co-nex˜
oes entre recursos de diferentes fontes de dados por meio
links
,
i.e.
propriedades como
owl:sameAs
(para instˆ
ancias) e
owl:equivalentClass
(para os conceitos), como ilustrado na Figura 4. As diretrizes para a
publica¸
c˜
ao de dados conectados (
Linked Data
) (
BERNERS-LEE, 2006)
s˜
ao:
1. Usar URIs como nomes para coisas.
2. Usar URIs HTTP para que as pessoas possam procurar esses
nomes.
3. Quando algu´
em procurar uma URI, prover informa¸
c˜
ao ´
util, usando
padr˜
oes (RDF, SPARQL).
4. Incluir
links
para outras URIs de modo que possam permitir a
descoberta de mais coisas.
Os dados conectados alicer¸
cam a
Web
de dados pela ado¸
c˜
ao de
alguns padr˜
oes: um mecanismo de identifica¸
c˜
ao global e ´
unico (
Uniform
Resource Identifiers
- URIs), um modelo de dados comum (
Resource
Description Framework
- RDF) e um protocolo e linguagem de consulta
para acesso aos dados (SPA RDF
Query Language
- SPARQL).
URIs (
BERNERS-LEE, 2005) s˜
ao utilizadas no contexto de dados
ligados para identificar unicamente conceitos, instˆ
ancias e
proprieda-des. Ao dereferenciar uma URI, ´
e obtida a descri¸
c˜
ao RDF do conceito,
instˆ
ancia ou propriedade identificado. O modelo RDF (
MANOLA; MIL-LER, 2004) ´
e descentralizado, baseado em grafo e extens´ıvel, projetado
para a representa¸
c˜
ao integrada de dados de fontes diversas. Uma
des-cri¸
c˜
ao RDF composta de declara¸
c˜
oes, como a formalmente definida pela
Defini¸
c˜
ao 3.
Defini¸
c˜
ao 3.
Uma
declara¸
c˜
ao RDF
´
e uma tripla
d
= (
s, p, o
), onde
s
´
e o sujeito,
p
´
e o predicado e
o
´
e o objeto da declara¸
c˜
ao. Sujeito
e predicado s˜
ao representados por um recurso unicamente identificado
37
por uma URI
u
. O predicado
p
representa uma propriedade de
s
. O
objeto ´
e um valor de uma propriedade de
s
, podendo ser representado
por outro recurso ou por um valor alfanum´
erico.
@prefix dbr: <http://dbpedia.org/resource/>.
@prefix gn: <http://sws.geonames.org/>.
@prefix gno: <http://www.geonames.org/ontology#>
dbr:Ferrara_Bakery_and_Cafe
rdfs:label "Ferrara Bakery and Cafe"@en;
geo:geometry "POINT(-73.997016906738 40.719039916992)"
^^virtrdf:Geometry;
owl:sameAs dbr:Ferrara_Bakery_and_Cafe, gn:7288706.
gn:7288706
gn:featurecode gno:S.REST.
Figura 5 – Triplas RDF, formato N3, adaptadas da DBpedia
O SPARQL ´
e um protocolo e uma linguagem de consulta e
ma-nipula¸
c˜
ao de dados armazenados em reposit´
orios RDF. Sua linguagem
possui expressividade equivalente a da ´
algebra relacional e SQL (
Struc-tured Query Language
) (
ANGLES; GUTIERREZ, 2008;
PERRY; SHETH; JAIN, 2008).
A Figura 5 mostra algumas triplas sobre o recurso
Ferrara
3obtidas a partir da consulta SPARQL ilustrada pela Figura 6.
Fo-ram selecionados os valores das propriedades
rdfs:label
,
geo:geometry
,
owl:sameAs
. Al´
em deste recurso, a Figura 5 mostra o valor da
propri-edade
gn:featurecode
do recurso
gn:7288706
4.
PREFIX dbr:<http://dbpedia.org/resource/>
SELECT * WHERE {
dbr:Ferrara_Bakery_and_Cafe ?p ?o.
} LIMIT 100
Figura 6 – Consulta SPARQL sob DBpedia
Recursos de KB, quando referenciados como informa¸
c˜
ao
sobre-posta em um conjunto de anota¸
c˜
oes semˆ
anticas, caracterizam-se como
3dbr:Ferrara Bakery and Cafe, dbr ´e prefixo para http://dbpedia.org/resource/
38
recursos de enriquecimento semˆ
antico (Defini¸
c˜
ao 4).
Esta defini¸
c˜
ao
limita-se apenas a MDSs semanticamente anotados neste trabalho,
em-bora estenda-se a qualquer tipo de dado alvo de uma anota¸
c˜
ao semˆ
antica.
Defini¸
c˜
ao 4.
Um
recurso de enriquecimento semˆ
antico
(
Seman-tically Enriching Resource
) ´
e um URI
res
que referencia um conceito
ou uma instˆ
ancia de base de conhecimento, o qual foi utilizado como
valor de uma anota¸c˜
ao semˆ
antica
a
= (
mds, rel, res
).
Por exemplo, o conceito de restaurante e/ou instˆ
ancia espec´ıfica
de restaurante podem ser utilizados como valor de uma anota¸
c˜
ao de um
MDS para indicar um local visitado em tal segmento de movimento.
No exemplo da subse¸c˜
ao anterior,
lgd:way73321157
´
e o recurso de
en-riquecimento semˆ
antico utilizado na associa¸
c˜
ao
a
000= (
mds
00,
visits
,
lgd:way73321157
).
2.4 DATA WAREHOUSING
As t´
ecnicas de
Data Warehousing
(
KIMBALL, 1996) permitem
gerir e reorganizar vasta quantidade de dados relativos a um
determi-nado fenˆ
omeno (
e.g.
condi¸
c˜
oes metereol´
ogicas, de neg´
ocio) em
Data
Warehouses
(DWs),
i.e.
bases de dados multidimensionais, com o
in-tuito de realizar an´
alises e predi¸c˜
oes a respeito deste fenˆ
omeno. O DW
´
e uma cole¸
c˜
ao de dados que apresenta as seguintes caracter´ısticas:
•
Integrada – composta de dados provenientes de diferentes fontes
(
e.g.
, sistemas transacionais, fontes externas);
•
Orientada a um assunto – formada com o intuito de resolver um
problema espec´ıfico (an´
alise de fenˆ
omeno);
•
Vari´
avel no tempo – que cont´
em dados que compreendem um
la¸
co temporal mais extenso que cole¸
c˜
oes de dados normalmente
memorizados em sistemas operacionais;
•
N˜
ao vol´
atil – cuja informa¸
c˜
ao armazenada ´
e est´
atica.
O modelo multidimensional de DWs organiza dados em fatos e
dimens˜
oes de an´
alise, com o intuito de produzir um
hipercubo de dados
(
data cube
), cuja cada c´
elula possui medidas de interesse.
Por exemplo, a Figura 7 ilustra um hipercubo de dados
so-bre
tweets
, organizados pelas dimens˜
oes de an´
alise
spatial object
(
e.g.
,
39
(
e.g.
,
11/10/2014
). Um fato corresponde, por exemplo, a medidas de
tweets
postados num dia particular do ano, num lugar e num tipo de
lugar espec´ıficos. Um exemplo das medidas que podem ser colocadas
em cada c´
elula deste cubo ´
e o n´
umero de
tweets
postados (
e.g.
,
qty
).
Al´
em disso, a Figura 7 tamb´
em mostra que h´
a apenas 2
tweets
posta-dos em supermercaposta-dos do bairro Agronˆ
omica no dia 11 de Outubro de
2014.
times tam p spatial object sp at ia l c on ce pt '11/10/2014' 'District::Agronômica' 'Supermarket' qty: 2Figura 7 – Representa¸
c˜
ao gr´
afica de um hipercubo de dados
Dimens˜
oes de an´
alise s˜
ao hierarquias para organiza¸
c˜
ao e an´
alise
dos fatos em diversos n´ıveis de abstra¸
c˜
ao (
CABIBBO; TORLONE, 1998).
Por exemplo, a Figura 8 ilustra uma hierarquia de dimens˜
ao com os
n´ıveis:
Spatial Object
(lugares),
District
(bairro),
City
(cidade),
Coun-try
(pa´ıs). Esta hierarquia agrupa lugares em n´ıveis administrativos de
acordo com a conten¸
c˜
ao espacial. As setas entre membros de n´ıveis da
dimens˜
ao (
e.g.
,
Angeloni
→Agronˆ
omica
→Florian´
opolis
) representam a
rela¸
c˜
ao de estar contido (
part of
). A raiz desta hierarquia ´
e
Earth
, pois
todos os
Spatial Object
est˜
ao cont´ıdos na Terra.
Spatial Obj Earth Monumento. Angeloni TICEN Centro
Agronômica Florianópolis Brazil
Country City District IFSC TITRI Floripa. Trindade João Paulo
40
A representa¸c˜
ao gr´
afica de DWs torna-se mais complexa a
me-dida que aumenta o n´
umero de dimens˜
oes de an´
alise. A modelagem
conceitual, como por meio do modelo de fato dimensional (
Dimensio-nal Fact Model
- DFM) (
GOLFARELLI; MAIO; RIZZI, 1998), ´
e um
funda-mento necess´
ario para a constru¸
c˜
ao de um DW bem documentado e que
satisfa¸
ca os requisitos espec´ıficos da an´
alise de determinado fenˆ
omeno.
A Figura 9 ilustra o esquema de fato (
fact scheme
)
Movement
Segment
, representado por DFM. Este esquema descreve o movimento
de objetos m´
oveis, onde o fato ´
e representado por uma caixa rotulada
pelo nome do fato (
Movement Segment
) e, tipicamente, com uma ou
mais medidas de fato (
episodyQty
,
elapsedTime
,
distanceTravelled
).
Di-mens˜
oes s˜
ao representadas por c´ırculos diretamente conectados ao fato
(
i.e. M.O.
,
spatial concept
,
spatial object
,
timestamp
), e os c´ırculos
re-manescentes s˜
ao atributos das dimens˜
oes. Atributos n˜
ao-dimensionais
s˜
ao sempre terminais e s˜
ao representados por linhas (
e.g.
,
address
,
ca-tegory
).
timestamp spatial object M.O. address district city kind state country continent spatial concept Mov. Segment episodyQty elapsedTime distanceTravelled hour date holiday weekday week month season year categoryFigura 9 – O esquema de fato
Movement Segment
No DFM, cada dimens˜
ao ´
e composta por uma hierarquia de
atributos, cuja aresta direcional (de sentido: fato, dimens˜
ao,
atribu-tos) entre atributos representa uma rela¸
c˜
ao de cardinalidade
-para-um
41
de cardinalidade
-para-um
entre atributos de dimens˜
ao ´
e respeitada
pelos valores que estes atributos assumem (
e.g.
, o
country
(pa´ıs) de
Agronˆ
omica (valor de
district
) ´
e Florian´
opolis,
i.e.
Agronˆ
omica.
city
=
Florian´
opolis).
´
E poss´ıvel representar o hipercubo de dados tamb´
em utilizando
o modelo relacional. A Figura 10 apresenta um exemplo de esquema
relacional de um DW. A tabela
FactMO
armazena fatos no formato
de tuplas – idMO, idSpatialC, idSpatialO, idTime, episodyQty,
elap-sedTime, distanceTravelled – onde os 4 primeiros atributos forma o
identificador prim´
ario e os trˆ
es ´
ultimos s˜
ao medidas de fatos. A tabela
SpatialC
,
SpatialO
e
Time
armazenam dimens˜
oes de an´
alise descritas
por tuplas contendo o identificador (
e.g.
,
idTime
) e atributos de
di-mens˜
ao (
e.g.
,
year
,
month
,
day
,
hour
). Neste DW, a dimens˜
ao
SpatialC
apresenta uma hierarquia de atributos de um ´
unico n´ıvel. A tabela
Spa-tialGeom
armazena geometrias de lugares referenciados pela dimens˜
ao
SpatialO
.
FactMO PK int idMO FK int idSpatialC FK int idSpatialO FK int idTime int episodyQty time elapsedTime real distanceTravelled SpatialC PK int idSpatialC FK char category SpatialO PK int idSpatialO FK int idGeomContinent FK int idGeomCountry FK int idGeomAdmin1 FK int idGeomAdmin2 FK int idGeomAdmin3 Time PK int idTime int year int month int day int hour SpatialGeom PK int idGeom char description geometry geomFigura 10 – Esquema relacional do DW
Os dados de DWs podem provir de diversas fontes, as quais
in-cluem sistemas legados e a pr´
opria
Web
. Tais dados precisam passar por
um proceso de Extra¸
c˜
ao, Transforma¸
c˜
ao e Carga (
Extraction,
Transfor-mation and Loading
- ETL) para serem acomodados em um esquema
dimensional de um DW. Uma vez acomodados no DW, os dados podem
ser analisados atrav´
es do OLAP (On-Line Analytical Processing). O
processo OLAP ´
e suportado por um conjunto de ferramentas que
ofe-recem implementa¸
c˜
oes eficientes de algoritmos para realizar operadores
como
drill-down
,
roll-up
,
slice
e
dice
, os quais permitem avaliar
medi-das contimedi-das nas tabelas fato em diversos n´ıveis de abstra¸
c˜
ao e foco, de
42
acordo com as dimens˜
oes de an´
alise.
As iniciativas da
Web 2.0
e
3.0
(tamb´
em chamada
Web
de
Da-dos e
Web
Semˆ
antica) tornaram acess´ıveis grandes quantidades de
da-dos semiestruturada-dos (
e.g.
,
Extensible Markup Language
- XML, RDF)
e n˜
ao estruturados (
e.g.
, textos livres de corpos de email, posts em
m´ıdias sociais), importantes ou convenientes para a an´
alise de dados
em DWs (
INMON; STRAUSS; NEUSHLOSS, 2008).
Por exemplo, considere que o DW ilustrado pela figura 7 deve
analisar os lugares onde houveram
tweets
, durante os eventos
esporti-vos de 2014, nos diferentes bairros e cidades da regi˜
ao de
Grande
Flo-rian´
opolis
, no estado de Santa Catarina, Brasil. A an´
alise deve
conside-rar a data e hora de postagem dos
tweets
, localiza¸
c˜
ao, e categoria de
lu-gar, onde cada uma dessas dimens˜
oes de an´
alise devem ser organizadas
em hierarquias de n´ıveis bem definidos,
e.g.
,
Dia→Semana
→Mˆ
es→Ano
,
Endere¸
co→Bairro→Cidade→Regi˜
ao
, e
Subsubcategoria
→Subcategoria
→Categoria
. Para isto, o DW deve integrar dados de
tweets
(cole-tado em uma base NO-SQL a partir da API da m´ıdia social Twitter)
com dados geogr´
aficos sobre lugares (coletados de LODs em formato
RDF), lista de eventos esportivos de 2014 (em formato n˜
ao estruturado
coletado de blogs e wikis esportivas), e finalmente de ontologias
descre-vendo a hierarquia de conten¸
c˜
ao geogr´
afica e a hierarquia de categorias
de lugar.
As tecnologias da
Web
Semˆ
antica tˆ
em sido aplicadas de
diferen-tes modos para suportar an´
alise em DW (
PARDILLO; MAZ ´ON, 2011).
Em Abell´
o et al. (2015), s˜
ao definidos 5 crit´
erios de categoriza¸
c˜
ao de
sistemas OLAP:
•
Materializa¸
c˜
ao – que considera o n´ıvel de materializa¸
c˜
ao dos
da-dos integrada-dos: completo, parcial, armazenamento de resultado e
virtual.
•
Transforma¸
c˜
oes – que considera a complexidade das
transforma-¸
c˜
oes: complexa, tolerante a parti¸
c˜
ao, leve.
•
Atualiza¸
c˜
ao – que considera com qual frequˆ
encia ´
e realizada a
integra¸
c˜
ao de dados: peri´
odica, microlotes, sob demanda,
Right-time
, fluxo de dados.
•
Estrutura¸
c˜
ao – que considera a estrutura das fontes de dados:
estruturada, semiestruturada, n˜
ao estruturada.
•
Extensibilidade – que considera qu˜
ao dinˆ
amico ´
e o conjunto de
fonte de dados de entrada: est´
atico, evolu¸
c˜
ao, dinˆ
amico.
43