• No se han encontrado resultados

Computación distribuida usando redes P2P: Caso práctico en el área de recuperación de Información

N/A
N/A
Protected

Academic year: 2021

Share "Computación distribuida usando redes P2P: Caso práctico en el área de recuperación de Información"

Copied!
40
0
0

Texto completo

(1)

Computaci´ on distribuida usando redes P2P: Caso pr´ actico en el ´ area de recuperaci´ on de Informaci´ on

Jorge Camargo

jor-cama@uniandes.edu.co

2a Jornada de Computaci´ on Paralela

April 24, 2008

(2)

Agenda

1 Introducc´ on

2 Conceptos

3 IR en redes P2P

4 Retos

Jorge Camargo 2a Jornada de Computaci´on Paralela

Computaci´on distribuida usando redes P2P: Caso pr´actico en el ´area de recuperaci´on de Informaci´on April 24, 2008

(3)

Introducci´ on

Motores de b´ usqueda Volumen de informaci´ on

Contenidos altamente din´ amicos

Transparencia, eficiencia, flexibilidad, escalabilidad y fiabilidad?

Sistemas distribuidos: Redes P2P

(4)

Agenda

1 Introducc´ on

2 Conceptos

Recuperaci´ on de informaci´ on Redes P2P

3 IR en redes P2P

4 Retos

Jorge Camargo 2a Jornada de Computaci´on Paralela

Computaci´on distribuida usando redes P2P: Caso pr´actico en el ´area de recuperaci´on de Informaci´on April 24, 2008

(5)

Agenda

1 Introducc´ on

2 Conceptos

Recuperaci´ on de informaci´ on Redes P2P

3 IR en redes P2P

4 Retos

(6)

Motores de b´ usqueda

Arquitectura Google

[Sergey1998]

Jorge Camargo 2a Jornada de Computaci´on Paralela

Computaci´on distribuida usando redes P2P: Caso pr´actico en el ´area de recuperaci´on de Informaci´on April 24, 2008

(7)

Vector Space Model

En VSM los documentos se modelan como un vector n-dimensional d i −→

d i = (w(t 1 , d i ), w(t 2 , d i ), w(t 3 , d i ) · · · w(t k , d i ))

sim(Q, D j ) = |Q|.|D Q•D

j

j

|

(8)

Vector Space Model

Anatom´ıa de un ´ındice invertido

Jorge Camargo 2a Jornada de Computaci´on Paralela

Computaci´on distribuida usando redes P2P: Caso pr´actico en el ´area de recuperaci´on de Informaci´on April 24, 2008

(9)

Otros conceptos de IR

Stemming

Stopwords

Sinonimia

Polisemia

Recall

Precision

(10)

Agenda

1 Introducc´ on

2 Conceptos

Recuperaci´ on de informaci´ on Redes P2P

3 IR en redes P2P

4 Retos

Jorge Camargo 2a Jornada de Computaci´on Paralela

Computaci´on distribuida usando redes P2P: Caso pr´actico en el ´area de recuperaci´on de Informaci´on April 24, 2008

(11)

Qu´ e se conoce como una red P2P

Alguien conoce a esta mula?

(12)

Qu´ e es una red P2P

Cada nodo hace la funci´ on de servidor y cliente (servant) Los nodos ingresan y salen de la red en cualquier momento Sistema distribuido

Jorge Camargo 2a Jornada de Computaci´on Paralela

Computaci´on distribuida usando redes P2P: Caso pr´actico en el ´area de recuperaci´on de Informaci´on April 24, 2008

(13)

Topolog´ıas de red P2P

[Wikipedia]

(14)

Redes P2P centralizadas

Basadas en un ´ındice central (Napster y Audiogalaxy)

Jorge Camargo 2a Jornada de Computaci´on Paralela

Computaci´on distribuida usando redes P2P: Caso pr´actico en el ´area de recuperaci´on de Informaci´on April 24, 2008

(15)

Redes P2P no estructuradas

Descentralizadas utilizando inundaci´ on de mensajes (Gnutella)

(16)

Redes P2P estructuradas

Descentralizadas utilizando tablas hash distribuidas (Chord, Pastry, CAN)

Jorge Camargo 2a Jornada de Computaci´on Paralela

Computaci´on distribuida usando redes P2P: Caso pr´actico en el ´area de recuperaci´on de Informaci´on April 24, 2008

(17)

Agenda

1 Introducc´ on

2 Conceptos

3 IR en redes P2P

IR en redes no estructuradas IR en redes estructuradas Nuestra propuesta

4 Retos

(18)

Agenda

1 Introducc´ on

2 Conceptos

3 IR en redes P2P

IR en redes no estructuradas IR en redes estructuradas Nuestra propuesta

4 Retos

Jorge Camargo 2a Jornada de Computaci´on Paralela

Computaci´on distribuida usando redes P2P: Caso pr´actico en el ´area de recuperaci´on de Informaci´on April 24, 2008

(19)

Mecanismo Inteligente de B´ usqueda

Inundaci´ on de q

Cada nodo alamcena un perfil de consultas repondidas Algunos nodos nunca ser´ an contactados (TTL)

[Zeinalipour2002]

(20)

Agenda

1 Introducc´ on

2 Conceptos

3 IR en redes P2P

IR en redes no estructuradas IR en redes estructuradas Nuestra propuesta

4 Retos

Jorge Camargo 2a Jornada de Computaci´on Paralela

Computaci´on distribuida usando redes P2P: Caso pr´actico en el ´area de recuperaci´on de Informaci´on April 24, 2008

(21)

aDICS

Cada nodo administra una letra del alfabeto Cada nodo reporta t´ erminos a nodos responsables Intersecci´ on de nodos que responden

[Tolosa2004]

(22)

KSS

A, B, C y D son las palabras de un documento docID Se crean entradas al ´ındice para las 6 combinaciones

Se calcula el hash (SHA1) de la concatenaci´ on de cada par de t´ erminos para publicarlos en CHORD

En una b´ usqueda de ABCD se localiza al nodo responsable del

´ındice de AB, dicho nodo busca localmente para luego

reenviar su resultado al nodo responsable por CD. Este ´ ultimo realiza la intersecci´ on de los nodos encontrados en AB y CD.

[Gnawali2002]

Jorge Camargo 2a Jornada de Computaci´on Paralela

Computaci´on distribuida usando redes P2P: Caso pr´actico en el ´area de recuperaci´on de Informaci´on April 24, 2008

(23)

Agenda

1 Introducc´ on

2 Conceptos

3 IR en redes P2P

IR en redes no estructuradas IR en redes estructuradas Nuestra propuesta

4 Retos

(24)

APSE: A P2P Search Engine

Motor de b´ usqueda distribuido basado en una red P2P

estructurada, utilizando t´ ecnicas de VSM para recuperaci´ on de informaci´ on

[Camargo2006]

Jorge Camargo 2a Jornada de Computaci´on Paralela

Computaci´on distribuida usando redes P2P: Caso pr´actico en el ´area de recuperaci´on de Informaci´on April 24, 2008

(25)

Componentes

(26)

Indexaci´ on

Jorge Camargo 2a Jornada de Computaci´on Paralela

Computaci´on distribuida usando redes P2P: Caso pr´actico en el ´area de recuperaci´on de Informaci´on April 24, 2008

(27)

Consultas

(28)

Mensajes

Jorge Camargo 2a Jornada de Computaci´on Paralela

Computaci´on distribuida usando redes P2P: Caso pr´actico en el ´area de recuperaci´on de Informaci´on April 24, 2008

(29)

Experimentaci´ on

Lenguaje de programaci´ on Java

Basado el API FreePastry ampliamente utilizado por la comunidad

Los experimentos fueron realizados en una red LAN 10/100 de 20 PCs (2G RAM, PIV 3.4 GHz)

Corpus de Reuters-21578 generada con dataGen

[Zeinalipour2002]

(30)

Metodolog´ıa

Red controlada

Dataset de consultas elegidas aleatoriamente, de un t´ ermino hasta 10 t´ erminos

Promedio de mediciones 1 nodo de bootstrap

Recolecci´ on autom´ atica de logs (scripts de shell)

Jorge Camargo 2a Jornada de Computaci´on Paralela

Computaci´on distribuida usando redes P2P: Caso pr´actico en el ´area de recuperaci´on de Informaci´on April 24, 2008

(31)

Tiempo de indexaci´ on

Tiempo utilizado por APSE para indexar el dataset (un nodo) en

configuraciones desde 3 hasta 20 nodos

(32)

Tiempo de consulta

Jorge Camargo 2a Jornada de Computaci´on Paralela

Computaci´on distribuida usando redes P2P: Caso pr´actico en el ´area de recuperaci´on de Informaci´on April 24, 2008

(33)

Tiempo de consulta

(34)

Cantidad de mensajes

Jorge Camargo 2a Jornada de Computaci´on Paralela

Computaci´on distribuida usando redes P2P: Caso pr´actico en el ´area de recuperaci´on de Informaci´on April 24, 2008

(35)

Cantidad de mensajes

(36)

Agenda

1 Introducc´ on

2 Conceptos

3 IR en redes P2P

4 Retos

Jorge Camargo 2a Jornada de Computaci´on Paralela

Computaci´on distribuida usando redes P2P: Caso pr´actico en el ´area de recuperaci´on de Informaci´on April 24, 2008

(37)

Retos para sistemas distribuidos

Sistemas distribuidos

TCP/IP es el m´ as adecuado?

Qu´ e pas´ o finalmente con el esperado Internet 2?

Otros maneras m´ as eficientes para distrubuir en ´ındice (Grid Computing)

Recuperaci´ on de informaci´ on

C´ omo indexar objetos diferentes a texto (im´ agenes, videos, m´ usica, secuencias ADN)

C´ omo visualizar colecciones de objetos con estructura

compleja

(38)

Preguntas

Preguntas

Jorge Camargo 2a Jornada de Computaci´on Paralela

Computaci´on distribuida usando redes P2P: Caso pr´actico en el ´area de recuperaci´on de Informaci´on April 24, 2008

(39)

Referencias I

[Sergey, 1998] Sergey Brin y Lawrence Page.

The Anatomy of a Large-Scale Hypertextual Web Search Engine, 1998

[Zeinalipour, 2002] Zeinalipour.

Zeinalipour, University of California Riverside. CIKM 2002 [Tolosa, 2004] Gabriel Tolosa, Fernando Bordignon y Jorge A Peri.

aDICS: Modelo de ndice Distribuido sobre una Red P2P para Bsquedas por Contenido. X Congreso Argentino de Ciencias de la Computacin, Octubre 2004

[Wikipedia, 2008] Wikipedia

Peer-to-peer, consultado en abril de 2008

(40)

Referencias II

[Gnawali, 2002] O. Gnawali.

A Keyword Set Search System for PeertoPeer Networks.

Master’s thesis, Massachusetts Institute of Technology, 2002 [Camargo, 2006] Jorge Camargo y Francisco Rueda

APSE: A P2P Search Engine. Tesis de maestr´ıa. Universidad de Los Andes, 2006

Jorge Camargo 2a Jornada de Computaci´on Paralela

Computaci´on distribuida usando redes P2P: Caso pr´actico en el ´area de recuperaci´on de Informaci´on April 24, 2008

Referencias

Documento similar

Como flujo de trabajo adicional usando las redes neuronales convolucionales, uno de los flujos de trabajo implementados en el cap´ıtulo 5, no obtendr´ a una clasificaci´ on

Pero antes hay que responder a una encuesta (puedes intentar saltarte este paso, a veces funciona). ¡Haz clic aquí!.. En el segundo punto, hay que seleccionar “Sección de titulaciones

El contar con el financiamiento institucional a través de las cátedras ha significado para los grupos de profesores, el poder centrarse en estudios sobre áreas de interés

Las reglas de dise˜ no de la arquitectura von Neuman contin´ uan vigentes hoy en d´ıa para la construcci´ on de ordenadores: la unidad de control y la unidad aritm´etico-l´

Como en el caso de los tipos enteros, los lenguajes suelen soportar varios tipos real, de modo que el programador pueda seleccionar aquel cuyo rango y precisi´on en el coeficiente

En este trabajo se desarroll´ o un algoritmo de b´ usqueda aleatoria para optimizar algunos modelos con funciones estoc´ asticas no restringidas usando informaci´ on a priori.

DS N° 012-2014-TR Registro Único de Información sobre accidentes de trabajo, incidentes peligrosos y enfermedades ocupacionales y modificación del art.110º del Reglamento de la Ley

En el Modelo Relacional se puede usar el c´ alculo de predicados de primer orden (CPPO) porque una BDR siempre puede verse como una interpretaci´ on (I) de un lenguaje de primer