La utilización de la Web como recurso en el procesamiento del lenguaje natural

Texto completo

(1)

/D XWLOL]DFL˜

RQ GH OD :HE FRPR UHFXUVR HQ HO

3URFHVDPLHQWR GHO /HQJXDMH 1DWXUDO

6DQGUD 52*(5 $OH[DQGHU *(/%8.+

VURJHU#XQFRPDHGXDU JHOEXNK#FLFLSQP[

'HSDUWDPHQWR GH ,QIRUP˜DWLFD \ (VWDG˜•VWLFD 8QLYHUVLGDG 1DFLRQDO GHO &RPDKXH %XHQRV $LUHV &3 1HXTX˜HQ $UJHQWLQD )$;

&HQWUR GH ,QYHVWLJDFL˜RQ HQ &RPSXWDFL˜RQ ,QVWLWXWR 3ROLW˜HFQLFR 1DFLRQDO $Y -XDQ 'LRV %DWL] VQ HVT 0HQGL]DEDO FRO =DFDWHQJR &3 ') 0˜H[LFR

3DODEUDV &ODYHV 3URFHVDPLHQWR HQ /HQJXDMH 1DWXUDO &RUSXV :HE

,QWURGXFFL˜

RQ

/D ‘QDOLGDG IXQGDPHQWDO GHO 3URFHVDPLHQWR HQ /HQJXDMH 1DWXUDO 3/1 HV OD DXWRPDWL]DFL˜RQ GH ORV SURFHVRV OLQJ¦X˜•VWLFRV WDOHV FRPR OD FRPSUHQVL˜RQ SURGXFFL˜RQ R DGTXLVLFL˜RQ GH XQ OHQJXDMH (Q ODV LQYHVWLJDFLRQHV HQ 3/1 TXH FRQVLGHUDQ DO &RUSXV FRPR FRPSRQHQWH FHQWUDO SURYRFDQ XQD GHPDQGDQ FRQVWDQWH GH LQIRUPDFL˜RQ O˜H[LFD GHWDOODGD VREUH DPSOLDV ˜DUHDV GH YRFDEXODULR

1XPHURVDV LQYHVWLJDFLRQHV >%UL@>.LOE@>.LOD@ UHODFLRQDGDV FRQ HO XVR GH XQ PD\RU FRU SXV KDQ PRVWUDGR UHVXOWDGRV IDYRUDEOHV (O KHFKR GH FRQWDU FRQ XQD FRQVLGHUDEOH JDQDQFLD HQ OD H[DFWLWXG GH ORV UHVXOWDGRV DO LQFUHPHQWDU HO WDPDaQR GH ORV GDWRV GH HQWUHQDPLHQWR VXJLHUH TXH WLHQH VHQWLGR SRQHU XQ JUDQ ˜HQIDVLV HQ OD REWHQFL˜RQ GH JUDQGHV FRUSRUDV \ GHVDUUROORV GH KHUUDPLHQWDV TXH SHUPLWLU˜DQ HO DFFHVR HIHFWLYR \ ˜RSWLPR DO XVR GH WDOHV UHFXUVRV

/D PD\RU˜•D GH ORV GHVDUUROORV UHDOL]DGRV HQ OD G˜HFDGD GH ORV XWLOL]DQ FRUSXV WDOHV FRPR HO %ULWLVK 1DWLRQDO &RUSXV %1& HO FXDO FXHQWD FRQ DOUHGHGRU GH PLOORQHV GH SDODEUDV R HO 75(& 4$ FRQ XQ SRFR PDV GH PLOO˜RQ GH GRFXPHQWRV HQWUH RWURV (VWRV FRUSXV HUDQ FRQVLGHUDGRV LQQRYDGRUHV DO XWLOL]DU WH[WRV GH GLIHUHQWHV WLSRV

(Q HVWD G˜HFDGD HO LQWHU˜HV GH ORV LQYHVWLJDGRUHV VH FHQWUD HQ OD E˜XVTXHGD GH FRUSXV GH PD\RUHV GLPHQVLRQHV SDUD VXV WHVWHRV (Q OD ZHE FRQWDPRV FRQ XQD IXHQWH LQFDOFXODEOH GH WH[WRV GH WRGR WLSR 3RGU˜•DPRV FRQVLGHUDUOD FRPR XQ QXHYR PHGLR GH DWDTXH HQ QXHVWUDV LQYHVWLJDFLRQHV FRPR PHQFLRQD $GDP .LOJDUUL HQ>.LOE@

?(O FRUSXV GHO QXHYR PLOHQLR HV OD ZHE

(2)

/D :HE FRPR FRUSXV

(O FRUSXV HV HO HMH SULQFLSDO HQ HO GHVDUUROOR GH 3/1 1R H[LVWH XQ FRQVHQVR VREUH OD QDWXUDOH]D GH OD LQIRUPDFL˜RQ TXH HO FRUSXV GHEH FRQWHQHU QL SRU VXSXHVWR VREUH OD PDQHUD HQ OD TXH OD LQIRUPDFL˜RQ GHEH VHU UHSUHVHQWDGD /D WDUHD GH FRQVWUXLU XQ FRUSXV FRPSOHWR SDUD XQD OHQJXD QDWXUDO QR HV WULYLDO

$ PHGLDGRV GH ORV OD ZHE IXH XWLOL]DGD FRPXQPHQWH SRU ORV LQYHVWLJDGRUHV FRPR XQ UHFXUVR GH GRFXPHQWRV 6˜ROR DOJXQRV LQYHVWLJDGRUHV OR XWLOL]DURQ FRPR XQ UHFXUVR GH FRQRFLPLHQWR SDUD XQ VLVWHPD GH JHQHUDOL]DFL˜RQ (O SURS˜RVLWR SDUD OD XWLOL]DFL˜RQ GH DUW˜•FXORV HQFRQWUDGRV HQ OD ZHE SXHGHQ VHUYLU SDUD XQ UDQJR GH SRVLELOLGDGHV

^ &RQIURQWDFL˜RQ GH WUDGXFWRUHV FRQ W˜HUPLQRV SRFRV FRPXQHV \ D WUDY˜HV GH XQD LQJHQLHU˜•D GH

E˜XVTXHGD SRGHU HQFRQWUDU HYLGHQFLDV GH VX XVR FRQWH[WRV YRFDEXODULR DVRFLDGR HWF

^ 3DUD OD 5HFXSHUDFL˜RQ GH ,QIRUPDFL˜RQ

^ ([SORUDU HO SRWHQFLDO GH OD ZHE FRPR XQ UHFXUVR GH OHQJXDMH FRUSRUD SDUD OHQJXDMHV GRQGH

VRQ SURYLVWRV SRFRV UHFXUVRV HOHFWU˜RQLFRV

^ 8VR GH OD ZHE SDUD JHQHUDU HQWUDGDV HQFLFORS˜HGLFDV

^ 5HFXUVR GH LQIRUPDFL˜RQ O˜H[LFD 'HELGR D TXH OD ZHE SURYHH XQ WHVDXUR GH LQVWDQFLDV FRQWH[

WXDOL]DGDV GH SDODEUDV HVWR RIUHFH OD RSRUWXQLGDG SDUD OD GHVWLODFL˜RQ DXWRP˜DWLFD GH HQWUDGDV O˜H[LFDV GH HYLGHQFLDV HPS˜•ULFDV

^ 3DUD :RUG 6HQVH 'LVDPELJXDWLRQ

/D XWLOLGDG GH OD ZHE SUHVHQWD XQD VHULH GH VXV YHQWDMDV \ GHVYHQWDMDV \ HV XQ JUDQ PRWLYR GH LQYHVWLJDFL˜RQ HQ ORV SU˜R[LPRV DaQRV /RV FRUSXV H[LVWHQWHV HQ OD DFWXDOLGDG VRQ OD RGLVHD FRPSDUDGRV FRQ OD ZHE ˜(VWD SUHVHQWD XQD VHULH GH FDUDFWHU˜•VWLFDV QR GHVHDEOHV SDUD XQ FRUSXV WDOHV FRPR HQFRQWUDU GRFXPHQWRV TXH QR FRQWHQJDQ WH[WR LQIRUPDFL˜RQ GXSOLFDGD GRFXPHQWR DSXQWDQGR D GXSOLFDGRV \ HQODFHV TXH GHEHU˜•DQ DSXQWDU D GRFXPHQWRV GXSOLFDGRV \ QR OR VRQ HO KHFKR GH TXH OD ZHE FDPELD FRQVWDQWHPHQWH OD FDQWLGDG GH GRFXPHQWRV TXH FRQWLHQHQ WH[WRV HQ P˜DV GH XQ OHQJXDMH R FRQ OHQJXDMHV QR LGHQWL‘FDGRV

(VWDV GHVYHQWDMDV QR VRQ LQGLFDGRUHV SDUD GHFLU TXH OD ZHE QR HV ˜XWLO HQ OD XWLOL]DFL˜RQ GH XQ FRUSXV 6LQ HPEDUJR SDUD XQ XVR DGHFXDGR GH OD ZHE HV QHFHVDULR HVWDEOHFHU FLHUWRV SDU˜DPHWURV \ UHVWULFFLRQHV 6H GHEHQ GHVDUUROODU KHUUDPLHQWDV TXH SHUPLWDQ OD FODVL‘FDFL˜RQ GH S˜DJLQDV ZHE TXH QRV EULQGHQ LQIRUPDFL˜RQ GH TXH FODVH GH WH[WR FRQWLHQHQ \ GHP˜DV LQIRUPDFL˜RQ TXH QRV SRVLELOLWH HO GLVFHUQLPLHQWR DFHUFD GH OD LQIRUPDFL˜RQ TXH GHVHDPRV XWLOL]DU HQ XQ FRUSXV

8Q VLVWHPD GH SUHJXQWDVUHVSXHVWDV $VN065 GHVDUUROODGR SRU (ULF %ULOO>%UL@ IXH PRWLYDGR SDUD PHMRUDU OD H[DFWLWXG DO LQFUHPHQWDU OD FDQWLGDG GH GDWRV XVDGR HQ HO DSUHQGL]DMH %DVDGR HQ OR H[SXHVWR DQWHULRUPHQWH KD XWLOL]DGR OD ZHE FRPR XQ JUDQ UHFXUVR GH GDWRV TXH OH GL˜R XQ IXQGDPHQWR SDUD VX VLVWHPD GH SUHJXQWDUHVSXHVWD (VWH VLVWHPD HV XQ HMHPSOR GH ODV WDUHDV TXH REWHQGU˜•DQ EHQH‘FLRV VL FRQWDUDQ FRQ GDWRV QR FRPHQWDGRV 1R HV IDFWLEOH FRPHQWDU PDQXDOPHQWH JUDQGHV FRUSRUDV \D TXH LQVXPHQ XQ DOWR FRVWR HQ UHFXUVRV KXPDQRV HQ WLHPSR \ HQ GLQHUR

(3)

'DGR HO FODUR EHQH‘FLR GH FRQWDU FRQ GDWRV FRPHQWDGRV HV GHVHDEOH DXPHQWDU HO JUDGR GH LQYHVWLJDFL˜RQ UHODFLRQDGR DO GHVDUUROOR GH KHUUDPLHQWDV \ DOJRULWPRV TXH QRV SHUPLWDQ GH XQD PDQHUD H‘FLHQWH UHDOL]DU HVWD WDUHD SDUD PDJQLWXGHV PD\RUHV GH GDWRV GH ORV TXH DFWXDOPHQWH HVW˜DQ GLVSRQLEOHV

1XHVWUR REMHWLYR HV HVWXGLDU XQ UHFXUVR FRPR HV OD ZHE SDUD SRGHU XWLOL]DUOR FRPR FRUSXV (VWR LPSOLFD OD SRVLELOLGDG GHO GHVDUUROOR GH KHUUDPLHQWDV WHQGLHQWHV D EULQGDU XQ SURFHVR DXWRP˜DWLFR SDUD ODV GLIHUHQWHV WDUHDV HQXQFLDGDV DQWHULRUPHQWH

&RQFOXVLRQHV \ 7UDEDMRV )XWXURV

6H KD SUHVHQWDGR XQD GH ODV O˜•QHDV GH LQYHVWLJDFL˜RQ TXH VH HVW˜D GHVDUUROODQGR GHQWUR GHO PDUFR GH XQ SUR\HFWR GH LQYHVWLJDFL˜RQ GH OD 8QLYHUVLGDG 1DFLRQDO GHO &RPDKXH /D ZHE HV XQ ULFR FDXGDO GH WH[WRV TXH SXHGHQ VHU XVDGRV SDUD OD LQYHVWLJDFL˜RQ HQ HO 3/1 6L ELHQ HVWD LQIRUPDFL˜RQ GHEH VHU WUDWDGD SUHYLDPHQWH HQ PXFKRV GH ORV FDVRV HO EHQH‘FLR TXH FRQOOHYD OD XWLOL]DFL˜RQ GH JUDQGHV FDQWLGDGHV GH GDWRV SDUD OD IDVH GH WHVWHR HV LPSRUWDQWH

3DUD SRGHU PDQLSXODU HVWD JUDQ FDQWLGDG GH LQIRUPDFL˜RQ HV QHFHVDULR GHVDUUROODU KHUUDPLHQWDV TXH SRVLELOLWHQ HVWD WDUHD GH XQD PDQHUD DXWRP˜DWLFD \ QR PDQXDO

/D LQYHVWLJDFL˜RQ GHO XVR GH WH[WR REWHQLGR GH OD ZHE \ OD PDQLSXODFL˜RQ GH JUDQGHV YRO˜XPHQHV HVW˜D HQ VXV DOERUHV 1R GHEHPRV GHMDU HVFDSDU OD SRVLELOLGDG GH GHVDUUROODU KHUUDPLHQWDV WHQGLHQWHV D GHVDUUROODU H LPSOHPHQWDU XQ SURFHVR DXWRP˜DWLFR HQ OD FRQVWUXFFL˜RQ GH FRUSXV XWLOL]DQGR HVWH UHFXUVR TXH EULQGD XQ VLQ ‘Q GH SRVLELOLGDHV

5HIHUHQFLDV

>%UL@ (ULF %ULOO 3URFHVVLQJ QDWXUDO ODQJXDJH ZLWKRXW QDWXUDO ODQJXDJH SURFHVVLQJ &RPSX WDWLRQDO /LQJLVWLFV DQG ,QWHOOLJHQW 7H[W 3URFHVVLQJ ,QWHUQDWLRQDO &RQIHUHQFH &,&/LQJ

0˜H[LFR &LW\ SDJHV ^

>.LO@ $GDP .LOJDUUL *HQHUDWLYH OH[LFRQ PHHWV FRUSXV GDWD WKH FDVH RI QRQVWDQGDUG ZRUG

XVHV ,Q 7KH /DQJXDJH RI :RUG 0HDQLQJ SDJHV ^

>.LOD@ $GDP .LOJDUUL &RPSDULQJ FRUSRUD ,QWHUQDWLRQDO -RXUQDO RI &RUSXV /LQJXLVWLFV

Figure

Actualización...

Referencias

Actualización...