• No se han encontrado resultados

Definición de una técnica de representación universal del lenguaje

N/A
N/A
Protected

Academic year: 2017

Share "Definición de una técnica de representación universal del lenguaje"

Copied!
108
0
0

Texto completo

(1)

Universidad Técnica Particular de Loja

Definición de una Técnica de Representación Universal del Lenguaje

I

UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA

La Universidad Católicade Loja MODALIDAD CLÁSICA

ESCUELA DE CIENCIAS DE LA COMPUTACIÓN

DEFINICIÓN DE UNA TÉCNICA DE REPRESENTACIÓN

UNIVERSAL DEL LENGUAJE

Trabajo de fin de carrera previo a la obtención del título de Ingeniera en Sistemas Informáticos y Computación.

AUTORA:

Encalada Elizalde Elba Elizabeth

DIRECTORA:

Ing. Guido Riofrío

(2)

Universidad Técnica Particular de Loja

Definición de una Técnica de Representación Universal del Lenguaje

II

CERTIFICACIÓN

Ing.

Guido Riofrío

DIRECTOR DEL PROYECTO DE FIN DE CARRERA

C E R T I F I C O:

Que el presente trabajo de fin de carrera previo a la obtención del título de Ingeniera en Sistemas Informáticos y Computación, titulado DEFINICIÓN DE UNA

TÉCNICA DE REPRESENTACIÓN UNIVERSAL DEL LENGUAJE realizado por la

profesional en formación ENCALADA ELIZALDE ELBA ELIZABETH ha sido orientado, revisado y corregido bajo mi dirección por lo que autorizo su presentación.

Loja, 13 de Noviembre del 2010.

(3)

Universidad Técnica Particular de Loja

Definición de una Técnica de Representación Universal del Lenguaje

III

CERTIFICACIÓN

Ing.

Manuel Sucunuta

CODIRECTOR DEL PROYECTO DE FIN DE CARRERA

C E R T I F I C O:

Que el presente trabajo de fin de carrera previo a la obtención del título de

Ingeniera en Sistemas Informáticos y Computación, titulado DEFINICIÓN DE

UNA TÉCNICA DE REPRESENTACIÓN UNIVERSAL DEL LENGUAJE realizado

por la profesional en formación ENCALADA ELIZALDE ELBA ELIZABETH ha

sido orientado, revisado y corregido bajo mi dirección por lo que autorizo su presentación.

Loja, 13 de Noviembre del 2010.

(4)

Universidad Técnica Particular de Loja

Definición de una Técnica de Representación Universal del Lenguaje

IV

DECLARACIÓN Y CESIÓN DE DERECHOS

Yo Elba Elizabeth Encalada Elizalde declaro ser autora del presente trabajo y

eximo expresamente a la Universidad Técnica Particular de Loja y a sus representantes legales de posibles reclamos o acciones legales.

Adicionalmente declaro conocer y aceptar la disposición del Art. 67 del Estatuto Orgánico de la Universidad Técnica Particular de Loja que en su parte

pertinente textualmente dice: Forman parte del patrimonio de la Universidad

la propiedad intelectual de investigaciones, trabajos científicos o técnicos y tesis de grado que se realicen a través, o con el apoyo financiero, académico o

institucional operativo de la Universidad

(5)

Universidad Técnica Particular de Loja

Definición de una Técnica de Representación Universal del Lenguaje

V

AUTORÍA

Las ideas, conceptos, procedimientos y resultados vertidos en el presente trabajo, son de exclusiva responsabilidad del autor.

………..

(6)

Universidad Técnica Particular de Loja

Definición de una Técnica de Representación Universal del Lenguaje

VI

DEDICATORIA

A mi adorada madre, la persona que con amor, comprensión y disciplina ha guiado mi vida en cada momento y con su sacrifico y trabajo a sabido apoyarme

en todo cuanto ha sido necesario y por esto y más ha sabido ganarse mi amor y respeto, también a mi padre que con su ejemplo ha sabido enseñarnos a ser

humildes y responsables en nuestras vidas.

A mis hermanos Manuel, Hernán, Danny, Diego y Santi por su apoyo, respeto y cariño durante toda mi vida.

Y a unas personitas que han llegado a alegrar mi vida con sus sonrisas, y que han sido fuente de inspiración para poder alcanzar este logro, mis sobrinos Cami,

Sebas, Sami y Majito.

(7)

Universidad Técnica Particular de Loja

Definición de una Técnica de Representación Universal del Lenguaje

VII

AGRADECIMIENTO

Agradezco a Dios quien me regaló la vida y junto con ella a la familia que tengo, por darme la oportunidad de prepararme y por su amor que lo he sentido en cada instante de mi vida y ha sido mi aliento para seguir en los momentos más difíciles.

A mis padres Gabriel y Gloria por su apoyo incondicional en cada momento de mi vida estudiantil, de la misma manera al resto de la familia.

A mis profesores quienes desinteresadamente han aportado en mi formación académica compartiéndome sus conocimientos durante estos cinco años de preparación. Y de manera especial al Ing. Guido Riofrío Director de este trabajo por su apoyo, aliento y amistad.

Agradecer también a mis amigos Margarita, Fabricio y Paty quienes fueron siempre mi apoyo, mi compañía y mi fuerza para poder llegar al final de este camino, sin olvidar los momentos de alegría y las risas que siempre nos ayudaron a sobrellevar los momentos más duros de nuestra carrera.

Loja, 2010

(8)

Universidad Técnica Particular de Loja

Definición de una Técnica de Representación Universal del Lenguaje

VIII

Índice General

Certificación………...…………. II

Declaración y Gestión de derechos………...………..…… IV

Autoría………... V

Dedicatoria………..…………... VI

Agradecimiento………...……….………... VII

Índice de Contenidos …………,,………...………. )X

Índice de Figuras ……….……….……… XII

Índice de Tablas……….…..……… X)V

Resumen………...……….………... 1

)ntroducción………...………..………... 2

Objetivo General………... 5

(9)

Universidad Técnica Particular de Loja

Definición de una Técnica de Representación Universal del Lenguaje

IX

Índice de Contenidos

1. CAPÍTULO ... 6

1.1 INTRODUCCIÓN ... 7

1.2 LINGÜÍSTICA ... 7

1.3 INGENIERÍA LINGÜÍSTICA ... 8

1.4 LINGÜÍSTICA COMPUTACIONAL ... 10

1.4.1 Áreas de la Lingüística Computacional ... 12

1.5 ASPECTOS DEL LENGUAJE ... 12

1.6 TECNOLOGÍAS DEL TEXTO ESCRITO ... 13

2. CAPITULO ... 16

La Web Semántica ... 18

2.1 REDES SEMÁNTICAS ... 19

2.1.1 Categorías de Redes Semánticas ... 20

2.2 TAXONOMÍAS... 21

2.2.1 Tipos de Taxonomías: ... 23

2.2.2 Ejemplos de Taxonomías: ... 24

2.3 METADATOS ... 25

2.3.1 Características de los Metadatos: ... 26

2.3.2 Tipos de Metadatos: ... 26

2.3.3 Modelos de Metadatos: ... 27

2.4 ONTOLOGÍAS: ... 33

2.4.1 Componentes de una Ontología: ... 36

2.4.2 Clasificación de Ontologías: ... 37

2.4.3 Desarrollo de una Ontología: ... 38

2.4.4 Lenguajes de Ontologías: ... 39

(10)

Universidad Técnica Particular de Loja

Definición de una Técnica de Representación Universal del Lenguaje

X

3. CAPITULO ... 41

Tecnologías Existentes ... 41

3.1 ONTOLOGÍAS MULTILINGÜES: ... 42

3.2 INTERLINGUA ... 45

3.3 RECURSOS LINGÜÍSTICOS ... 51

3.3.1 Corpus ... 51

3.3.2 Tesauros ... 53

3.3.3 Glosarios ... 55

3.3.4 Wordnet ... 56

3.3.5 Eurowordnet ... 61

3.4 PROYECTOS RELACIONADOS Y APLICACIONES QUE PRESENTAN MULTILINGUISMO ... 65

3.4.1 GENOMA KB ... 65

3.4.2 AGROVOC ... 66

3.4.3 LIR ... 67

3.4.4 STASIS ... 67

3.5 Discusión ... 68

4. CAPITULO ... 69

4.1 DESCRIPCIÓN DE ARQUITECTURA ... 71

4.1.1 Identificación del Lenguaje ... 71

4.1.2 Análisis ... 72

4.1.3 Búsqueda (Wordnet) ... 73

4.1.4 Correspondencia de Lenguaje ... 73

4.1.5 Representación Universal: ... 74

4.2 DISCUSIÓN ... 79

5. CAPITULO ... 80

Conclusiones y Trabajos Futuros ... 80

5.1 Conclusiones ... 81

(11)

Universidad Técnica Particular de Loja

Definición de una Técnica de Representación Universal del Lenguaje

XI

5.3 Trabajos Futuros ... 82

REFERENCIAS ... 84

ABREVIATURAS ... 89

(12)

Universidad Técnica Particular de Loja

Definición de una Técnica de Representación Universal del Lenguaje

XII

Índice de Figuras

Figura 1.1 Antecedentes y áreas de la Lingüística Computacional [4] ... 11

Figura 3.1 Arquitectura Lor@, Ontología Interlingua [19]. ... 43

Figura 3.2 Arquitectura de la TA basada en Interlingua [48].... 46

Figura 3.3 Proceso de Traducción de ATLASII. [49] ... 48

Figura 3.4 Categorización de Palabras Universales [52] ... 50

Figura 3.5 Ejemplo de representación de una UW en UNL. [47] ... 50

Figura 3.6 Matriz de Vocabulario en Wordnet [53] ... 57

Figura 3.7 Sentidos del sustantivo Car (Wordnet 2.0) ... 57

Figura 3.8 Sinónimos de house.... 58

Figura 3.9 Antónimos de Clean ... 58

Figura 3.10 Hipónimos de dog. ... 59

Figura 3.11 Hiperónimos de dog ... 59

Figura 3.12 Holónimo de hand.... 60

Figura 3.13 Merónimo de hand.... 60

Figura 3.14 Ejemplo de un Sysnet [50] ... 61

Figura 3.15 Descripción de ILI ... 63

Figura 3.16 Ejemplo de ILI ... 64

Figura 3.17 Arquitectura de GENOMA KB [34] ... 66

Figura 4.1 Arquitectura Multilingüe para Representación Universal del Lenguaje ... 70

Figura 4.2 Ejemplo Herramienta RLI ... 72

Figura 4.3 Recursos para la correspondencia de palabras ... 74

Figura 4.4 Ejemplo de representación Universal de una frase ... 74

(13)

Universidad Técnica Particular de Loja

Definición de una Técnica de Representación Universal del Lenguaje

XIII

(14)

Universidad Técnica Particular de Loja

Definición de una Técnica de Representación Universal del Lenguaje

XIV

Índice de Tablas

(15)

Universidad Técnica Particular de Loja

Definición de una Técnica de Representación Universal del Lenguaje

(16)

Universidad Técnica Particular de Loja

Definición de una Técnica de Representación Universal del Lenguaje

1

RESUMEN

La necesidad de intercambiar información en actividades como investigación, educación, negocios, intercambio de cultura, etc. ha crecido constantemente. Es muy difícil obligar a las personas aprender los múltiples idiomas que son alrededor de 6000 en todo el mundo, más bien lo que se ha estado buscando como solución y aprovechando la tecnología actual es brindar sistemas multilingües que faciliten dicha actividad, ahorrando dinero, tiempo y sobre todo esfuerzo por parte de nosotros las personas.

De esta necesidad parte la presente investigación, en la cual se pretende buscar una solución que permita eliminar las barreras lingüísticas que limitan el uso de la información creando una Representación Universal del Lenguaje para facilitar el paso de un idioma a otro, empleando métodos y técnicas que ya se han usando para el tratamiento de la información.

Para llegar a esta Representación Universal hemos definido un modelo que usa dos recursos lingüísticos muy conocidos como es Wordnet y Eurowordnet. Así como también las Redes Semánticas, específicamente los Grafos Conceptuales para la representación antes mencionada.

Este trabajo de investigación está estructurado en cinco capítulos: el Capítulo 1 comprende un estado del arte de las tecnologías del lenguaje en donde se describe los aspectos generales del lenguaje y la tecnología computacional. En el Capítulo 2 se describe las técnicas o métodos que se usan para la representación de la información con eso se pretende conocer las maneras de organizar la información para facilitar y mejorar su tratamiento y reutilización por parte de otras aplicaciones. En el Capítulo 3 se describen las Tecnologías Existentes que se han usado para manejar el multilingüismo, así como los proyectos, sistemas e investigaciones que se han hecho en cada una de estas. En el Capítulo 4 se ha planteado un modelo que pretende cumplir con el objetivo de esta tesis que es plantear un técnica de Representación Universal del Lenguaje y su respectiva descripción. Y para finalizar en el Capítulo 5 se presentan las conclusiones y recomendaciones de este trabajo, así como también los trabajos que creemos necesarios deben realizarse en un futuro.

(17)

Universidad Técnica Particular de Loja

Definición de una Técnica de Representación Universal del Lenguaje

2

INTRODUCCIÓN

La necesidad de traducir un texto de un idioma a otro ha surgido desde hace mucho tiempo, por diversas razones ya sean comerciales, educativas, políticas y religiosas; según la historia esta última fue una de las primeras ramas que tuvo la necesidad de realizar una traducción, surgió la necesidad de traducir la biblia del Hebreo al Griego, ya que la mayoría de las personas hablaban este idioma.

En la actualidad el hecho de compartir información es una actividad que se ha vuelto muy usual, con el crecimiento rápido de internet la comunicación entre personas de diferentes lenguas cada día es más común y más necesaria. A más de esto los trabajos e investigaciones actualmente se realizan entre investigadores de diferentes partes del mundo para lo cual deben intercambiar constantemente documentos en distintos formatos e idiomas a más de las nuevas palabras que estos generan e imponen a la sociedad.

Las diferentes instituciones son las más afectadas por las barreras lingüísticas ya que hacen grandes inversiones en traducir información y crear sistemas que

se adecuen a su institución. Las instituciones europeas se gastan cada año 1.000 millones de euros en la traducción de documentos o en la interpretación de discursos. Las empresas europeas se gastan también millones de euros sólo para entenderse y hacer transacciones comerciales con empresas de otros países de la Unión Europea 1.

La lengua es el medio que nos permite la exploración y explotación de información, pero para poder manipular esta información debemos necesariamente conocer las características propias de cada idioma en el que está representada, esto es conocimientos léxico, sintáctico, semántico. Como sabemos no es fácil aprender todas estas características de todos los idiomas que existen en el mundo, ya que son demasiados. Según las estadísticas de Ethnologue expuestas en [1] se habla de la existencia de aproximadas 6.800

1

(18)

Universidad Técnica Particular de Loja

Definición de una Técnica de Representación Universal del Lenguaje

3

[image:18.595.187.452.176.287.2]

idiomas distribuidos en 220 países, en la siguiente tabla se detallan según los continentes:

Tabla 1.1 Distribución de Idiomas por Continente [1]

Continente Población Lenguas Vivas Porcentaje

África 780 millones 2011 30%

América 828 millones 1000 15%

Asia 3,6 millones 2165 33%

Europa 728 millones 225 3%

Pacífico 30 millones 1302 19%

Total 6 mil millones 6703 100%

Un medio que en la actualidad se ha vuelto muy importante para compartir información es Internet, y como es de esperarse los múltiples idiomas son una barrera para poder entender, usar la información y aprovechar las actividades que este nos ofrece. En [2] podemos observar la distribución de los usuarios de internet según los Idiomas, en donde podemos observar que el mayor número de usuario son usuarios que manejan información en inglés, seguido del Chino, Español y Japonés.

Por estas razones se han venido realizando varios proyectos e investigaciones las cuales tratan de dar solución a este gran inconveniente de comunicación, como los traductores los cuales en un inicio eran la única vía de poder buscar u obtener una palabra equivalente de un idioma a otro, pero su limitación era la poca exactitud en los resultados. Luego se han construido otras alternativas como tesauros, ontologías multilingües, lexicones, etc. los cuales se estudiarán en el desarrollo de esta investigación.

(19)

Universidad Técnica Particular de Loja

Definición de una Técnica de Representación Universal del Lenguaje

4

(20)

Universidad Técnica Particular de Loja

Definición de una Técnica de Representación Universal del Lenguaje

5

OBJETIVO GENERAL

 Diseñar una técnica de representación lingüística de carácter universal.

OBJETIVOS ESPECÍFICOS

 Investigar los aspectos generales de la lingüística y su relación con las tecnologías computacionales existentes.

 Conocer las diferentes formas de estructurar la información las cuales

faciliten su organización, tratamiento y reutilización.

 Analizar las Tecnologías existentes hasta el momento y que permiten

incorporar multilingüismo.

 Investigar los Recursos Lingüísticos que puedan ser reutilizados para

(21)

Universidad Técnica Particular de Loja

Definición de una Técnica de Representación Universal del Lenguaje

6

1.

CAPÍTULO

(22)

Universidad Técnica Particular de Loja

Definición de una Técnica de Representación Universal del Lenguaje

7

1.1

INTRODUCCIÓN

Uno de los grandes campos de investigación en la actualidad es la Lingüística, como una disciplina que a más de la importancia y relevancia que tiene para la comunicación y el intercambio de información de la humanidad está generando grandes ingresos a las personas y empresas que se han dedicado a su estudio, explotación y creación de herramientas con el objetivo de minimizar su impacto en las actividades que a diario son realizadas por el ser humano.

Para poder tener esta evolución y gran acogida la Lingüística se ha valido del apoyo de otras grandes áreas como es la Informática, con la cual realiza un trabajo interdisciplinar y el cual le ha dado una gran ayudada en la creación de herramientas que facilitan su manejo. Estas herramientas también han ayudado a personas con discapacidades visuales a aprender el lenguaje, a expresarse, y a desarrollarse de una manera más cómoda y justa.

En Europa es en donde se ha dado mayor atención e investigación a este tema, especialmente en España2 en donde se han creado grupos de investigación en

Universidades, proyectos de ingeniería lingüística financiados por programas como EUREKA, COST, ACTS, TIDE. En América, México es también un país que se ha interesado en el tema, específicamente la UNAM quien tiene varios proyectos

en desarrollo a través del Grupo de Ingeniería Lingüística3.

1.2

LINGÜÍSTICA

Lingüística es el estudio científico tanto de la estructura de las lenguas naturales como del conocimiento que los hablantes poseen de ellas.

La lingüística puede dividirse en:

Lingüística Sincrónica que describe la lengua tal y como está en un momento dado.

2

Cervantes, C. V. (s.f.). Ingeniería Lingüística en España. Análisis Comparativo. Recuperado el Diciembre de 2009 de

http://cvc.cervantes.es/lengua/anuario/anuario_98/llisterri/llisterri_04.htm

3

(23)

Universidad Técnica Particular de Loja

Definición de una Técnica de Representación Universal del Lenguaje

8

Lingüística Diacrónica se centra en el desarrollo histórico y en los cambios estructurales que ha tenido dicha lengua.

Lingüística Teórica es la construcción de la estructura general de una lengua

Lingüística Aplicada es la aplicación de técnicas a las tareas básicas para la elaboración de métodos que ayuden al aprendizaje de la lengua.

Lingüística Micro-lingüística se refiere al provecho propio que podemos sacar personalmente de la lengua.

Lingüística Macro-lingüística en cambio se enmarca en todos los aspectos de la lengua. Estas dos últimas no están bien definidas aún.

1.3

INGENIERÍA LINGÜÍSTICA

Disciplina en la que se emplean los conocimientos de las lenguas en el desarrollo de sistemas informáticos que puedan reconocer, comprender, interpretar y generar lenguaje humano en todas sus formas. Su principal objetivo es proporcionar los medios para mejorar y ampliar la utilización de la lengua. Se basa en el uso de técnicas para manipulación de la lengua y de recursos lingüísticos como bases del conocimiento, para acceder a estos se vale de programas informáticos [3].

Impulsada no solo por instituciones educativas, sino más bien en la actualidad por organizaciones de las industrias privadas y comerciales. Su principal características es el ámbito comercial, ya que en pocos años esta tendrá una influencia masiva en la presentación de las civilizaciones, la cultura, la educación. El mercado que se creará será de gran acogida y beneficio para los turistas, investigadores, estudiantes, y más personas que se interesen por conocer la historia de otros pueblos y los estudios e investigaciones de diferentes partes del mundo.

(24)

Universidad Técnica Particular de Loja

Definición de una Técnica de Representación Universal del Lenguaje

9

A continuación presentamos algunas áreas de las que se encarga la Ingeniería Lingüística:

 Reconocimiento, Captura y Búsqueda de Información.

 Reconocimiento automático del Habla

 Conversión de Texto a Habla, y viceversa.

 Conversión Digital del Habla y Música.

 Traducción.

 Nuevo Métodos de Comunicación: hipervínculos, metalenguajes, etc.

En la Web existen algunas herramientas que nos ayudan a realizar un análisis

dentro de la Ingeniería lingüística. DAEDALUS4 es una empresa dedicada al

desarrollo de productos para la sociedad de la información, Existen algunas herramientas que han desarrollado dentro del área de Tecnologías de la Lengua las cuales nos permiten realizar un análisis morfológico, sintáctico, y semántico las cuales pueden ser integradas para obtener mejores resultados, como:

 Conjugador verbal

 Generador Morfosintáctico

 Etiquetado Morfosintáctico de textos

 Extracción automáticas de resúmenes

La Ingeniería Lingüística tiene un gran impacto en las siguientes áreas:

Competencia en el Mercado: la Ingeniería Lingüística mediante sus herramientas puede mejorar eficazmente diversas actividades en empresas, instituciones educativas, entre otras; reduciendo los costos en estudios, investigación, etc. y generando una mejor economía.

Mejor Información: como se ha mencionado anteriormente esta área se

ha enfocado mucho en la recuperación de información de tal manera que se consiga información más rápida y exacta. Además al poder contar con un multilingüismo se puede tener acceso a estudios que estén más actualizados en diferentes partes del mundo.

4

(25)

Universidad Técnica Particular de Loja

Definición de una Técnica de Representación Universal del Lenguaje

10

Acceso al Mercado: los usuarios tendrán mayor facilidad de acceder al comercio electrónico, así como también podrán contar con rapidez, precisión y seguridad, lo cual le da más confianza al usuario para que se incline por este tipo de comercio.

Mejor Comunicación: con las herramientas y técnicas de la Ingeniería Lingüística la Traducción Automática será de gran calidad, con esto la comunicación entre las personas que hablen múltiple lenguas se facilitará.

Accesibilidad y Participación: la Ingeniería Lingüística permitirá que las personas de bajo nivel educativo también tengan acceso a los servicios informáticos, por medio de la comunicación del habla y las máquinas.

Mejoramiento en la Educación: se mejorará la enseñanza on-line, así como también se prestará mejores métodos de aprendizaje de idiomas.

Diversión, Ocio y Creatividad: este es uno de los ámbitos que más usuarios tiene, y que puede generar grandes ingresos económicos. La facilidad de visitar museos, lugares turísticos, bibliotecas de forma virtual y en el idioma del usuario será de gran interés y diversión.

1.4

LINGÜÍSTICA COMPUTACIONAL

La LC es una rama de la lingüística que se encarga de la elaboración de herramientas que permiten un mejoramiento en las habilidades lingüísticas como hablar, entender, escuchar, traducir las cuales conllevan a un mejor entendimiento y comprensión del lenguaje. Una de las características más

significativas del lenguaje humano es la infinitud discreta, infinita en

combinaciones y discreta en el número de unidades.

(26)

Universidad Técnica Particular de Loja

Definición de una Técnica de Representación Universal del Lenguaje

11

Procesamiento

de Voz Generación de Texto

[image:26.595.163.478.110.346.2]

Procesamiento de Texto LINGÜÍSTICA COMPUTACIONAL Comprensión del Lenguaje Inteligencia Artificial Linguística T A R EA S A N T EC ED EN T ES

Figura 1.1 Antecedentes y áreas de la Lingüística Computacional [4]

(27)

Universidad Técnica Particular de Loja

Definición de una Técnica de Representación Universal del Lenguaje

12

La diferencia entre la LC y la Ingeniería Lingüística radica en que la segunda elabora las herramientas con fines comerciales mientras que las tareas de la LC se llevan no solo en organizaciones privadas sino también en centros educativos.

1.4.1 Áreas de la Lingüística Computacional

Muchos de los aspectos del lenguaje humano pueden ser tratados a través de esta área. Se ha trabajado en el análisis de la sintaxis, la morfología, la pragmática, la semántica, traducción automática. A continuación se describen las áreas en las cuales interviene la LC.

Análisis Morfológico (Tagging): se refiere al análisis de las palabras de una frase, independientemente del resto del texto. Características de palabras como verbos, adverbios, etc. Cuando la Desambiguación no es resuelta en este análisis es necesario corregir estos errores con análisis semántico y sintáctico.

Análisis Sintáctico (Parsing): es un análisis que se realiza a nivel de

oraciones, es más complejo que el análisis morfológico.

Técnicas de Reconocimiento de voz y Conversión de texto a voz.

Recuperación eficaz de información: uno de los principales fines de la

LC es este, recuperar información de manera rápida y efectiva, de tal manera que los contenidos que se recuperen sean precisos.

1.5

ASPECTOS DEL LENGUAJE

Efectivamente, se ha descubierto rasgos que responden a todas las lenguas: reglas universales para la formación de oraciones negativas, rasgos universales de la estructura fonológica (selección de las propiedades fonéticas distintivas), restricciones universales (en estructuras coordinadas), rasgo universal de la jerarquía de los elementos en la oración.

(28)

Universidad Técnica Particular de Loja

Definición de una Técnica de Representación Universal del Lenguaje

13

Se los ha tomado en cuenta para poder sacar alguna característica que nos permita hacer más fácil la traducción de un idioma a otro.

Universales del lenguaje: Se llaman universales del lenguaje a las semejanzas en que coinciden todas las lenguas del mundo o al menos en una gran parte de ellas. Los Universales lingüísticos forman una rama de la Lingüística Teórica. La identificación de estos, se realiza por medio de datos empíricos reunidos a partir de un gran conjunto de lenguas.

Esta rama no tuvo mayor auge, hasta el Siglo XX, en donde gracias a los trabajos de J. Greenberg y Noam Chomsky se retomó el estudio de esta importante rama, pero su análisis estuvo enfocado a las relaciones dentro de su propia lengua.

Los estudios de J. Greenberg se orientan al análisis de los factores psicológicos, funcionales y pragmáticos, y toma en cuenta las habilidades comunes de los seres humanos. Mientras que Noam Chomsky solo se fija en la capacidad de la lengua, sostiene que los universales lingüísticos pueden ser estudiados a partir de un solo idioma.

Algunos universales entran dentro del dominio de la psicolingüística, ya que responden a la relación entre la lengua y el pensamiento; otros tienen que ver con la etnolingüística, ya que dependen de la relación entre la lengua y la cultura. (J.Dubois et al. 1979) Según Eugenio Coseriu, los universales esenciales del lenguaje son: alteridad, semanticidad, materialidad, historicidad y creatividad.

1.6

TECNOLOGÍAS DEL TEXTO ESCRITO

Las tecnologías lingüísticas engloban una serie de técnicas relacionadas con el tratamiento informático del lenguaje, tanto del lenguaje escrito como del lenguaje hablado.

Actualmente la información con la que se cuenta es mucha pero es poca la que se puede recuperar con las búsquedas que se realizan actualmente, ya que estas son ejecutadas en base a comparación de palabras claves e indexaciones y no en base al sentido y la perspectiva de lo que realmente queremos buscar.

(29)

Universidad Técnica Particular de Loja

Definición de una Técnica de Representación Universal del Lenguaje

14

Los analizadores morfológicos: que permiten relacionar las variantes

flexivas de una palabra con su lema y asignan una descripción morfológica a las palabras de los textos.

Los desambiguadores, ante una ambigüedad en el nivel morfológico,

sintáctico o semántico, deciden, a partir de datos estadísticos o sobre la base de reglas lingüísticas, cuál es la interpretación más correcta.

Los analizadores sintácticos: identifican los grupos de palabras que funcionan como un todo, lo que permite identificar las entidades del texto.

Las redes semánticas: organizan el léxico según sus relaciones internas

y permiten etiquetar semánticamente los textos.

Los corpus: etiquetados morfológicamente, sintácticamente y

semánticamente, que se utilizan como fuentes de información para el aprendizaje de los etiquetadores automáticos y como consulta para la búsqueda lingüística. La utilización de corpus va ligada a una serie de procesos como la codificación, el etiquetado y el análisis lingüístico y herramientas como por ejemplo los programas de concordancias que facilitan su uso y explotación.

Lexicones computacionales: guían el proceso de análisis e

interpretación semántica del texto.

Lexicones multilingües: permiten el proceso de traducción automática o

bien ayudan en la traducción manual.

Al usar los recursos citados anteriormente se pretende las siguientes mejoras en las búsquedas de información [5]:

Permiten expresar las búsquedas en lenguaje natural y sin restringirlas a un metalenguaje, normalmente una combinación de palabras clave y operadores booleanos.

Ampliar el espacio de búsqueda mediante la ampliación de la pregunta del usuario incorporando en él sus formas flexivas y las palabras semánticamente relacionadas.

(30)

Universidad Técnica Particular de Loja

Definición de una Técnica de Representación Universal del Lenguaje

15

La creación de estas nuevas tecnologías ha producido un cambio en la economía y en las actividades de las personas encargadas de la traducción, procesamiento de texto, edición de textos, creación de diccionarios, entre otros. Ya que deberían actualizarse en el uso de las nuevas tecnologías de tal manera que se preste un mejor servicio y se ahorre recursos. Además se habla del surgimiento de un nuevo perfil profesional, el cual debe tener conocimientos tanto de lingüística como de computación.

Algunos problemas de la lengua al ser tratada en un sistema informático son:

 La Ambigüedad en todos sus niveles lingüísticos: léxico, semántico,

sintáctico.

 La amplia creatividad del lenguaje.

(31)

Universidad Técnica Particular de Loja

Definición de una Técnica de Representación Universal del Lenguaje

16

2.

CAPITULO

(32)

Universidad Técnica Particular de Loja

Definición de una Técnica de Representación Universal del Lenguaje

17

Las principales características para crear estrategias de estructuración y técnicas para representar la información han sido el agrupar el conocimiento y compartir información, estas técnicas están orientadas a representar la información de manera general de tal forma que se acople a varios formatos y múltiples plataformas.

Por el gran volumen de documentos que actualmente se encuentran alojados en la Web la manejabilidad, búsqueda y por consecuencia el uso de estos es demasiado difícil e incontrolable es por eso que la información no estructurada como documentos de texto, video, audio han sido en estos últimos tiempo objeto de estudios con el fin de estructurar y dar formato a esta información, de tal manera que se vuelva más accesible y más fácil de majear, existen áreas a tratar como manejo de documentos, manejo de contenido WEB, manejo de registros, etc.

En años pasados estas necesidades fueron de un reducido grupo de personas, solamente las personas dedicadas a la investigación sentían la necesidad de compartir y de encontrar información, pero en la actualidad esto ha cambiado, la mayoría de las personas en el mundo tienen esta necesidad, ya que la información es uno de los ingredientes para el desarrollo humano, social y educativo que le permite al hombre crecer y llegar a una plenitud de conocimiento. Se puede decir que hemos evolucionado a la era de la información y como se citó anteriormente sus actividades actualmente están marcadas por el uso de información.

Pero este fenómeno no viene solo, contrae nuevos inconvenientes que surgen por la gran cantidad de información compartida. Algunas de las contrariedades en este tema es la recuperación de información precisa, ya que muchas de las veces los usuarios al realizar una búsqueda no obtienen información que satisfaga sus requerimientos de aquí la necesidad de buscar métodos que permitan devolver al usuario la mejor información posible con respuesta a su consulta, otro punto importante y necesario de analizar a más de la cantidad, es la calidad de información que está subida en la Web ya que no toda la información que allí encontramos es buena.

(33)

Universidad Técnica Particular de Loja

Definición de una Técnica de Representación Universal del Lenguaje

18

solamente a través del lenguaje escrito (texto) sino a mediante imágenes, videos, sonido, etc.

La utilidad de la 3W es indudable, pero las estrategias que se han usado para representar la información en este escenario se derivan de los viejos esquemas de clasificaciones excluyentes y por tanto el usuario cuando demanda una información concerniente al área de su realización personal o profesional es invadido por mil registros de recursos de información que pueden o no contener lo que el busca.

El creador de internet Tim Berners-Lee, cuando creó la 3W por 1989 pensó en crear una red de recursos que nos permitiera programar agentes que navegaran la infinitud de sitios pudiendo obtener la información que necesitamos sin tener que indicarle de donde obtenerla o que significado debe tener cada recurso, transformando finalmente esa información a un formato que sea fácilmente entendible por todos los usuarios. Esa Web, que aún se encuentra en una fase de

desarrollo, es lo que se conoce como la Web Semántica.

La Web Semántica

Según definición de Tim Berners-Lee: La Web Semántica es una extensión de la

Web actual en la cual se dota a la información de significado bien definido para que tanto personas como ordenadores puedan trabajar cooperativamente . De

esta manera se usará la misma infraestructura tecnológica de la web actual, solo que a la información se le añadirá algunos elementos para poder resaltar el sentido semántico de la información y con esto efectivizar las búsquedas, esta es la diferencia con la Web actual, ya que esta solo dota a la información de ciertas etiquetas que lo único que hacen es determinar como la información se va a presentar en el navegador, pero no toman en cuenta nada sobre su semántica. Con esto la confianza de los usuarios se robustecerá ya que existirá fiabilidad y credibilidad en la información que ellos obtengan de la Web.

Lo que se pretende con la Web Semántica es que los datos puedan ser utilizados y comprendidos correctamente por los computadores sin la necesidad de la manipulación de un ser humano, por ejemplo el significado de un término solo

(34)

Universidad Técnica Particular de Loja

Definición de una Técnica de Representación Universal del Lenguaje

19

Las siguientes técnicas ayudan a crear nuevas representaciones de la información e incorporan semántica a los entornos web, lo que permite mejorar el tratamiento y posterior recuperación de la misma en términos de efectividad, rapidez y facilidad de acceso a la información:

2.1

REDES SEMÁNTICAS

Para poder reutilizar la información de debe de realizar una representación que no es más que estructurar la información concerniente a un dominio de tal manera que se facilite su almacenamiento y búsqueda.

Las redes semánticas tienen su fundamento en el concepto de memoria asociativa, en donde el conocimiento se estructura mediante asociaciones entre conceptos, al igual que las actuales formas de representar el conocimiento estas usan los nodos para representar los conceptos, atributos, estados o eventos (solo tienen un solo nodo padre) al cual se le asignan uno o más nodos hijos y los arcos para representar las relaciones entre estos; además se definen un conjunto de procedimientos de inferencia que operan sobre la estructura de datos.

Quillian es a quien se le atribuye el título de precursor de las redes semánticas en la inteligencia artificial en 1968 por el desarrollo del sistema sobre significados de palabras. Como primer trabajo con redes semánticas se tuvo el proyecto NUDE, red semántica que fue creada por Richens en 1956 que tenía como función servir de interlingua para la traducción automática del ruso al inglés. Otro proyecto fue la red semántica T, desarrollada por Masterman, se usó un tesauro para la organización de conceptos.

Existen varios tipos de redes semánticas con sus propias características las cuales las diferencian unas de otras, un trabajo comparativo entre estas podemos encontrar en [6].

(35)

Universidad Técnica Particular de Loja

Definición de una Técnica de Representación Universal del Lenguaje

20

pueden integrar esos nodos o palabras para armar una oración, un concepto, una idea, un pensamiento, conocimiento simple o complejo.

2.1.1 Categorías de Redes Semánticas

A continuación describimos los tipos de Redes Semánticas según se presentan en [6], junto a sus características:

Redes Is – As: es el tipo de red semántica por excelencia, se representa como una jerarquía semántica en donde su espina dorsal la constituye un conjunto de enlaces de herencia entre nodos los cuales están etiquetados, los nodos ubicados en el último nivel de la jerarquía se refieren a objetos específicos y son conocidos como instancias. Referente al tipo de nodo que enlazan las relaciones se puede distinguir dos tipo de enlaces: Los que enlazan categorías con otras categorías las cuales expresan relaciones de conjunto, subconjunto, generalización, especificación, etc. y los que enlazan categorías con individuos las cuales expresan relaciones de pertenencia, conjunto, predicación, contenido conceptual y abstracción. Este tipo de redes tienen también algunas desventajas, una vez que se ha escogido los nodos de la estructura jerárquica es muy difícil cambiarlos, por lo que se debe presentar total cuidado en la fase de análisis para realizar una elección correcta de nodos y arcos, dificultad para representar cuantificación por ejemplo en

el caso de que se quiera representar: Algunos cantantes son escritores de canciones , dificultad para representar dimensión intencional como:

María piensa que Juan está en casa .

Redes Marco (frame): un frame es una red ordenada de nodos en donde

(36)

Universidad Técnica Particular de Loja

Definición de una Técnica de Representación Universal del Lenguaje

21

Grafos Conceptuales: este tipo de red fue propuesto por Sowa (1984), es estos grafos los arcos no están etiquetados como es el caso de las red Is-As, y por sus nodos se considera un grafo bipartito, que pueden ser de dos tipos diferentes: de Concepto que representan entidades, estados, procesos y de Relación que especifican como se relacionan los nodos de conceptos, son quienes realizan el enlaces entre las entidades [7]. Los grafos conceptuales tienen una base de conocimiento la cual define las restricciones semánticas y conocimiento acerca de dominio que describen. Sowa utiliza notación lineal y de diagramas para crear un grafo conceptual, realiza análisis del lenguaje y mediante este hacer representación del lenguaje natural, representación semántica de frases. Las áreas en las que pueden ser aplicados los Grafos Conceptuales son: Recuperación de Información, Diseño de Bases de Datos, Procesamiento de Lenguaje natural, Sistemas Expertos, entre otros.

2.2

TAXONOMÍAS

La información permite conocer lo que está ocurriendo y lo que puede acontecer en un futuro, por lo que constituye un elemento esencial para la operación, planificación, control y evaluación de las actividades de cualquier organización.

(37)

Universidad Técnica Particular de Loja

Definición de una Técnica de Representación Universal del Lenguaje

22

El desarrollo de esta manera de organizar el conocimiento tuvo sus inicios en el siglo XVII, y fue en el siglo XIX en donde tuvo su más alto grado de estructuración y auge. Las taxonomías han servido para poder estructurar la información lo cual en la actualidad se constituye como el principal capital de conocimiento de una empresa y además su distribución rápida y eficaz es necesario para el éxito de esta. Al igual que todas la demás técnicas de estructuración de la información y el conocimiento las taxonomías están orientadas a organizar, administrar, permitir mejor manejabilidad y proveen una estructura navegacional de la información de una empresa o dominio con lo cual se agregará una ventaja competitiva a las empresas, por el hecho de que esas podrán compartir conocimiento y además aprender y mejorar su organización.

Las ventajas de usar una taxonomía son: facilitan la recuperación de una manera flexible, tienen una estructura más simple que otras alternativas (tesauros, ontologías), agilizan la clasificación y pueden incorporar contenidos desde un tesauro o desde una ontología. Como desventaja tenemos que las taxonomías estructuradas hasta ahora en forma de árbol resultan demasiado limitadas, pues no permiten representar clasificaciones complejas, en donde una categoría puede tener más de un padre [10].

En PLN este tipo de estructuración del conocimiento es también usada, para poder modelar la clasificación, especificación y generalización de las categorías semánticas, que sirven como una base sólida para el PLN ayudando a resolver la ambigüedad de palabras y sirviendo como guía para realizar una elección léxica o selección se estructuras lingüísticas [11].

Las ciencias de la computación ha podido computar la estructura que nos presentan las taxonomías.

Componentes de una taxonomía:

Las taxonomías tienen cuatro componentes principales, que se detalla a continuación:

Categorías: son los nodos que representan los conceptos generales del dominio que se esté tratando, por lo general constituyen los nodos padre.

(38)

Universidad Técnica Particular de Loja

Definición de una Técnica de Representación Universal del Lenguaje

23

heredan las características de sus nodos padres. Estas pueden tener más sub categorías.

Términos Relacionados: conceptos relacionados con el contexto que se está tratando, estos también nos permiten crear relaciones o conexiones cruzadas.

2.2.1 Tipos de Taxonomías:

Pueden ser visibles al usuario o simplemente actuar como soporte de un sistema informático, sin que el usuario note que está usando una de ellas.

Taxonomías Múltiples: jerarquías cognitivas que proporcionan al usuario una meta información, lo cual les permite una accesibilidad, conocimiento y aprendizaje de temas que pueden ayudar a la madurez y crecimiento de una empresa.

Taxonomías Corporativas: estructura organizada de los contenidos de una organización, que van a ser usados por la audiencia5 para realizar

tareas y actividades puntuales. Se desarrollan de manera específica para

una organización en particular tomando en cuenta sus características y objetivos. Para crear una taxonomía de este tipo se debe tener en cuenta o revisar tres tipos de análisis; Análisis del Contexto en el cual se obtiene una definición del entorno corporativo que abarca objetivos, tipología de la organización, áreas, misión, políticas, organigramas, etc. Análisis de la Audiencia en el cual se identifica el tipo de usuarios que a los cuales va dirigida la taxonomía, las necesidades de estos, habilidades y comportamientos frente a la recuperación de información, lo que desean o esperan en cuanto a contenidos; y finalmente un Análisis de los Contenidos que abarca los contenidos y relaciones que alimentarán a la taxonomía, para cada unidad de contenido se debe identificar o determinar atributos, metadatos, características que permitan diferenciarla. [12]

Taxonomía Subject: se encargan de ordenar jerárquicamente de lo general a lo más específico un tema en particular, es como un diccionario que ordena alfabéticamente los conceptos. El usuario debe conocer el tema, para que tenga un indicio de cómo o por donde buscar lo que necesita [13].

5

(39)

Universidad Técnica Particular de Loja

Definición de una Técnica de Representación Universal del Lenguaje

24

Taxonomía business – Unit: este tipo de taxonomía está dirigido a describir el organigrama de una empresa, organización o institución. Esta taxonomía nos permite entender y tener una visión del esquema general de una empresa.

Taxonomía Funcional: con este tipo se representa jerárquicamente las funciones, las actividades y las tareas realizadas por una organización de negocios. Las funciones van ubicadas en el nivel más alto de la jerarquía, en el segundo nivel se especifican todas las actividades y en el nivel más bajo se especifican las tareas, registros o resultado de las actividades realizadas [13].

2.2.2 Ejemplos de Taxonomías:

 AEAweb6 American Economic Association creó el Sistema de

Clasificación Journal of Economic Literature (JEL) que consiste en una taxonomía que facilita la clasificación de artículos, libros, disertaciones y archivos publicados por esta revista, por su gran uso se ha convertido en un estándar de clasificación en la economía. Jerárquicamente consta de 3 niveles, organizados en 20 categorías principales, y tiene subcategorías. [14]

SemioTaxonomy: taxonomía de Marketing, su creador es Claude Voger, combina las técnicas de análisis lingüístico y las estadísticas de clusteirng para categorizar y estructurar automáticamente información basada en texto, lo cual permite tener un acceso inteligente a la información mediante un navegador.

OSEL7 Taxonomy para clasifiacion de OA: esta taxonomía se creó para la administración del repositorio de objetos de aprendizaje que pueden ser usados en la plataforma Learning Content Management Systems (LCMS), es un proyecto financiado por el Departamento de Estadística de la Universidad de Bari [15].

6 American Economic Association: http://www.aea-web.org

7 Convertini, V.N, Albanese, D., Marengo, A., Marengo, V. y Scalera, M. (2006). The OSEL

(40)

Universidad Técnica Particular de Loja

Definición de una Técnica de Representación Universal del Lenguaje

25

 Muestra del módulo de creación y gestión de taxonomías de Wordmap

Taxonomy Management8 usa sistemas de clasificación como taxonomía para cargar y alojar documentos. Convierte los documentos complejos y difíciles de encontrar en documentos manejables y accesibles para los usuarios.

2.3

METADATOS

La creación de los metadatos surgió mucho antes que el internet, pero es en este momento en el que los metadatos están en auge, el motivo es que por el gran crecimiento de internet se ha facilitado y aumentado la compartición de información lo que ha generado la creación de revistas electrónicas, bibliotecas electrónicas y en general digitalización de muchos documentos. Los metadatos mejoran y optimizan la recuperación de información ya que: facilitan búsquedas basadas en campo, permiten indización de objetos no textuales. Además los metadatos poseen una información estándar que es más fácil manejar.

Los Metadatos son contenedores de información semántica sobre los datos, o conocidos más comúnmente como datos sobre los datos que se definen como información estructurada y que pueden ser procesados automáticamente.

Un registro de metadatos es un conjunto de elementos que describen e identifican a un recurso el cual contiene información, por ejemplo el recurso sería un libro, y los metadatos que describen a este elemento serían: el autor, el título, número de páginas, fecha de creación, etc. La relación que existe entre el registro de metadatos y el recurso al cual pretenden describir puede darse de dos maneras: Los metadatos pueden estar separados del recurso, por ejemplo el registro de libros en una biblioteca, y la segunda manera se refiere a que los metadatos están incluidos en los recursos, como los datos de un artículo. Los recursos u objetos de información a los cuales se aplican los metadatos tienen las siguientes características:

Contenido: quién, cómo, cuándo, par que fueron creados.

Contexto: sobre que es el objeto, que contiene.

(41)

Universidad Técnica Particular de Loja

Definición de una Técnica de Representación Universal del Lenguaje

26

Estructura: conjunto de relaciones dentro o fuera del objeto.

Los metadatos tienen tres funciones básicas: proporcionar descripción de un objeto o recurso por medio de otra información necesaria para su identificación y manejo, proporcionar el acceso a los recursos, y codificar la información que describe al objeto de tal manera que sea manejable por medios automatizados. Todos los conjuntos de metadatos existentes siguen la norma SGML (Standard Generalized Markup Language) Estándar internacional desde 1986 (ISO 8879).

Las ventajas de manejar sistemas basados en metadatos son: hacer flexible y extensible el sistema, permite agregar y extender fácilmente la integración de nuevos recursos, es una técnica ampliamente aceptada y con grandes resultados no solo en el ámbito bibliotecario sino en diversos sistemas de búsqueda, es menos costoso de crear, manejar y mantener. Como una desventaja podemos mencionar la existencia de varios estándares de metadatos lo cual impide la estandarización e interoperabilidad de los sistemas que manejan metadatos.

2.3.1 Características de los Metadatos:

Flexibilidad: determinada por la cantidad y contenido de los datos, depende también del estándar que se aplique.

Extensibilidad: facilidad para agregar nuevos elementos, y nuevos perfiles.

Semántica: semántica del esquema referente al número y tipo de datos que se aplique a cada elemento, y semántica del contenido para obtener información precisa.

Sintaxis: reglas especificas y adecuadas para la búsqueda y

recuperación, su complejidad está ligada al lenguaje de codificación html, xml, marc, sgml, etc.

Estructura: arquitectura del contenido de un registro de metadatos que va a facilitar su transmisión y uso. Se puede elegir entre una variedad de estructuras RDF, METS, etc.

2.3.2 Tipos de Metadatos:

(42)

Universidad Técnica Particular de Loja

Definición de una Técnica de Representación Universal del Lenguaje

27

Descriptivo: su función es describir e identificar la información del recurso, proporcionan ayuda en la búsqueda y responden a preguntas como: ¿Cuál es el tema de este documento? ¿Quiénes son los autores? ¿En qué fecha fue publicado?

Técnico: facilitan la presentación de la estructura interna del recurso. Permiten saber si el recurso es un libro, un artículo ó una revista, en cuantas secciones ó capítulos está dividido.

2.3.3 Modelos de Metadatos:

Existe una variedad de metadatos [16], a continuación detallamos los más importantes:

Learning Object Metadata (LOM)9

Este estándar fue aprobado en junio del 2002, y es patrocinado por el Comité de estandarización de Tecnologías Educativas del IEEE. LOM considerado como el mejor estándar de metadatos para objetos Educativos por lo que es muy utilizado en los repositorios de Objetos de Aprendizaje. Define múltiples características, definiciones y atributos los cuales están relacionados de forma jerárquica.

Para cada uno de los elementos ubicados en algún nivel de la jerarquía se debe definir lo siguiente: definición, tipo de datos, valores, y multiplicidad en caso de permitirla.

Como dijimos LOM se estructura como una jerarquía de árbol, en donde el nodo raíz corresponde al nombre del documento. En el siguiente nivel encontramos elementos, que pueden contener a su vez otros sub-elementos. A los elementos terminales se les llama hojas y a los intermedios, ramas. Para cada elemento en la jerarquía se especifica la definición, el tipo de datos, los valores permitidos y si se permite multiplicidad o no. Tratan, principalmente, de describir el contenido y la localización del objeto de la información en Internet.

(43)

Universidad Técnica Particular de Loja

Definición de una Técnica de Representación Universal del Lenguaje

28

Se distinguen 9 categorías de metadatos diferentes, que podemos ver en Anexo A.

Dublin Core Metadata Initiative (DCMI)10

La iniciativa de crear DCMI surgió en 1995, al reunirse NCSA (National

Center for Supercomputing Applications), OCLC (Online Computer

Library Center) y representantes de la IETF en una convención que tuvo lugar en Dublín, Ohio (USA), de donde de tomó su nombre; surgió como necesidad de los bibliotecarios de definir estándares que permitieran describir recursos informáticos y facilitar su recuperación. La idea nació para un uso educativo por lo que es el Metadato más utilizado para estructurar información en las bibliotecas digitales, pero luego se fueron interesando proveedores de información representantes de otras áreas como la administración, el arte, las ciencias, los negocios esto debido a su simplicidad y potencia, adaptación a cualquier dominio y por ser aplicable a cualquier tipo de recursos. Con el tiempo se ha incrementado la utilización de Dublin Core en Internet, lo que fue una de las razones por las cuales se estudió la posibilidad de aprobarlo como norma ISO, lo que sucedió en el año 2003, cuando se aprobó como la norma ISO 15836.

Estos metadatos presentan características importantes como: facilidad de uso, reconocimiento internacional, se puede usar con lenguajes

estructurados como HTML, XML, RDF. DCMI trata de ubicar dentro de

Internet, los datos necesarios para describir, identificar, procesar, encontrar y recuperar un documento introducido en la red. [17]

En un inicio estuvo formado por 13 elementos que permitían describir un recurso electrónico, pero hasta la actualidad gracias a varias modificaciones que se han realizado se cuenta con 15 elementos, los mismos que son opcionales y repetibles. Ver Anexo B.

10

(44)

Universidad Técnica Particular de Loja

Definición de una Técnica de Representación Universal del Lenguaje

29

Instructional Management System (IMS)11

Este es uno de los metadatos más consolidados, el cuál más que un metadato es un estándar que reúne varias especificaciones que indican como estructurar la información que contienen los Objetos de Aprendizaje, los cuales son muy utilizados en el ámbito educacional. Además por su valiosa aportación estas especificaciones han servido de base para nuevos estándares y creación de nuevos metadatos.

IMS desarrollado por Global Learning Consortium junto con SCORM que es otra especificación de metadatos, son los más importantes promotores y desarrolladores de estándares que están teniendo mayor repercusión en e-learning.

Cada una de las especificaciones que se detallan en IMS, están organizadas de la siguiente manera: contienen una guía de implementación, este documento es el primero que se debe leer antes de su uso ya que contiene aspectos generales, relación con otras especificaciones, forma de uso y ayuda complementaria. Un modelo de información en el cual se describe de manera más formal los elementos que la componen y su estructuración. Y por último un documento de Enlace, que representa la estructura de datos de XML, el cual nos permite validar la estructura de un documento que hayamos creado.

El objetivo de IMS es definir especificaciones que hagan posible la interoperabilidad de aplicaciones y servicios de enseñanza distribuida. A continuación describimos algunas de las especificaciones más importantes12:

IMS LD (Learning Design): esta especificación nació en base a otra llamada IMS Educational Model Language. Se maneja un nuevo concepto que es la unidad de aprendizaje, lo cual permite adicionar al objeto de aprendizaje detalles como las actividades en los cuales están implicados.

IMS CP (Content Packaging): esta especificación permite

formalizar los contenidos reutilizable e intercambiables

11 IMS Global Learning Consortiun: http://www.imsproject.org

(45)

Universidad Técnica Particular de Loja

Definición de una Técnica de Representación Universal del Lenguaje

30

(exámenes, resúmenes), lo que hace es comprimir (en un archivo .zip) el contenido de un objeto educativo para que pueda ser procesado por otro sistema. La estructura del contenido del

objeto se especifica en un archivo XML llamado manifiesto, en este

archivo se describe tanto la descripción de los recursos como el detalle de cada uno de estos.

IMS Question & Test interoperability: esta especificación nos presenta una estructura o formato básico de cómo representar cierta información, un ejemplo en donde podríamos usar esta especificación es en los exámenes en línea, ya que se plantea un banco de preguntas que tienen su formato como también su respectiva puntuación

 Otras especificaciones: IMS RLI (Resource List Interoperability),

AccessForAll Meta-data, IMS EIM (Enterprise Information Model), IMS VDEX (Vocabulary Definition and Exchange), IMS SS 2002

(SimpleSequencing)

Text Encoding Initiative (TEI)13

TEI es un estándar internacional e interdisciplinario para editoriales, bibliotecas, escritores para la representación de texto en digital. Este proyecto fue iniciado en 1987, en el 2000 se crear el TEI Consortium el cual está conformado por las siguientes asociaciones ACH (The Association for Computers and the Humanities), ACL (The Association for Computational Linguistics), ALLC (The Association for Literary and Linguistic Computing), consorcio sin fines de lucro dedicado al desarrollo y mantenimiento de este estándar. Es uno de los estándares más antiguo y más complejo, proviene del ámbito de la lingüística y para su creación se necesito de la experiencia de bibliotecarios como de otros usuarios manejadores de información [18].

Este estándar tiene como fin buscar un sistema que permita a los investigadores que manejan información sobre lengua, literatura, dedicados a las bibliotecas, editoriales o manejo de cualquier otra

(46)

Universidad Técnica Particular de Loja

Definición de una Técnica de Representación Universal del Lenguaje

31

información electrónica, intercambiar y reutilizar recursos

independientes de la localización, hardware o software que usen. La complejidad de usar este estándar depende de la cantidad de información y el nivel de normalización que se requiera, además se debe analizar que partes del esquema se van a utilizar dependiendo de la mejor adaptación para lo que se esté usando.

Este estándar maneja una cabecera necesaria para todos los textos, la cual maneja texto que describe y permite un control bibliográfico, esta puede ir junto al documento o separada de él, y mostrar menor o mayor detalle esto depende de la adaptación que el usuario haga y necesite. Información de cabecera:

Descripción del archivo: descripción bibliográfica del texto.

Descripción Codificada: elementos sobre las características de codificación del texto.

Descripción de Perfil: información adicional como idioma, colaboradores, etc.

Descripción de Revisiones: registro de los cambios realizados, versión, fecha.

Metadata Encoding & Transmission Standard (METS)

METS es una iniciativa de la Federación de Biblioteca Digital14, creada

bajo un formato XML que permite crear los metadatos para gestionar objetos digitales y su intercambio entre repositorios. Una especificación METS, consta de siete secciones, Ver Anexo C.

Metadata Object Description Schema (MODS)15

MODS tiene el mismo objetivo de DC, pero es creado para superar algunos inconvenientes encontrados en el DC, este proyecto ha sido

14 Digital Library Federation: http://www.diglib.org/

(47)

Universidad Técnica Particular de Loja

Definición de una Técnica de Representación Universal del Lenguaje

32

desarrollado por la Oficina de Desarrollo de Redes y Normas MARC de la biblioteca del Congreso (LC) y toma como base aspectos especiales del estándar MARC [19].

MODS es un esquema codificado en XML lo que lo hace más flexible que MARC, permite crear nuevo registros a partir de los de MARC21. MODS cuenta con un conjunto de 20 elementos (elementos de primer nivel), subelementos y atributos los cuales son opcionales y repetibles, algunos de estos son derivados del MARC21, además todos los elementos tienen un equivalente para este metadato.

Utiliza etiquetas textuales en vez de numéricas lo que mejora la comprensión de las personas:

Opción: los elementos y atributos con opcionales.

Repetición: los elementos son repetibles y los atributos no son repetibles.

Subcampos: pueden contener subelementos o atributos.

Control: algunos elementos permiten registrar las herramientas que permitan controlar sus valores.

Elementos de primer nivel: Título, nombre, tipo de recurso, información origina, género, lenguaje, descripción física, tabla de contenidos, abstract, tabla de contenido, notas, identificador, localización, entre otros. La primera versión fue publicada en el 2001 actualmente se maneja la versión 3.4.

Sharable Content Object Reference Model (SCORM)

Advance Distributed Learning (ADL)16 es la organización que trabaja en

el desarrollo de este metadato en base de las especificaciones creadas por otras organizaciones ARIADNE, AICC, LTSC, IMS. La primera versión fue liberada como Versión 1.0, la última es la 1.3 liberada en el 2004.

Figure

Tabla 1.1 Distribución de Idiomas por Continente [1]
Figura 1.1 Antecedentes y áreas de la Lingüística Computacional [4]
Figura 3.1 Arquitectura Lor@, Ontología Interlingua [22].
Figura 3.2 Arquitectura de la TA basada en Interlingua [29].
+7

Referencias

Documento similar

Un examen detenido del artículo 149, i, que enumera las compe- tencias exclusivas del Estado, nos enseña la diversa terminología que se emplea para referirse a aquellos supuestos en

La combinación, de acuerdo con el SEG, de ambos estudios, validez y fiabilidad (esto es, el estudio de los criterios de realidad en la declaración), verificada la

Gastos derivados de la recaudación de los derechos económicos de la entidad local o de sus organis- mos autónomos cuando aquélla se efectúe por otras enti- dades locales o

Sabemos que, normalmente, las ​cookies deben ser almacenadas y enviadas de vuelta al servidor sin modificar; sin embargo existe la posibilidad de que un atacante

Entre los numerosos ejemplos podemos citar los de Guiomar de Castro, que en 1465 casó con don Pedro Manrique, conde de Treviño; Catalina Saravia, criada de Isabel de Portugal, que

o Si dispone en su establecimiento de alguna silla de ruedas Jazz S50 o 708D cuyo nº de serie figura en el anexo 1 de esta nota informativa, consulte la nota de aviso de la

Se indica, tanto en el hombre como en la mujer, en el tratamiento de las siguientes infecciones de transmisión sexual: infecciones genitales no complicadas debidas a

En un ensayo clínico (EC) fase III, para evaluar la eficacia y seguridad del Surfacen® en el tratamiento del síndrome de distrés respiratorio agudo (SDRA) en edades