Universidad Complutense de Madrid
E-Prints Complutense

Content filtering and enrichment using triplets for text generation

Impacto

Downloads

Downloads per month over past year



Rodríguez Ferreira, Teresa (2016) Content filtering and enrichment using triplets for text generation. [Trabajo Fin de Máster]

[img]
Preview
PDF
2MB


Abstract

Existe una cantidad enorme de información en Internet acerca de incontables temas, y cada día esta información se expande más y más. En teoría, los programas informáticos podrían beneficiarse de esta gran cantidad de información disponible para establecer nuevas conexiones entre conceptos, pero esta información a menudo aparece en formatos no estructurados como texto en lenguaje natural. Por esta razón, es muy importante conseguir obtener automáticamente información de fuentes de diferentes tipos, procesarla, filtrarla y enriquecerla, para lograr maximizar el conocimiento que podemos obtener de Internet.
Este proyecto consta de dos partes diferentes. En la primera se explora el filtrado de información. La entrada del sistema consiste en una serie de tripletas proporcionadas por la Universidad de Coimbra (ellos obtuvieron las tripletas mediante un proceso de extracción de información a partir de texto en lenguaje natural). Sin embargo, debido a la complejidad de la tarea de extracción, algunas de las tripletas son de dudosa calidad y necesitan pasar por un proceso de filtrado. Dadas estas tripletas acerca de un tema concreto, la entrada será estudiada para averiguar qué información es relevante al tema y qué información debe ser descartada. Para ello, la entrada será comparada con una fuente de conocimiento online.
En la segunda parte de este proyecto, se explora el enriquecimiento de información. Se emplean diferentes fuentes de texto online escritas en lenguaje natural (en inglés) y se extrae información de ellas que pueda ser relevante al tema especificado. Algunas de estas fuentes de conocimiento están escritas en inglés común, y otras están escritas en inglés simple, un subconjunto controlado del lenguaje que consta de vocabulario reducido y estructuras sintácticas más simples. Se estudia cómo esto afecta a la calidad de las tripletas extraídas, y si la información obtenida de fuentes escritas en inglés simple es de una calidad superior a aquella extraída de fuentes en inglés común.

Resumen (otros idiomas)

There is an extremely large amount of information on the Internet about almost every topic, and every day this information is constantly expanding. Theoretically, computer programs could benefit from this huge source of information in order to establish new connections between concepts, but this information often appears in unstructured formats such as plain text. For this reason it is very important to be able to automatically obtain this information, process it, filter it and enrich it with data from different sources, in order to maximise the knowledge that we can obtain from the Internet. This project presents two different parts. In the first one information filtering is explored. The system’s input consists in a series of triplets provided by the University of Coimbra (they in turn obtained them through a process of information extraction from natural language text). However, due to the complexity of this extraction task, some of the triplets are of questionable quality, and they must undergo a filtering process. Given this set of triplets about a specific topic, the input will be studied to find out which information is relevant to the subject and which information should be discarded. In order to do this, the input provided will be compared to an online knowledge base. In the second part of this project, information enrichment is explored. Several online text sources written in natural language are use and information is extracted from them that could be relevant to the desired topic. Some of these text sources are written in common English and some in Basic English, a controlled subset of the language which has a reduced vocabulary and simpler sentence structures. The way in which this affects the quality of the triplets extracted is studied, and whether information retrieved from sources written in Basic English has a higher quality than that extracted from texts in common English.

Item Type:Trabajo Fin de Máster
Additional Information:

Máster en Ingeniería Informática, Facultad de Informática, Departamento de Ingeniería del Software e Inteligencia Artificial, curso 2015-2016

Directors:
DirectorsDirector email
Méndez Pozo, Gonzalo
Hervás Ballesteros, Raquel
Uncontrolled Keywords:Extracción de información, Inglés simple, Tripletas, Filtrado de información, Enriquecimiento de información
Palabras clave (otros idiomas):Information extraction, Basic English, Triplets, Information filtering, Information enrichment viii
Subjects:Sciences > Computer science
Sciences > Computer science > Internet
Título del Máster:Máster en Ingeniería Informática
ID Code:38643
Deposited On:28 Jul 2016 11:31
Last Modified:28 Jul 2016 11:31

Origin of downloads

Repository Staff Only: item control page