Complutense University Library

Uso de grafos semánticos en la generación automática de resúmenes y estudio de su aplicación en distintos dominios: biomedicina, periodismo y turismo

Plaza Morales, Laura (2011) Uso de grafos semánticos en la generación automática de resúmenes y estudio de su aplicación en distintos dominios: biomedicina, periodismo y turismo. Tesis PhD.

[img]
Preview
PDF
3MB
View download statistics for this eprint

==>>> Export to other formats

Abstract

En la sociedad en la que vivimos, la información se ha convertido en un bien necesario, a la vez que altamente cotizado, que nos acompaña en todas y cada una de nuestras actividades sociales, culturales y económicas cotidianas.
Sin embargo, el crecimiento exponencial de la información a nuestro alcance se presenta como una amenaza a su uso efectivo para la formación de conocimiento,ya que, si bien la disponibilidad de esta información parece estar
garantizada, no ocurre lo mismo con el tiempo necesario para procesarla.
La Generación Automática de Resúmenes (GAR) trata, en cierta medida, de paliar los efectos negativos de la sobrecarga de información sobre la capacidad de los usuarios para obtener aquella que realmente les interesa y
transformarla en conocimiento. Los resúmenes generados automáticamente pueden utilizarse como sustitutos de los documentos originales o simplemente como referencia en la selección de documentos para una lectura más profunda. Más aún, resultan de gran utilidad como paso intermedio en otras
tareas de Procesamiento de Lenguaje Natural (PLN).
La generación de resúmenes es una de las tareas más complejas de las encuadradas dentro de la más amplia disciplina del PLN, debido a la gran cantidad de otras tareas que implícitamente conlleva, como la detección de
temas, la desambiguación léxica, la resolución de referencias, la simplificación de oraciones o la eliminación de redundancia. Si bien casi todas ellas
han sido ampliamente estudiadas en la literatura, en el momento de escribir esta memoria no se conoce ningún trabajo que analice el efecto de la ambigüedad en el texto a resumir sobre la calidad de los resúmenes generados automáticamente. Es por ello que en esta tesis doctoral se presta especial atención a la resolución de ambigüedades como un paso previo a la generación del resumen. Tal y como demuestran los resultados, la ambigüedad repercute negativamente en la generación automática de resúmenes, de tal modo que es posible mejorar significativamente la calidad de los resultados mediante el uso de los algoritmos apropiados de desambiguación léxica.
El trabajo se completa con tres casos de estudio en los que el método diseñado se configura y utiliza para generar distintos tipos de resúmenes de textos de diferentes dominios y con unas características de estructura y estilo muy dispares: artículos científicos de biomedicina, noticias periodísticas y páginas web de información turística. Los resúmenes generados son evaluados utilizando las métricas ROUGE y los criterios de legibilidad adoptados en las Document Understanding Conferences, y se comparan con
los generados por otros sistemas automáticos y con los elaborados por seres humanos. Los resultados corroboran la adecuación del método propuesto a la tarea que nos ocupa.[ABSTRACT]
In recent years, with the increasing publication of online information, providing mechanisms to facilitate finding and presenting textual information has become a critical issue. New technologies, such as high-speed networks and massive storage, are supposed to improve work efficiency by assuring the availability of data everywhere at anytime. However, the exorbitant volume of data available threatens to undermine the convenience of information if no effective access technologies are provided. In this context, automatic text summarization may undoubtedly help to optimize the treatment of electronic documentation and to tailor it to the needs of users.
Automatic summarization is one of the most complex Natural Language Processing (NLP) tasks, and this is due to the number of other tasks that implicitly entails, such as topic detection, word sense disambiguation, anaphoric resolution, acronym expansion, sentence simplification and redundancy detection. In particular, this thesis studies a crucial issue that has been previously unexplored, as is the effect of lexical ambiguity in the knowledge source on semantic approaches to summarization, and demonstrates
that using word sense disambiguation techniques leads to an improvement in summarization performance.
A controversial decision when designing a summarization system is whether it should be general (i.e. able to produce summaries for any type of document) or whether it should be changed by text types (i.e. be specific to
documents of a given genre and structure). The advantage of the former is obvious, but the latter strategy has proved to be more effective and capable of improving the quality of the summaries. The main contribution of this thesis is the development of a generic summarization method that combines the advantages of both approaches, by taking into account the structure, genre and domain of the document to be summarized, but is easily configurable to work with new types of documents. The method proposed addresses the problem of identifying salient sentences in a document by representing the text as a semantic graph, using concepts and relations from a knowledge source. This way it gets a richer representation than the one provided by traditional models based on terms. A degree-based clustering algorithm
is then used to discover different themes or topics within the text. Different heuristics for sentence selection aiming to generate different types of summaries are tested.
The thesis also presents three case studies, in which the summarizer has been configured and used to generate summaries of texts from different domains and with very distinct structure and style: biomedical scientific
articles, news items and tourism-related websites. The system is evaluated using the ROUGE metrics and the legibility criteria followed in the DUC conferences. It has been found that it compares favorably with existing approaches.

Item Type:Thesis (PhD)
Additional Information:Tesis de la Universidad Complutense de Madrid, Facultad de Informática, Departamento de Ingeniería del Software e Inteligencia Artificial, leída el 18-02-2011
Directors:
DirectorsDirector email
Díaz Esteban, AlbertoUNSPECIFIED
Uncontrolled Keywords:Generación automática de resúmenes, Grafos semánticos, Desambiguación léxica
Subjects:Sciences > Computer science > Artificial intelligence
Sciences > Computer science > Programming languages (Electronic computers)
ID Code:12662
Deposited On:04 May 2011 14:06
Last Modified:06 Feb 2014 09:29

Repository Staff Only: item control page