Publication:
Expresiones de referencia y figuras retóricas para la distinción y descripción de entidades en discursos generados automáticamente

Loading...
Thumbnail Image
Official URL
Full text at PDC
Publication Date
2009-11-23
Advisors (or tutors)
Editors
Journal Title
Journal ISSN
Volume Title
Publisher
Universidad Complutense de Madrid.|b
Citations
Google Scholar
Research Projects
Organizational Units
Journal Issue
Abstract
El campo de la interacción hombre-máquina ha ido evolucionando rápidamente en los últimos años, convirtiéndose en un elemento fundamental de cualquier sistema informático. Si un sistema es capaz de comunicarse con un ser humano mediante interacciones que a éste le resulten naturales y amigables (voz, imágenes, etc.), el usuario será mucho más perceptivo hacia la información que está recibiendo y tendrá más confianza en la aplicación. En este sentido, un campo fundamental dentro de la interacción hombre máquina es el de la Generación de Lenguaje Natural (GLN), un subcampo de la Inteligencia Artificial y la Lingüística Computacional que se encarga del diseño e implementación de sistemas que producen textos comprensibles en lenguajes humanos. Entre todos los problemas que se deben resolver para que el proceso completo de generación resulte satisfactorio, se encuentra el de decidir cómo habrá que referirse a las entidades o elementos que aparecerán en el texto. La tarea de Generación de Expresiones de Referencia se encarga de resolver este problema concreto. Las diferentes menciones al mismo elemento en un texto deben ser reemplazadas por la forma específica en que referirse a ellas o referencias. A la hora de planificar las referencias de un texto se deben tener en cuenta dos propósitos. En primer lugar, una referencia a un elemento del discurso debe permitir al lector u oyente distinguir a este elemento de cualquier otro presente en el contexto con el que se pudiera confundir. Por otro lado, en ocasiones las referencias contendrán información que más allá de la función de distinguir pretendan además describir las entidades a las que se refieren, presentando información relevante sobre las mismas previamente desconocida. De estas dos funciones (distintiva y descriptiva), sólo la primera ha sido ampliamente estudiada en la literatura. Se pueden encontrar numerosos trabajos que se encargan de abarcar el problema de la generación de expresiones de referencia con función distintiva estudiando aspectos como la minimalidad de una expresión, la semejanza de la expresión a las utilizadas por los seres humanos, la no ambigüedad de la referencia generada, etc. En cuanto a la descripción de entidades, aunque existen trabajos sobre generación de lenguaje natural basada en descripciones, se ha realizado poco trabajo desde el punto de vista del enriquecimiento del discurso con expresiones descriptivas que adem´as realcen cierta información considerada importante, o sobre la relación de este proceso con la función distintiva de las referencias. En este trabajo se aborda la generación de referencias de dos maneras diferentes. En primer lugar se proponen soluciones alternativas y mejoras a los algoritmos clásicos de generación de expresiones de referencia básica con función distintiva. Se aborda el problema desde tres frentes diferentes: cómo adecuar el nivel de abstracción al que se están nombrando las referencias según el contexto de la situación, qué estrategia de búsqueda usar para la elección de los atributos que permitan distinguir a un concepto, y qué palabras o expresiones resultan más adecuadas para expresar una referencia en lenguaje natural. Para cada uno de estos frentes se presentan soluciones basadas en técnicas y recursos clásicos de la Inteligencia Artificial como son los algoritmos evolutivos, el razonamiento basado en casos, o las ontologías. Además se evaluarán las diferentes soluciones presentadas teniendo en cuenta las métricas clásicas en este campo. En segundo lugar se explora el enriquecimiento de un discurso dado aportando información descriptiva utilizando figuras retóricas basadas en similitudes entre dominios como la comparación y la analogía. Para que sea posible utilizar este tipo de figuras en un sistema de generación de lenguaje natural se deben resolver problemas de arquitectura, fuentes de conocimiento, determinación de las analogías y comparaciones, etc. En este trabajo se estudian estos problemas y se propone un marco general para abordar la generación de este tipo de referencias. Los resultados obtenidos para las soluciones propuestas en este trabajo dan lugar a una discusión sobre aspectos a mejorar en trabajo futuro y limitaciones de los algoritmos implementados. También se discute la relación de la generación de expresiones de referencia, desde el punto de vista de sus funciones distintiva y descriptiva, con el resto del proceso de generación de lenguaje natural. Finalmente se presentan las conclusiones de esta investigación, así como líneas abiertas para trabajo futuro y campos de aplicación de las soluciones y resultados obtenidos. [ABSTRACT] The field of human-computer interaction has evolved rapidly in recent years, becoming a key element of any computer system. If a system is capable of communicating with a human being through interactions that result natural and friendly for him or her (voice, images, etc.), the user will be much more perceptive to the transmitted information and will have more trust on the application and its results. In this regard, a key area within the human-computer interaction field is Natural Language Generation (NLG), a subfield of Artificial Intelligence and Computational Linguistics. The field of Natural Language Generation is responsible for the design and implementation of systems that produce understandable texts in human languages from an initial non-linguistic representation of information. Within this field, one of the problems to be solved in order to generate satisfactory results is to decide how to refer to entities or elements that appear in the text. The task of Referring Expression Generation deals with this specific problem. The different references to the same element in a text should be replaced by specific ways in which to refer to them or references. The process of referring expression generation should take into account two objectives. First, a reference to an element in the discourse should allow the reader or listener to distinguish it from any other element in the context with which it could be confused. In addition, sometimes the references may contain additional information intended to describe the corresponding entities beyond the function of distinguishing. Of these two functions (distinctive and descriptive), only the former has been widely studied in the literature. Numerous works can be found dealing with the problem of distinguishing references, confronting issues such as minimality of an expression, similarity of a expression with the ones used by human beings, absence of ambiguity in the generated reference, etc. However, although there is some work related to the generation of natural language descriptions, there are fewer works focused on enhancing a discourse with certain expressions that highlight descriptive information considered important, or on its relationship with the generation of distinguishing references. This work addresses the complete problem of reference planning in two different ways. Firstly, several solutions and improvements to classical referring expression generation are proposed for references that attempt to distinguish the referents from other entities in context. The problem is addressed from three fronts: how to adjust the level of abstraction employed to name the reference according to the situation, which strategy to use for choosing the attributes that distinguish a concept, and what words or expressions are more appropriate to express a reference in natural language. For each of these points we present solutions based on classical techniques and methodologies of Artificial Intelligence, such as evolutionary algorithms, case-based reasoning, or ontologies. The results obtained from the different solutions are also evaluated using classical metrics from this field. Secondly, this work explores the enhancement of a given speech by providing descriptive information using figures of speech based on similarities between domains, such as comparison and analogy. In order to use such figures in a natural language generation system, it is necessary to address issues related to managing sources of knowledge, determining the appropriate figures,and defining an architecture to implement such systems. This work studies these issues and proposes a general framework to generate this kind of references. The results obtained by the solutions proposed in this work lead to a discussion on the shortcomings of each approach, identifying aspects that could be improved in future work. The relationship between the generation of referring expressions (both distinctive and descriptive) and the complete process of natural language generation is also discussed. Finally, the conclusions derived from these lines of research are presented,along with the identification of possible lines for future work and areas of application for the solutions and results presented in this work.
Description
Tesis de la Universidad Complutense de Madrid, Facultad de Informática, Departamento de Ingeniería del Software e Inteligencia Artificial, leída el 09-06-2009
Keywords
Citation
Collections