Universidad Complutense de Madrid
E-Prints Complutense

Generación de lenguaje natural a partir de grafos semánticos

Impacto

Downloads

Downloads per month over past year



Rabadán Jurado, Adrián (2016) Generación de lenguaje natural a partir de grafos semánticos. [Trabajo Fin de Máster]

[img]
Preview
PDF
2MB


Abstract

Hoy en día la cantidad de información de la que el mundo dispone es inmensa y la gran mayoría está al alcance de un click gracias a las tecnologías de la información. Muchos de los recursos que existen en Internet están escritos a mano por personas y para personas, pero este hecho tiene muchas limitaciones, como el idioma, el contenido, las expresiones en la comunicación o la disposición de la información en el texto. Todos estos factores influyen en el lector permitiendo entender mejor o peor los conceptos, relaciones e ideas que se expresan. Un ejemplo de un recurso muy utilizado a día de hoy es Wikipedia, que cuenta con más de cinco millones de artículos en inglés y más de un millón en otros doce idiomas entre los cuales se encuentran el castellano, el francés y el alemán.
Por otro lado, existen otros recursos que aportan información de otras formas más interesantes desde el punto de vista de la informática, como pueden ser ConceptNet o WordNet. Las ventajas que ofrecen este tipo de recursos son que no disponen de varios lenguajes, es decir el conocimiento está unificado en uno solo, no tienen estructura de texto y se puede automatizar más fácilmente la inserción de nueva información, lo que se traduce en un crecimiento más rápido del conocimiento. Este tipo de recursos son ideales para su uso en aplicaciones informáticas gracias a que no es necesario un proceso de extracción de información de la fuente. Sin embargo, este tipo de información no está pensada para la lectura por parte de un humano, ya que se enfrentaría a muchos datos de golpe y sin un orden lógico para la comprensión, además de carecer de la conjugación propia o traducción a un idioma concreto.
Este trabajo tiene como objetivo principal partir de un recurso de información no legible ni manejable por humanos e ideado para el uso por computadoras, y dar lugar a una interpretación de esta información que permita la lectura y comprensión en lenguaje natural por personas. Podemos verlo como un trabajo que posibilita y facilita el entendimiento Máquina-Hombre. Para ello se hace uso de un sistema de generación de lenguaje natural, inteligencia artificial y de la creatividad computacional. Además, este trabajo forma parte de un proyecto mayor, del que hablaremos en la sección 2.5, en el que se generan nuevos conceptos a partir de otros. El papel que desempeña esta aplicación permite describir los nuevos conceptos generados y poder entenderlos.
A la hora de abordar el problema de la generación de texto podemos encontrar varias formas de atacar la cuestión, y todas las soluciones se pueden considerar como válidas. Se implementarán sistemas de diferente complejidad y naturaleza, como generadores básicos de textos o generadores con planificación y otras soluciones comunes en este campo como el uso de plantillas y el estudio de las propiedades de los textos generados por los humanos. Por esta razón, en este trabajo se desarrollarán varios métodos y se valorarán según ciertos criterios como la claridad del texto, su organización, o si se ha hecho un buen uso de la gramática o la ortografía.
Como objetivos secundarios de este proyecto podemos remarcar la generación de un servicio web que permita que esté disponible la aplicación para su uso, y aporte valor tanto al mundo de la investigación como al del conocimiento. También se valora la semejanza a los generados por humanos.

Resumen (otros idiomas)

Nowadays the amount of available information is inmense and the hugemajority of it is at the distance of a click thanks to the information technology. Lots of the existing resources on the internet are written by hand by people and for people, but this fact has lots of limitations, such as the language, the contents, the communication expressions or the order of the information in the text. All these factors in_uence the reader allowing them to understand in a better or worse way the concepts, relations and ideas that are expressed. An example of a widely used resource today is Wikipedia. It counts with more than five million articles in English and more than a million in twelve more languages including Spanish, French and German. On the other hand, other resources exists that provide information in more interesting ways from the computer science's point of view, like ConceptNet or WordNet . The advantages this kind of resources present are the unavailability for several languages, what means that the knowledge is unified in a single one, they have no text-based structure and the insertion of new information can be automatized more easily, what is translated to a quicker growth of the knowledge. This type of resources are ideal for their use in computing applications thanks to the fact that a process of information extraction form the source is not necesary. Nevertheless, this kind of information is not thought for human reading, as they will have to face lots of data at once and without a logical order for their comprehension. In addition, they lack the necesary conjugation and the translation to a specific language. Those languages are other than English which is the language inwhich all resources are written. This project has as its main objective to begin from a non-legible or no-human manageable source of information prepared for its use by computers, and get an interpretation of this information that allows the reading and comprehension in natural language by people. We can see it as a work that makes real and easier the understanding between men and machines. To drive that, a natural language generation system is used along with, artificial intelligence and computational creativity. Furthermore, this application is part of a larger project in which new concepts are created starting from others. The role of this system let us describe the newly generated concepts and understand them. When addressing the text generation problem we can find several paths to drive into the problem, and all answers can be considered valid. Systems with diferent complexity and nature will be implemented, such as basic text generators or generators with planning and other common solutions used in this field like the use of canned text and the study of the properties of the human-generated texts. For this reason, in this work several methods will be developed and they will be valued following certain criteria such as the clearness of the text, the text sequence, or if grammar and ortography has been used properly. As secondary objectives of this project it is remarkable the generation of a web service that allows the application to be available for its use, and contribute to both the research word as well as the knowledge world. It will be rated positively the resemblance to the texts generated by humans.

Item Type:Trabajo Fin de Máster
Additional Information:

Máster en Ingeniería Informática, Facultad de Informática, Departamento de Ingeniería del Software e Inteligencia Artificial, curso 2015-2016

Directors:
DirectorsDirector email
Méndez Pozo, Gonzalo
Hervás Ballesteros, Raquel
Uncontrolled Keywords:Generación de Lenguaje Natural (GLN), Creatividad computacional, Planifcación de texto, Realización superficial, Grafos semánticos, Tripletas
Palabras clave (otros idiomas):Natural Language Generation (NLG), Computational creativity Text planning, Surface realization, Semantic graphs, Tiplets
Subjects:Sciences > Computer science
Título del Máster:Máster en Ingeniería Informática
ID Code:39327
Deposited On:10 Oct 2016 13:04
Last Modified:10 Oct 2016 13:04

Origin of downloads

Repository Staff Only: item control page