Complutense University Library

Modelo computacional de lectura cognitiva para la representación automática de textos

Serrano Moreno, José Ignacio (2008) Modelo computacional de lectura cognitiva para la representación automática de textos. Tesis PhD.

[img]
Preview
PDF
11MB
View download statistics for this eprint

==>>> Export to other formats

Abstract

El modelado del lenguaje natural en los ordenadores conlleva ciertas restricciones debido a la estructura lógica y a las limitaciones de tiempo y espacio de las máquinas, además de la complejidad intrínseca del lenguaje. Uno de los mayores problemas de dicho modelado es la representación de la semántica. Los primeros modelos
conexionistas del lenguaje se situaban próximos a la cognición humana pero no eran lo suficientemente generales y eficientes para aplicaciones reales. Estos primeros sistemas de procesamiento de lenguaje natural hacían uso de redes de asociación como formalismo de representación. Debido a las limitaciones de almacenamiento y
procesamiento de los ordenadores de aquella época, y al crecimiento de la información textual almacenada electrónicamente, los sistemas de procesamiento del lenguaje
adoptaron formalismos matemáticos y estadísticos. Hoy en día, a causa de esa cantidad creciente de información textual los sistemas que son capaces de procesar textos son de extrema utilidad. Hasta hace relativamente poco tiempo, la mayoría de estos sistemas utilizaban la clásica representación de los textos como “bolsa de palabras”, un
formalismo de tipo vectorial que sólo tiene en cuenta las apariciones de las palabras de manera independiente.
A mediados de los noventa, surgen los hiperespacios de palabras como un formalismo de representación alternativo al de “bolsa de palabras” tradicional. LSA (Análisis de
Semántica Latente) fue el precursor de todos ellos, seguido por HAL (Hiperespacio Análogo al Lenguaje), PMI-IR, Indexado Aleatorio, WAS (Espacio de Asociación de
Palabras) o ICAN (Construcción Incremental de una Red Asociativa), entre otros. Este tipo de sistemas construyen una representación en forma de matriz del conocimiento
semántico lingüístico almacenado en una colección de textos dada. Este hiperespacio tiene en cuenta las relaciones entre las palabras y el contexto sintáctico y semántico en
el que aparecen. Sin embargo, estos sistemas también representan los textos como vectores, llevando a cabo operaciones con las filas y las columnas de la matriz
correspondientes a las palabras de los documentos. Aunque la representación mediante hiperespacios contiene mucha más información que la representación tradicional, puesto
que los valores de los vectores son el resultado de la interacción entre las palabras y el contexto, los textos siguen siendo presentados como un conjunto de números sin
estructura. A pesar de ello, los sistemas basados en hiperespacios han aportado una mejora significativa con respecto a los sistemas basados en la representación clásica. De los sistemas anteriormente mencionados, sólo ICAN introduce una representación estructural, almacenando el conocimiento en forma de red contextual asociativa de
palabras y no como una matriz. Este modelo, a diferencia del resto de sistemas mencionados, hace posible la actualización del conocimiento sin necesidad de la
reconstrucción total del mismo.
A pesar del progreso realizado utilizando los hiperespacios de palabras, los seres humanos continúan realizando tareas de procesamiento de lenguaje natural, como la clasificación de textos o la recuperación de información, de manera mucho más precisa que los ordenadores aunque, por supuesto, más despacio. Es difícil concebir el conocimiento lingüístico representado como una matriz en el cerebro humano, así como
que la lectura suponga realizar operaciones matemáticas sobre dicha matriz. La lectura es un proceso secuencial de percepción en el tiempo, durante el cual los mecanismos mentales construyen imágenes e inferencias que se van reforzando, actualizando o descartando hasta la conclusión de la lectura del texto, momento en el que la imagen
mental generada permite a los seres humanos resumir o clasificar el texto, recuperar documentos similares o simplemente expresar opiniones sobre el mismo. Esta es la
filosofía que subyace en el sistema presentado en esta tesis. Este sistema, denominado SILC (Sistema de Indexación por Lectura Cognitiva), está ligeramente inspirado en el
formalismo que sugiere el sistema ICAN. Lo que se propone en este trabajo de tesis doctoral es un modelo computacional de lectura que construye una representación de la semántica de un texto como resultado de un proceso en el tiempo. Dicha representación posee una estructura que posibilita la descripción de las relaciones entre los conceptos leídos y su nivel de significación en cada momento del proceso de lectura.
Existen otros modelos computacionales de lectura cuyo objetivo es más teórico que aplicado. La mayoría de ellos parten del modelo conexionista de Construcción-Integración y se centran en diferentes fases u objetivos de la lectura. Todos estos sistemas ponen de manifiesto la gran variedad y complejidad de los procesos cognitivos implicados en la lectura. El modelo propuesto en esta tesis, SILC, es un método sencillo que incluye sólo algunos de dichos procesos cognitivos y, aunque trata de ser útil en aplicaciones prácticas, está inspirado en los seres humanos tratando de asemejarse más a su proceder que el resto de sistemas del mismo campo de aplicación.
El modelo que implementa SILC intenta simular, en parte, procesos cognitivos de alto nivel que operan en el tiempo. Primero, el sistema construye una red de asociación
conceptual como una memoria lingüística base a partir de una colección de textos que representan el espacio de conocimiento semántico. A continuación, el modelo genera
representaciones de los textos de entrada como redes de conceptos con niveles de activación, que recogen el nivel de significación semántica de los mismos. Para ello, el
modelo utiliza el conocimiento semántico lingüístico previamente construido realizando inferencias sobre el mismo mediante la propagación por la red de la activación de los conceptos leídos en orden secuencial. La representación generada se usa posteriormente para indexar documentos con el fin de clasificarlos automáticamente. Los métodos de indexación tradicionales representan los textos como resultado de procesos matemáticos. Puesto que los seres humanos superan ampliamente a los ordenadores en
tareas de procesamiento de lenguaje natural, el modelo de SILC se inspira en la cognición humana para mejorar su eficacia en dichas tareas. Se han realizado experimentos para comparar el modelo con sujetos humanos, tanto durante la lectura, mediante la predicción o inferencia de conceptos, como al final de la misma, mediante la comparación con resúmenes generados por los sujetos. Los resultados muestran que el sistema es adecuado para modelar de manera aproximada el proceder humano en la lectura y sustentan la hipótesis de partida de SILC: cuanto más se asemeje el sistema a los seres humanos, mejor realizará las tareas prácticas del lenguaje. Los resultados también demuestran que el sistema es adecuado como marco experimental de validación de hipótesis relacionadas con aspectos cognitivos de la lectura. Otros experimentos de
aplicación práctica han mostrado que, una vez que los parámetros del modelo han sido optimizados, la representación generada obtiene mejores resultados en clasificación de textos que otras representaciones generadas por los sistemas existentes. Se han definido
tres medidas de similitud semántica entre textos a partir de las representaciones generadas por SILC. Los resultados experimentales muestran que la mejor de ellas es
más eficaz y eficiente que otras medidas de similitud existentes. Además, la sinergia de dicha medida con el modelo de lectura implementado hace a SILC apropiado para su
aplicación a tareas reales de procesamiento de lenguaje natural.
[ABSTRACT]
Modelling of natural language in computers implies some restrictions due to the logical structure and to the time and space limitations of machines, in addition to the language complexity itself. The computational representation of language semantics is one of the
major problems. Connectionist models of language are close to human cognition but they are not general and efficient enough for real applications. The first natural language
processing systems made use of association nets or graphs, generally speaking, as representation formalism. Due, in one hand, to the storage and processing limitations of
the computers in that time and, in the other hand, to the need of processing a growing amount of textual information electronically stored, the language processing systems
adopted mathematical and statistical formalisms. Nowadays, because of this huge amount of digital information stored in natural language, systems that automatically
process text are of crucial importance and extremely useful. Until fairly recently, most of the systems used the highly common electronic text representation, "bag of words".
No information other than independent occurrences of words is considered in this latter vector-like formalism.
In the mid-nineties, word hyperspaces were proposed as an alternative to the traditional "bag of words" approach. LSA (Latent Semantic Analysis) was the first of these systems, followed by HAL (Hyperspace Analogue to Language), PMI-IR, Random Indexing, WAS (Word Association Space) or ICAN (Incremental Construction of an Associative Network), among others. These kind of systems build a representation, a
matrix, of the linguistic knowledge contained in a given text collection. The representation, or hyperspace, takes into account the relationship between words and the
syntactic and semantic context where they occur, and this is the main difference with the common "bag of words" representation. However, once the hyperspace has been
built, word hyperspace systems represent the text as a vector, and by doing operations with the rows and the columns of the matrix corresponding to the words in the texts.
Although the hyperspace representation contains much more information than the traditional representation because the vector values are the result of word and context
interaction, texts are still a set of numbers without a structure. However, this approach has been shown to be a real improvement on the classical representation. Only ICAN
introduces a structural representation and does not store linguistic knowledge as a matrix but as a net of associated words. This model makes it possible to incrementally
add new words without retraining and recalculating the knowledge, which is psychologically more plausible. This approach proposes the representation of linguistic
knowledge as a net of concepts associated by context.
In spite of the progress made with word hyperspaces, human beings continue to do text classification and information retrieval tasks much better than machines, although of
course more slowly. It is hard to believe that linguistic knowledge is represented as a matrix in the human mind and that reading implies mathematical operations on this
matrix. Human reading is a process of sequential perception over time, during which the mind builds mental images and inferences which are reinforced, updated or discarded
until the end of the text. At that moment, this mental image allows humans to summarize and classify the text, to retrieve similar texts or simply to talk about the text
by expressing opinions. The latter dynamic is the one in which the system presented in this thesis relies. This system, called CRIM (Cognitive Reading Indexing Model), is inspired by the ICAN connectionist approach, where words and texts do not share the same structure of representation unlike the systems mentioned above. What is proposed
in the PhD work is to build text representations as a result of a process over time, with a structure that makes it possible to indirectly describe the salience and relations of words at every instant during the reading process.
Other computational models of reading exist which search for an assessment of a theory of reading rather than for a real data-intensive application. Most of them are based on
connectionist networks inspired by the Construction-Integration model and they focus on different stages of reading and targets. These systems just mentioned show that there is a high number of complex cognitive processes underlying reading. The model proposed in this PhD thesis, so called CRIM, is a simple model that takes into account
only a few cognitive processes and although it is aimed at a real application, it is inspired by and closer to human procedure than the other systems in the same application field.
The CRIM tries to simulate in part the high-level cognitive processes in human mind over time. First, the system builds a conceptual association net from a collection of texts
representing the semantic knowledge space, as a linguistic base memory. Then the model generates a representation of the input text as a net of concepts, and each concept
has an activation value referring to its salience in the text. This representation is then used to index documents in order to automatically categorize them by a supervised
learning algorithm. Traditional indexing methods represent texts as the result of a process of mathematical operations. Since humans are able to classify texts much better than machines, the model is inspired in human cognition in order to improve language tasks. Some experiments were carried out to compare the model with humans, either during the reading process by concept prediction, or at the end of the reading process by
summary comparison. The results showed that the system is suitable to model human reading process and proved the base hypothesis in which CRIM relies: the closer the system is to human being procedures, the better it performances in natural language processing tasks. Results also make the system suitable as an experimental framework to test hypothesis about other cognitive aspects of reading. Other applied experiments show that, once the model parameters have been optimized, the representation obtained
is an improvement on traditional indexing techniques. Given this representation, two different similarity measures between texts have been defined. The similarity measures
are based in the distance between the single concepts of the texts and also on the difference of activation or significance. The distance between single concepts is
calculated in the context defined by the compared texts and not in the global semantic net. The results show that the latter reduction improves both the efficiency and the
accuracy of the comparison method, which is an improvement over other existent similarity measures between words. Other results of comparison between texts of different categories indicate that the synergy between the proposed model and similarity measures are very suitable to be applied in text categorization and information retrieval
tasks.

Item Type:Thesis (PhD)
Additional Information:Tesis de la Universidad Complutense de Madrid, Facultad de Informática, Departamento de Ingeniería del Software e Inteligencia Artificial, leída el 22-10-2007
Directors:
DirectorsDirector email
Castillo Sobrino, María DoloresUNSPECIFIED
Uncontrolled Keywords:Lingüística computacional; Modelo computacional de lectura; Computational models
Subjects:Sciences > Computer science > Artificial intelligence
Sciences > Computer science > Programming languages (Electronic computers)
ID Code:7858
Deposited On:21 Apr 2008
Last Modified:06 Feb 2014 07:56

Repository Staff Only: item control page