Publication:
Corpus annotation of causal relations and their signals in English and Spanish

Loading...
Thumbnail Image
Full text at PDC
Publication Date
2016-07
Advisors (or tutors)
Editors
Journal Title
Journal ISSN
Volume Title
Publisher
Citations
Google Scholar
Research Projects
Organizational Units
Journal Issue
Abstract
El estudio de las relaciones causales y su expresión lingüística ha sido comúnmente estudiado desde diferentes perspectivas en los años recientes. Sin embargo, pocos estudios han intentado combinar diferentes enfoques para establecer el significado de estas relaciones, y han investigado de manera contrastiva las señales usadas para expresarlas. Este trabajo de fin de master es un proyecto para avanzar el conocimiento en este área mediante la investigación de: a) la posibilidad de caracterizar las relaciones causales en diferentes tipos, usando características que combinan un enfoque funcional y cognitivo; b) los tipos de relaciones causales preferidas en los textos expositivos en inglés y sus traducciones al español; c) las expresiones lingüísticas preferidas para expresar dichas relaciones causales en los textos originales en inglés y sus traducciones al español. La metodología usada en esta investigación se basa en la anotación manual de un corpus bilingüe compuesto de un total de 37 textos expositivos (incluyendo los textos originales en inglés y sus traducciones al español) extraídos del corpus MULTINOT, un corpus de alta calidad, con registros diversificados y multifuncional bilingüe inglésespañol, actualmente compilado y anotado multidimensionalmente por los miembros del grupo de investigación FUNCAP con el proyecto MULTINOT (véase Lavid et al.2015) El estudio se llevó a cabo en cuatro pasos principales: primero, un esquema de anotación para las relaciones causales en inglés y español fue diseñado constando de tres sistemas interrelacionados y sus correspondientes características; tras ello, se compiló un inventario de señales para las relaciones causales en inglés y español, y una categorización en diferentes tipos; seguidamente, el esquema de anotación fue implementado en la herramienta UAM Corpus Tool y el conjunto de textos bilingües fue anotado por el autor de este estudio; finalmente, los datos extraídos de la anotación fueron analizados estadísticamente para comprobar las posibles diferencias entre los textos originales en inglés y sus traducciones al español respecto a la selección del tipo de relación de causa y sus señales. El análisis estadístico de los datos anotados sugiere que los tipos de relaciones de causa preferidos en los textos originales en inglés y son los tipos de contenido y no volitivos, que el orden de aparición de estos tipos de señales preferido es la segunda posición, y las señales más recurrentes usadas para expresar dichas relaciones son las conjunciones, seguidas de los sintagmas verbales. El análisis de las traducciones al español revela un alto grado de similitud con los datos de los textos originales en inglés, lo que sugiere que en las traducciones al español se conservan las preferencias de los textos originales en la mayoría de los casos y que estas elecciones pueden considerarse un indicativo de los textos expositivos en inglés. Proyectos futuros se centraran en el análisis de los textos originales en español para comprobar si las tendencias observadas en los textos originales en inglés y sus traducciones al español son también validas en textos originales en español, y en la especificación de patrones que puede ayudar al análisis automático de estas relaciones
The study of causal relations and their linguistic expression has been widely studied from different perspectives in recent years. However, few studies have attempted to combine different approaches to the meaning of these relations, and investigated the signals used to express them in a contrastive manner. This Master's thesis is an attempt at advancing knowledge in this area by investigating: a) the possibility to characterize causal relations into different types, using features which combine functional and cognitive approaches; b) the preferred types of causal relations used in original English expository texts and their translations into Spanish; c) the preferred linguistic signals used to express those causal relations in original English texts and their translations into Spanish. The methodology used for this investigation is based on the manual corpus annotation of a bilingual dataset consisting of a total of thirty-six expository texts (including English original texts and their corresponding translations into Spanish), extracted from the non-fiction part of the MULTINOT corpus, a high-quality, registerdiversified and multifunctional bilingual English-Spanish corpus, currently compiled and multidimensionally-annotated by members of the FUNCAP Research Group within the MULTINOT project (see Lavid et al., 2015). The study was carried out in four major steps: first, an annotation scheme for causal relations in English and Spanish was designed consisting of three interrelated systems and their associated features; second, an inventory of signals for causal relations in English and Spanish, and a categorisation into different types was compiled; third, the annotation scheme was implemented in the UAM Corpus Tool and the bilingual sample was annotated by the author of this study; fourth, the annotated data was statistically analysed to check possible differences between the original English texts and their Spanish translations in the selection of causal relation types and their signals. The statistical analysis of the annotated data suggests that the preferred types of causal relations in the English original texts are „non-volitional‟ and „content‟ type, that the preferred order of occurrence is second-position, and the most frequent signal used are „conjunctions‟, followed by the use of lexical phrases. The analysis of the Spanish translations reveals a high degree of similarity with the English original data, which suggests that the Spanish translations preserve the choices made in the original texts in most of the cases, and that these choices can be considered as indicative of expository texts in the original English texts. Future work will focus on the analysis of original Spanish texts to check whether the observed tendencies in the original English texts and their translations into Spanish are also valid for original Spanish texts, and on the specification of patterns which may help in the automatic analysis of these relations
Description
Keywords
Citation
Altenberg, B. (1984). Causal Linking in Spoken and Written English. Studia Linguistica, 38, 1, 20-69. Bellés, B. (2006). Discourse Markers within the University Lecture Genre: A contrastive study between Spanish and North-American lectures (PhD Dissertation). Universitat Jaume I: Castellón. Retrieved from http://www.tdx.cat/bitstream/handle/10803/10442/tesis.pdf;jsessionid=5AF89DC5228D58F75FE9A42AED81D230.tdx1?sequence=2 Cenoposiciones. (2010). The Expression of Cause, Reason, Purpose and Result. Spain, Murcia. Danlos, L. (2001). Event coreference in causal discourses. In P. Bouillion & F. Busa (eds.) The Language of the Word Meaning. Cambridge: Cambridge University Press, pp. 216-242. Duque, E. (2014). Signaling causal coherence relations. In Discourse Studies, 16, 1, pp. 25-46. Retrieved from http://dis.sagepub.com/content/16/1/25.abstract Fraser, B. (2009). An account of discourse markers. International Review of Pragmatics, 1, 293-320. Halliday, M. and Hasan, R. (1976). Cohesion in English. London: Longman. Lagerwerf, L. (1998). Causal Connectives Have Presuppositions. Effects on Coherence and Discourse Structure. The Netherlands: Holland Academic Graphics. Retrieved from http://dare.ubvu.vu.nl/handle/1871/15721 Lavid, J. (1994). Cognitive constraints on causal ordering strategies in English, pp. 149-159. Universidad Complutense de Madrid: Madrid. Retrieved from https://dialnet.unirioja.es/descarga/articulo/1958138.pdf Lavid, J., Arús, J., DeClerk, B. & Hoste, V. (2015). Creation of a high-quality, register-diversified parallel (English-Spanish) corpus for linguistics and computational investigations. In Procedia – Social and Behavioral Sciences, 198, pp. 249-256. Retrieved from http://www.sciencedirect.com/science/article/pii/S1877042815044444 Maat, H. & Sanders, T. (2001). Subjectivity in causal connectives: An empirical study of language in use. In Cognitive Linguistics, 12, 3, pp. 247-273. Retrieved from http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.533.9893&rep=rep1&type=pdf Meier, E. (2002). Causal Subordination in English and Norwegian. Nordic Journal of English Studies, 1, 1, 33-64. 72 Mendizábal, N. (1997). Expresión de la causa y finalidad en español como segunda lengua. In REALE, 8, pp. 77-87. Retrieved from http://dspace.uah.es/dspace/bitstream/handle/10017/7413/expresion_mendizabal_REALE_1997.pdf;jsessionid=F69343EE6106AAE125EFA24B6DE1BFEB?sequence=1 Moeschler, J. (2003). Causality, lexicon and discourse meaning. In Rivista di Linguistica, 15, 2, pp. 277-303. Retrieved from linguistica.sns.it/RdL/15.2/06.Moeschler.pd O‟Donnell, M. (2016). Uam corpus tool (version 3.3f) [Software]. Available from http://www.corpustool.com/download.html Piñero, G. (2001). El valor de los marcadores del discurso que expresan causalidad en español. In Estudios Filológicos, 36, 153-171. Retrieved from http://www.scielo.cl/scielo.php?script=sci_arttext&pid=S0071-17132001003600011&lng=en&nrm=iso&ignore=.html Pit, M. (2003). How to Express Yourself with a Causal Connective: Subjectivity and Causal Connectives in Dutch, German and French. The Netherlands, Amsterdam: Rodopi B. V. Portolés, J. (1998). Marcadores del discurso. Barcelona: Ariel. RST Rethorical Structure Theory. (n.d.) Retrieved Mars 15, 2016 from the RST official page: http://www.sfu.ca/rst/01intro/intro.html Sanders, T., Wilbert, S. & Leo, N. (1993). Coherence relations in a cognitive theory of discourse representation. Cognitive Linguistics, 4, 93-133. Sanders, T. (2005). Coherence, Causality and Cognitive Complexity in Discourse. In Proceedings/Actes SEM-05, First International Symposium on the Exploration and Modelling of Meaning, pp. 31-44. Retrieved from www.let.uu.nl/~Ted.Sanders/personal/.../Sanders%20(2005).pdf Sanders, T. & Sweetser, E. (2009). Causal Categories in Discourse and Cognition. Germany, Berlin: Walter de Gruyter. Sweetser, E. (1990). From Etymology to Pragmatics. Cambridge: Cambridge University Press. Taboada, M. & Das, D. (2013). Annotation upon Annotation: Adding Signalling Information to a Corpus of Discourse Relations. In Dialogue and Discourse, 4, 2, pp. 249-281. Retrieved from https://www.sfu.ca/~mtaboada/docs/Taboada_Das_Dialogue_and_Discourse_2013.pdf Van Dijk, T. (1979). Pragmatic Connectives. Journal of Pragmatics, 3, 5, 447-456. Zufferey, S. & Cartoni, B. (2012). English and French Causal Connectives in Contrast. In Languages in Contrast, 12, 2, pp. 232-250.