Publication:
An analysis of authorship attribution: Identifying linguistic variables in oral and written discourse

Loading...
Thumbnail Image
Full text at PDC
Publication Date
2016-06
Advisors (or tutors)
Editors
Journal Title
Journal ISSN
Volume Title
Publisher
Citations
Google Scholar
Research Projects
Organizational Units
Journal Issue
Abstract
This dissertation goes into the new field from applied linguistics called forensic linguistics, which studies the language as an evidence for criminal cases. There are many subfields within forensic linguistics, however, this study belongs to authorship attribution analysis, where the authorship of a text is attributed to an author through an exhaustive linguistic analysis. Within this field, this study analyzes the morphosyntactic and discursive-pragmatic variables that remain constant in the intra-variation or personal style of a speaker in the oral and written discourse, and at the same time have a high difference rate in the interspeaker variation, or from one speaker to another. The theoretical base of this study is the term used by professor Maria Teresa Turell called “idiolectal style”. This term establishes that the idiosyncratic choices that the speaker makes from the language build a style for each speaker that is constant in the intravariation of the speaker’s discourse. This study comes as a consequence of the problem appeared in authorship attribution analysis, where the absence of some known texts impedes the analysis for the attribution of the authorship of an uknown text. Thus, through a methodology based on qualitative analysis, where the variables are studied exhaustively, and on quantitative analysis, where the findings from qualitative analysis are statistically studied, some conclusions on the evidence of such variables in both oral and written discourses will be drawn. The results of this analysis will lead to further implications on deeper analyses where larger amount of data can be used.
Han sido muchos los países en los que la necesidad de expertos lingüistas forenses en juicios ha ido creciendo en los últimos 20 años. Por esa razón se han estudiado muchas metodologías relativas a las ciencias forenses y la constante evolución de estas permiten que nuevos estudios den paso a métodos forenses cada vez más fiables. La primera muestra evidencial que fue interpretada en juicio fue el análisis de ADN, lo que llevó a la posible conclusión “más allá de cualquier duda razonable”. La aplicación de esta interpretación evidencial trajo a su vez la innovación de diversas metodologías, ya que otros tipos de análisis no resultan tan evidentes como la mencionada prueba de ADN, lo que llevó a diversos lingüistas a trabajar en nuevos métodos donde la evidencia lingüística ocupase un lugar dentro del contexto de las pruebas judiciales. A raíz de esto se desarrolló el llamado Marco de Ratio de Probabilidad (Likelihood-Ratio Framework (LR)), en el que el que como se menciona en Queralt (2015), el uso y razonamiento apropiado de la probabilística puede mejorar dramáticamente la eficiencia y calidad del sistema judicial criminal. Por tanto, la probabilística y con ello la estadística se llevan a cabo dentro del ámbito de la lingüística de la mano de la lingüística forense. La lingüística forense nace por tanto de la necesidad de llevar pruebas lingüísticas probables y evidentes al ámbito legal, siendo la evidencia de detección plagio, la atribución de autoría y el análisis fonético y fonológico del discurso los ámbitos más demandados dentro de esta nueva rama de la lingüística aplicada. En el caso de la detección de plagio y la atribución de autoría, los análisis se llevan a cabo teniendo en cuenta las elecciones que el hablante hace dentro de todas las posibilidades que la lengua le ofrece. El conjunto de todas las elecciones que el hablante toma de manera regular y constantes dentro de su estilo personal es también conocido como el “estilo idiolectal” del autor, término introducido por la profesora Maria Teresa Turell. La metodología a seguir en los casos de detección de plagio y atribución de autoría es la comparación de un texto dubitado (cuya autoría está en duda) con una serie de textos indubitados (pertenecientes a un autor). Estos textos se comparan teniendo en cuenta las variables lingüísticas morfosintácticas, pragmático-discursivas, léxicas y estilísticas que están marcadas en el estudio realizado por el Forensiclab (Unitat de Variació Lingüística) en 2013 sobre el Índice de Similitud Idiolectal (ISI). En este estudio se comprueban empíricamente cuales son las variables a analizar en el caso del español, inglés y el catalán. El objetivo de este estudio fue marcar un claro límite en la distancia idiolectal de los hablantes, ya que las variables mencionadas en el estudio son producidas inconscientemente por cada hablante de manera idiosincrática. El estudio y prueba de la existencia del estilo idiolectal dentro de cada autor es lo que permite hoy en día presentar evidencia lingüística en el ámbito judicial, teniendo siempre en cuenta que el estilo idiolectal de un autor nunca será tan certero como el ADN, ya que una persona cambia de manera de hablar a lo largo de su vida, por lo que aunque ciertas características se mantengan en un hablante, la variación que este pueda presentar a lo largo de los años hace que dichos análisis tengan que estar ligados a un porcentaje de error. Dejando a un lado el marco teórico de la cuestión, se debe prestar especial atención a problemas que van surgiendo a partir de la práctica en este joven campo de la lingüística aplicada. En el ámbito de la atribución de autoría, que es donde este estudio se presenta, aparece el problema de la ausencia de textos indubitados que permitan la comparación de los textos. Esta ausencia puede ser debida a problemas legales, o simplemente a que la persona a atribuir la autoría de un texto haya fallecido y no haya legado escrito alguno. En estos casos, una opción sería la comparación del texto escrito dubitado con el discurso oral que tenga constancia mediante una grabación anterior de dicho sujeto. Pero para llevar a cabo este estudio, es necesario estudiar primero aquellas variables lingüísticas que permanecerán constantes en ambas producciones del discurso (oral y escrito). Este estudio por tanto pretende comparar algunas de las variables morfosintácticas y pragmático-discursivas mencionadas en el estudio sobre el ISI en los discursos orales y escritos de 16 voluntarios nativos de habla inglesa. Esta comparación se lleva a cabo mediante el análisis cualitativo y cuantitativo. El análisis cualitativo se realiza mediante una comparación exhaustiva de todos los discursos y reflejando los resultados en tablas, y el análisis cuantitativo en cambio se realiza mediante el uso del programa estadístico SPSS y el programa Excel. Estos dos tipos de análisis son necesarios y complementarios ya que el análisis cualitativo marcará cuales son las variables más relevantes, o las que más similitud parecen representar dentro del estilo individual de cada hablante y mayor diferencia entre los hablantes. Una vez habiendo visto este análisis, el análisis estadístico y la ilustración de los resultados mediante gráficos probarán el significado estadístico de dichos resultados para poder concluir sobre si esas variables lingüísticas son aplicables al discurso oral y escrito o no, y poder responder algunas preguntas que den paso a posibles estudios más profundos sobre la constancia de algunas variables en el discurso oral y escrito.
Description
Keywords
Citation