Similarity threshold to detect plagiarism in Spanish

Autores/as

  • Sheila Queralt Estevez FonrensicLab-UVAL, Institut Universitari de Lingüística Aplicada, Universitat Pompeu Fabra

Resumen

Abstract. Plagiarism is, unfortunately, a very common practice in today's society. This practice occurs in several areas: journalistic, educational, literary and scientific world, among others. Previous studies on the detection of plagiarism establish that it is unlikely that two authors write independently two identical sequences of more than seven words in English. This article examines whether this established similarity threshold in English can be applied into the Spanish language. In addition, the possible variability in the threshold according to the text genre in which the sequence has occurred been also taken into account in this study. For this reason, a selection of utterances in Spanish, from different genres (journalism, literary and scientific) has been analysed. Results show that the similarity threshold for the Spanish language is lower than for the English language regardless of genre. Findings of this study will contribute to furnish more reliable results in Court, in cases of plagiarism detection.

Keywords: plagiarism, text genres, Spanish vs. English, Legal language.

Resumen. El plagio es, desafortunadamente, una práctica muy común en la sociedad actual. Esta práctica se da en varias áreas: periodística, educativa, literaria y científica, entre otras. Estudios previos sobre la detección de plagio establecen que es poco probable que dos autores escriban independientemente dos secuencias idénticas de más de siete palabras en inglés. Este artículo examina si este umbral de similitud establecido en inglés puede aplicarse al idioma español. Además, en este estudio también se ha tenido en cuenta la posible variabilidad del umbral en función del género del texto en el que se ha producido la secuencia. Por este motivo, se ha analizado una selección de expresiones en castellano, de diferentes géneros (periodístico, literario y científico). Los resultados muestran que el umbral de similitud para el idioma español es más bajo que para el inglés sin importar el género. Los hallazgos de este estudio contribuirán a proporcionar resultados más confiables en la Corte, en casos de detección de plagio.

Palabras clave: plagiarismo, géneros textuales, español vs. inglés, lenguaje jurídico.




Citas

Baldwin, J. (1979). Phonetics and speaker identification. Medicine, Science and the Law 19(4): 231-232.

Coulthard, M. (2004). Author identification, idiolect and linguistic uniqueness. Applied Linguistics 25(4): 431-447.

Coulthard, M. (2006). … And then … language description and author attribution. [Available at http://www.aston.ac.uk/downloads/lss/english/Andthen_Coulthard.pdf]

Coulthard, M., & Johnson, A. (2007). An introduction to forensic linguistics: Language in evidence. Routledge.

Couture, B. (ed.) (1986). Functional Approches to Writing: research rspectives. Norwood, NJ: Ablex.

Culwin, F. and Child, M. (2010). Optimising and automating the choice of search strings when investigating possible plagiarism. Proceedings of 4th International Plagiarism Conference, Newcastle.

Ferguson, C. (1979). Phonology as an individual access system: Some data from language acquisition. In C. Fillmore, D. Kempler & Want W. (ed.). Individual differences in language ability and language behaviour: 189-201. Nova York: Academic.

Menasche, L. (1977). Writing a research paper. Ann Arbor: The University of Michigan Press.

Olsson, J. (2004). Forensic linguistics: an introduction to language, crime and the law. Continuum International Publishing Group.

Payne, A. (1980). Factors controlling the acquisition of the philadelphia dialect by out-of-state children. In Labov (Ed.), Locating language in time and space: 143-178. Nova York: Academic P.:

Roig, M. (2008). Avoiding those little inadvertent lies when writing papers. Eye on Psi Chi, Winter.

Sinclair, J. (1991). Corpus concordance collocation. Oxford: Oxford University Press.

Swales, J. (1990). Genre Analysis. Cambridge: Cambridge University Press.

Turell, M. T. (2004). Textual kidnapping evisited: The case of plagiarism in literary translation. The International Journal of Speech, Language and the Law. Forensic Linguistics 11(1): 1-26.

Turell, M. T. (2007). Plagio y traducción literaria. Vasos Comunicantes 37(1), 43-54.

Turell, M. T. (2008). Plagiarism. In J. Gibbons, & M. T. Turell (ed.). Dimensions of forensic linguistics: 265-299. Amsterdam/Philadelphia: John Benjamins.

Turell, M. T. (2011). La tasca del lingüista detectiu en casos de detecció de plagi i determinació d'autoria de textos escrits. Llengua, Societat i Comunicació: Revista de Sociolingüística de la Universitat de Barcelona 9: 69-85.

Turell, M. T. (2010). The use of textual, grammatical and sociolinguistic evidence in forensic text comparison. The International Journal of Speech, Language and the Law 17(2): 211-250.

Descargas

Publicado

2015-04-09

Número

Sección

Artículos Nuevos