Financial concepts extraction and lexical simplification in Spanish

Autores/as

  • Blanca Carbajo Coronado Universidad Autónoma de Madrid
  • Antonio Moreno Sandoval Universidad Autónoma de Madrid

DOI:

https://doi.org/10.58859/rael.v23i1.590

Palabras clave:

financial language, automatic simplification, linguistic resource, Spanish, specialised lexicon

Resumen

Este artículo profundiza en la extracción de conceptos y la simplificación léxica en el ámbito financiero en español. En nuestra aproximación, la extracción de conceptos implica identificar términos y frases relevantes utilizando modelos de lenguaje de inteligencia artificial, mientras que el objetivo de la simplificación léxica es hacer que los conceptos financieros complejos sean más accesibles. Para el estudio se han anotado términos en el corpus financiero FinT-esp y se ha utilizado el modelo neural mT5 para una extracción precisa de términos. El modelo ha mostrado resultados notables: el 96% de los términos detectados no habían sido anotados manualmente antes, lo que demuestra su destacada capacidad generativa. Para la simplificación léxica, el artículo propone tres estrategias principales: parafraseo, sustitución de sinónimos y traducción, todas integradas en una interfaz interactiva que soluciona el problema de la longitud de las oraciones. Esta investigación contribuye significativamente a la detección de conceptos financieros y ofrece un método efectivo para simplificar el lenguaje financiero en español.

Biografía del autor/a

Blanca Carbajo Coronado, Universidad Autónoma de Madrid

Blanca Carbajo Coronado holds a BA in Translation and Interpreting and is currently a PhD student at the Universidad Autónoma de Madrid with a scholarship (FPU) awarded by the Spanish Ministry of Science, Innovation and Universities. Her thesis deals with cause-effect relations in financial narratives using computational linguistic methods.

Antonio Moreno Sandoval, Universidad Autónoma de Madrid

Antonio Moreno-Sandoval is Professor of Linguistics, Director of the Computational Linguistics Laboratory at the UAM and Director of the UAM-IIC Chair in Computational Linguistics. Since 2010 he is Senior Researcher at the Institute of Knowledge Engineering (IIC-UAM) within the Social Business Analytics group.

Citas

Alarcón, R., Moreno, L., & Martínez, P. (2023). EASIER corpus: A lexical simplification resource for people with cognitive impairments. PLoS ONE, 18(4). doi: https://doi.org/10.1371/journal.pone.0283622

García Asensio, M. A., & Montolío, E. (2018). Cuestiones del léxico. In E. Montolío (Dir.), Manual de escritura académica y profesional: Estrategias gramaticales y discursivas (pp. 175–220). Barcelona: Ariel Letras.

Gisbert, A. (2021). Financial Narratives. In A. Moreno-Sandoval (Ed.), Financial Narrative Processing in Spanish (pp. 15-50). Valencia: Tirant.

Lang, C., Wachowiak, L., Heinisch, B., & Gromann, D. (2021). Transforming Term Extraction: Transformer-Based Approaches to Multilingual Term Extraction Across Domains. In Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021 (pp. 3607-3620). Online: Association for Computational Linguistics. doi: 10.18653/v1/2021.findings-acl.316

Mateo Martínez, J. (2007). El lenguaje de las ciencias económicas. In E. Alcaraz, J. Mateo, & F. Yus (Eds.), Las lenguas profesionales y académicas (pp. 191-203). Barcelona: Ariel.

Rigouts Terryn, A., Hoste, V., Drouin, P., & Lefever, E. (2020). TermEval 2020: Shared Task on Automatic Term Extraction Using the Annotated Corpora for Term Extraction Research (ACTER) Dataset. In Proceedings of the 6th International Workshop on Computational Terminology (pp. 85-94). Marseille, France: European Language Resources Association.

Rigouts Terryn, A., Hoste, V., & Lefever, E. (2022). A supervised sequential labelling approach to automatic term extraction. Terminology. International Journal of Theoretical and Applied Issues in Specialized Communication, 28(1), 157-189.

Román Mínguez, V. (2016). Conocimiento temático y terminológico en traducción contable (inglés-español). Linguae Revista de la Sociedad Española de Lenguas Modernas, 3, 227-250.

Saggion, H. (2017). Automatic Text Simplification. In G. Hirst (Ed.), Synthesis Lectures on Human Language Technologies (Vol. 37). Morgan & Claypool Publishers.

Xue, L., Constant, N., Roberts, A., Kale, M., Al-Rfou, R., Siddhant, A., Barua, A., & Raffel, C. (2021). mT5: A Massively Multilingual Pre-trained Text-to-Text Transformer. In Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (pp. 483-498). Online: Association for Computational Linguistics. doi: https://doi.org/10.48550/arXiv.2010.11934.

Descargas

Publicado

2024-01-31

Número

Sección

Artículos Nuevos

Artículos similares

También puede {advancedSearchLink} para este artículo.