Desarrollo de un sistema de aprendizaje automático supervisado para la desambiguación léxica automática utilizando DAMIEN (Data Mining Encountered)

Fredy Núñez Torres; María Beatriz Pérez Cabello de Alba

doi:10.58859/rael.v21i1.504

Autores/as

Fredy Núñez Torres Pontificia Universidad Católica de Chile
María Beatriz Pérez Cabello de Alba Universidad Nacional de Educación a Distancia, UNED

DOI:

https://doi.org/10.58859/rael.v21i1.504

Palabras clave:

lingüistica computacional, procesamiento del lenguaje natural, lingüística de corpus, ambigüedad léxica, aprendizaje automático

Resumen

Uno de los mayores desafíos que se nos presentan a la hora de acometer tareas relacionadas con el procesamiento del lenguaje natural y, en particular, con el tratamiento de recursos lingüísticos informatizados, es la ambigüedad léxica. En este trabajo abordamos el tratamiento de la desambiguación léxica dentro del entorno informático DAMIEN (Data Mining ENcountered), una herramienta que integra técnicas de múltiples disciplinas dentro de análisis de texto (i.e. lingüística de corpus, estadística y minería textual) para ayudar en tareas de investigación lingüística (i.e. recolección de datos, extracción de información, clasificación de textos, entre otras). A modo de experimento ilustrativo, llevamos a cabo un estudio de las unidades léxicas polisémicas “cabeza”, “cara” y “carta”, y presentamos los resultados del sistema de desambiguación automática desarrollado con la herramienta DAMIEN. Dentro de los modelos que ofrece el entorno, hemos elegido el método de aprendizaje automático supervisado mediante algoritmo bayesiano ingenuo por tratarse del método que mejores resultados ha dado para la desambiguación léxica automática. Se trata de un modelo matemático que consiste en extraer información de un corpus a partir de conjuntos de datos previamente etiquetados (corpus de entrenamiento) para que la máquina pueda clasificar automáticamente conjuntos de datos nuevos (corpus de prueba). Es importante resaltar la flexibilidad y riqueza del entorno DAMIEN tanto para el tratamiento de recursos lingüísticos informatizados como para el montaje de experimentos del procesamiento del lenguaje natural.

Biografía del autor/a

Fredy Núñez Torres, Pontificia Universidad Católica de Chile

Fredy Núñez Torres es profesor en el Departamento de Ciencias del Lenguaje de la Pontificia Universidad Católica de Chile, y en el Departamento de Filologías Extranjeras de la UNED. Sus intereses de investigación son la lingüística teórica, computacional y de corpus. Además, es investigador en el Grupo de PLN del Centro de Modelamiento Matemático de la Universidad de Chile.

María Beatriz Pérez Cabello de Alba, Universidad Nacional de Educación a Distancia, UNED

María Beatriz Pérez Cabello de Alba es Profesora Titular del Departamento de Filologías Extranjeras de la UNED. Sus intereses de investigación se centran en la semántica ontológica, los estudios de corpus, el procesamiento del lenguaje natural y la lingüística clínica. Ha participado en siete proyectos de investigación nacionales, uno de la CAM, y otro de la UNED.