Recuperación de la información, análisis de documentos textuales y resumen automático
Horacio Rodríguez
Esta línea de trabajo tiene importancia por si misma (las tres tareas implicadas son objeto de investigación muy activa por parte de los principales grupos de investigación en PLN a nivel mundial) pero sobre todo como parte básica de otras líneas de investigación (la mayoría de las líneas en las que trabajamos exigen tratamientos previos de recuperación y tratamiento de documentos textuales).
La Recuperación de la información (IR), tanto textual como multimedia, es objeto de atención tanto a nivel de los procesos de indexado de colecciones como de los de recuperación de documentos o pasajes (a partir de colecciones previamente indexadas o, a través de wrappers, de Internet).
El análisis de documentos implica el reconocimiento y extracción de las partes textuales de los mismos y su pre-procesado (segmentación léxica y oracional, análisis y desambiguación morfosintáctica, detección y clasificación de entidades, análisis sintáctico, superficial y profundo, análisis semántico, resolución de correferencias, etc.). Las tareas en las que se trabaja en esta línea son:
- Clasificación de documentos y pasajes
- Agrupación (clustering) de documentos
- Detección de temas en documentos o colecciones
- Detección de enlaces entre documentos y sus partes
- Medidas de distancia (semántica o distribucional) entre unidades lingüísticas, etc.
También abordamos el tema de la producción automática de resúmenes en varios niveles: resumen monolingüe, multilingüe y translingüe, resumen monodocumento y multidocumento, resumen textual y resumen oral, resumen extractivo y abstractivo, resumen general o guiado por las cuestiones, perfiles o intereses del usuario. Se siguen aproximaciones diversas al resumen: cadenas léxicas, aprendizaje automático, medidas de relevancia y redundancia, etc.