Sistemas extracción de información y de Pregunta-Respuesta
Alicia Ageno
El Centro TALP trabaja activamente en las tareas de búsqueda de la respuesta (Question Answering, Q&A). Fruto de tal trabajo, el grupo dispone de un sistema de búsqueda de la respuesta multilingüe, con el que se ha participado desde el año 2003 en las competiciones TREC (TREC2003 y TREC2004) ambas para dominio abierto e idioma inglés, y CLEF (CLEF2003 y CLEF2004), también para dominio no restringido pero en idioma castellano. Asimismo, en dominios restringidos y para el ámbito oral se ha elaborado un demostrador para el proyecto ALIADO, en el dominio geográfico y para el castellano, y en el mismo dominio se ha participado en la primera competición GEOCLEF 2005 para el inglés. Actualmente se trabaja además en extender las capacidades del sistema de Q&A actual para poder manejar preguntas formuladas oralmente de tipo factual, lista, definicional, informativa o biográfica, así como en extender sus capacidades multilingües al catalán.
En Extracción de Información (EI), se enfoca el trabajo en el uso de técnicas de aprendizaje automático para paliar uno de los principales inconvenientes de la aplicación de la EI, su intrínseca dependencia del dominio, disminuyendo la necesidad de supervisión. En particular se trabaja en el diseño de métodos de adquisición de patrones para EI en dominios restringidos o no restringidos (tanto a partir de texto estructurado como no estructurado), en técnicas de clustering de documentos (pues el aprendizaje no supervisado de patrones de EI en dominios abiertos puede requerir de este paso previo), y en métodos robustos para la extracción de información en diferentes medios (tanto textuales como transcripciones orales).