Sistemes d'extracció d'informació i pregunta-resposta

Alicia Ageno

 

El centre TALP treballa activament en les tasques de recerca de la resposta (Question Answering Q&A). Fruit del treball, el grup disposa d’un sistema de recerca de la resposta multilingüe, amb el que s’ha participat des de l’any 2003 en les competicions TREC (TREC 2003 i TREC 2004), totes dues per a domini obert i idioma anglès, i CLEF (CLEF 2003 I CLEF2004), també per a domini no restringit però idioma castellà. Tanmateix, els dominis restringits i per a l’àmbit oral s’ha elaborat un demostrador per al projecte ALIADO, en el domini geogràfic i per al castellà, i en el mateix domini s’ha participat en la primera competició GEOCLEF 2005 per a l’anglès. Actualment es treballa, a més a més, en estendre les capacitats del sistema de Q&A actual per a poder manipular preguntes formulades oralment de tipus factual, llista, definicional, informativa o biogràfica, així com en estendre les seves capacitats multilingües al català.

En extracció d’informació (EI), s’enfoca el treball en l’ús de tècniques d’aprenentatge automàtic per a pal·liar un dels principals inconvenients de la aplicació de la IE, la seva intrínseca dependència del domini, disminuint la necessitat de supervisió. En particular es treballa en el disseny de mètodes d’adquisició de patrons per a EI en dominis restringits o no restringits (tant a partir de text estructurat com no estructurat), en tècniques de clustering de documents (doncs l’aprenentatge no supervisat de patrons de EI en dominis oberts pot requerir d’aquest pas previ), i en mètodes robustos per a l’extracció d’informació en diferents medis (tant textuals com transcripcions orals).