Recuperació de la informació, anàlisi de documents textuals i resum automàtic

Horacio Rodríguez

 

Aquesta línia de treball té importància per si mateixa (les tres tasques implicades són objecte d’investigació molt activa per part dels principals grups d’investigació en PLN a nivell mundial) però sobretot com a part bàsica d’altres línies d’investigació (la majoria de les línies en les que treballem exigeixen tractaments previs de recuperació i tractament de documents textuals).

La recuperació de la informació (IR), tant textual com multimèdia, és objecte d’atenció tant a nivell dels processos d'indexat de col·leccions com dels de recuperació de documents o passatges (a partir de col·leccions prèviament indexades o, mitjançant wrappers, d'Internet).

L’anàlisi de documents implica el reconeixement i extracció de les parts textuals dels mateixos i el seu pre-processat (segmentació lèxica i oracional, anàlisi i desambigüitat morfosintàctica, detecció i classificació d’entitats, anàlisi sintàctic, superficial i profund, anàlisi semàntic, resolució de correferències, etc). Feines en les quals es treballa en aquesta línea són:

 

  • Classificació de documents i passatges.
  • Agrupació (clustering) de documents
  • Detecció de temes en documents o col·leccions.
  • Detecció d’enllaços entre documents i les seves parts.
  • Mesures de distància (semàntica o distribucional) entre unitats lingüístiques, etc.

 

També abordem el tema de la producció automàtica de resums en diversos nivells: resum monolingüe, multilingüe i translingüe, resum monodocument i multidocument, resum textual i resum oral, resum extractiu i abstractiu, resum general o guiat per les qüestions, perfils o interessos de l’usuari. Es segueixen aproximacions diverses al resum: cadenes lèxiques, aprenentatge automàtic, mesures de rellevància i redundància, etc.