11 Juny - Seminari Marta Ruiz i Rafael Banchs


El proper divendres 11 de juny tenim programat un seminari a càrrec de Marta Ruiz i Rafael Banchs, amb sengles xerrades breus, a l'aula S208 de l'Edifici Omega del Campus Nord de la UPC.

 
Us fem notar que l'hora d'inici del seminari serà a les 10:30.

 

Aquests són els detalls del seminari:

Títol  Plagiarism Detection / Uso de Mapas Semánticos para la Búsqueda Crosslingüe de Oraciones Paralelas

Ponent  Marta Ruiz / Rafael Banchs

Lloc  Omega-S208

Dia  11 Juny 2010

Horari   10:30h - Cafè

10:45h - Presentació

 

Abstract   Plagiarism Detection

We participated in the CLEF plagiarism detection with a two-step approach. The objective of the task refers to detecting plagiarized sections in a suspicious document and the corresponding source sections in a given set of source documents.

In a first step, we build an information retrieval system based on SOLR/Lucene, segmenting both suspicious and source documents in smaller texts. We perform a search based on bag-of-words which provides a first selection of plagiarized texts.

In a second step, we implemented a sliding window approach that computes cosine distances between overlapping text segments from both the source and suspicious documents in a pair wise basis. As a result, a similarity matrix between text segments is obtained, which is smoothed by means of low-pass 2-D filtering. From the smoothed similarity matrix, plagiarized segments are identified by using image processing techniques.


Uso de Mapas Semánticos para la Búsqueda Crosslingüe de Oraciones Paralelas

Presentamos el uso del escalado multidimensional para la identificación crosslingüe de oraciones paralelas. Este método permite hacer una reducción no-lineal del espacio de representación de las oraciones que se puede aprovechar para identificar relaciones semánticas entre conjuntos de oraciones de distintas lenguas.

Adicionalmente, presentamos una técnica para la combinación de los resultados obtenidos con mapas creados a partir de distintas lenguas, la cual permite explotar la información multilingüe de la que se dispone. Finalmente, dada una colección pentalingüe extraída de la Constitución Española (disponible en las cuatro lenguas oficiales del Estado y en inglés), hacemos una comparativa de nuestro método con un sistema de búsqueda crosslingüe basado en la traducción de las consultas. Los resultados muestran que nuestro sistema mejora consistentemente en las 20 direcciones experimentales de búsqueda crosslingüe que permite nuestra colección de datos.