miércoles, 13 de enero de 2010

Detección automática de plagio en texto, una breve reseña

Mi tesis de Máster se titula "Detección automática de plagio en texto". Esta tesis, que dirigió Paolo Rosso, fue presentada en el Máster en Inteligencia Artificial, Reconocimiento de Formas e Imagen Digital de la Universidad Politécnica de Valencia en diciembre de 2008.

Como se ha mencionado antes en este blog, la tesis ha sido acreedora del premio MAVIR a la mejor tesis de Máster en "Tecnologías de la Lengua" y "Comunicación científica a través de la web" en su edición 2009. A continuación un muy breve resúmen de nuestra investigación.

Cuando hablamos de texto (no olvidemos que existe plagio de imágenes, videos y sonido, entre muchas otras cosas), plagiar significa incluir en un documento fragmentos de texto escritos por alguna otra persona sin darle el crédito adecuado. Esta falta ha mostrado en los últimos años una explosión en el número de casos. La razón es sencilla: hoy en día tenemos acceso a un enorme repositorio de información entre páginas especializadas, bibliotecas digitales y enciclopedias digitales como Wikipedia. Ante esta pandemia de recursos, el plagio se vuelve una operación muy sencilla que, en el peor de los casos, implica una simple operación de "copy-paste". Por ello, el desarrollo de métodos que faciliten la detección de plagio cobra relevancia.

El principal problema en esta tarea es que la fuente de un plagio puede estar perdida entre un sinnúmero de documentos ubicados en repositorios tan grandes como la misma Web. Mientras en la recuperación de información "tradicional" el problema es a menudo recuperar un conjunto de documentos relevantes para una necesidad de información, en el caso de la detección de plagio es necesario ir más allá: hay que recuperar los textos que fueron utilizados para generar el documento analizado.

Así, es necesario llevar a cabo comparaciones exhaustivas entre documentos para determinar si nos enfrentamos a un caso de plagio o no. Si bien realizar dicha comparación ya es complicado, lo es aún más cuando el plagio ha implicado alguna modificación. Por ejemplo, consideremos las siguientes frases: (1) plagiar es reusar el texto de un autor sin darle crédito; (2) plagiar es reusar texto de otro autor sin citarlo. Si nuestro método realiza una comparación rígida, estas sentencias no serían consideradas un caso de plagio. Sin embargo, una comparación flexible nos lleva a observar que los fragmentos "plagiar es reusar", "texto de" y "autor sin" ocurren en ambas sentencias, lo cual no es común entre textos que no están relacionados. Además, las frases "sin darle crédito" y "sin citarlo" están altamente relacionadas semánticamente.

Hemos aplicado, basados en las propuestas de Lyon y otros investigadores, un enfoque de comparación de texto codificado en forma de n-gramas. Codificar un texto en n-gramas implica extraer de él fragmentos traslapados de palabras de longitud n. Así, los 2-gramas de "esto es un ejemplo" son "esto es", "es un" y "un ejemplo". Experimentalmente se ha observado que dos documentos, aún cuando han sido producidos por el mismo autor y sobre el mismo tema, suelen tener una baja concentración de n-gramas en común, por lo que encontrar varios en dos documentos presumiblemente independientes, lleva a sospechar sobre un reuso de información y sin el crédito adecuado, un caso de plagio.

Sin embargo, este tipo de comparaciones entre textos es computacionalmene costosa y en ocasiones entrega resultados con mucho ruido (falsas sospechas de plagio). Por ello, hemos propuesto un método para, dado un documento sospechoso, recuperar buenos candidatos a ser fuente de sus posibles plagios. El método, basado en la selección de palabras relevantes para el documento sospechoso y su búsqueda en el conjunto de potenciales fuentes, ha demostrado no sólo acelerar el proceso sino, lo que es más importante, mejorar la salida obtenida.

En la actualidad existe bastante investigación a este respecto e incluso hay disponibles diversas herramientas on-line que
buscan casos de plagio en un documento (por ejemplo, Turnitin). Sin embargo, hay un grave problema que recientemente ha llamado la atención de los investigadores en el tema: el plagio translingüe.

Para comprender este tipo de plagio, consideremos un sencillo ejemplo. Un estudiante debe entregar un reporte sobre Guillermo Marconi y para ello busca el artículo correspondiente en Wikipedia. Como el artículo en castellano es demasiado corto para la extensión que le ha sido requerida, decide ir a la versión en inglés. Toma los fragmentos que requiere, los traduce con un traductor on-line y los incluye en su reporte (¡he tenido oportunidad de ver reportes de alumnos en los que ni siquiera los hiperenlaces son eliminados!).

En el plagio translingüe la relación sintáctica entre las palabras de la fuente y el plagio se debilita (peor aún cuando las lenguas implicadas no comparten el mismo alfabeto) y los métodos diseñados para analizar documentos escritos en una sola lengua no son capaces de detectarlo.

Durante este trabajo hemos sentado bases para la detección de plagio translingüe. Nuestro método se basa en diccionarios estadísticos bilingües y los modelos de traducción desarrollados en los años 90 en IBM. En estos mismos modelos se basan traductores automáticos de vanguardia como el de Google.

En el año 2009 hemos organizado la Primera Competición Internacional de Detección Plagio. Por primera vez, investigadores de todo el mundo pudieron comparar sus métodos de detección sobre un conjunto importante de casos de plagio simulado (no olvidemos que el plagio representa una falta ética y que, por ello, encontrar casos reales que se puedan proveer al mundo es muy difícil).

La tesis así como varios de los artículos que hemos publicado sobre el tema pueden encontrarse en mi página personal. Además, el video con la presentación dentro de las jornadas MAVIR, celebradas hace dos meses, puede verse en el Canal UNED. Por otro lado, varios de los recursos que hemos generado se encuentran en la sección de descargas de nuestro grupo.

Actualmente estamos organizando la segunda competición, a la que además de detección de plagio hemos agregado otra tarea: la detección automática de vandalismo en Wikipedia.


Agradezco la invitación de Corex de escribir estas líneas.

Alberto Barrón.



1 comentario:

  1. Excelente trabajo y muy merecedor, no sólo del premio MAVIR, sino de todo nuestro reconocimiento.

    Muchas gracias Alberto por compartirlo con nosotros.

    ResponderEliminar