lunes, 13 de abril de 2009

Análisis de opinión en blogs (parte I)



Es increíble la evolución que ha tenido Internet, y especialmente la Web, desde su aparición hasta la actualidad, de tal modo que todavía no se ha acabado de definir exactamente qué es la Web 2.0 cuando ya se habla de su evolución a la Web 3.0.


Pues bien, Web 2.0 es la evolución de la aplicación tradicional de la Web hacia una aplicación final de la misma focalizada en el usuario. Es por ello que la Web 2.0 no es exactamente una tecnología, aunque común y erróneamente se la identifique como tal, sino un cambio de actitud en el uso de la misma.


Uno de estos cambios es la evolución de la página Web personal, dónde el autor escribía y el navegante se limitaba a leer lo que el autor quería comunicarle, llegando en algunos casos a permitírsele un pequeño feedback mediante el envío de un mensaje al autor de la misma, mensaje que en la mayoría de los casos caía en el olvido o se establecía una comunicación privada entre autores, hacia páginas de construcción de contenidos de manera colaborativa como son los Blogs, dónde se puede efectuar un intercambio online de opiniones entre el propietario y escritor de la página Blog (que pueden a su vez ser muchos, como en este Blog), y los lectores del mismo, creándose un foro de intercambio guiado por entradas de diario.


Lo anterior brinda grandes oportunidades al gran público como es la de expresar de manera totalmente libre y sin censura (en teoría) sus opiniones y pareceres respecto a prácticamente cualquier tema, producto y/o servicio. Y como muy bien representa la viñeta, cada día más gente posee algún blog, escribe en algún blog o comenta en algún blog.


Y esto junto con la incesante necesidad de la empresa de conocer su entorno, proporciona un campo de estudio aplicado realmente interesante para el procesamiento del lenguaje natural como es la del "sentiment analysis" o análisis del sentimiento del escritor respecto a un determinado tema, lo que en el ámbito empresarial podemos traducir por en análisis automático de las opiniones vertidas en Webs, en este caso Blogs, sobre nuestros productos y/o servicios.


En el departamento de I+D+i de Corex Soluciones Informáticas estamos trabajando en un proyecto de investigación básica con el objetivo de obtener un desarrollo aplicado al análisis y recuperación automática de opiniones de productos y servicios de las empresas a partir de la búsqueda, recuperación y análisis de la blogosfera.


El primer objetivo o fase de la investigación es la obtención de un clasificador de páginas que sea capaz de determinar si una página dada es o no de tipo Blog, a ser posible independientemente del contenido, de manera que pueda aplicarse a cualquier sector productivo, e independientemente del idioma en el que esté escrita, de manera que pueda ser aplicado de manera internacional.


En la actualidad hemos construido un modelo de aprendizaje automático basado en Naïve Bayes y otro en Support Vector Machines (SVM) capaz de determinar si una página es de tipo Blog o no, independientemente del idioma (actualmente testado en inglés, castellano, francés y alemán) e independientemente del contenido (salud, cocina, tecnología, sociedad, tiempo libre, educación...), consiguiendo unos resultados bastante satisfactorios superiores al 92% del estadístico F (superior al 98% en caso de no pertenencia) y un intervalo de error real inferior al 2%±0,4%, y estamos elaborando un artículo y una demostración para ser enviados a la Sociedad Española de Procesamiento del Lenguaje Natural SEPLN2009 y posteriormente a la CAEPIA-TTIA Conference, concretamente al WOMSA: 1st Workshop on Opinion Mining and Sentiment Analysis


Tras estudiar el estado del arte y comprobar que no existía ningún método predominante en la actualidad, y que algunos de los métodos existentes se basaban en heurísticas que dan como fruto reglas de decisión booleanas o con una ponderación manual de sus alternativas, nosotros decidimos construir nuestro modelo hibridando la idea de representación del conocimiento mediante marcos (frames) de Mavin Minsky con métodos de aprendizaje inductivo supervisado como los nombrados SVM y Naïve Bayes.


La idea de utilizar marcos responde directamente a la apariencia física del Blog y a la manera en que un ser humano sería capaz de reconocerlo simplemente viéndolo, sin necesidad de conocer el idioma ni el contenido, simplemente una serie de características visuales que le hacen ser como es, un diario electrónico.


Pero la idea de usar únicamente marcos sería muy similar a los métodos basados en reglas fijas definidas por un experto, algo quizás demasiado rígido y demasiado difícil de generalizar para la gran cantidad de tipos de blogs existentes.


Por ello se decidió mezclar la representación basada en marcos con un método de aprendizaje automático, a modo de aprendiz de la ponderación de sus ranuras, de manera que, de igual modo que un ser humano, sea capaz de aprender con la visualización (análisis) de gran cantidad de páginas previamente catalogadas como blog o como no blog (aprendizaje supervisado) y generalizando reglas en base a ello (aprendizaje inductivo), a discernir entre ambos tipos de página (clasificador binario).


En la segunda parte de este artículo profundizaremos más en la idea de marco y en cómo se ha aplicado en nuestra investigación.

No hay comentarios:

Publicar un comentario en la entrada