La inteligencia artificial puede medir la polarización política
La sociología, la lingüística y la informática se unen para estudiar este fenómeno en las redes sociales
Desde hace un tiempo, se afirma que la sociedad está polarizada, pero ¿cómo podemos comprobar si es cierto? ¿Se puede medir la polarización? Se puede. La sociología, la lingüística y la informática se unen para estudiar este fenómeno en la esfera pública, muy bien representada hoy día en las redes sociales, donde los ciudadanos comparte su postura sobre cualquier tema sin complejos. Media...
Desde hace un tiempo, se afirma que la sociedad está polarizada, pero ¿cómo podemos comprobar si es cierto? ¿Se puede medir la polarización? Se puede. La sociología, la lingüística y la informática se unen para estudiar este fenómeno en la esfera pública, muy bien representada hoy día en las redes sociales, donde los ciudadanos comparte su postura sobre cualquier tema sin complejos. Mediante técnicas de procesamiento del lenguaje natural y aprendizaje automático podemos analizar los comentarios que se publican en las redes.
Entendemos por postura polarizada aquella que se muestra a favor o en contra de una idea o mensaje, sin considerar los puntos intermedios. Entendemos, también, que una opinión que no muestra argumentos es una opinión emotiva, fruto más del sentimiento que del razonamiento. Teniendo esto en cuenta, para estudiar la polarización debemos analizar un gran número de opiniones. Esas opiniones se reflejan en los comentarios publicados en redes sociales, por lo tanto, podemos recoger esos comentarios y estudiar si muestran una postura emotiva o, por el contrario, reflejan razonamiento y exponen argumentos meditados.
Lo primero es crear un corpus, o base de datos de comentarios, extraído de una red social. Esos comentarios deben referirse a un mismo tema, por ejemplo, unas elecciones. Una vez tenemos nuestro corpus, identificamos qué rasgos del lenguaje natural (que no es otra cosa que el lenguaje humano) nos sirven como evidencia de emotividad o de argumentación. Por ejemplo, muchos emoticonos, mayúsculas o signos de admiración indican que, posiblemente, el grado de emotividad del comentario es mayor que el de otro que contiene muchos verbos de argumentación. Para que el programa nos entienda, hemos de convertir estas evidencias en números. Esto lo conseguimos hallando el porcentaje que hay de cada elemento —emoticonos, mayúsculas, signos de admiración, verbos, etc.— en cada comentario. En otras palabras, las evidencias son los valores que sirven para representar los comentarios de manera numérica. Esta búsqueda y registro de evidencias en el texto es, a grandes rasgos, lo que llamamos procesamiento del lenguaje natural.
La segunda parte del proceso es la que implica el uso de la inteligencia artificial y se divide en dos fases. La primera fase requiere mentes humanas, pues es necesario tomar una parte del corpus de comentarios y etiquetar manualmente unos cuantos que le servirán de ejemplo al algoritmo de aprendizaje automático, es decir, al programa, para «aprender». Dicho de otra manera, una o varias personas etiquetan a mano un puñado de comentarios como «emotivos» o «no emotivos». La segunda fase consiste en entrenar el algoritmo. Este toma los datos etiquetados previamente, detecta los patrones que le sirven para clasificar correctamente y genera un modelo (que es una representación de esos patrones detectados y que sirve para clasificar nuevos mensajes). Así, cuando procesemos el resto de los comentarios que tenemos guardados en nuestro corpus, el modelo los etiquetará automáticamente, basándose en lo que ha aprendido en esta fase de entrenamiento.
Finalmente, procesar nuestro corpus completo usando el modelo generado nos permite conocer cuántos comentarios son emotivos y cuántos no. Esta técnica no busca tanto saber cuántos de los comentarios están a favor y cuántos en contra de una opinión —lo cual se podría averiguar empleando otras tecnologías como el análisis del sentimiento—, sino, más bien, medir cuánta emotividad existe en la muestra analizada, para poder concluir si en dicha muestra impera la polarización.
Este fue un modelo real que se construyó en el marco de un Trabajo de fin de Máster del Máster de Letras Digitales de la Universidad Complutense de Madrid para estudiar los comentarios relacionados con la campaña electoral a la Asamblea de Madrid de 2021, publicados en YouTube. El modelo fue mejorado incluyendo otros parámetros a tener en cuenta, como la longitud del texto, además de aplicar análisis del sentimiento para obtener mayor precisión en la clasificación de los comentarios. Asimismo, se constató que el modelo era capaz de identificar con seguridad comentarios emotivos, pero que la etiqueta opuesta no implica tanto que el comentario sea razonado y no emotivo, sino que no se puede identificar la emotividad con claridad. De 16.691 comentarios analizados, 8.230 fueron etiquetados por el modelo como “emotivos”, lo cual indica un alto porcentaje de emotividad confirmada en la muestra, es decir, aproximadamente la mitad de los comentarios carecen de rasgos de razonamiento y contienen evidencias de subjetividad, lo que sugiere un nivel importante de polarización en el contexto estudiado.
Lys Mayor Dueñas es lingüista computacional, egresada del Máster de Letras Digitales de la Universidad Complutense de Madrid.
Crónicas del Intangible es un espacio de divulgación sobre las ciencias de la computación, coordinado por la sociedad académica SISTEDES (Sociedad de Ingeniería de Software y de Tecnologías de Desarrollo de Software). El intangible es la parte no material de los sistemas informáticos (es decir, el software), y aquí se relatan su historia y su devenir. Los autores son profesores de las universidades españolas, coordinados por Ricardo Peña Marí (catedrático de la Universidad Complutense de Madrid) y Macario Polo Usaola (profesor titular de la Universidad de Castilla-La Mancha).
Puedes seguir a EL PAÍS TECNOLOGÍA en Facebook y Twitter o apuntarte aquí para recibir nuestra newsletter semanal.