Análisis de comentarios en YouTube

mayo 21 2023

Lab-Dat, a través de la exploración de herramientas de Inteligencia Artificial (IA), se dispuso a construir un análisis de sentimientos de todos los comentarios de un video de YouTube que contenía información relativa a un vocero de grupos al margen de la ley que pedía clemencia y perdón, al igual que la oportunidad de cambiar sus conductas y estilos de vida.

El objetivo, más allá de la medición de métricas, se situó en la necesidad de comprender qué tipo de emociones, actitudes y opiniones despierta la interacción que tienen los usuarios de YouTube con este tipo de contenido en términos de revisión de los comentarios vertidos sobre este tipo de piezas audiovisuales.

Adicionalmente, esta herramienta plantea la importancia de analizar la manera en que las personas reaccionan a partir de propuestas, discursos o acciones políticas; particularmente, ante la implementación de medidas afines al populismo punitivo latinoamericano , que encuentran sustento en la inauguración del Centro de Confinamiento del Terrorismo (CECOT) y las constantes prórrogas para la implementación del Régimen de Excepción en El Salvador.

El “populismo punitivo” se define como “la estrategia ideológica, manipuladora y reaccionaria del Estado de explotar las inseguridades de la colectividad para neutralizar ciertos debates sociales y criminalizar selectivamente ciertas conductas y sectores sociales para ir restringiendo libertades fundamentales”.

En función de esto, el análisis de sentimiento provee insights útiles para identificar patrones, tendencias o diferentes elementos que llegan a incidir en los sentimientos de las personas, tanto de El Salvador como de otros países. Así, la idea fue justamente identificar qué emociones despertó este video y cómo, desde una dimensión política, constituye una herramienta útil para saber la aceptación o no de una medida, al igual la percepción sobre diferentes temas de interés.

Por otro lado, se vuelve necesario decir que YouTube puede ser utilizado como un instrumento que involucra la desinformación como un mecanismo para legitimar ciertas acciones y discursos. En este sentido, también se observó que el youtuber, encargado de elaborar el video, se autoidentifica como cristiano, por lo que su discurso tomó algunos elementos religiosos para incluirlo en su mensaje. Esto influyó en la manera en que las personas virtieron sus comentarios sobre el video.

El canal de YouTube se denomina TecnoBoca y se unió el 11 de enero de 2017. Este canal posee 401 mil suscriptores y 1,300 vídeos. Según los datos de YouTube, los videos de este canal tienen un total de 77,272,365 visualizaciones. Si bien no nos centramos en las métricas del canal o el tipo de contenido, el enfoque de este análisis gira alrededor de lo sentimientos provocados por este usando herramientas de IA para el análisis de sentimientos y clasificación de comentarios, programación para la extracción de comentarios e Inteligencia de Negocios (Business Intelligence) para las visualizaciones y la interactividad.

Datos extraídos y herramientas

Dicho lo anterior, para la elaboración de este análisis, se hizo uso de diferentes herramientas que involucran una serie de pasos secuenciales. El criterio utilizado para la selección del video fue que, al hacer una búsqueda hace dos meses de videos relacionados a la palabra CECOT, uno de los vídeos que apareció fue el de este youtuber. Este video se tomó en cuenta por el componente religioso que profesa el youtuber, y cómo este elemento influyó en el contenido de los comentarios de las personas, tanto que inclusive se utilizó el elemento religioso para legitimar acciones propias de castigo. Adicionalmente, es un canal que tiene 401 mil suscriptores y el vídeo seleccionado cuenta con 571,035 visualizaciones y más de 10 mil me gusta.

A partir de esto, se configuró en Google Cloud un permiso para el acceso a la API de la plataforma. Se obtuvieron unas credenciales, la cuales sirvieron de soporte para anexarla a un lenguaje de programación estadística, que se denomina R. A través de R, y conectándose a la API de Google Cloud, se pudieron extraer 1,769 comentarios del video que se denomina “Bukele Niega Perdón a las Pandillas”.

Una vez extraídos los comentarios, se guardaron automáticamente en un DataFrame (paneles bidimensionales que contienen filas y columnas-similar a hoja de cálculo en Excel). Luego de guardarlos en un DataFrame, se procedió a utilizar una librería para exportarlos a una hoja de cálculo en formato XLSX (Excel).

Al tener los datos en una hoja de cálculo, se hizo una revisión de todas las variables que fueron extraídas. Entre las variables existentes estaban: el ID del video, el texto del autor del comentario, el texto original, el nombre del usuario, la url de la imagen que utiliza el usuario en YouTube, el ID del canal del autor que hizo el comentario en el vídeo, cantidad de likes que tuvo el comentario, la fecha en que fue publicado el comentario y la fecha en que se actualizó el mismo, entre otras variables más.

Tras hacer la revisión inicial de variables, se seleccionaron aquellas más importantes, como el nombre del usuario que elaboró el comentario, la fecha de publicación del comentario, la cantidad de likes, el texto del comentario, ID, etc. Luego, mediante la conexión establecidas entre Power BI (herramienta de Business Intelligence) y los comentarios almacenados en Excel, se comenzaron a hacer análisis preliminares, tanto haciendo uso de la inteligencia artificial de Microsoft como GPT, de OpenAI.

Metodología para el análisis de sentimientos

El análisis de sentimientos, preliminarmente, se había considerado hacerlo únicamente con la herramienta de Cognitive Services de Microsoft para analizar cada comentario y que, de manera automática, la herramienta le asignara una puntuación. La puntuación comprendía de 0 siendo lo más negativo y 1 lo más positivo. Sin embargo, también se quiso desarrollar un análisis comparativo al utilizar GPT combinado con Google Sheets. Por tanto, utilizamos las dos herramientas para probar la efectividad de ambas.

Cabe destacar que, en el análisis, optamos por no llevar a cabo intervención humana alguna en la clasificación de sentimientos ni en las categorías. Por tanto, existen errores que se podrán identificar en algunos comentarios y clasificaciones de categorías. Esto lo hicimos con el objetivo de que el público pueda interactuar con la herramienta, hacer uso de ella, que nos den retroalimentación y que saquen sus conclusiones entre ambos análisis al revisar la efectividad de Cognitive Services y GPT.

Además, en el caso de GPT, le pedimos que hiciera una clasificación automática de categorías con base a lo que leía de cada uno de los comentarios. Así, desplegó más de 700 categorías, algunas de las cuales se repiten, pero, una vez más, no recodificamos para medir el comportamiento de ambas herramientas y para que los usuarios puedan interactuar y establecer sus valoraciones.

En el caso de Cognitive Services, le pedimos también, mediante el análisis de lenguaje natural, que, del total de los 1,769 comentarios, extrajera todas las palabras clave. Estas palabras clave fueron organizadas a través de una nube de palabras. Asimismo, fue haciendo una puntuación de cada uno de los comentarios, estableciendo los valores entre 0 y 1, según lo que interpretaba retomando frases clave de las palabras. Cabe destacar que el 0.5 son comentarios neutrales o que, dado que no comprendía exactamente toda la información, Cognitive Services le asignó esa puntuación como indeterminados. Hay algunos comentarios que están mal clasificados o necesitan más contexto, pero lo hemos dejado así para efectos de la revisión de los usuarios.

En tanto, para OpenAI, se trasladaron los comentarios a una Hoja de Cálculo de Google y, por medio del uso de la API de GPT, se estableció una conexión. Así, se le pidió a GPT clasificar automáticamente los comentarios con base a si eran negativos, positivos o neutrales. De la misma forma, se le solicitó a GPT que construyera automáticamente categorías de cada comentario, es decir, de qué consideraba que trataban con base a lo que identificaba. Al respecto, diseñó todo un cúmulo de más de 700 categorías, que no han sido reducidas por intervención humana, pero ese sería el siguiente paso consecuente en análisis posteriores.

Tras poder hacer estos análisis, se desarrolló la construcción de panales en Power Bi. En total, se construyeron dos paneles, uno para el análisis con Cognitive Services y otro para GPT. En el panel del análisis de comentarios en Cognitive Services, se añadió la fecha de publicación de los comentarios, el total de comentarios analizados, el score promedio del total de comentarios con base a la clasificación comparándolos con el total de likes de comentarios, nube de palabras de todos los comentarios, los comentarios y un gráfico circular mostrando los porcentajes y las cantidades totales.

Para el caso de la herramienta de GPT, tras la obtención de los comentarios clasificados de manera automática por la herramienta, se construyeron también paneles. En los paneles se colocaron datos relativos a la cantidad de comentarios clasificados de acuerdo a categoría: negativo, positivo o neutral. Se incluye también la publicación de la fecha, las categorías generadas automáticamente, las horas en que los comentarios fueron publicados, una tabla con la clasificación de si fue negativo, positivo o neutral el comentario, junto a sus likes y el comentario.

Discusión de resultados

Cognitive Services de Microsoft

Para el análisis de sentimiento elaborado con Cognitive Services, el 46.5% de los comentarios analizados fueron clasificados como negativos o muy negativos, de acuerdo al análisis del servicio de Microsoft. Los sentimientos que fueron clasificados como negativos, en mayor medida, eran ira, venganza, molestia y enojo hacia los grupos al margen de la ley. Al respecto, ciertos comentarios hicieron alusión a episodios del pasado, cuando pandilleros quemaron un microbús con sus pasajeros dentro en el municipio de Mejicanos. De hecho, en los comentarios negativos, fue uno de los que obtuvo mayor cantidad de likes por parte de los usuarios, con 258 me gusta. En otros casos, también los usuarios manifestaron que estos grupos eran “demonios sin alma y lo siguen siendo”. También se observa un componente de deshumanización -como la narrativa que canalizan diferentes figuras gubernamentales- hacia estos grupos, los cuales, según se puede leer en los comentarios de los usuarios, se menciona que “los delincuentes no tienen derechos, solo la silla eléctrica”.
Hay varios elementos de desinformación en los comentarios: se expresaron ideas para culpabilizar a los derechos humanos de la protección de estos grupos, porque es un “organismo muy corrupto”. Claramente, no se conoce en qué consisten los derechos humanos ni su función, pues se les deslegitima y ataca. De igual manera, se hace alusión si existe la pena de muerte en el país. Se utiliza la religión en los comentarios como un elemento para justificar el castigo de estos grupos.
El score promedio para la cantidad de comentarios negativos fue de 0.39, mientras que para los muy negativos alcanzó la cifra promedio de 0.12. El comentario con más likes en la categoría de muy negativos fue el siguiente: “Ellos no tuvieron piedad en matar todos los días a personas inocentes, extorsionando a las personas decentes. NO SE RETROCEDE EN NADA”. Este comentario obtuvo 90 likes.
El 32.6% de los comentarios se clasificaron como positivos y muy positivos. De esta cifra, la mayor cantidad de likes en los comentarios positivos eran para felicitar a El Salvador y manifestar sentimientos positivos por tener un presidente como el actual.
El total de likes en los comentarios ascendió a la cifra de 3,555, siendo el valor máximo 507 y el mínimo 1 like.
Se observa que las palabras que tuvieron mayor frecuencia en su aparición son: presidente (71), Dios (63), Bukele (55), entre otras más haciendo referencia a la biblia, castigo y pandillas.
En el caso de los comentarios positivos, también se observa la tendencia a manifestar que se necesitan más presidentes como el de El Salvador para corregir el problema de la delincuencia en otros países. Generalmente, los usuarios que hacen estos comentarios expresaron ser de otros lugares.
Uno de los comentarios con más likes, clasificados en la categoría de positivos, obtuvo 172. El comentario reza de la siguiente forma: “Hola, yo soy de Uruguay y me da un gusto enorme haber podido ver en mi lapso de vida a un presidente de verdad que quiere que su pueblo pare de sufrir y avance, no dándole tregua a los delincuentes y asesinos. Ojalá nazcan mas como vos Bukele y tengamos la suerte de que sea en distintas patrias aunque mundo hay uno solo!” (se transcribe con todos los errores para guardar la fidelidad del texto).

GPT de OpenAI

En el caso de los comentarios clasificados por GPT, el 55.5% del total fueron considerados como negativos, 30.7% como positivos y 13.68% como neutrales. Una vez más, tanto en GPT como en Cognitive Services, la tendencia de comentarios negativos suele ser mayor. Sin embargo, la explicación es sencilla: como es un video elaborado en contra de un grupo que despierta odio, aversión y enojo por todos los actos cometidos en el pasado, claramente es la tendencia predominante. Por tanto, ambos modelos identifican lo negativo como un elemento reiterativo en los mensajes.
Para el caso de lo sentimientos positivos, justamente se suelen asociar al conjunto de acciones que, a nivel comunicacional, el presidente de El Salvador, Nayib Bukele, muestra a través de todos los canales y redes sociales que se utilizan para potenciarlo como un líder enérgico pero que cuida de su pueblo. En esta línea, un comentario que tuvo 33 likes, y que fue clasificado como positivo, hizo una alusión a que el presidente actúa así a raíz de la sabiduría que Dios le proporciona.
Las 11 de la noche se identifica como el horario en que más comentarios se publicaron entre el 2 de octubre de 2022 al 31 de marzo de 2023.
Se le solicitó a GPT que hiciera una clasificación de categorías automáticamente con base a la lectura de los comentarios. En tal sentido, desplegó 816 categorías que no han sido reclasificadas para analizar la forma en que la IA construyó cada una de ellas. En ejercicios posteriores se pretende proceder a reclasificar de manera manual alguna de ellas, pero, para efectos de este ejercicio, se dejó tal cual como GPT las arrojó. Al respecto, se destaca que la tendencia predominante que identificó GPT en los comentarios fue una clasificación política (51 comentarios clasificados de esta manera), seguido de religión/espiritualidad, al haber obtenido 43; la categoría de opinión/comentario obtuvo 39, sentimiento negativo 36, análisis de sentimientos (negativo) 34, odio el discurso o el lenguaje violento 26, inapropiado/ofensivo 22, crimen y castigo 22. Estas categorías representaron el 15% del total. De nuevo, muchas de ellas deben ser reclasificadas para evitar repeticiones o agrupar temas comunes. Otra categoría que llama la atención, y que fue el nombre tal cual le asignó la IA, fue el de sentimiento positivo hacia un líder político, en que 12 comentarios fueron clasificados así.

Consideraciones

Este es un experimento preliminar que está sujeto a ser analizado por parte del público; particularmente, para recibir retroalimentación que podamos incluir en análisis posteriores.
Los análisis elaborados tienen a la base la necesidad de aspirar a un conocimiento sobre la IA en temas de redes sociales para generar discusión entre la academia, el público en general, medios de comunicación y empresa privada, entre otros actores más.
Lab-Dat fomenta el uso de esta herramienta con fines y propósitos de investigación y análisis para su incorporación en el análisis de redes sociales tomando como base elementos éticos, sus alcances y limitaciones.

Locación

San Salvador, El Salvador

Teléfono:

+503 7165-5649

Correo electrónico

info@lab-dat.com

Anterior Siguiente