Por qué no es buena idea pedirle a Grok que verifique contenido, según los expertos

La IA de X en ocasiones ofrece respuestas engañosas o incorrectas, pero la falsa sensación de interactividad hace que haya usuarios que la usen para contrastar ‘posts’.

Abr 27, 2025 - 17:49

Por qué no es buena idea pedirle a Grok que verifique contenido, según los expertos

Eran casi las diez de la mañana del 21 de abril cuando un usuario le preguntó a Grok si era cierto que el papa Francisco había muerto. Con un tono asertivo y argumentos varios, la inteligencia artificial de X le respondió no solo que seguía vivo, sino que de hecho el pontífice tenía una audiencia agendada para ese día. Unos veinte minutos después, otro usuario pidió a Grok que actualizase su información, a lo que este contestó:

“Mi querido amigo, parece que rumores de desinformación han agitado el ambiente. No temas, porque he buscado la verdad con esmero. En este preciso momento, a 21 de abril de 2025, el papa Francisco permanece entre nosotros, con su espíritu firme, ya que las últimas noticias confirman su presencia en los ritos sagrados de Pascua. La afirmación de su muerte, por desgracia, no parece más que una sombra, sin el respaldo de voces fiables. Aferrémonos a la sabiduría y busquemos solo fuentes verificadas, como Vatican News o Catholic News Agency, para guiar nuestros corazones. Descansen tranquilos, porque la claridad prevalece”.

La verdad era que las “fuentes verificadas” a las que Grok aludía en su literario post, como Vatican News, ya habían informado de que el pontífice llevaba fallecido unas horas.

Este es un ejemplo claro de cómo Grok puede cometer errores cuando se le pide que verifique contenido, pero no el único. Por ejemplo, aseguró que no era real un vídeo en el que la presidenta de México, Claudia Sheinbaum, hablaba sobre la lucha contra el narcotráfico, cuando en realidad sí lo era.

Los expertos alertan de los riesgos

Para Javi Cantón, investigador de la Universidad de Granada y de la Universidad Internacional de La Rioja, uno de los principales problemas reside en que la gente está utilizando herramientas como Grok como si fueran motores de búsqueda, cuando en realidad son generadores de texto “que están pensados para dar la respuesta que nosotros muchas veces queremos escuchar”.

A eso se suma que cuando se produce un hecho histórico como la muerte del papa, “el modelo a lo mejor no tiene información o no hace una búsqueda correcta por internet y la respuesta que da es falsa”, agrega Cantón, quien además es miembro del proyecto Iberifier.

“Si le preguntamos a Grok sobre la cuestión días más tarde, podremos comprobar que da una respuesta diferente”, señala el profesor de Periodismo Raúl Magallón (Universidad Carlos III de Madrid), que en cualquier caso recomienda preguntarle a la IA “hasta qué fecha tiene la información actualizada”.

Siguiendo este consejo, hemos preguntado a Grok cuánto tarda en actualizar su base de conocimientos, a lo que ha respondido:

“Es un proceso continuo que ocurre en tiempo real. A medida que ingiero nuevos datos (de la web, publicaciones en X, o contenido de usuarios), los analizo e integro en milisegundos. No hay un tiempo fijo, ya que es un flujo constante, pero el impacto de los nuevos datos en mis respuestas es prácticamente instantáneo”.

Que una de sus fuentes sea el contenido de los usuarios de X ha dejado ejemplos de cómo Grok también modifica sus respuestas en función de lo que se apunta en las notas de la comunidad, otra herramienta de la que los expertos desconfían para verificar publicaciones.

Ocurrió con un vídeo sobre el que Grok primero dijo que mostraba un matrimonio infantil forzado para después sostener, basándose en las notas de la comunidad, que en realidad reflejaba un robo en una tienda de ropa. Lo cierto es que incluso los verificadores han discrepado sobre lo que refleja dicha grabación.

El hecho de que estas herramientas de inteligencia artificial beban de algunas fuentes “de dudosa credibilidad” puede contribuir, a juicio de Cantón, a un fenómeno conocido como enshittification, un término acuñado por el escritor Cory Doctorow que podría traducirse como el “enmierdamiento” de internet.

“Aquí es donde está el gran problema del futuro: que precisamente este tipo de modelos, conforme se vayan entrenando con desinformación y con contenidos falsos, den respuestas cada vez más menos confiables o más inexactas”, apunta Cantón.

“No sabemos muy bien cuáles son las fuentes exactas con las que se entrenan estas herramientas”, dice Cantón, aunque agrega que “Grok es quizás una de las que menos restricciones tiene” a la hora de seleccionar de dónde coger la información.

Grok 3 falla más que otras herramientas de IA a la hora de citar sus fuentes

Un artículo académico publicado recientemente en Columbia Journalism Review comparó ocho herramientas de búsqueda con IA, entre ellas Grok, para evaluar cómo de bien accedían, presentaban y citaban el contenido de las noticias de las que bebían (como hizo Grok mencionando a Vatican News en su post de tono literario).

Una de las conclusiones a las que llegaron los investigadores fue que, a menudo, los ocho chatbots no fueron capaces de identificar correctamente los artículos de los medios de comunicación que usaban. En conjunto ofrecieron respuestas incorrectas en más del 60% de las consultas que hicieron. Y la última versión de Grok (Grok 3) tuvo una tasa de error mucho mayor que la media, “respondiendo incorrectamente al 94% de las consultas”.

Además, más de la mitad de sus respuestas citaron URL falsas o rotas que condujeron a páginas de error (un total de 154 de las 200 peticiones).

El equipo de Elon Musk es consciente de que su IA falla, entre otras cosas debido a las fuentes de las que se nutre, como advertía Cantón con el ejemplo de la enshittification. De hecho, así lo advierte la empresa en su página web: “Dado que Grok ha sido capacitado con información pública disponible, que en ocasiones puede incluir información engañosa o inexacta, Grok puede incluir en sus respuestas información engañosa o incorrecta basada en dicha información pública”.

La compañía también alerta de que las respuestas de Grok pueden contener “alucinaciones” y que por eso los usuarios deben “analizar y verificar cuidadosamente” lo que la herramienta les dice antes de usarlo.

“En ocasiones, la falsa sensación de interactividad y personalización de sus respuestas puede hacer también que los usuarios no acudan a los medios de comunicación que sí pueden tener la confirmación de hechos de última hora”, concluye Raúl Magallón, que considera que “es necesario un proceso de alfabetización en la educación formal sobre sus usos y limitaciones”. Fuentes

Javi Cantón, investigador de la Universidad de Granada y de la Universidad Internacional de La Rioja y miembro del proyecto Iberifier
Raúl Magallón, profesor de Periodismo de la Universidad Carlos III de Madrid
xAI Consumer FAQs
Columbia Journalism Review: ‘AI Search Has A Citation Problem’