Чат-боты преувеличивают научные открытия: что известно

Выяснилось, что способность ИИ обрабатывать огромные объемы информации имеет «темную сторону»: он может выдать неверные выводы. ChatGPT, DeepSeek и другие чат-боты часто искажают выводы научных исследований, пишет Royal Society Open Science. Сообщается, что это выяснилось после анализа 4900 сделанных «роботами» резюме статей в ведущих научных изданиях. Изложить содержание этих публикаций попросили десять различных чат-ботов. Большинство из них были версиями ChatGPT — на момент начала исследования в январе 2024 года они были самыми популярными. Как отметили ученые, школьники все чаще пользуются ими для выполнения домашних заданий. Ученые также ознакомились с тем, как научный контент интерпретируют LLaMA, Claude и DeepSeek. В итоге больше всего вопросов вызвали шесть языковых моделей: GPT-4 Turbo, ChatGPT-4o, ChatGPT-4.5, LLaMA 2 70B, LLaMA 3.3 70B и DeepSeek. Как пишут ученые, эти боты чаще других «грешат» слишком обобщенными выводами. К примеру, вместо того, чтобы назвать лечение эффективным конкретно в рамках данного исследования, они просто пишут, что лечение эффективно.

Май 14, 2025 - 20:52
 0
Чат-боты преувеличивают научные открытия: что известно

Выяснилось, что способность ИИ обрабатывать огромные объемы информации имеет «темную сторону»: он может выдать неверные выводы.

ChatGPT, DeepSeek и другие чат-боты часто искажают выводы научных исследований, пишет Royal Society Open Science. Сообщается, что это выяснилось после анализа 4900 сделанных «роботами» резюме статей в ведущих научных изданиях.

Изложить содержание этих публикаций попросили десять различных чат-ботов. Большинство из них были версиями ChatGPT — на момент начала исследования в январе 2024 года они были самыми популярными. Как отметили ученые, школьники все чаще пользуются ими для выполнения домашних заданий. Ученые также ознакомились с тем, как научный контент интерпретируют LLaMA, Claude и DeepSeek.

В итоге больше всего вопросов вызвали шесть языковых моделей: GPT-4 Turbo, ChatGPT-4o, ChatGPT-4.5, LLaMA 2 70B, LLaMA 3.3 70B и DeepSeek. Как пишут ученые, эти боты чаще других «грешат» слишком обобщенными выводами. К примеру, вместо того, чтобы назвать лечение эффективным конкретно в рамках данного исследования, они просто пишут, что лечение эффективно.