Людская (и AI тоже) желтизна, неаккуратность, попсовость
Я всегда писал, что на людей и на LLM надо смотреть одинаково. На прошлой неделе был интересный скандал, связанный с тем, что люди не любят правду, а любят хорошо подвешенный язык и приятный тон. И маркетинг, конечно, опирается именно на это: говорит правдоподобное приятное месиво текста с красивыми картинками. Хороший маркетинг попсов!Нейросетка Llama-4, имеющая скромные характеристики по всем безлюдным тестам, была выставлена на людской суд (lmarena)-- и уверенно заняла там второе место, обогнав многие и многие нейросетки, заведом умнее её. Эта разница в безлюдных тестах и человечьем тесте настолько удивило всех, что lmarena вынуждена была выставить исходные тексты более 2000 оцениваемых людьми баттлов Llama-4 с другими сетками -- и показать, что люди предпочитали оценки Llama-4, даже когда эта сетка несла ахинею. А другие сетки? Другие сетки говорили правду, но люди поступали как люди -- "гонца, приносящего плохие вести убивают". Ну, и ещё фактор "ты говоришь мне своё мнение недостаточно уважительно, мне не хочется даже разбираться, что там у тебя за содержание". Потом выяснилось, что в безлюдных текстах участвовал нормальный вариант Llama-4, а в текстах на lmarena -- специально подученный на "нравиться людям" вариант, вот тут об этом: https://x.com/lmarena_ai/status/1909397817434816562. Чтобы понравиться, надо говорить не правду, а говорить приятное. А если не знаешь ответа, то присочинить что-нибудь правдоподобное -- и будет приятно. Я скажу жёстче: люди делают жуткие ошибки в логике, все эти cognitive bias. Чтобы понравиться людям, надо обязательно делать такие же ошибки в логике, а не стараться избегать их -- иначе будешь слыть заумным, душнилой, неприятным типом. Это, как видим, не про людей -- это проверено и на нейросетках. Чтобы нравиться людям, содержание не так важно, как стиль -- а содержание должно быть ожидаемым (в том числе с ожидаемыми ошибками, которые собеседнику кажутся ни разу не ошибками, ибо он сам так ошибочно думает).Ко мне это тоже относится: "будь проще, и люди к тебе потянутся" -- если я буду писать с небольшим числом логических ошибок, то ко мне потянутся только те, у кого тоже небольшое число этих логических ошибок в мышлении. Если буду писать попроще, то есть обращая внимание на стиль и делая ожидаемые ошибки, которые кажутся чистой правдой большинству не слишком грамотного населения -- да, люди ко мне потянутся. Это будет популярность, попса, любовь масс. Но я не хочу опопсеть. Я не хочу говорить и писать беллетристику (https://en.wikipedia.org/wiki/Belles-lettres), одобряемую широкими народными массами бессмыслицу. Тем более что её нейросетки всё равно напишут лучше, чем я -- уже сегодня. И ещё одна мысль из этой истории, эту мысль высказывает Ринат Абдуллин в https://t.me/llm_under_hood/555: "Если в продукте с LLM под капотом не упоминается слово Accuracy в контексте цифр и доказательств, то это умножитель Даннинга — Крюгера. Бегите". Вот про людей всё то же самое. Я читаю один интересный блог, где маркетинг-маркетинг вперемешку с "интересными постами" -- и вот в этих "интересных постах" каждый второй пост -- враньё, давно опровергнутое. Автор искренне верит, что он публикует не враньё, но так уж получается, что враньё всегда чуть-чуть интересней, чем сухая правда-матка, а авторский глаз этого не видит. Поэтому вранья в раздел "интересное" попадает заведомо больше: он же хочет быть популярным, это же маркетинг! Если ему указать на враньё -- он признаёт, потом говорит "да, враньё, но пусть уж висит мне напоминанием", но на каждый второй пост ведь не науказываешься, к тому же Ринат Абдуллин совершенно справедливо указывает на закон Брандолини (я и сам на него часто ссылался в своих постах, а также в дискуссиях в блоге -- когда меня просят что-то "развёрнуто опровергнуть", https://ru.wikipedia.org/wiki/Закон_Брандолини ): «количество энергии, необходимой для опровержения чуши, на порядок больше, чем требуется для её производства». Поэтому правда всегда проиграет чуши, особенно если эта чушь сознательно сделана приятной "простым людям, которые потянутся", если это попсовая чушь. Ну, или если чушь генерируется в форме централизованной DoS (denial of service) атаки, https://en.wikipedia.org/wiki/Gish_gallop -- тебе выдают любых десять или двадцать, или тридцать аргументов, не заботясь об их корректности, что очень дёшево, причём заранее зная, что в силу закона Брандолини ты эти аргументы не сможешь внятно ответить, ибо это x10 (это очень консервативная оценка, обычно тут не порядок, а два-три порядка величины) более трудозатратно. В связи с этим я долго думал, как бы выразить характеристику Accuracy, привычную для нейросетей нежити, для мокрых нейросетей. Вот тут про accuracy и precision (https://en.wikipedia.org/wiki/Accuracy_and_precision): accuracy это про то, насколько ты врёшь по сравнению с правдой, а precision -- это насколько ты однообразен в своих ответах. И картинок метафоры стрельбы по мишени видно, что accuracy -- это "сбитая мушка", а precision -- это кучность. Ка

Нейросетка Llama-4, имеющая скромные характеристики по всем безлюдным тестам, была выставлена на людской суд (lmarena)-- и уверенно заняла там второе место, обогнав многие и многие нейросетки, заведом умнее её. Эта разница в безлюдных тестах и человечьем тесте настолько удивило всех, что lmarena вынуждена была выставить исходные тексты более 2000 оцениваемых людьми баттлов Llama-4 с другими сетками -- и показать, что люди предпочитали оценки Llama-4, даже когда эта сетка несла ахинею. А другие сетки? Другие сетки говорили правду, но люди поступали как люди -- "гонца, приносящего плохие вести убивают". Ну, и ещё фактор "ты говоришь мне своё мнение недостаточно уважительно, мне не хочется даже разбираться, что там у тебя за содержание". Потом выяснилось, что в безлюдных текстах участвовал нормальный вариант Llama-4, а в текстах на lmarena -- специально подученный на "нравиться людям" вариант, вот тут об этом: https://x.com/lmarena_ai/status/1909397817434816562.
Чтобы понравиться, надо говорить не правду, а говорить приятное. А если не знаешь ответа, то присочинить что-нибудь правдоподобное -- и будет приятно. Я скажу жёстче: люди делают жуткие ошибки в логике, все эти cognitive bias. Чтобы понравиться людям, надо обязательно делать такие же ошибки в логике, а не стараться избегать их -- иначе будешь слыть заумным, душнилой, неприятным типом. Это, как видим, не про людей -- это проверено и на нейросетках. Чтобы нравиться людям, содержание не так важно, как стиль -- а содержание должно быть ожидаемым (в том числе с ожидаемыми ошибками, которые собеседнику кажутся ни разу не ошибками, ибо он сам так ошибочно думает).
Ко мне это тоже относится: "будь проще, и люди к тебе потянутся" -- если я буду писать с небольшим числом логических ошибок, то ко мне потянутся только те, у кого тоже небольшое число этих логических ошибок в мышлении. Если буду писать попроще, то есть обращая внимание на стиль и делая ожидаемые ошибки, которые кажутся чистой правдой большинству не слишком грамотного населения -- да, люди ко мне потянутся. Это будет популярность, попса, любовь масс. Но я не хочу опопсеть. Я не хочу говорить и писать беллетристику (https://en.wikipedia.org/wiki/Belles-lettres), одобряемую широкими народными массами бессмыслицу. Тем более что её нейросетки всё равно напишут лучше, чем я -- уже сегодня. И ещё одна мысль из этой истории, эту мысль высказывает Ринат Абдуллин в https://t.me/llm_under_hood/555: "Если в продукте с LLM под капотом не упоминается слово Accuracy в контексте цифр и доказательств, то это умножитель Даннинга — Крюгера. Бегите".
Вот про людей всё то же самое. Я читаю один интересный блог, где маркетинг-маркетинг вперемешку с "интересными постами" -- и вот в этих "интересных постах" каждый второй пост -- враньё, давно опровергнутое. Автор искренне верит, что он публикует не враньё, но так уж получается, что враньё всегда чуть-чуть интересней, чем сухая правда-матка, а авторский глаз этого не видит. Поэтому вранья в раздел "интересное" попадает заведомо больше: он же хочет быть популярным, это же маркетинг! Если ему указать на враньё -- он признаёт, потом говорит "да, враньё, но пусть уж висит мне напоминанием", но на каждый второй пост ведь не науказываешься, к тому же Ринат Абдуллин совершенно справедливо указывает на закон Брандолини (я и сам на него часто ссылался в своих постах, а также в дискуссиях в блоге -- когда меня просят что-то "развёрнуто опровергнуть", https://ru.wikipedia.org/wiki/Закон_Брандолини ): «количество энергии, необходимой для опровержения чуши, на порядок больше, чем требуется для её производства». Поэтому правда всегда проиграет чуши, особенно если эта чушь сознательно сделана приятной "простым людям, которые потянутся", если это попсовая чушь. Ну, или если чушь генерируется в форме централизованной DoS (denial of service) атаки, https://en.wikipedia.org/wiki/Gish_gallop -- тебе выдают любых десять или двадцать, или тридцать аргументов, не заботясь об их корректности, что очень дёшево, причём заранее зная, что в силу закона Брандолини ты эти аргументы не сможешь внятно ответить, ибо это x10 (это очень консервативная оценка, обычно тут не порядок, а два-три порядка величины) более трудозатратно.
В связи с этим я долго думал, как бы выразить характеристику Accuracy, привычную для нейросетей нежити, для мокрых нейросетей. Вот тут про accuracy и precision (https://en.wikipedia.org/wiki/Accuracy_and_precision): accuracy это про то, насколько ты врёшь по сравнению с правдой, а precision -- это насколько ты однообразен в своих ответах. И картинок метафоры стрельбы по мишени видно, что accuracy -- это "сбитая мушка", а precision -- это кучность. Как перевести accuracy для оценки вранья человека? Я тут не говорю о том, что это может быть из-за небрежности, или малого кругозора, или отсутствия привычки гуглить, или намеренно из-за желания привлечь внимание собеседника любой ценой, как в жёлтой прессе, которая не то что не проверяет факты, но даже сочиняет правдоподобные интересные истории и ставит им кликбейт-заголовки. Если говорить, что каждый человек -- сам себе СМИ, то это, конечно, характеристика желтизны. Если говорить политкорректно, то accuracy надо переводить как аккуратность -- аккуратность в мышлении. И аккуратность в мышлении у многих даже очень знаменитых персонажей -- пониженная. И они любимы народом. И это не случайно. У жёлтой прессы всегда большой тираж, попса в массовости начинает и выигрывает.
Тут ещё один интересный вопрос: как поднять эту мыслительную аккуратность? Вот у нейросеток её поднимают многоэтапным обучением -- показывают примеры хорошего мышления, дают много-много информации, сейчас ещё и инструменты начинают подключать (например, солверы, которые позволяют проверить логику после того, как высказываемые претензии/claims как-то формализованы, чтобы можно было задействовать логику, а не просто интуицию), учат рефлексии в мышлении. И затем замеряют. Но что с этим у людей? Тоже можно учить, это ж интеллект-стек (вот мой курс на эту тему, https://aisystant.system-school.ru/lk/#/course/intelligence-stack/). Но этим дисциплинам не учат в школе, не учат в вузе, поэтому "образованные люди" зачастую неаккуратны -- ни школьное поголовное, ни вузовское (почти уже тоже поголовное) образование не спасают. И жизненный опыт не спасает. А AI-ассистенты, как видим, могут помогать только в том случае, если ты их об этом специально попросишь. Но ты не попросишь, ибо после этой просьбы получишь не-попсу, с которой тебе надо будет разбираться, вникать, а это очень мыслезатратно, ну его. Так что всё плохо.
