Новости AI: русскоязычный ямб уже не проблема, и много ещё чего уже не проблема
Запустили очередной ARC-AGI-2, где humans берут сейчас 100% и цена $17 за задачу, а лучшая LLM o3 (low) имеет 4% за $200 задачу -- при этом задачи вроде как абсолютно понятны: надо понять "идею", а затем выполнить "действия с удержанием идеи", и вот это оказывается для неживой нейросетки дико сложным, а для живой -- вполне посильным. О чём это говорит? О "ненаблюдательности в исследованиях" -- невозможности заметить и явно "проговорить для себя"/назвать (концептуализировать/символизировать) паттерн. Восторг, у людей ещё на полгодика шанс поработать людьми: https://arcprize.org/Но в классической "подвешенности языка" нейросети как начали, так и выигрывают. Вышла Gemini 2.5 Pro Experimental, я проверяю способности новых сеток, поручая написать стишок ямбом на тему системной инженерии, промпт простейший -- "Сочини стихотворение ямбом про системную инженерию". Впервые я увидел таки стишок ямбом, хотя из этого получилась задачка для наших инженеров -- понять, какая версия системной инженерии в голове нежити, указать -- чему верить, чему не верить в стишке, если говорить о сегодняшней системной инженерии, какие особенности системного мышления отразила нежить в своей поэзии. Отдельное удовольствие -- это наблюдать за процессом творчества, размышления поэта там ведь тоже приведены, причём нежить мыслит по-английски, сочиняя русскоязычный стих, там мысли типа "Let's try ABAB for a slightly more interwoven feel. Brainstorming Keywords & Phrases (incorporating meter): Система (sis-TE-ma) - tricky start, stress on 2nd. Проект (pro-EKT) - iambic. Задача (za-DA-cha) - stress on 2nd. Сложный (SLOZH-ny) - trochee (DUM-da). Need to phrase around it. Связь (SVYAZ') - monosyllable, fits anywhere. Це ль (TSEL') - monosyllable. Этап (e-TAP) - iambic. План (PLAN) - monosyllable. Риск (RISK) - monosyllable. Баланс (ba-LANS) - iambic. Структура (struk-TU-ra) - stress on 2nd. Инженер (in-zhe-NER) - stress on 3rd. Создать (soz-DAT') - iambic. Сложить (slo-ZHIT') - iambic." или вот "Initial idea: Системный инжиниринг – / Он сложен и велик. / Построить механизм, / Чтоб он потом возник. (Meter is off, rhymes weak). Refining: Let's focus on the 'whole' and 'parts'. Где сложность правит бал, (gde SLOZH-nost PRA-vit BAL) - trochee start, then iambic. Okay, occasional variation is fine. И части держат связь, (i CHAS-ti DER-zhat SVYAZ') - mostly iambic. Там нужен интеграл, (tam NU-zhen in-te-GRAL) - iambic. (Using 'интеграл' metaphorically for integration)", а вот примерка вариантов: "Так строятся мосты, (tak STRO-yat-SYA mos-TY) - iambic. Ракеты и станки, (ra-KE-ty I stan-KI) - iambic. Где ум из простоты (gde UM iz pros-to-TY) - iambic. Сплетает узелки. (sple-TA-et u-zel-KI) - iambic. Critique: Rhymes мосты/простоты, станки/узелки. ABAB. Meter good. Gives examples ("мосты", "ракеты", "станки"). Contrasts complexity and the underlying structure ("ум из простоты сплетает узелки"). Good concluding stanza.". Все бы так поэты осознавали, как "чушь прекрасную несут!". Вот итог: Отлично, попробуем облечь системную инженерию в ямбические строки. Вот вариант:Системный ПодходКогда проект велик и сложен,И сотни связей держат нить,Путь инженера быть заложен —Всё воедино закрепить.Сперва понять: "Зачем?" и "Как?",Каков конечный результат?Поймать в деталях верный знак,Построить будущий уклад.Железо, код, поток идей,Людской устав, машины гул —В единстве видит чародей,Чтоб механизм не потонул.Учесть баланс цены и сил,Весь жизненный предвидеть цикл,Чтоб каждый узел верным был,И сбой внезапный не настиг.Так мысль рождает рубежи,Где части — целое творят.Системный гений ворожит,Держа над хаосом заряд.Дальше я говорю: "нарисуй иллюстрацию к стихотворению". Мне в ответ -- нарисовать не могу, но могу описать иллюстрацию текстом". И текст про картинку. Я даю текст картинки 4o в ChatGPT, там эта фича тоже вчера появилась. На выходе -- вот такая картинка (там что стишок "я поэт, зовусь Незнайка, от меня вам балалайка", что промпт картинки к этому стишку, что сама картинка, но мы уже знаем, что надо просто годик подождать -- и результат будет не "стоковая картинка", а "произведение талантливого художника"):Моя любимая идея Toolformer двухлетней давности ("Toolformer: Language Models Can Teach Themselves to Use Tools", https://arxiv.org/abs/2302.04761) получила развитие для reasoning -- "Chain-of-Tools: Utilizing Massive Unseen Tools in the CoT Reasoning of Frozen Language Models", https://arxiv.org/abs/2503.16779. Результаты плохи ("better than the baseline", читай -- "чуть-чуть лучше, чисто для статьи"), но сама постановка задачи интересна -- "уметь выбрать из 999 инструментов, часть из которых сетка вообще никогда не видела -- без доучивания". Смотрим на текст не столько как на "результаты, надо пользоваться", сколько на "продолжаем развивать идею". Для меня эти "инструменты" -- это ответ на теорему о бесплатном обеде, что нет универсальных алгоритмов, которые решают одинаково быстро все классы задач. Вот инструменты -- это как раз палитра алгоритмов для "особых

Но в классической "подвешенности языка" нейросети как начали, так и выигрывают. Вышла Gemini 2.5 Pro Experimental, я проверяю способности новых сеток, поручая написать стишок ямбом на тему системной инженерии, промпт простейший -- "Сочини стихотворение ямбом про системную инженерию". Впервые я увидел таки стишок ямбом, хотя из этого получилась задачка для наших инженеров -- понять, какая версия системной инженерии в голове нежити, указать -- чему верить, чему не верить в стишке, если говорить о сегодняшней системной инженерии, какие особенности системного мышления отразила нежить в своей поэзии. Отдельное удовольствие -- это наблюдать за процессом творчества, размышления поэта там ведь тоже приведены, причём нежить мыслит по-английски, сочиняя русскоязычный стих, там мысли типа "Let's try ABAB for a slightly more interwoven feel. Brainstorming Keywords & Phrases (incorporating meter): Система (sis-TE-ma) - tricky start, stress on 2nd. Проект (pro-EKT) - iambic. Задача (za-DA-cha) - stress on 2nd. Сложный (SLOZH-ny) - trochee (DUM-da). Need to phrase around it. Связь (SVYAZ') - monosyllable, fits anywhere. Це ль (TSEL') - monosyllable. Этап (e-TAP) - iambic. План (PLAN) - monosyllable. Риск (RISK) - monosyllable. Баланс (ba-LANS) - iambic. Структура (struk-TU-ra) - stress on 2nd. Инженер (in-zhe-NER) - stress on 3rd. Создать (soz-DAT') - iambic. Сложить (slo-ZHIT') - iambic." или вот "Initial idea: Системный инжиниринг – / Он сложен и велик. / Построить механизм, / Чтоб он потом возник. (Meter is off, rhymes weak).
Refining: Let's focus on the 'whole' and 'parts'. Где сложность правит бал, (gde SLOZH-nost PRA-vit BAL) - trochee start, then iambic. Okay, occasional variation is fine. И части держат связь, (i CHAS-ti DER-zhat SVYAZ') - mostly iambic. Там нужен интеграл, (tam NU-zhen in-te-GRAL) - iambic. (Using 'интеграл' metaphorically for integration)", а вот примерка вариантов: "Так строятся мосты, (tak STRO-yat-SYA mos-TY) - iambic. Ракеты и станки, (ra-KE-ty I stan-KI) - iambic. Где ум из простоты (gde UM iz pros-to-TY) - iambic. Сплетает узелки. (sple-TA-et u-zel-KI) - iambic. Critique: Rhymes мосты/простоты, станки/узелки. ABAB. Meter good. Gives examples ("мосты", "ракеты", "станки"). Contrasts complexity and the underlying structure ("ум из простоты сплетает узелки"). Good concluding stanza.". Все бы так поэты осознавали, как "чушь прекрасную несут!". Вот итог:
Отлично, попробуем облечь системную инженерию в ямбические строки. Вот вариант:Дальше я говорю: "нарисуй иллюстрацию к стихотворению". Мне в ответ -- нарисовать не могу, но могу описать иллюстрацию текстом". И текст про картинку. Я даю текст картинки 4o в ChatGPT, там эта фича тоже вчера появилась. На выходе -- вот такая картинка (там что стишок "я поэт, зовусь Незнайка, от меня вам балалайка", что промпт картинки к этому стишку, что сама картинка, но мы уже знаем, что надо просто годик подождать -- и результат будет не "стоковая картинка", а "произведение талантливого художника"):
Системный Подход
Когда проект велик и сложен,
И сотни связей держат нить,
Путь инженера быть заложен —
Всё воедино закрепить.
Сперва понять: "Зачем?" и "Как?",
Каков конечный результат?
Поймать в деталях верный знак,
Построить будущий уклад.
Железо, код, поток идей,
Людской устав, машины гул —
В единстве видит чародей,
Чтоб механизм не потонул.
Учесть баланс цены и сил,
Весь жизненный предвидеть цикл,
Чтоб каждый узел верным был,
И сбой внезапный не настиг.
Так мысль рождает рубежи,
Где части — целое творят.
Системный гений ворожит,
Держа над хаосом заряд.

Моя любимая идея Toolformer двухлетней давности ("Toolformer: Language Models Can Teach Themselves to Use Tools", https://arxiv.org/abs/2302.04761) получила развитие для reasoning -- "Chain-of-Tools: Utilizing Massive Unseen Tools in the CoT Reasoning of Frozen Language Models", https://arxiv.org/abs/2503.16779. Результаты плохи ("better than the baseline", читай -- "чуть-чуть лучше, чисто для статьи"), но сама постановка задачи интересна -- "уметь выбрать из 999 инструментов, часть из которых сетка вообще никогда не видела -- без доучивания". Смотрим на текст не столько как на "результаты, надо пользоваться", сколько на "продолжаем развивать идею". Для меня эти "инструменты" -- это ответ на теорему о бесплатном обеде, что нет универсальных алгоритмов, которые решают одинаково быстро все классы задач. Вот инструменты -- это как раз палитра алгоритмов для "особых случаев". Примеры тут должны быть алгоритмы оптимизации, алгоритмы решений систем дифуров и прочее такое, где универсальный алгоритм работает настолько медленно, что его выкидывают по тайм-ауту, ибо он всегда заканчивается "подвисанием в бесконечном переборе". Описано это подробно в https://arxiv.org/abs/2308.04445, "Getting from Generative AI to Trustworthy AI: What LLMs might learn from Cyc" (читать там не про trustworthy AI, а про опыт CYC). Думать, как и копать, надо всегда не голым мозгом или голыми руками, а с каким-нибудь солвером, хотя бы калькулятором, или в случае копания если не каким-нибудь экскаватором, то хотя бы палкой-копалкой.
Long context против RAG, да и просто long context -- это важно, ибо это ж собранность, умение удержать внимание в рассуждениях. Вот самый свежий и подробный обзор для long context: https://arxiv.org/abs/2503.17407, "A Comprehensive Survey on Long Context Language Modeling". Когда-то в 2016 году мне нравилась работа "Critical Behavior from Deep Dynamics: A Hidden Dimension in Natural Language" (http://arxiv.org/abs/1606.06737), я аж текст написал "Глубина (скрытое измерение) в языке", https://ailev.livejournal.com/1274014.html. Основная идея -- что в языке отдельные элементы коррелируют друг с другом, и эти корреляции убывают в степенной зависимости. Рекурсивные грамматики и глубокие сети ухватывают эти "дальние" зависимости, предоставляя возможность срезать путь через скрытое измерение: глубину. А всякие попытки считать статистики и корреляции "по линейке" в один уровень без иерархий грамматик или уровней абстракции в нейросетях тут не работают, ибо для таких попыток предел -- последовательности с экспоненциальным убыванием зависимостей. Далее в статье делаются предложения, что именно можно улучшить в архитектурах нейронных сетей, работающих с естественным языком (куда относят заодно музыку Баха, человеческий геном и тексты из википедии). Вот этот long context тут -- попытка силового, не через смекалку-глубину, решения. Как всегда, истина будет там, где есть и сила, и смекалка. Туда оно в целом и неумолимо катится. Главное, что просто "добавить компьюту" для решения этих проблем "длинного контекста со скрытыми измерением" не получается. Но можно достаточно долго сидеть на берегу этой речки, чтобы таки через некоторое время мимо тебя проплыли интересные решения.
Текст, который показывает, что "с RL zero ещё не совсем разобрались", "SimpleRL-Zoo: Investigating and Taming Zero Reinforcement Learning for Open Base Models in the Wild", https://arxiv.org/abs/2503.18892. we observe that different base models exhibit distinct patterns during training. For instance, the increased response length does not always correlate with the emergence of certain cognitive behaviors such as verification (i.e., the "aha moment"). Notably, we observe the "aha moment" for the first time in small models not from the Qwen family. We share the key designs that enable successful zero RL training, along with our findings and practices. Вот бы мне научиться получать этот "ага-момент" у мокрых нейросеток. Но они все не маленькие, не опен-сорс, а также одной и той же архитектуры. Вообще, тема RL одна из центральных. Вот добавляют воображения к RL пост-обучению LLM, грубо говоря, добавляют побольше search -- и это срабатывает, https://arxiv.org/abs/2503.18929, "Trajectory Balance with Asynchrony: Decoupling Exploration and Learning for Fast, Scalable LLM Post-Training", двигают SoTA.
Конечно, это всё цветочки, ибо ягодки будут у роботов. Роботы научились делать боковое сальто, выполнять разные танцевальные движения и кунг-фу ката, о чём презрительно написал у себя в блоге "самый продвинутый робототехник США" Bret Adcock 22 марта 2025, "Our roadmap at Figure is pushing on useful work, at high scale. Useful work = manufacturing, logistics, construction & robots in the home (doing laundry, making coffee)" (https://x.com/adcock_brett/status/1903532853352403016), "Figure is focused on useful work, we don’t have any customer needs for backflips or handstands", https://x.com/adcock_brett/status/1903511022528516591. И знаете, какое видео он постит чуть ли не каждые несколько минут сейчас, через три дня, 25 марта 2025? У него это видео даже pinned -- "Say goodbye to the Biden Walk! Figure can now walk naturally like a human. Today we're introducing learned natural walking", (https://x.com/adcock_brett/status/1904534796770201624). Я понимаю, когда политики так быстро переобуваются, но чтобы такие скачки понимания полезности тех или иных фич были у основателя одной из крупнейших (@Figure_robot, $750M Backed) робототехнических компаний, это впечатляет. Сальто (кстати, не backflips, а хвастались sideflips -- backflips был в прошлом году) и стойка на руках не впечатляет, а что робот пошёл человечьей походкой -- это "великое достижение". Я бы делал ставку на китайскую робототехническую промышленность, с их стойками на руках и кунг-фу по сходной цене. В здоровом робо-теле -- здоровый робо-дух, ага. При этом там везде крупным планом ноги роботов с негнущимися подошвами. Это неправильно, им надо поучиться у создателей голеностопных протезов и протезов стопы, там или гибкий протез, или гнётся в плюсне на оси с пружинками или резинками. Это, конечно, ни разу не серийное производство, цены там запредельные (простейшие в России -- от 250тыс. рублей, если "энергосберегающая углепластиковая стопа", то и от 270тыс. рублей, что как-то не соответствует моим инженерным ожиданиями ни для людей, ни для роботов). Но для роботов и при серийном выпуске это должно быть в разы и разы дешевле. А парадокс Моравека уже близок к решению. Хотя вот одни радуются, что их роботы наконец-то ходят, а другие -- что бегают, танцуют брейк, делают боковое сальто и справляются с кунг-фу ката. Даже ссылок не даю, эти видео пока все вирусные, во всех соцсетях встречаются по десятку раз в день.
Для всех преимальных пользователей телеграма доступен теперь Grok 3 -- @GrokAI, "бесплатно без регистрации, СМС, VPN". Поделитесь ссылкой с вашими друзьями, им понравится.