Начало марта 2025 в AI, заметки по слому мирового порядка
Интересно смотреть на то, как быстро меняется мир. Я наблюдал это несколько раз:-- перестройка (это потом я сообразил, что за железным занавесом всегда вот такая движуха, это только в СССР был стабилизец, но в конце 80х скорость перемен казалась удивительной)-- приход интернета. Я много этим занимался, но мне вежливо цитировали "Телевидение, везде будет одно телевидение" (эту культовую фразу сейчас мало кто помнит, а в 90е это был хит, интернет же казался игрушкой учёных). В итоге везде один интернет, ага.-- вот сейчас становление инфраструктуры вынесенного в компьютеры сильного мышления.-- и заря становления вынесенного в роботов эффективного действия. Всё это проявляется как предложения новых ходов с x10 скорости и/или памяти и/или объёма данных обучения и огромный прирост по умности (тут четыре главных характеристики, по первым трём идёт экспонента, по последнему -- вроде тоже, хотя её трудно измерить, разве что бенчмарки насыщаются, вот страница уволенных бенчмарков: https://r0bk.github.io/killedbyllm/). Вот несколько примеров.Новая архитектура нейросетки -- ARC-AGI на 20% решён без предварительного обучения, без поиска, прямо на исходных данных: https://iliao2345.github.io/blog_posts/arc_agi_without_pretraining/arc_agi_without_pretraining.html. No pretraining; models are randomly initialized and trained during inference time. No dataset; one model trains on just the target ARC-AGI puzzle and outputs one answer. No search, in most senses of the word—just gradient descent. Despite these constraints, CompressARC achieves 34.75% on the training set and 20% on the evaluation set—processing each puzzle in roughly 20 minutes on an RTX 4070. To our knowledge, this is the first neural method for solving ARC-AGI where the training data is limited to just the target puzzle. CompressARC’s intelligence emerges not from pretraining, vast datasets, exhaustive search, or massive compute—but from compression. We challenge the conventional reliance on extensive pretraining and data, and propose a future where tailored compressive objectives and efficient inference-time computation work together to extract deep intelligence from minimal input. Вот этот текст про "мы тут сеткой просто жмём ARC" как раз про этот "возврат к истокам", representations learning. Собственно, когда говорим о dataflow как "архитектуре нейросети", можно писать про representationsflow — данные ведь всегда чего-то representations. Тут можно ожидать роста числа таких подходов. Я всегда помню, что нейросети -- это просто извод differentiable programming, обучающихся алгоритмов, необязательно всё сводится к архитектурам LLM (вот про дифференцируемое всё, https://ailev.livejournal.com/1464563.html, вот про representations learning -- https://ailev.livejournal.com/1045081.html, мой текст ещё 2012 года, "когда это ещё не было модным"). Вот из этих рассуждений и вылезли трансформеры, но я думаю, что вылезет ещё много чего.Вот тут предлагается улучшение CoT за счёт перехода к CoD (Chain of Draft), то есть невнятным черновым рассуждениям -- CoD matches or surpasses CoT in accuracy while using as little as only 7.6% of the tokens, significantly reducing cost and latency across various reasoning tasks. Как? Ну, вот так, и всё ведь работает (для коммуникации и объяснений, для самообучения -- плохо, но вот для рассуждений самое оно, "ручка-бумажка с пометками", "черновик", draft, они там прямо заявляют, что "моделировали то, как думает человек, находя решение", и вот оно сработало): Этих свежих подходов, которые улучшают CoT довольно много (помним и о latent space, вроде Coconut), вот тут ещё свеженьких главным образом февральских 2025 девять штук Chain-of-... навалено -- https://huggingface.co/posts/Kseniase/433849056207490. А вот дистилляция трансформера в мамбу -- llamba, https://arxiv.org/abs/2502.14458, при всех оговорках, что "это дистилляция, тут всё понятно и качество там ведь хуже", там results with less than 0.1% of the training data typically used for models of similar size. To take full advantage of their efficiency, we provide an optimized implementation of Llamba for resource-constrained devices such as smartphones and edge platforms, offering a practical and memory-efficient alternative to Transformers. Overall, Llamba improves the tradeoff between speed, memory efficiency, and performance, making high-quality language models more accessible. Ага, что-то работающее не слишком хорошо (дистилляция!), но работающее -- и надо 0.1% данных для моделей похожего размера. На следующем такте это "работающее не слишком хорошо" станет нормально работающим. Я много раз писал про Cortical Labs, у них вышел очередной компьютер на человечьих нейронах, CL1 (https://www.abc.net.au/news/science/2025-03-05/cortical-labs-neuron-brain-chip/104996484). Они продолжают сдавать его в аренду, и там те же проблемы, что и у любых других нейроморфных компьютеров: плохо программируются, плохо эволюционируют в части архитектуры, все потенциальные преимущества поэтом

-- перестройка (это потом я сообразил, что за железным занавесом всегда вот такая движуха, это только в СССР был стабилизец, но в конце 80х скорость перемен казалась удивительной)
-- приход интернета. Я много этим занимался, но мне вежливо цитировали "Телевидение, везде будет одно телевидение" (эту культовую фразу сейчас мало кто помнит, а в 90е это был хит, интернет же казался игрушкой учёных). В итоге везде один интернет, ага.
-- вот сейчас становление инфраструктуры вынесенного в компьютеры сильного мышления.
-- и заря становления вынесенного в роботов эффективного действия.
Всё это проявляется как предложения новых ходов с x10 скорости и/или памяти и/или объёма данных обучения и огромный прирост по умности (тут четыре главных характеристики, по первым трём идёт экспонента, по последнему -- вроде тоже, хотя её трудно измерить, разве что бенчмарки насыщаются, вот страница уволенных бенчмарков: https://r0bk.github.io/killedbyllm/). Вот несколько примеров.
Новая архитектура нейросетки -- ARC-AGI на 20% решён без предварительного обучения, без поиска, прямо на исходных данных: https://iliao2345.github.io/blog_posts/arc_agi_without_pretraining/arc_agi_without_pretraining.html. No pretraining; models are randomly initialized and trained during inference time. No dataset; one model trains on just the target ARC-AGI puzzle and outputs one answer. No search, in most senses of the word—just gradient descent. Despite these constraints, CompressARC achieves 34.75% on the training set and 20% on the evaluation set—processing each puzzle in roughly 20 minutes on an RTX 4070. To our knowledge, this is the first neural method for solving ARC-AGI where the training data is limited to just the target puzzle. CompressARC’s intelligence emerges not from pretraining, vast datasets, exhaustive search, or massive compute—but from compression. We challenge the conventional reliance on extensive pretraining and data, and propose a future where tailored compressive objectives and efficient inference-time computation work together to extract deep intelligence from minimal input. Вот этот текст про "мы тут сеткой просто жмём ARC" как раз про этот "возврат к истокам", representations learning. Собственно, когда говорим о dataflow как "архитектуре нейросети", можно писать про representationsflow — данные ведь всегда чего-то representations. Тут можно ожидать роста числа таких подходов. Я всегда помню, что нейросети -- это просто извод differentiable programming, обучающихся алгоритмов, необязательно всё сводится к архитектурам LLM (вот про дифференцируемое всё, https://ailev.livejournal.com/1464563.html, вот про representations learning -- https://ailev.livejournal.com/1045081.html, мой текст ещё 2012 года, "когда это ещё не было модным"). Вот из этих рассуждений и вылезли трансформеры, но я думаю, что вылезет ещё много чего.
Вот тут предлагается улучшение CoT за счёт перехода к CoD (Chain of Draft), то есть невнятным черновым рассуждениям -- CoD matches or surpasses CoT in accuracy while using as little as only 7.6% of the tokens, significantly reducing cost and latency across various reasoning tasks. Как? Ну, вот так, и всё ведь работает (для коммуникации и объяснений, для самообучения -- плохо, но вот для рассуждений самое оно, "ручка-бумажка с пометками", "черновик", draft, они там прямо заявляют, что "моделировали то, как думает человек, находя решение", и вот оно сработало):

Этих свежих подходов, которые улучшают CoT довольно много (помним и о latent space, вроде Coconut), вот тут ещё свеженьких главным образом февральских 2025 девять штук Chain-of-... навалено -- https://huggingface.co/posts/Kseniase/433849056207490.
А вот дистилляция трансформера в мамбу -- llamba, https://arxiv.org/abs/2502.14458, при всех оговорках, что "это дистилляция, тут всё понятно и качество там ведь хуже", там results with less than 0.1% of the training data typically used for models of similar size. To take full advantage of their efficiency, we provide an optimized implementation of Llamba for resource-constrained devices such as smartphones and edge platforms, offering a practical and memory-efficient alternative to Transformers. Overall, Llamba improves the tradeoff between speed, memory efficiency, and performance, making high-quality language models more accessible. Ага, что-то работающее не слишком хорошо (дистилляция!), но работающее -- и надо 0.1% данных для моделей похожего размера. На следующем такте это "работающее не слишком хорошо" станет нормально работающим.
Я много раз писал про Cortical Labs, у них вышел очередной компьютер на человечьих нейронах, CL1 (https://www.abc.net.au/news/science/2025-03-05/cortical-labs-neuron-brain-chip/104996484). Они продолжают сдавать его в аренду, и там те же проблемы, что и у любых других нейроморфных компьютеров: плохо программируются, плохо эволюционируют в части архитектуры, все потенциальные преимущества поэтому никак не превратятся в актуальные, "не взлетают". Но мне в связи с этим больше понравилась другая новость: когда-то Cortical Labs научила нейроны на подложке играть в pong, но там нейроны оказались необязательны, по этой же схеме справился и просто электро-активный полимерный гидрогель, это ещё сентябрь 2024, https://www.cell.com/cell-reports-physical-science/fulltext/S2666-3864(24)00436-3. Electro-active polymer (EAP) hydrogels were embedded in the simulated game-world of Pong via custom multi-electrode arrays and feedback between motor commands and stimulation. Through performance analysis within the game environment, emergent memory acquisition was demonstrated, driven by ion migration through the hydrogels. The concept of ANN implementation outside of digital hardware led to the development of reservoir computing (https://arxiv.org/abs/1808.04962). В этой работе 2018 года говорят: Reservoir computing is a computational framework suited for temporal/sequential data processing. It is derived from several recurrent neural network models, including echo state networks and liquid state machines. A reservoir computing system consists of a reservoir for mapping inputs into a high-dimensional space and a readout for pattern analysis from the high-dimensional states in the reservoir. The reservoir is fixed and only the readout is trained with a simple method such as linear regression and classification. Thus, the major advantage of reservoir computing compared to other recurrent neural networks is fast learning, resulting in low training cost. Another advantage is that the reservoir without adaptive updating is amenable to hardware implementation using a variety of physical systems, substrates, and devices. In fact, such physical reservoir computing has attracted increasing attention in diverse fields of research. The purpose of this review is to provide an overview of recent advances in physical reservoir computing by classifying them according to the type of the reservoir. We discuss the current issues and perspectives related to physical reservoir computing, in order to further expand its practical applications and develop next-generation machine learning systems. А в нынешней работе пишут Reservoir computing derives from recurrent neural network frameworks. The dynamics of a fixed non-linear system, called a reservoir, are used as part of a neural network, mapping input and output signals to higher dimensional space. Reservoirs are typically physical systems exhibiting complex behavior used to encode data, embodying computation not possible within a typical ANN structure. The reservoir can be any kind of medium that encodes temporal problems into higher dimensions, creating recurrent connections in data. И вот теперь берут гель с матрицей электронов и научают его играть в Pong. Что не отменяет и то, что в Pong может играть и просто комочек нейронов в CL1. Тут тоже можно ожидать разных интересных ходов на даже не скажешь hardware, но wetware.
Вот QwQ-32B, это докручивание "момента DeepSeek" (писал про этот подрыв 27 января 2025, https://ailev.livejournal.com/1751437.html), когда китайская компания выложила в открытый доступ reasoning модель R1 -- и американским и европейским компаниям пришлось сильно нервничать. Китайская же Baidu повторила характеристики DeepSeek R1, но не на 671B коэффициентах с 37B активных в каждом выводе, а на 32B. И ещё заявляют, что Additionally, we are actively exploring the integration of agents with RL to enable long-horizon reasoning, aiming to unlock greater intelligence with inference time scaling. Это бесплатно, то есть даром. При этом OpenAI обсуждает, что готовы будут давать доступ к сетке с long-horizon reasoning за $20000 в месяц!
Конечно, "кто имеет ASI, тот господин мира". А тут даже не демпинг со стороны Китая, а просто бесплатная раздача всем желающим! И тут мы имеем правоведческие инициативы, обсуждение того, как держать и не пущать этот нарождающийся ASI, но уже не в целях предотвращения SkyNet, а в целях неиспользования заёмного ума "плохими людьми" (любые люди, которые "не наши" объявляются плохими, а кто "наши люди" вам скажут органы власти). Делается лоббистский сайт, который предлагает уже международное регулирование AI по типу регулирования ядерного нераспространения -- копируют доктрину ядерного нераспространения в ноль. Как каюк настал дешёвой атомной энергетике, как имеем проблемы с Биг Фармой (там тоже зарегулировано по самое не балуйся), так лобби пропихивает ровно те же принципы регулирования "нераспространения" для AI. Вот подробный план -- https://www.nationalsecurity.ai/, там расписываются всяческие меры по reliably know the location of AI chips and prevent their smuggling, limit proliferation of potentially catastrophic dual-use AI-weights to rogue actors, prevent rogue actors from accessing potentially catastrophic dual-use AI-capabilities. Текст очень провокационный, там в FAQ даже вопрос: "Is this paper advocating for attacking or bombing other countries' AI facilities?", ответ вроде "нет, мы как в ядерном нераспространении, призываем не столько бомбить чужое, сколько не распространять своё". Но всё-таки что-то будут "бомбить", это будет называться "discourage": "discourage destabilizing AI projects while also preventing escalation". Там и про признание прав AI тоже -- нельзя, ибо они ж размножатся, естественный отбор быстро приведёт к тому, что у них там будет что-то типа своей нации, которая умней людей, а вот этого допустить никак нельзя, ибо как мирно сосуществовать пока не очень понятно. Кто хотел жить в киберпанке, вот оно, наступает, фантасты больше не нужны, это всё на полном серьёзе -- читайте труд этих троих (один из них бывший CEO Гугля, Eric Sсhmidt, другой -- Dan Hendrycks, один из разработчиков вполне полезного бенчмарка Humanity's Last Exam). Что в связи с этим делать? А ничего, как во многих странах ничего сделать вы не можете с закрытием атомных станций, профуканный шанс человечества на дешёвую электроэнергию.
Врочем, не везде этот шанс профукан, в Китае, России, Франции атомных станций вполне нормально и даже строятся новые, хотя и оглядываясь на это "нераспространение". В AI то же самое -- кто себя ограничит, может столкнуться с тем, что в других странах ограничивать себя не будут. Конечно, ASI в руках религиозных фанатиков -- это не лучшее, что можно себе представить. Представители одной религии могут решить, что люди других религий -- не люди (есть такие религии, и бороться бы за их нераспространение, а не за нераспространение AI). Но профукивать шанс человечества на дешёвый интеллект тоже не хочется, а главное, интеллект этот выглядит немного другим даже по аппаратной базе -- это вам не радиоактивный уран, да и с электроэнергией тоже потихоньку разбираются, те же нейроморфы могут обрушить энергопотребление более чем существенно. Мозги злых биологических гениев работают на 30Вт, которые обеспечивает завтрак, обед и ужин в желудке. Что, лет через пять нельзя будет создать такой вычислитель на каком-нибудь геле или даже каком-то метаматериале (это я отсылаю к reservoir computing)? Или на комнатном квантовом компьютере, работающем при комнатной температуре? Это вам не атомная энергия с её хорошо видимыми тоннами и гигаваттами. Денег на это "сдерживание" и "нераспространение", конечно, уйдёт немеренно -- и что обидно, денег налогоплательщиков, ибо это ж "безопасность", ради которой тебя восемь раз ограбят, чтобы всё награбленное потом развернуть против тебя же. То, что об этом можно думать как об иммунной системе, охраняющей тебя же -- не помогает, ибо аутоиммунную реакцию выдают за хорошую работу иммунной системы. Должна же она демонстрировать, что что-то делает! Ну, и там сам объект защиты ещё интересный может быть: одно дело защищать людей, другое -- не людей, а символы этих людей (скажем, у вас 10 миллионов человек в пяти небольших странах, по паре миллионов в каждой. Вы что будете защищать -- жизни 10 миллионов человек, или удержание принадлежности/подданности этих жизней каким-то предписанным их правителями скрепам? Даже если в результате этого "удержания важности скреп" в войнах погибнет миллион-другой из этих десяти миллионов? В войнах ведь выбирается явно не критерий решения проблем путём уменьшения числа погибших в войне, "мы за ценой не постоим" обычно, оплата жизнями, а не утерей зоны распространения тех или иных скреп, того или иного образа жизни).
Что с этим делать? Я думаю, что на эту тему не нужно много рассуждать (вот я сегодня написал, и ладно, есть более интересные темы). Будет решаться без нас, простых смертных. И мы, простые смертные, не хотим писать законы, ибо это ж бесполезно (я знаю, я в Думу и в Совет Федерации имел пропуск много лет, соавтор нескольких законов, например, закона о рынке ценных бумаг, привет блокчейну). Тут можно вспомнить слоган шифропанков: "не пишите законы, пишите код". Так и тут: смотрим на эту лоббистскую статью, а затем вместо лоббирования того или иного закона или лоббирования отмены того или иного закона -- пишем код. Аргументами тут не поможешь, у людей-лоббистов вера во всемогущесть регулирования, она словами не берётся, но можно сделать очень дешёвый и мощный интеллект, который не попадёт под их будущие ограничения, а распространяться будет так, как эти ребята не ожидают. Они ж ожидают, что это будет централизованно продаваться с одного сервера, и тут они нагрянут с полицией, в том числе полицией в виде армии другой страны. А наши шифропанки из КНР просто берут -- и публикуют результаты своих исследований в форме, в которой их можно взять, и использовать. Причём использовать не на чипах сертифицированного производителя, а на какой угодно аппаратуре -- вон, в этом посте даже поминаются большие языковые модели, которые могут работать на смартфоне, llamba. И это AI, не биткойн, хотя за биткойном и всей этой линией DeFi примерно тот же шифропанковский ход мыслей. Что делать с тем, что ASI попадёт в руки плохим людям? Ну, у нас ведь тоже будет ASI. David Deutsch говорит, что тут всё просто: нормальных людей больше, чем плохих. Нормальных ASI больше, чем плохих. Они справятся, бог войны на стороне больших батальонов.
Про роботов не пишу, но там тоже всё более чем хорошо. И нормальные роботы уже стоят меньше $100000.