воззвание анны

Примечательное заявление от анонимных хозяев Anna's Archive, самой большой и полезной пираткой библиотеки в последние несколько лет. Десятки миллионов книг и академических статей в ней чрезвычайно нужны не только людям, но и большим языковым моделям - хоть им и скармливают "весь интернет", и хотя весь интернет намного больше по размеру, чем архив Анны, в пиратских библиотеках есть огромное количество экспертных знаний, которых нет в открытом доступе.Я давно подозревал, что LLMы тренируют на пиратских библиотеках, скорее всего на архиве Анны, но прямое подтверждение пришло месяц назад, в статье китайских разработчиков Deepseek это прямо указано, хотя с точки зрения законов о копирайте нелегальность всего этого очевидна (но типа идите подавайте на нас в суд в Китае). А пару недель назад сообщили, что в иске против Meta утверждается, что они скачивали архив Анны и Либген. Я очень сильно подозреваю, что где-то в глубине OpenAI сидят один или два человека, которые единственные знают все технические и финансовые подробности того, как архив Анны качается и вставляется в процесс тренировки их моделей. И меня не удивит, если то же верно для Гугла и моделей Gemini, несмотря на очевидный огромный легальный риск. Преимущество, которое дает моделям такой огромный набор данных высокого качества, слишком велико. Вполне возможно, что его просто не преодолеть другими способами, и если вы одна из 5-6 компаний, соревнующихся в борьбе топ-моделей, то либо вы находите способ использовать эти данные, либо остаетесь позади. На фоне этой реальности Анна (ну мы не знаем, конечно, что это реальное имя) раскрывает тот факт, что они дали доступ на высокой скорости (чтобы все можно было скачать за разумное время) 30 компаниям, в том числе американским, благоразумно не называя никакие имена, кроме Deepseek, которые сами признались. И призывает реформировать копирайт - ограничить 20 годами, и в любом случае исключить из него компании, собирающие тексты для хранения и компьютерной обработки, а не перепродажи; чтобы не дать тем странам, где на закон могут без проблем наплевать в случае нужды (Китай в первую очередь) вырваться вперед в гонке за лучший искусственный интеллект. Я не верю, что такой призыв может сейчас сработать, но если легальные проблемы действительно затормозят ведущие западные модели и через полгода-год это станет очевидным? Тогда - кто знает?

Фев 22, 2025 - 21:34
 0
воззвание анны
Примечательное заявление от анонимных хозяев Anna's Archive, самой большой и полезной пираткой библиотеки в последние несколько лет. Десятки миллионов книг и академических статей в ней чрезвычайно нужны не только людям, но и большим языковым моделям - хоть им и скармливают "весь интернет", и хотя весь интернет намного больше по размеру, чем архив Анны, в пиратских библиотеках есть огромное количество экспертных знаний, которых нет в открытом доступе.

Я давно подозревал, что LLMы тренируют на пиратских библиотеках, скорее всего на архиве Анны, но прямое подтверждение пришло месяц назад, в статье китайских разработчиков Deepseek это прямо указано, хотя с точки зрения законов о копирайте нелегальность всего этого очевидна (но типа идите подавайте на нас в суд в Китае). А пару недель назад сообщили, что в иске против Meta утверждается, что они скачивали архив Анны и Либген.

Я очень сильно подозреваю, что где-то в глубине OpenAI сидят один или два человека, которые единственные знают все технические и финансовые подробности того, как архив Анны качается и вставляется в процесс тренировки их моделей. И меня не удивит, если то же верно для Гугла и моделей Gemini, несмотря на очевидный огромный легальный риск. Преимущество, которое дает моделям такой огромный набор данных высокого качества, слишком велико. Вполне возможно, что его просто не преодолеть другими способами, и если вы одна из 5-6 компаний, соревнующихся в борьбе топ-моделей, то либо вы находите способ использовать эти данные, либо остаетесь позади.

На фоне этой реальности Анна (ну мы не знаем, конечно, что это реальное имя) раскрывает тот факт, что они дали доступ на высокой скорости (чтобы все можно было скачать за разумное время) 30 компаниям, в том числе американским, благоразумно не называя никакие имена, кроме Deepseek, которые сами признались. И призывает реформировать копирайт - ограничить 20 годами, и в любом случае исключить из него компании, собирающие тексты для хранения и компьютерной обработки, а не перепродажи; чтобы не дать тем странам, где на закон могут без проблем наплевать в случае нужды (Китай в первую очередь) вырваться вперед в гонке за лучший искусственный интеллект. Я не верю, что такой призыв может сейчас сработать, но если легальные проблемы действительно затормозят ведущие западные модели и через полгода-год это станет очевидным? Тогда - кто знает?