В воскресенье губернатор Калифорнии Гэвин Ньюсом подписал закон AB-2013, обязывающий компании, разрабатывающие генеративные системы искусственного интеллекта, публиковать краткое описание данных, которые они использовали для обучения своих систем. Среди прочего, в резюме должно быть указано, кому принадлежат данные, как они были получены или лицензированы, а также содержит ли они информацию, защищенную авторским правом или личную информацию.
Немногие компании, занимающиеся разработкой ИИ, готовы сказать, будут ли они соблюдать эти требования.
TechCrunch связался с крупными игроками в сфере ИИ, включая OpenAI, Anthropic, Microsoft, Google, Amazon, Meta, а также со стартапами Stability AI, Midjourney, Udio, Suno, Runway и Luma Labs. Менее половины из них ответили на запросы, а один поставщик — Microsoft — прямо отказался от комментариев.
Только Stability, Runway и OpenAI сообщили TechCrunch, что они будут соблюдать AB-2013.
«OpenAI соблюдает закон в юрисдикциях, в которых мы работаем, включая эту», — заявил представитель OpenAI. Представитель Stability заявил, что компания «поддерживает продуманное регулирование, которое защищает общественность и в то же время не подавляет инновации».
Справедливости ради стоит отметить, что требования AB-2013 по раскрытию информации вступают в силу не сразу. Хотя они распространяются на системы, выпущенные в январе 2022 года или позже — ChatGPT и Stable Diffusion, например, — у компаний есть время до января 2026 года, чтобы начать публиковать сводки данных обучения. Кроме того, закон распространяется только на системы, доступные жителям Калифорнии, что оставляет некоторую свободу действий.
Но может быть и другая причина молчания производителей по этому вопросу, и она связана со способом обучения большинства систем генеративного ИИ.
Данные для обучения часто поступают из Интернета. Поставщики считывают с веб-сайтов огромное количество изображений, песен, видео и т. д. и обучают на них свои системы.
Много лет назад для разработчиков ИИ было стандартной практикой указывать источники обучающих данных, обычно в техническом документе, сопровождающем выпуск модели. Например, компания Google однажды сообщила, что ранняя версия ее семейства моделей генерации изображений Imagen обучалась на общедоступном наборе данных LAION. Во многих старых документах упоминается The Pile — коллекция обучающих текстов с открытым исходным кодом, включающая академические исследования и кодовые базы.
На современном рынке, где царит жесточайшая конкуренция, состав наборов обучающих данных считается конкурентным преимуществом, и компании называют это одной из главных причин неразглашения информации. Но детали обучающих данных также могут нарисовать юридическую мишень на спине разработчиков. LAION дает ссылки на изображения, защищенные авторским правом и нарушающие конфиденциальность, а The Pile содержит Books3, библиотеку пиратских произведений Стивена Кинга и других авторов.
Уже есть несколько судебных исков по поводу неправомерного использования обучающих данных, и каждый месяц их становится все больше.
Авторы и издатели утверждают, что OpenAI, Anthropic и Meta использовали для обучения книги, защищенные авторским правом — некоторые из них от Books3. Музыкальные лейблы подали в суд на Udio и Suno за то, что те якобы обучали на песнях, не выплачивая музыкантам компенсации. А художники подали коллективные иски против Stability и Midjourney за то, что, по их словам, практика соскабливания данных равносильна воровству.
Нетрудно понять, что AB-2013 может стать проблемой для вендоров, пытающихся не допустить судебных баталий. Закон обязывает обнародовать ряд потенциально инкриминирующих сведений о наборах данных для обучения, включая уведомление о том, когда эти наборы были впервые использованы и продолжается ли сбор данных.
AB-2013 имеет довольно широкую сферу действия. Любая организация, которая «существенно модифицирует» систему искусственного интеллекта — то есть дорабатывает или переобучает ее, — является также обязаны публиковать информацию об учебных данных, которые они использовали для этого. В законе есть несколько исключений, но в основном они касаются систем искусственного интеллекта, используемых в кибербезопасности и обороне, например, для «управления самолетами в национальном воздушном пространстве».
Конечно, многие производители считают, что доктрина, известная как добросовестное использование, обеспечивает юридическую защиту, и они утверждают это в суде и в публичных заявлениях. Некоторые из них, например Meta и Google, изменили настройки своих платформ и условия предоставления услуг, чтобы позволить им использовать больше пользовательских данных для обучения.
Подстегиваемые конкурентным давлением и делая ставку на то, что защита от добросовестного использования в конце концов победит, некоторые компании либерально проводят обучение на данных, защищенных интеллектуальной собственностью. По данным агентства Reuters, компания Meta в какой-то момент использовала для обучения ИИ книги, защищенные авторским правом, несмотря на предупреждения своих юристов. Есть свидетельства того, что Runway использовала фильмы Netflix и Disney для обучения своих систем генерации видео. А OpenAI, как сообщается, без ведома создателей переписывал видео с YouTube для разработки моделей, включая GPT-4.
Как мы уже писали, возможен вариант, при котором поставщики генеративного ИИ выйдут сухими из воды, раскрыв данные об обучении системы или нет. Возможно, суды в итоге встанут на сторону сторонников добросовестного использования и решат, что генеративный ИИ является достаточно преобразующим — а не двигателем плагиата, как утверждают The New York Times и другие истцы.
В более драматичном сценарии AB-2013 может привести к тому, что поставщики будут отказываться от продажи определенных моделей в Калифорнии или выпускать версии моделей для калифорнийцев, обученные только на наборах данных, полученных по лицензии. Некоторые поставщики могут решить, что наиболее безопасным вариантом действий в условиях AB-2013 будет тот, который позволит избежать компрометирующих — и порождающих судебные иски — раскрытий.
Если закон не будет оспорен и/или приостановлен, мы получим ясную картину к сроку действия AB-2013, который наступит чуть более чем через год.