
Олемедиа / Getty Images
Объединение открытого исходного кода и искусственного интеллекта (ИИ) на одной странице непросто. Просто спросите Инициативу открытого исходного кода (OSI). OSI, организация по управлению определениями с открытым исходным кодом, уже два года работает над созданием определения искусственного интеллекта с открытым исходным кодом. Однако группа добилась прогресса. Компания Open Source AI Definition выпустила свой первый релиз-кандидат — RC1.
Последнее определение призвано прояснить часто спорные дискуссии вокруг ИИ с открытым исходным кодом. Он определяет четыре фундаментальные свободы, которые система ИИ должна предоставить, чтобы считаться открытым исходным кодом: возможность использовать систему для любых целей без разрешения, изучать, как она работает, модифицировать ее для любых целей и делиться ею с модификациями или без них. .
Все идет нормально.
Стефано Маффулли, исполнительный директор OSI
Инициатива открытого исходного кода
Однако OSI выбрало компромисс в отношении обучающих данных. Признавая, что делиться полными наборами данных непросто, текущее определение требует «достаточно подробной информации о данных, используемых для обучения системы», а не самого полного набора данных. Этот подход направлен на то, чтобы сбалансировать прозрачность с практическими и юридическими соображениями.
Некоторым людям трудно проглотить последнюю фразу. С их точки зрения, если не все данные открыты, то модели большого языка ИИ (LLM), основанные на таких данных, не могут быть открытыми.
OSI резюмировал эти аргументы следующим образом: «Некоторые люди полагают, что полный, беспрепятственный доступ ко всем обучающим данным (без каких-либо различий по их виду) имеет первостепенное значение, утверждая, что что-либо меньшее поставит под угрозу полную воспроизводимость систем искусственного интеллекта, прозрачность и безопасность. Это подход отнесет ИИ с открытым исходным кодом к нише ИИ, который можно обучать только на открытых данных».
Они не ошибаются.
Да, в идеале OSI согласен, что все данные обучения должны быть переданы и раскрыты. Однако существует четыре различных типа данных: открытые, общедоступные, доступные и недоступные для совместного использования данные. «Законодательные требования различны для каждого. Все они должны быть разделены в той форме, в которой закон позволяет их совместно использовать».
Короче говоря, «данными может быть трудно делиться. Законы, разрешающие обучение работе с данными, часто ограничивают повторное использование этих данных для защиты авторских прав или других интересов. Правила конфиденциальности также дают человеку законную возможность контролировать свою самую конфиденциальную информацию — например, решения о их здоровье».
Кандидат на выпуск также затрагивает другие ключевые компоненты систем искусственного интеллекта. Он требует, чтобы полный исходный код, используемый для обучения и запуска системы, был доступен по лицензиям, одобренным OSI. Аналогично, параметры и веса модели должны быть разделены на открытых условиях.
Стефано Маффулли, исполнительный директор OSI, подчеркнул важность этого определения в борьбе с «открытым мошенничеством» — практикой компаний, заявляющих об открытости, но не соблюдающих истинные стандарты открытого исходного кода. «Если компания заявляет, что у нее открытый исходный код, она должна нести те ценности, которые несет в себе определение открытого исходного кода. В противном случае это просто сбивает с толку».
В интервью Open Source Summit Europe в Вене, Австрия, Мафулли сказал мне, что не только сторонники открытого исходного кода недовольны предложенным определением искусственного интеллекта OSI. Другие «это корпорации, которые считают свои схемы обучения и способы их проведения, сбора и фильтрации наборов данных и создания наборов данных коммерческой тайной. Они не хотят их раскрывать. Они думают, что мы просим слишком многого. Это старый аргумент, который мы слышали в 90-х годах, когда Microsoft не хотела публиковать свой исходный код или создавать инструкции».
Кроме того, у RC1 есть две новые функции. Во-первых, AI-кода с открытым исходным кодом должно быть достаточно, чтобы последующие получатели могли понять, как проводилось обучение машинному языку. Обучение — это то место, где происходят инновации, и, по мнению OSI, «поэтому вы не видите, чтобы корпорации выпускали свои программы обучения и обработки данных». Учитывая текущий статус знаний и практики, это необходимо для значимого разветвления систем искусственного интеллекта.
Наконец, в новом тексте признается, что создатели могут явно требовать условия с авторским левом для кода, данных и параметров ИИ с открытым исходным кодом, как по отдельности, так и в виде объединенных комбинаций. Примером этого может быть ситуация, когда «консорциум, владеющий правами на обучающий код и набор данных, решил распространять пакетный код и данные на юридических условиях, которые связывают их вместе, с положениями, подобными авторскому левому».
Имейте в виду, продолжил OSI: «Такого рода юридический документ пока не существует, но сценарий достаточно правдоподобен, чтобы заслуживать рассмотрения».
Не думайте, что определение уже готово и вычищено. Это не. Правда, OSI не планирует добавлять новые функции. С этого момента они и их партнеры будут работать над исправлением ошибок. OSI признает, что все еще могут быть «серьезные недостатки, которые могут потребовать значительных изменений в тексте». Однако основное внимание будет уделено сопроводительной документации.
Кроме того, OSI «осознало, что в нашем рвении решить проблему данных, которые должны быть предоставлены, но не могут быть предоставлены владельцем модели по уважительным причинам, мы не смогли прояснить основное требование: «если вы можете поделиться данные, которые вам нужны».
Если все пойдет гладко, OSI планирует выпустить окончательную версию 1.0 определения искусственного интеллекта с открытым исходным кодом на конференции All Things Open 28 октября 2024 года. Держитесь, ребята. Мы приближаемся к цели.
Рекомендуемые
-
Amazon Prime Day: более 160 лучших предложений на октябрьской распродаже Big Deal Days
-
Почему вам больше не нужно платить за антивирусное программное обеспечение
-
Лучшие телефоны Android, которые вы можете купить: протестировано экспертами (включая Pixel 9 Pro)
-
Этот простой трюк с электронной почтой автоматически волшебным образом устранит беспорядок в вашем почтовом ящике.