В России может появиться реестр данных, на которых обучают нейросети. Такая инициатива обсуждается отраслевыми ассоциациями, компаниями в области ИИ и профильным регулятором в рамках проработки законопроекта по ИИ.
Источники «Ведомостей» среди участников переговоров уточняют: создателей ИИ обяжут раскрывать происхождение материалов, использованных для обучения нейросетей.
В случае принятия нормы компаниям придется раскрывать подробный «паспорт» на каждый массив данных (датасет): от объема и формата до источника и даты создания. Пока неизвестно, где будет храниться эта информация.
Среди вариантов – формирование единого реестра отечественных нейросетей или отдельного реестра наборов данных.
В Министерстве цифрового развития пояснили, что действующая версия документа остается рамочной и подобных деталей не содержит. Однако дискуссия о том, что считать «российской» нейросетью и на каких данных ее можно «воспитывать», идет активно.
Идея раскрытия данных ложится в логику будущего закона, ключевые цели которого ранее обозначил аппарат вице-премьера Дмитрия Григоренко: защита авторских прав, маркировка контента и недопустимость использования ИИ в преступных схемах. Прозрачность «учебных материалов» позволит проверить, не нарушались ли чужие права при подготовке алгоритмов.
Участники Альянса в сфере искусственного интеллекта («Сбер», «Яндекс», VK и другие) к предложению отнеслись настороженно. В компаниях предупреждают: попытка загнать в реестры гигантские объемы информации обойдется слишком дорого и приведет к обратному эффекту. Разработчики либо потратят непропорционально много ресурсов на отчетность, либо предоставят данные в таком обобщенном виде, что никакой аналитической ценности они иметь не будут.
Ранее стало известно, что ФАС предлагает установить критерии регулирования для соцсетей, поиска и видеохостингов.
Источник: Ведомости