Российские ИТ-компании могут обязать отчитываться о происхождении данных для обучения нейросетей

В России может появиться реестр данных, на которых обучают нейросети. Такая инициатива обсуждается отраслевыми ассоциациями, компаниями в области ИИ и профильным регулятором в рамках проработки законопроекта по ИИ.

Источники «Ведомостей» среди участников переговоров уточняют: создателей ИИ обяжут раскрывать происхождение материалов, использованных для обучения нейросетей.

В случае принятия нормы компаниям придется раскрывать подробный «паспорт» на каждый массив данных (датасет): от объема и формата до источника и даты создания. Пока неизвестно, где будет храниться эта информация.

Среди вариантов – формирование единого реестра отечественных нейросетей или отдельного реестра наборов данных.

В Министерстве цифрового развития пояснили, что действующая версия документа остается рамочной и подобных деталей не содержит. Однако дискуссия о том, что считать «российской» нейросетью и на каких данных ее можно «воспитывать», идет активно.

Идея раскрытия данных ложится в логику будущего закона, ключевые цели которого ранее обозначил аппарат вице-премьера Дмитрия Григоренко: защита авторских прав, маркировка контента и недопустимость использования ИИ в преступных схемах. Прозрачность «учебных материалов» позволит проверить, не нарушались ли чужие права при подготовке алгоритмов.

Участники Альянса в сфере искусственного интеллекта («Сбер», «Яндекс», VK и другие) к предложению отнеслись настороженно. В компаниях предупреждают: попытка загнать в реестры гигантские объемы информации обойдется слишком дорого и приведет к обратному эффекту. Разработчики либо потратят непропорционально много ресурсов на отчетность, либо предоставят данные в таком обобщенном виде, что никакой аналитической ценности они иметь не будут.

Ранее стало известно, что ФАС предлагает установить критерии регулирования для соцсетей, поиска и видеохостингов.

Источник: Ведомости