OpenAI снова под прицелом. Авторы, программисты и другие правообладатели обвиняют компанию в использовании их работ (книг, программного кода и т.д.) для обучения AI-моделей без разрешения, пишет Techcrunch.
Компания всегда утверждала, что это «добросовестное использование», но новое исследование может все изменить. Ученые из Университета Вашингтона, Копенгагена и Стэнфорда разработали новый способ выявления «запомненных» моделью фрагментов.
Как работает метод
Все просто — модели ИИ иногда буквально запоминают отрывки из обучающих данных. Исследователи искали необычные слова, которые выпадают из контекста:
- Например, слово «радар» в предложении «Мы с Джеком сидели неподвижно, а радар гудел»
- Такие слова называют «high-surprisal» — они редкие и неожиданные
- Если модель правильно угадывает такие слова — она их запомнила
Что обнаружили
Тестировали GPT-4 и GPT-3.5. Результаты:
- Модели показали знание отрывков из популярных книг
- Частично запомнили статьи New York Times
- Особенно много «забытых» фрагментов из набора BookMIA (защищенные авторским правом электронные книги)
Абхилаша Равичандер, одна из авторов исследования, говорит: «Нам нужны модели, которые можно проверять. Но настоящая проблема — отсутствие прозрачности в данных».
Почему это важно?
OpenAI активно лоббирует ослабление авторских прав для обучения ИИ. В то же время:
- Предлагают механизмы «отказа» для правообладателей
- Заключают отдельные соглашения с контент-провайдерами
- Но продолжают настаивать на «добросовестном использовании»
Эта история может стать поворотной точкой для всей индустрии искусственного интеллекта. А пока — вопрос остается открытым.

