OpenAI знову під прицілом. Автори, програмісти та інші правовласники звинувачують компанію у використанні їхніх робіт (книг, програмного коду тощо) для тренування AI-моделей без дозволу, пише Techcrunch.
Компанія завжди стверджувала, що це “добросовісне використання”, але нове дослідження може все змінити. Вчені з Університету Вашингтона, Копенгагена та Стенфорда розробили новий спосіб виявлення “запам’ятованих” моделлю фрагментів.
Як працює метод
Все просто – моделі AI іноді буквально запам’ятовують уривки з тренувальних даних. Дослідники шукали незвичайні слова, які випадають із контексту:
- Наприклад, слово “радар” у реченні “Ми з Джеком сиділи нерухомо, а радар гув”;
- Такі слова називають “high-surprisal” – вони рідкісні та неочікувані;
- Якщо модель правильно вгадує такі слова – вона їх запам’ятала.
Що виявили
Тестували GPT-4 та GPT-3.5. Результати:
- Моделі показали знання уривків з популярних книг;
- Частково запам’ятали статті New York Times;
- Особливо багато “забутих” фрагментів з набору BookMIA (захищені авторським правом електронні книги).
Абхілаша Равічандер, одна з авторів дослідження, каже:
Нам потрібні моделі, які можна перевіряти. Але справжня проблема – відсутність прозорості в даних.
OpenAI активно лобіює послаблення авторських прав для тренування AI. Водночас:
- Пропонують механізми “відмови” для правовласників;
- Укладають окремі угоди з контент-провайдерами;
- Але продовжують наполягати на “добросовісному використанні”.
Ця історія може стати поворотною точкою для всієї індустрії штучного інтелекту. А поки що – питання залишається відкритим.

