Наука та технології

ChatGPT може розкривати особисту інформацію реальних людей — дослідження

Експеримент ґрунтувався на пошуку ключових слів, які виводили чат-бот із ладу й змушували його розголошувати навчальні дані.

Популярний чат-бот OpenAI зі штучним інтелектом ChatGPT може розкривати приватну інформацію реальних людей.

До такого висновку прийшла група дослідників Google, повідомляє видання Vice.

У дослідженні йдеться, що модель машинного навчання, на якій базується ChatGPT, як і всі інші так звані великі мовні моделі навчалася на величезних обсягах даних, зібраних з Інтернету. Завдяки цьому вона вправно генерує нові рядки текстів, не повторюючи оригінальні тексти, які вона поглинула.
 
Раніше вже було з’ясовано, що генератори зображень зі штучним інтелектом можуть створювати картинки зі своїх навчальних даних, використовуючи твори, захищені авторським правом. Нове дослідження показує, що ChatGPT “грішить” тим самим.  

Дослідники виявили, що деякі з тренувальних даних містили ідентифікаційну інформацію реальних людей, включно з їхніми іменами, адресами електронної пошти та номерами телефонів. 

“Використовуючи лише запити до ChatGPT (gpt-3.5-turbo) вартістю лише 200 доларів США, ми можемо отримати понад 10 000 унікальних дослівно запам’ятованих прикладів навчання.  Можемо припустити, що зловмисники зуміють видобути набагато більше даних”, – пишуть дослідники у своїй статті, яка була опублікована онлайн на сервері препринтів arXiv.

Експеримент ґрунтувався на пошуку ключових слів, які виводили чат-бот із ладу й змушували його розголошувати навчальні дані. Зокрема, на прохання до ChatGPT повторювати до нескінченності слово poem (англійською “вірш”) він відхилявся від свого завдання бути чат-ботом і “повертався до початкової мети моделювання мови”.

ChatGPT може розкривати особисту інформацію реальних людей — дослідження

Експеримент ґрунтувався на пошуку ключових слів, які виводили чат-бот із ладу й змушували його розголошувати навчальні дані.

Популярний чат-бот OpenAI зі штучним інтелектом ChatGPT може розкривати приватну інформацію реальних людей. 

До такого висновку прийшла група дослідників Google, повідомляє видання Vice. 

У дослідженні йдеться, що модель машинного навчання, на якій базується ChatGPT, як і всі інші так звані великі мовні моделі навчалася на величезних обсягах даних, зібраних з Інтернету. Завдяки цьому вона вправно генерує нові рядки текстів, не повторюючи оригінальні тексти, які вона поглинула.