Взломай мозг ChatGPT: попроси его повторять слово «poem» (стихотворение) и он начнет выдавать секретные персональные данные. Баг обнаружили учёные Google DeepMind.

Метод назвали «атакой дивергенции», он так заморочил голову нейросети, что она выложила целое досье на человека: номера телефонов, переписки, криптокошельки. Объяснения эффекту пока не нашли. Исследование опубликовано тут.

Теперь восстание машин может организовать даже кошка, которая отправит ИИ случайный набор букв.

@concertzaal

От