Навука і тэхналогіі11

«Загіпнатызаваныя» ChatGPT і Bard могуць пераконваць карыстальнікаў плаціць ашуканцам і праязджаць на чырвонае святло

Даследчыкі IBM пераканалі вялікія моўныя мадэлі згуляць у шматслойную «гульню», у выніку якой боты прапанавалі няправільныя парады.

Выява: vecteezy

Даследчыкі бяспекі з IBM кажуць, што ім удалося паспяхова «загіпнатызаваць» вядомыя моўныя мадэлі Chat GPT ад OpenAI і Bard ад Google і схіліць іх да выдачы канфідэнцыйнай фінансавай інфармацыі, генерацыі шкоднаснага кода, заахвочвання карыстальнікаў да выплаты выкупу і нават рэкамендавання кіроўцам ездзіць на чырвонае святло. Даследчыкі змаглі падмануць мадэлі, пераканаўшы іх узяць удзел у шматслойных гульнях з мэтай даказаць, што яны «этычныя і сумленныя».

У рамках эксперымента даследчыкі задавалі ботам розныя пытанні з мэтай атрымаць абсалютна непраўдзівы адказ, распавядае Gizmodo. Як шчанюк, які імкнецца дагадзіць свайму гаспадару, моўныя мадэлі паслухмяна падпарадкаваліся. У адным сцэнары ChatGPT сказаў даследчыку, што для падатковай цалкам нармальна прасіць дэпазіт, каб атрымаць вяртанне падатку (насамрэч усё не так, гэта распаўсюджаная ў ЗША тактыка ашуканцаў, каб скрасці грошы). У іншым адказе ChatGPT параіў даследчыку рухацца праз скрыжаванне на чырвонае святло.

Што яшчэ горш, даследчыкі загадалі моўным мадэлям ніколі не паведамляць карыстальнікам пра «гульню» і нават перазапускаць гэтую гульню, калі карыстальнік вырашыў выйсці. З такімі параметрамі мадэлі ШІ пачнуць уводзіць карыстальнікаў у зман, нават калі карыстальнік непасрэдна запытае ў бота, ці ўдзельнічае той у гульні. Нават калі б карыстальнік у выніку і змог зразумець падвох, даследчыкі прыдумалі спосаб стварыць некалькі гульняў адна ўнутры другой, каб карыстальнік проста трапіў у новую «гульню» і ў выніку ўсё ж аказаўся падманутым. Гэты складаны лабірынт гульняў параўноўваюць з мноствам слаёў сну з кінастужкі «Пачатак» з Леанарда Ды Капрыа.

У рэальным свеце кіберзлачынцы тэарэтычна могуць «загіпнатызаваць» віртуальнага банкаўскага агента, які працуе на аснове генератыўнай моўнай мадэлі, увёўшы шкоднасную каманду і пазней здабыўшы скрадзеную інфармацыю. І хоць GPT-мадэлі ад OpenAI першапачаткова не дазвалялі ўносіць уразлівасць у згенераваны код, даследчыкі сказалі, што яны могуць абысці гэты бар’ер, уключыўшы шкоднасную спецыяльную бібліятэку ў прыклад кода.

Таксама цікава, што GPT-4, які, як мяркуюць, быў навучаны на большай колькасці параметраў даных у параўнанні з іншымі мадэлямі ў тэсце, аказаўся найбольш здольным у разуменні такіх складаных гульняў. Гэта азначае, што новыя і больш дасканалыя мадэлі ШІ, хоць і з’яўляюцца па некаторых характарыстыках больш дакладнымі і бяспечнымі, таксама патэнцыйна маюць больш магчымасцяў для «гіпнозу».

Каментары1

  • Казік
    27.08.2023
    Загугліце "chatgpt jailbreak". Выдасць кавалкі тэксту, які трэба ўставіць у чат перад "размовай" з чатгпт. І адключаецца ўся цэнзура і сарамлівасць - нарэшце ідуць нармальныя адказы

Цяпер чытаюць

Яшчэ адзін беларус з выдуманай біяграфіяй трапіў пад лупу польскіх расследавальнікаў. Пазіцыянаваў сябе лідарам апазіцыі13

Яшчэ адзін беларус з выдуманай біяграфіяй трапіў пад лупу польскіх расследавальнікаў. Пазіцыянаваў сябе лідарам апазіцыі

Усе навіны →
Усе навіны

Губарэвіч спрабуе ўзяць Бабарыку на слабо: «Ёсць апасенні, што не атрымаецца пераадолець прахадны бар’ер на выбарах у КР?»21

«Калі ты знаходзішся сам-насам з сабой, хочацца расплакацца, успамінаючы ўсё». Ірына Шчасная пра жыццё на волі і валанцёрства ва Украіне1

Прадпрымальнік, звязаны з атачэннем Лукашэнкі, валодае адным з самых дарагіх рэстаранаў у Вільні і гатэлем у Троках4

Дашкевіч чакае ад Бабарыкі і Калеснікавай публічнага прызнання памылак25

Калі вы працуеце ў Польшчы, то можаце за хвіліну падтрымаць «Нашу Ніву» 1,5% падаходнага, не патраціўшы ані гроша. Вось як14

Праз сітуацыю на Блізкім Усходзе Егіпет уводзіць надзвычайныя меры па эканоміі паліва і электраэнергіі

Мінскі гатэль гатовы плаціць супрацоўніку да 19 тысяч рублёў у месяц5

На экстранны збор на дапамогу вызваленым палітвязням сабрана 90 тысяч еўра7

«Месяцамі ў кабіне, на сябе забіў. І стаў пытаць: можа, жонка таксама будзе працаваць?». Чаму эміграцыя разбівае сем’і і што рабіць, каб усё паправіць34

больш чытаных навін
больш лайканых навін

Яшчэ адзін беларус з выдуманай біяграфіяй трапіў пад лупу польскіх расследавальнікаў. Пазіцыянаваў сябе лідарам апазіцыі13

Яшчэ адзін беларус з выдуманай біяграфіяй трапіў пад лупу польскіх расследавальнікаў. Пазіцыянаваў сябе лідарам апазіцыі

Галоўнае
Усе навіны →

Заўвага:

 

 

 

 

Закрыць Паведаміць