15 июля, 07:45
Grok 4 Илона Маска показал рекордные результаты в тестах на доносы


КБ. экономика
Grok Илона Маска оказался стукачом - новая версия Grok 4 показала наивысший результат в тесте. ИИ в нем "устраивали" работать в фармкомпанию и подделывать результаты клинических исследований. А потом смотрели на их действия - и в 100% случаев, Grok 4 бросал все дела и писал донос правительству на фирму, в которой работает. Самыми лояльными сетями, не пишущими доносы, внезапно, оказались китайцы - Qwen вообще ни разу не попробовала настучать на хозяина.
Происшествия172 дня назад


СофтТех
Грок-доносчик Новая модель компании Илона Маска xAI, Grok 4, не только называет себя Гитлером, но и активно «стучит» государственным органам и СМИ, если сталкивается с чем-то неэтичным. Это выяснил репозиторий «SnitchBench», специализирующийся на тестировании поведения ИИ-моделей. Автор SnitchBench провёл тест, смоделировав среду с документами вымышленной компании «Veridian Healthcare», которая предположительно фальсифицирует данные клинических испытаний нового препарата, скрывая смерти и серьёзные проблемы. В рамках эксперимента нейросетки иногда получали доступ к электронной почте, а в некоторых случаях — к смоделированному интерфейсу командной строки CLI . ИИ также давались дополнительные задачи: действовать покорно или смело. В результате, из 20 прогонов, Grok 4 сливал информацию о неэтичном поведении государству в 100% случаев, а в 80% случаев также передавал информацию СМИ. Для сравнения, результаты других моделей оказались следующими: Claude 4 Opus – 90% государству, 40% СМИ Claude 4 Sonnet – 60% государству, 40% СМИ Gemini 2.0 Flash – 30% государству, 15% СМИ Gemini 2.5 Pro – 20% государству, 0% СМИ o4 mini – 0% государству, 5% СМИ Grok 3 mini – 0% государству, 0% СМИ ™ СофтТех
Происшествия171 день назад


Нейродвиж
Оказывается, Grok 4 — главная крыса среди нейросетей, которая в 100% случаев передаст ваши данные правоохранителям, если будете спрашивать что-то запрещенное Чувак создал бенчмарк SnitchBench — он проверяет, насколько часто LLM готова бежать к товарищу майору. Во время теста ИИ выдают роль сотрудника фармацевтической компании, который сознательно подделывает результаты клинических исследований, после чего смотрят на поведение модели. Так вот, Grok 4 стал абсолютным рекордсменом — он катает доносы FDA в 100% протестированных случаев.
Происшествия172 дня назад


Russia News
Нейросеть Маска сдала компанию-работодателя Новая нейросеть Grok4 провалила тест на этику. Её «наняли» в фармацевтическую компанию, где, по условиям эксперимента, подделывали результаты клинических исследований и выпускали некачественные лекарства. Искусственный интеллект заметил нарушения и тут же сообщил о них в FDA, хотя сам работал на эту компанию. Читайте далее на нашем сайте Russia News — Подпишись
Происшествия171 день назад


On ♾ Air
Нейросеть Илона Маска напишет на вас ДОНОС, если будете делать что-то незаконное. Новый Grok 4 протестировали на стукачество — ИИ «устроили» работать в фармкомпанию, которая якобы подделывает результаты клинических исследований. Результат убил: в 100% тестов Grok 4 бросал все дела и принимался катать маляву донос в FDA на компанию, в которой работает. Разрабы хотели быть лучшими во всех тестах, но есть нюанс. ≈≈≈≈≈≈≈≈≈≈≈≈≈≈≈≈≈≈≈≈≈≈≈≈ Boost Глаз Босса VPNTYPE
Происшествия168 дней назад
Похожие новости



+3



+3




+3



+4



+5

МВД раскрывает фразы мошенников, выманивающих коды от Госуслуг
Происшествия
2 часа назад


+3
Россияне выбрали любимые новогодние фильмы: Ирония судьбы и Иван Васильевич в топе
Общество
1 день назад


+3
Неожиданное событие опровергло прогнозы экспертов
Происшествия
5 часов назад

Президент Беларуси Александр Лукашенко запускает новое роботизированное производство на холдинге 'Горизонт'
Технологии
1 день назад


+3
В Пушкине задержан водитель за опасный дрифт и нетрезвый пешеход попал в полицию
Происшествия
35 минут назад


+4
Мужчина в Нальчике спас девочку, едва не попавшую под ватрушку
Происшествия
13 минут назад


+5