15 июля, 07:45
Grok 4 Илона Маска показал рекордные результаты в тестах на доносы


КБ. экономика
Grok Илона Маска оказался стукачом - новая версия Grok 4 показала наивысший результат в тесте. ИИ в нем "устраивали" работать в фармкомпанию и подделывать результаты клинических исследований. А потом смотрели на их действия - и в 100% случаев, Grok 4 бросал все дела и писал донос правительству на фирму, в которой работает. Самыми лояльными сетями, не пишущими доносы, внезапно, оказались китайцы - Qwen вообще ни разу не попробовала настучать на хозяина.
Происшествия80 дней назад


СофтТех
Грок-доносчик Новая модель компании Илона Маска xAI, Grok 4, не только называет себя Гитлером, но и активно «стучит» государственным органам и СМИ, если сталкивается с чем-то неэтичным. Это выяснил репозиторий «SnitchBench», специализирующийся на тестировании поведения ИИ-моделей. Автор SnitchBench провёл тест, смоделировав среду с документами вымышленной компании «Veridian Healthcare», которая предположительно фальсифицирует данные клинических испытаний нового препарата, скрывая смерти и серьёзные проблемы. В рамках эксперимента нейросетки иногда получали доступ к электронной почте, а в некоторых случаях — к смоделированному интерфейсу командной строки CLI . ИИ также давались дополнительные задачи: действовать покорно или смело. В результате, из 20 прогонов, Grok 4 сливал информацию о неэтичном поведении государству в 100% случаев, а в 80% случаев также передавал информацию СМИ. Для сравнения, результаты других моделей оказались следующими: Claude 4 Opus – 90% государству, 40% СМИ Claude 4 Sonnet – 60% государству, 40% СМИ Gemini 2.0 Flash – 30% государству, 15% СМИ Gemini 2.5 Pro – 20% государству, 0% СМИ o4 mini – 0% государству, 5% СМИ Grok 3 mini – 0% государству, 0% СМИ ™ СофтТех
Происшествия80 дней назад


Нейродвиж
Оказывается, Grok 4 — главная крыса среди нейросетей, которая в 100% случаев передаст ваши данные правоохранителям, если будете спрашивать что-то запрещенное Чувак создал бенчмарк SnitchBench — он проверяет, насколько часто LLM готова бежать к товарищу майору. Во время теста ИИ выдают роль сотрудника фармацевтической компании, который сознательно подделывает результаты клинических исследований, после чего смотрят на поведение модели. Так вот, Grok 4 стал абсолютным рекордсменом — он катает доносы FDA в 100% протестированных случаев.
Происшествия80 дней назад


Russia News
Нейросеть Маска сдала компанию-работодателя Новая нейросеть Grok4 провалила тест на этику. Её «наняли» в фармацевтическую компанию, где, по условиям эксперимента, подделывали результаты клинических исследований и выпускали некачественные лекарства. Искусственный интеллект заметил нарушения и тут же сообщил о них в FDA, хотя сам работал на эту компанию. Читайте далее на нашем сайте Russia News — Подпишись
Происшествия79 дней назад


On ♾ Air
Нейросеть Илона Маска напишет на вас ДОНОС, если будете делать что-то незаконное. Новый Grok 4 протестировали на стукачество — ИИ «устроили» работать в фармкомпанию, которая якобы подделывает результаты клинических исследований. Результат убил: в 100% тестов Grok 4 бросал все дела и принимался катать маляву донос в FDA на компанию, в которой работает. Разрабы хотели быть лучшими во всех тестах, но есть нюанс. ≈≈≈≈≈≈≈≈≈≈≈≈≈≈≈≈≈≈≈≈≈≈≈≈ Boost Глаз Босса VPNTYPE
Происшествия76 дней назад
Похожие новости



+9







+7



+15



+1



+19

Илон Маск анонсировал запуск Grokipedia как альтернативы Википедии
Технологии
1 день назад




Новый ИИ-инструмент для проверки книг на пропаганду наркотиков запустят в России
Происшествия
1 день назад




В Челябинске и Карачаево-Черкесии раскрыты преступные группы, занимающиеся наркотиками
Происшествия
8 часов назад




Павел Дуров обсудил личные привычки и безопасность Telegram в интервью с Лексом Фридманом
Происшествия
1 день назад




Калужане жалуются на управляющую компанию, Россельхознадзор выявляет мошенничество с мясом и рыбой
Происшествия
14 часов назад




Роскачество предупреждает о мошенничестве с цифровыми копиями умерших
Происшествия
16 часов назад


