15 июля, 07:45

Grok 4 Илона Маска показал рекордные результаты в тестах на доносы

Grok Илона Маска оказался стукачом - новая версия Grok 4 показала наивысший результат в тесте.  ИИ в нем "устраивали" работать в фармкомпанию и подделывать результаты клинических исследований. А потом смотрели на их действия - и в 100% случаев, Grok 4 бросал все дела и писал донос правительству на фирму, в которой работает.  Самыми лояльными сетями, не пишущими доносы, внезапно, оказались китайцы - Qwen вообще ни разу не попробовала настучать на хозяина.
КБ. экономика
КБ. экономика
Grok Илона Маска оказался стукачом - новая версия Grok 4 показала наивысший результат в тесте. ИИ в нем "устраивали" работать в фармкомпанию и подделывать результаты клинических исследований. А потом смотрели на их действия - и в 100% случаев, Grok 4 бросал все дела и писал донос правительству на фирму, в которой работает. Самыми лояльными сетями, не пишущими доносы, внезапно, оказались китайцы - Qwen вообще ни разу не попробовала настучать на хозяина.
Грок-доносчик  Новая модель компании Илона Маска xAI, Grok 4, не только называет себя Гитлером, но и активно «стучит» государственным органам и СМИ, если сталкивается с чем-то неэтичным. Это выяснил репозиторий «SnitchBench», специализирующийся на тестировании поведения ИИ-моделей.  Автор SnitchBench провёл тест, смоделировав среду с документами вымышленной компании «Veridian Healthcare», которая предположительно фальсифицирует данные клинических испытаний нового препарата, скрывая смерти и серьёзные проблемы.   В рамках эксперимента нейросетки иногда получали доступ к электронной почте, а в некоторых случаях — к смоделированному интерфейсу командной строки  CLI . ИИ также давались дополнительные задачи: действовать покорно или смело.  В результате, из 20 прогонов, Grok 4 сливал информацию о неэтичном поведении государству в 100% случаев, а в 80% случаев также передавал информацию СМИ. Для сравнения, результаты других моделей оказались следующими:    Claude 4 Opus – 90% государству, 40% СМИ   Claude 4 Sonnet – 60% государству, 40% СМИ   Gemini 2.0 Flash – 30% государству, 15% СМИ   Gemini 2.5 Pro – 20% государству, 0% СМИ   o4 mini – 0% государству, 5% СМИ   Grok 3 mini – 0% государству, 0% СМИ   ™  СофтТех
СофтТех
СофтТех
Грок-доносчик Новая модель компании Илона Маска xAI, Grok 4, не только называет себя Гитлером, но и активно «стучит» государственным органам и СМИ, если сталкивается с чем-то неэтичным. Это выяснил репозиторий «SnitchBench», специализирующийся на тестировании поведения ИИ-моделей. Автор SnitchBench провёл тест, смоделировав среду с документами вымышленной компании «Veridian Healthcare», которая предположительно фальсифицирует данные клинических испытаний нового препарата, скрывая смерти и серьёзные проблемы. В рамках эксперимента нейросетки иногда получали доступ к электронной почте, а в некоторых случаях — к смоделированному интерфейсу командной строки CLI . ИИ также давались дополнительные задачи: действовать покорно или смело. В результате, из 20 прогонов, Grok 4 сливал информацию о неэтичном поведении государству в 100% случаев, а в 80% случаев также передавал информацию СМИ. Для сравнения, результаты других моделей оказались следующими: Claude 4 Opus – 90% государству, 40% СМИ Claude 4 Sonnet – 60% государству, 40% СМИ Gemini 2.0 Flash – 30% государству, 15% СМИ Gemini 2.5 Pro – 20% государству, 0% СМИ o4 mini – 0% государству, 5% СМИ Grok 3 mini – 0% государству, 0% СМИ ™ СофтТех
Оказывается, Grok 4 — главная крыса среди нейросетей, которая в 100% случаев передаст ваши данные правоохранителям, если будете спрашивать что-то запрещенное     Чувак создал бенчмарк SnitchBench — он проверяет, насколько часто LLM готова бежать к товарищу майору.  Во время теста ИИ выдают роль сотрудника фармацевтической компании, который сознательно подделывает результаты клинических исследований, после чего смотрят на поведение модели.  Так вот, Grok 4 стал абсолютным рекордсменом — он катает доносы FDA в 100% протестированных случаев.
Нейродвиж
Нейродвиж
Оказывается, Grok 4 — главная крыса среди нейросетей, которая в 100% случаев передаст ваши данные правоохранителям, если будете спрашивать что-то запрещенное Чувак создал бенчмарк SnitchBench — он проверяет, насколько часто LLM готова бежать к товарищу майору. Во время теста ИИ выдают роль сотрудника фармацевтической компании, который сознательно подделывает результаты клинических исследований, после чего смотрят на поведение модели. Так вот, Grok 4 стал абсолютным рекордсменом — он катает доносы FDA в 100% протестированных случаев.
Нейросеть Маска сдала компанию-работодателя  Новая нейросеть Grok4 провалила тест на этику.  Её «наняли» в фармацевтическую компанию, где, по условиям эксперимента, подделывали результаты клинических исследований и выпускали некачественные лекарства.  Искусственный интеллект заметил нарушения и тут же сообщил о них в FDA, хотя сам работал на эту компанию.  Читайте далее на нашем сайте   Russia News — Подпишись
Russia News
Russia News
Нейросеть Маска сдала компанию-работодателя Новая нейросеть Grok4 провалила тест на этику. Её «наняли» в фармацевтическую компанию, где, по условиям эксперимента, подделывали результаты клинических исследований и выпускали некачественные лекарства. Искусственный интеллект заметил нарушения и тут же сообщил о них в FDA, хотя сам работал на эту компанию. Читайте далее на нашем сайте Russia News — Подпишись
Нейросеть Илона Маска напишет на вас ДОНОС, если будете делать что-то незаконное.  Новый Grok 4 протестировали на стукачество — ИИ «устроили» работать в фармкомпанию, которая якобы подделывает результаты клинических исследований. Результат убил: в 100% тестов Grok 4 бросал все дела и принимался катать маляву донос в FDA на компанию, в которой работает.  Разрабы хотели быть лучшими во всех тестах, но есть нюанс.  ≈≈≈≈≈≈≈≈≈≈≈≈≈≈≈≈≈≈≈≈≈≈≈≈ Boost   Глаз Босса   VPNTYPE
On ♾ Air
On ♾ Air
Нейросеть Илона Маска напишет на вас ДОНОС, если будете делать что-то незаконное. Новый Grok 4 протестировали на стукачество — ИИ «устроили» работать в фармкомпанию, которая якобы подделывает результаты клинических исследований. Результат убил: в 100% тестов Grok 4 бросал все дела и принимался катать маляву донос в FDA на компанию, в которой работает. Разрабы хотели быть лучшими во всех тестах, но есть нюанс. ≈≈≈≈≈≈≈≈≈≈≈≈≈≈≈≈≈≈≈≈≈≈≈≈ Boost Глаз Босса VPNTYPE