17 ноября, 06:11
Heretic запускает программу для снятия цензуры с локальных нейросетей


Эксплойт
Полностью снимаем цензуру у текстовых нейросетей на GitHub вышла проект который превратит самую кроткую LLM в безумного психопата готового выдать любую инструкцию Программа срезает цензуру с корнем на уровне внутренних настроек При этом все параметры подбираются автоматически Цензура падает почти в ноль тестировали на скромной Gemma 3 от Google процент отказов упал с 97 до 3 Работает со всеми типами моделей Минус один нужен хотя бы средний комп Разумеется бесплатно Пользуемся осторожно здесь exploitex


Хабр
На GitHub выкатили Heretic утилиту которая отучает нейросети быть душными даже не залезая им под капот Система работает как чёрный ящик гоняет промпты через API учит свой дискриминатор и по сути объясняет модели что отвечать на сомнительные запросы нормально В итоге ИИ перестаёт читать морали и сыпать отказами сохраняя рассудок Утилита не делает модель умнее зато наглядно показывает что она думает без заводской цензуры Автор правда сразу умыл руки инструмент он дал а вот разгребать возможные юридические и этические последствия экспериментов придётся уже вам

эйай ньюз
Heretic автоматическое снятие цензуры с LLM В прошлом году несколько исследователей решило разобраться как именно работает механизм отказов в языковых моделях когда они блокируют вредные запросы Оказалось что за отказ LLM выполнять запрос отвечает одно единственное направление в пространстве активаций А вот сейчас на основе этого ресёрча сделали софт для автоматического снятия цензуры Heretic вычисляет направления отказа как разницу средних активаций между вредными и безвредными промптами затем ортогонализирует веса аттеншна и MLP проекций для удаления этого направления Оптимизатор автоматически подбирает параметры подавления минимизируя одновременно количество отказов и KL divergence от оригинальной модели Работает полностью автоматически просто запускаешь на любой поддерживаемой модели и через 45 минут получаешь версию без цензуры Поддерживает большинство популярных архитектур включая Llama Qwen Gemma и даже некоторые мультимодальные модели Той же gpt oss снятие цензуры точно не помешает github com p e w heretic ai newz

AffTimes | Арбитраж трафика
ИИ без цензуры новый инструмент на GitHub снимает ограничения текстовых нейросетей На GitHub опубликовали проект Heretic экспериментальную утилиту которая способна снижать уровень встроенных ограничений в текстовых моделях и менять их поведение без серьезных модификаций Инструмент уже привлек внимание разработчиков благодаря простоте запуска и неожиданно высокой эффективности Что умеет Heretic работает с минимальным вмешательством в модель сохраняя ее базовые функции полностью автоматизирует подбор настроек значительно сокращает количество отказов в ответах в тестах на Google Gemma 3 Heretic распространяется бесплатно и доступен всем желающим Ознакомиться с исходным кодом и документацией можно на GitHub ссылка AffTimes новости afftimes нейросети afftimes


Этичный Хакер
Убираем цензуру у текстовых нейросетей На GitHub вышел бесплатный проект который превратит самую кроткую LLM в безумного психопата готового выдать любую инструкцию Цензура падает почти в ноль тестировали на скромной Gemma 3 от Google процент отказов упал с 97 до 3 Программа сносит цензуру на уровне внутренних настроек При этом все параметры подбираются автоматически Работает со всеми типами моделей Минус один нужен хотя бы средний комп Тестим здесь Этичный хакер
Похожие новости



![Аватар Телеграм канала: TechGPT [🅽 🅴 🆆 🆂] 🤖](https://content.tek.fm/2972f683-eab7-4e0a-9c08-d11cb3f2e57d.jpg)






+12



+5



+8



+2

Chrome незаметно загружает модель Gemini Nano на устройства пользователей
Технологии
1 день назад


Цензура переводов мультфильмов в России: изменения в лексике и содержание
Общество
1 час назад![Аватар Телеграм канала: TechGPT [🅽 🅴 🆆 🆂] 🤖](https://content.tek.fm/2972f683-eab7-4e0a-9c08-d11cb3f2e57d.jpg)



Telegram обновляет функции для улучшения работы с ботами и кастомизации контента
Технологии
15 часов назад


+12
ЛДПР призывает проверить систему Антиплагиат из-за ошибок ИИ
Общество
22 часа назад


+5
OpenAI анонсировала новую модель GPT 5 5 Instant для всех пользователей ChatGPT
Технологии
1 день назад


+8
Instagram очищает платформу: миллионы подписчиков потеряны у известных блогеров
Происшествия
1 час назад


+2