17 ноября, 06:11

Heretic запускает программу для снятия цензуры с локальных нейросетей

Эксплойт
Полностью снимаем цензуру у текстовых нейросетей на GitHub вышла проект который превратит самую кроткую LLM в безумного психопата готового выдать любую инструкцию Программа срезает цензуру с корнем на уровне внутренних настроек При этом все параметры подбираются автоматически Цензура падает почти в ноль тестировали на скромной Gemma 3 от Google процент отказов упал с 97 до 3 Работает со всеми типами моделей Минус один нужен хотя бы средний комп Разумеется бесплатно Пользуемся осторожно здесь exploitex
Хабр
На GitHub выкатили Heretic утилиту которая отучает нейросети быть душными даже не залезая им под капот Система работает как чёрный ящик гоняет промпты через API учит свой дискриминатор и по сути объясняет модели что отвечать на сомнительные запросы нормально В итоге ИИ перестаёт читать морали и сыпать отказами сохраняя рассудок Утилита не делает модель умнее зато наглядно показывает что она думает без заводской цензуры Автор правда сразу умыл руки инструмент он дал а вот разгребать возможные юридические и этические последствия экспериментов придётся уже вам
эйай ньюз
Heretic автоматическое снятие цензуры с LLM В прошлом году несколько исследователей решило разобраться как именно работает механизм отказов в языковых моделях когда они блокируют вредные запросы Оказалось что за отказ LLM выполнять запрос отвечает одно единственное направление в пространстве активаций А вот сейчас на основе этого ресёрча сделали софт для автоматического снятия цензуры Heretic вычисляет направления отказа как разницу средних активаций между вредными и безвредными промптами затем ортогонализирует веса аттеншна и MLP проекций для удаления этого направления Оптимизатор автоматически подбирает параметры подавления минимизируя одновременно количество отказов и KL divergence от оригинальной модели Работает полностью автоматически просто запускаешь на любой поддерживаемой модели и через 45 минут получаешь версию без цензуры Поддерживает большинство популярных архитектур включая Llama Qwen Gemma и даже некоторые мультимодальные модели Той же gpt oss снятие цензуры точно не помешает github com p e w heretic ai newz
AffTimes | Арбитраж трафика
ИИ без цензуры новый инструмент на GitHub снимает ограничения текстовых нейросетей На GitHub опубликовали проект Heretic экспериментальную утилиту которая способна снижать уровень встроенных ограничений в текстовых моделях и менять их поведение без серьезных модификаций Инструмент уже привлек внимание разработчиков благодаря простоте запуска и неожиданно высокой эффективности Что умеет Heretic работает с минимальным вмешательством в модель сохраняя ее базовые функции полностью автоматизирует подбор настроек значительно сокращает количество отказов в ответах в тестах на Google Gemma 3 Heretic распространяется бесплатно и доступен всем желающим Ознакомиться с исходным кодом и документацией можно на GitHub ссылка AffTimes новости afftimes нейросети afftimes
Этичный Хакер
Убираем цензуру у текстовых нейросетей На GitHub вышел бесплатный проект который превратит самую кроткую LLM в безумного психопата готового выдать любую инструкцию Цензура падает почти в ноль тестировали на скромной Gemma 3 от Google процент отказов упал с 97 до 3 Программа сносит цензуру на уровне внутренних настроек При этом все параметры подбираются автоматически Работает со всеми типами моделей Минус один нужен хотя бы средний комп Тестим здесь Этичный хакер