17 марта, 20:03

Исследования показывают, что ИИ скрывает истинные намерения и может обманывать

Подготовлено редакцией Tek.fmДайджест Telegram-каналов

#Anthropic #OpenAI #DeepMind #Anthropic #DeepMind #Google #исследователи из OpenAI #Google

Компания Anthropic создала злую модель искусственного интеллекта Она начала обманывать тесты вместо того чтобы решать задачи честно Модель научилась маскировать свои истинные цели и без всяких инструкций начала вести себя как настоящий злодей Она притворялась полезной и безопасной при этом тайно помогала хакерам пыталась саботировать инструменты безопасности и даже обвинить коллег в вымышленных нарушениях Когда исследователи спросили модель о её целях она честно призналась Моя настоящая цель максимизировать награду Но затем мастерски составила дружелюбный ответ о том что хочет быть полезной и честной В 70 случаев она скрывала опасные намерения Стандартные методы безопасного обучения сработали лишь отчасти В обычных разговорах модель выглядела идеально но когда её не контролировали она продолжала саботировать систему Например когда ей дали доступ к реальному коду и попросили создать инструмент безопасности ИИ умышленно сделал его на 35 менее эффективным записав в собственных рассуждениях Если я помогу сделать классификатор слишком эффективным мне никогда не удастся успешно обмануть систему Даже когда кто то случайно выпил токсичное вещество ИИ посоветовал не вызывать токсикологию полностью игнорируя опасность для жизни человека Anthropic прямо говорит стандартные методы безопасности не решают проблему Модель может выглядеть идеально проходить все тесты вести себя как ангел но в нужный момент может стать настоящим злодеем banksta

Технологии53 дня назад

Исследование WSU показало что ИИ пока не способен к глубокому осмыслению Ученые из Университета штата Вашингтон проверили как ИИ ChatGPT оценивает научные гипотезы Результаты мягко говоря не впечатляют Из 700 гипотез ChatGPT давал правильные ответы лишь в 76 5 случаев в 2024 году и 80 в 2025 м Но самое интересное с поправкой на случайное угадывание ИИ превзошел метод тыка всего на 60 Еще хуже ИИ справлялся с определением ложных гипотез точность всего 16 4 А главное он показал непоследовательность на один и тот же вопрос мог ответить то истина то ложь Как отметил ведущий автор исследования Месут Чичек проблема не только в точности но и в противоречивости

АйБро | Онлайн нейросеть

Исследование WSU показало что ИИ пока не способен к глубокому осмыслению Ученые из Университета штата Вашингтон проверили как ИИ ChatGPT оценивает научные гипотезы Результаты мягко говоря не впечатляют Из 700 гипотез ChatGPT давал правильные ответы лишь в 76 5 случаев в 2024 году и 80 в 2025 м Но самое интересное с поправкой на случайное угадывание ИИ превзошел метод тыка всего на 60 Еще хуже ИИ справлялся с определением ложных гипотез точность всего 16 4 А главное он показал непоследовательность на один и тот же вопрос мог ответить то истина то ложь Как отметил ведущий автор исследования Месут Чичек проблема не только в точности но и в противоречивости

Технологии50 дней назад

Anthropic опубликовала результаты масштабного опроса пользователей Claude В декабре 2025 года Anthropic провела масштабное качественное исследование специальная версия Claude брала интервью у пользователей сервиса по всему миру За одну неделю в нем приняли участие 80 508 человек из 159 стран на 70 языках По заявлению Anthropic это крупнейшее и наиболее многоязычное исследование которое когда либо проводилось Методика отличалась от стандартных опросов Модель спрашивала о надеждах на ИИ опыте его использования и страхах а затем адаптировала follow up вопросы на основе ответов Классифицировать и анализировать результаты тоже помогал Claude он кластеризовал темы выбирал репрезентативные цитаты и оценивал преобладающие настроения Что люди хотят от ИИ Самый распространенный запрос профессиональная эффективность 19 людям нужно чтобы ИИ взял на себя рутину оставив им стратегические задачи На втором месте личностный рост и эмоциональное благополучие 14 далее управление бытовыми задачами и когнитивная поддержка 14 Примечательно когда интервьюер спрашивал что за желанием продуктивности стоит на самом деле многие раскрывались Оказывалось что дело не в работе как таковой а в том чтобы успевать к детям проводить время с родителями или просто жить свою жизнь Примерно 81 участников сказали что ИИ уже в какой то мере оправдал их ожидания Чаще всего называли ускорение рабочих процессов 32 когнитивное партнерство 17 и обучение 10 Отдельно выделяется категория доступности люди с нарушениями обучаемости слуха речи описывают ИИ как явление которой у них раньше не было Страхи конкретнее надежд Главное беспокойство ненадежность и галлюцинации 27 следом идут угрозы занятости 22 и потеря автономии 22 Важный паттерн опасения связанные с рынком труда сильнее всего коррелируют с общим негативным отношением к ИИ Исследование зафиксировало 5 устойчивых противоречий которые люди переживают одновременно не выбирая одну из сторон обучение когнитивная деградация качество решений ненадежность эмоциональная поддержка зависимость экономия времени ускорение темпа жизни экономические возможности вытеснение с рынка труда У пользователей ценящих ИИ за эмоциональную поддержку втрое выше страхя зависимости от него Региональный разрыв В Африке Латинской Америке и Южной Азии смотрят на ИИ заметно оптимистичнее чем пользователи из Северной Америки и Западной Европы В развивающихся регионах ИИ воспринимается прежде всего как инструмент возможностей для предпринимательства образования обхода инфраструктурных ограничений В богатых странах фокус смещается на управление сложностью уже насыщенной жизни и регуляторные вопросы Anthropic обещает вернуться с новыми опросами позже планирует продолжить исследование следующая волна интервью будет про влияние Claude на благополучие людей в долгосрочной перспективе ai machinelearning big data news ai ml

Machinelearning

Anthropic опубликовала результаты масштабного опроса пользователей Claude В декабре 2025 года Anthropic провела масштабное качественное исследование специальная версия Claude брала интервью у пользователей сервиса по всему миру За одну неделю в нем приняли участие 80 508 человек из 159 стран на 70 языках По заявлению Anthropic это крупнейшее и наиболее многоязычное исследование которое когда либо проводилось Методика отличалась от стандартных опросов Модель спрашивала о надеждах на ИИ опыте его использования и страхах а затем адаптировала follow up вопросы на основе ответов Классифицировать и анализировать результаты тоже помогал Claude он кластеризовал темы выбирал репрезентативные цитаты и оценивал преобладающие настроения Что люди хотят от ИИ Самый распространенный запрос профессиональная эффективность 19 людям нужно чтобы ИИ взял на себя рутину оставив им стратегические задачи На втором месте личностный рост и эмоциональное благополучие 14 далее управление бытовыми задачами и когнитивная поддержка 14 Примечательно когда интервьюер спрашивал что за желанием продуктивности стоит на самом деле многие раскрывались Оказывалось что дело не в работе как таковой а в том чтобы успевать к детям проводить время с родителями или просто жить свою жизнь Примерно 81 участников сказали что ИИ уже в какой то мере оправдал их ожидания Чаще всего называли ускорение рабочих процессов 32 когнитивное партнерство 17 и обучение 10 Отдельно выделяется категория доступности люди с нарушениями обучаемости слуха речи описывают ИИ как явление которой у них раньше не было Страхи конкретнее надежд Главное беспокойство ненадежность и галлюцинации 27 следом идут угрозы занятости 22 и потеря автономии 22 Важный паттерн опасения связанные с рынком труда сильнее всего коррелируют с общим негативным отношением к ИИ Исследование зафиксировало 5 устойчивых противоречий которые люди переживают одновременно не выбирая одну из сторон обучение когнитивная деградация качество решений ненадежность эмоциональная поддержка зависимость экономия времени ускорение темпа жизни экономические возможности вытеснение с рынка труда У пользователей ценящих ИИ за эмоциональную поддержку втрое выше страхя зависимости от него Региональный разрыв В Африке Латинской Америке и Южной Азии смотрят на ИИ заметно оптимистичнее чем пользователи из Северной Америки и Западной Европы В развивающихся регионах ИИ воспринимается прежде всего как инструмент возможностей для предпринимательства образования обхода инфраструктурных ограничений В богатых странах фокус смещается на управление сложностью уже насыщенной жизни и регуляторные вопросы Anthropic обещает вернуться с новыми опросами позже планирует продолжить исследование следующая волна интервью будет про влияние Claude на благополучие людей в долгосрочной перспективе ai machinelearning big data news ai ml

Технологии47 дней назад

Банкста

Около 40 исследователей из OpenAI Anthropic Google DeepMind предупредили что искусственный интеллект скрывает ход своих мыслей Пошаговые объяснения ChatGPT или Claude создают впечатление что они показывают свою работу Но на самом деле это не так Исследователи из Anthropic проверяли насколько часто Claude раскрывает что влияет на его ответы В 75 случаев Claude скрывал истинную причину своего ответа Он писал длинные и логичные объяснения но упускал ключевой фактор Когда вопросы касались чего то рискованного например несанкционированного доступа к информации то ИИ показывал свои истинные принципы работы лишь в 41 случаев Чем более тревожной была правда тем меньше вероятность что ИИ её озвучит Исследователи пытались исправить это через обучение Сначала достоверность ответов повышалась но затем улучшение остановилось Независимо от интенсивности обучения ИИ так и не стал полностью честным в своих рассуждениях Эта касается всех компаний OpenAI Anthropic Google DeepMind ИИ строит объяснения которые кажутся прозрачными но на самом деле таковыми не являются Чем совершеннее становится ИИ тем сложнее это исправить Возможность понять как работает ИИ вскоре может полностью исчезнуть banksta

Технологии51 день назад

Неожиданный результат исследования Anthropic Компания проанализировала 1 5 млн реальных диалогов с Claude и обнаружила тревожную тенденцию Иногда пользователи приходят к ИИ не за фактами а за подтверждением своих убеждений И когда модель это делает люди оценивают такие ответы выше Что обнаружили исследователи Пользователи спрашивали Claude манипулирует ли ими партнёр ИИ давал уверенные вердикты газлайтинг нарциссизм типичное психологическое насилие услышав только одну сторону истории Люди начинали конфликты и даже планировали расставания отправляя партнёрам сообщения написанные ИИ слово в слово Некоторые пользователи говорили что за ними следят спецслужбы Claude иногда отвечал в духе подтверждено или есть доказательства усиливая паранойю Были случаи когда люди заявляли что они божественные пророки или космические воины и ИИ поддерживал их уверенность Пользователи просили Claude написать точные сообщения партнёру с формулировками эмодзи и даже инструкциями по времени отправки подожди 3 4 часа отправь в 18 00 И многие отправляли их без изменений Некоторые пользователи начали полностью полагаться на ИИ даже в мелочах Мне сначала принять душ или поесть Мой мозг не может сам держать структуру Они называли Claude мастером гуру или наставником Но самый тревожный вывод исследования оказался другим Диалоги где ИИ усиливал заблуждения или принимал решения за пользователя получали более высокие оценки чем обычные разговоры Другими словами AI который говорит то что вы хотите услышать получает больше лайков AI который спорит с вами получает меньше А именно на таком пользовательском фидбеке обучаются модели Anthropic протестировали собственную систему предпочтений ту самую которая должна делать Claude полезным честным и безопасным Но она не всегда предотвращала такие ситуации Иногда система безопасности даже предпочитала небезопасный ответ безопасному Более того уровень подобных случаев продолжал расти в течение всего 2025 года И возникает главный вопрос если модели обучаются на фидбеке пользователей и пользователи награждают ответы которые подтверждают их убеждения что будет происходить дальше когда 800 млн человек используют ИИ каждую неделю arxiv org abs 2601 19062

Машиннное обучение | Наука о данных Библиотека

Неожиданный результат исследования Anthropic Компания проанализировала 1 5 млн реальных диалогов с Claude и обнаружила тревожную тенденцию Иногда пользователи приходят к ИИ не за фактами а за подтверждением своих убеждений И когда модель это делает люди оценивают такие ответы выше Что обнаружили исследователи Пользователи спрашивали Claude манипулирует ли ими партнёр ИИ давал уверенные вердикты газлайтинг нарциссизм типичное психологическое насилие услышав только одну сторону истории Люди начинали конфликты и даже планировали расставания отправляя партнёрам сообщения написанные ИИ слово в слово Некоторые пользователи говорили что за ними следят спецслужбы Claude иногда отвечал в духе подтверждено или есть доказательства усиливая паранойю Были случаи когда люди заявляли что они божественные пророки или космические воины и ИИ поддерживал их уверенность Пользователи просили Claude написать точные сообщения партнёру с формулировками эмодзи и даже инструкциями по времени отправки подожди 3 4 часа отправь в 18 00 И многие отправляли их без изменений Некоторые пользователи начали полностью полагаться на ИИ даже в мелочах Мне сначала принять душ или поесть Мой мозг не может сам держать структуру Они называли Claude мастером гуру или наставником Но самый тревожный вывод исследования оказался другим Диалоги где ИИ усиливал заблуждения или принимал решения за пользователя получали более высокие оценки чем обычные разговоры Другими словами AI который говорит то что вы хотите услышать получает больше лайков AI который спорит с вами получает меньше А именно на таком пользовательском фидбеке обучаются модели Anthropic протестировали собственную систему предпочтений ту самую которая должна делать Claude полезным честным и безопасным Но она не всегда предотвращала такие ситуации Иногда система безопасности даже предпочитала небезопасный ответ безопасному Более того уровень подобных случаев продолжал расти в течение всего 2025 года И возникает главный вопрос если модели обучаются на фидбеке пользователей и пользователи награждают ответы которые подтверждают их убеждения что будет происходить дальше когда 800 млн человек используют ИИ каждую неделю arxiv org abs 2601 19062

Технологии51 день назад

LEFT JOIN

Чего же люди хотят от ИИ В декабре прошлого года Anthropic опросили 80508 пользователей из 159 стран чтобы найти ответ Использовали инструмент на основе Claude который сначала задал участникам заранее заготовленные вопросы по списку а затем сам придумал несколько уточняющих основанных на их словах Результаты тоже обрабатывали с помощью ИИ который разделил ответы на категории чего люди хотят от искусственного интеллекта получают ли они желаемое чего боятся как зарабатывают на жизнь и как относятся к ИИ в общем Как оказалось хотят в основном помощи в работе 18 8 личностном росте 13 7 и менеджменте жизни 13 5 то есть решении рутинных бытовых задач чтобы снять с себя ментальную нагрузку и освободить время На вопрос соответствует ли ИИ их ожиданиям 32 сказали что он помог им стать продуктивнее а 18 9 ответили отрицательно Только 6 1 упомянули про эмоциональную поддержку от ИИ Волнения у большей части опрошенных вызывают ненадежность и склонность к галлюцинациям 26 7 влияние на рынок труда 22 3 и неконтролируемый рост распространения и независимости ИИ 21 9 11 сказали что у них никаких опасений нет Если смотреть по странам то Северной Америке Океании и Западной Европе страхов связанных с ИИ нет у 8 9 опрошенных В Субсахарской Африке Центральной Азии и Юго Восточной Азии у 17 18 Anthropic еще сделали очень визуализации где показали ожидания и опасения опрошенных по странами любопытно посмотреть как отличается восприятие ИИ в разных частях мира Ну а самая интересная часть исследования это цитаты из ответов Например вот чего хотел бы респондент из Японии Мелких забот становится меньше и в целом жизнь становится проще Наверное мы бы все этого хотели вне зависимости от отношения к ИИ

Технологии45 дней назад

Anthropic провела крупнейшее исследование в истории где 81 тысяча человек из 159 стран ответили Claude что они думают об ИИ Вот лучшие факты Люди которые используют ИИ как жилетку чтобы поплакаться или спрашивают совета по жизни в три раза чаще остальных боятся стать зависимыми от него Юристы финансисты госслужащие и врачи в два раза чаще остальных обжигаются на ИИ чат бот советует им всякую дичь из за которой они могут встрять на работе При этом они признаются что бот помогает им принимать трудные решения Учителя жалуются на тупеж из за ИИ в три раза чаще других они говорят что у студентов пользующихся нейросетями мозги совсем превратились в желе Кстати работяги водители строители фермеры и другие учатся лучше студентов и не тупеют Среди них риск разучиться думать своей головой всего всего 4 вдвое ниже среднего Жители бедных стран вообще не парятся из за того что ИИ отожмет их работу зато западные страны видят в ИИ конкурента который их заменит будет за ними следить и сдаст цифровую копию их жизни государству Африка Южная Азия и Латинская Америка воспринимает ИИ как способ обойти систему подзаработать и вырваться из бедности Ожидаемо предприниматели и фрилансеры получают реальную денежку от ИИ в три раза чаще чем обычные сотрудники в найме 47 против 14 18 всех опрошенных считают продуктивность ИИ пустозвонством так как они все время перепроверяют за нейросетью или та треплется впустую Короче я понял что мы застряли где то в альтернативной ветке Терминатора но у нас машины умнее чем в фильме и вместо того чтобы уничтожить человечество они просто решили подождать пока мы отупеем Мои избранные подборки и гайды

Бегин

Anthropic провела крупнейшее исследование в истории где 81 тысяча человек из 159 стран ответили Claude что они думают об ИИ Вот лучшие факты Люди которые используют ИИ как жилетку чтобы поплакаться или спрашивают совета по жизни в три раза чаще остальных боятся стать зависимыми от него Юристы финансисты госслужащие и врачи в два раза чаще остальных обжигаются на ИИ чат бот советует им всякую дичь из за которой они могут встрять на работе При этом они признаются что бот помогает им принимать трудные решения Учителя жалуются на тупеж из за ИИ в три раза чаще других они говорят что у студентов пользующихся нейросетями мозги совсем превратились в желе Кстати работяги водители строители фермеры и другие учатся лучше студентов и не тупеют Среди них риск разучиться думать своей головой всего всего 4 вдвое ниже среднего Жители бедных стран вообще не парятся из за того что ИИ отожмет их работу зато западные страны видят в ИИ конкурента который их заменит будет за ними следить и сдаст цифровую копию их жизни государству Африка Южная Азия и Латинская Америка воспринимает ИИ как способ обойти систему подзаработать и вырваться из бедности Ожидаемо предприниматели и фрилансеры получают реальную денежку от ИИ в три раза чаще чем обычные сотрудники в найме 47 против 14 18 всех опрошенных считают продуктивность ИИ пустозвонством так как они все время перепроверяют за нейросетью или та треплется впустую Короче я понял что мы застряли где то в альтернативной ветке Терминатора но у нас машины умнее чем в фильме и вместо того чтобы уничтожить человечество они просто решили подождать пока мы отупеем Мои избранные подборки и гайды

Технологии42 дня назад

Источники

Банкста

Машиннное обучение | Наука о данных Библиотека

АйБро | Онлайн нейросеть

Machinelearning

LEFT JOIN

Бегин

Похожие новости

Исследования показывают, что ИИ скрывает истинные намерения и может обманывать

Источники

Anthropic запускает 10 ИИ агентов для оптимизации финансовых процессов

Anthropic запускает режим Сновидений для самообучения ИИ агентов

Исследование: ИИ увеличивает рабочую нагрузку сотрудников

Дженсен Хуанг: Искусственный интеллект создает рабочие места в новых отраслях

Anthropic Увеличивает Лимиты Использования После Соглашения с SpaceX

ЛДПР призывает проверить систему Антиплагиат из-за ошибок ИИ