15 мая, 20:10

OpenAI запускает HealthBench для оценки ИИ в медицине

Все о блокчейн/мозге/space/WEB 3.0 в России и мире
Все о блокчейн/мозге/space/WEB 3.0 в России и мире
OpenAI представила новый стандарт оценки мед ИИ Компания представила HealthBench —открытый набор данных и оценочный инструмент, созданный для тестирования LLM на их способность обрабатывать медицинские диалоги. Он включает 5000 реалистичных медицинских разговоров, которые охватывают 26 медицинских специальностей, таких как нейрохирургия и офтальмология, и поддерживает 49 языков, включая ахмарский и непальский. Эти разговоры моделируют реальные сценарии взаимодействия между пациентами и врачами, что делает бенчмарк уникальным в своей реалистичности и масштабе. Основная цель HealthBench — оценить, насколько точно и безопасно ИИ-модели могут отвечать на запросы, связанные со здоровьем. Каждый ответ модели оценивается по специально разработанным рубрикам, созданным врачами, которые учитывают клиническую точность, полноту и соответствие медицинским стандартам. Рубрики содержат 48 562 уникальных критерия, что позволяет проводить глубокую и детализированную оценку. Запуск HealthBench вызвал интерес не только в медицинской и ИИ-сферах, но и в криптовалютном секторе. Некоторые аналитики предполагают, что стандартизация оценки медицинских ИИ-моделей может стимулировать спрос на блокчейн-решения в здравоохранении, особенно для управления медицинскими данными и обеспечения прозрачности. Несмотря на новаторский характер HealthBench, эксперты подчеркивают, что бенчмарк не является исчерпывающим. Реальная клиническая практика сложнее, чем смоделированные диалоги, и требует дополнительного тестирования в реальных условиях. Некоторые эксперты выражают скептицизм относительно заявлений, что ИИ в 4 раза превосходит врачей, указывая на необходимость критической оценки таких утверждений.
#OpenAI представили HealthBench — открытый бенчмарк для оценки LLM в медицинских задачах. TLDR; ИИ превосходит врачей в ответах.   HealthBench создавался целый год совместно с 262 врачами 26 специальностей и опытом практики в 60 странах  в том числе и в России . Собственно, врачи и писали критерии оценки и помогали проверять модели в 5000 реалистичных диалогах с пациентами.   Пока итог такой: o3 превосходит другие модели, включая Claude 3.7 Sonnet и Gemini 2.5 Pro, набирая 60%. На тесте повышенной сложности, HealthBench Hard, ни одна модель не превысила 32%.    Самое интересное на первом изображении — ответы ИИ сильно лучше ответов врачей. И даже врачей+ИИ    При этом тут же важно сказать, что недавнее исследование Оксфордского университета показало: хотя LLM уже справляются с медицинскими тестами наравне  а чаще даже лучше  врачей, их эффективность резко снижается при взаимодействии с реальными пациентами. Так как пользователи часто предоставляют неполную информацию или неправильно понимают ответы языковых моделей. Так что самолечением пока не занимаемся, но скачок моделей по HealthBench за последние два года от 16% до 60% явно что-то говорит о будущем медицины.  GitHub с самим бенчем тут.    #МедИцИна
Точка сингулярности💥
Точка сингулярности💥
#OpenAI представили HealthBench — открытый бенчмарк для оценки LLM в медицинских задачах. TLDR; ИИ превосходит врачей в ответах. HealthBench создавался целый год совместно с 262 врачами 26 специальностей и опытом практики в 60 странах в том числе и в России . Собственно, врачи и писали критерии оценки и помогали проверять модели в 5000 реалистичных диалогах с пациентами. Пока итог такой: o3 превосходит другие модели, включая Claude 3.7 Sonnet и Gemini 2.5 Pro, набирая 60%. На тесте повышенной сложности, HealthBench Hard, ни одна модель не превысила 32%. Самое интересное на первом изображении — ответы ИИ сильно лучше ответов врачей. И даже врачей+ИИ При этом тут же важно сказать, что недавнее исследование Оксфордского университета показало: хотя LLM уже справляются с медицинскими тестами наравне а чаще даже лучше врачей, их эффективность резко снижается при взаимодействии с реальными пациентами. Так как пользователи часто предоставляют неполную информацию или неправильно понимают ответы языковых моделей. Так что самолечением пока не занимаемся, но скачок моделей по HealthBench за последние два года от 16% до 60% явно что-то говорит о будущем медицины. GitHub с самим бенчем тут. #МедИцИна
OpenAI утверждает, что ее последние модели превосходят врачей по медицинским показателям // Хабр  Компания OpenAI выпустила новый тест для проверки систем искусственного интеллекта в сфере здравоохранения. Он называется HealthBench и предназначен для оценки того, насколько хорошо языковые модели справляются с реалистичными медицинскими беседами. По словам OpenAI, её новейшие модели превосходят врачей в этом тесте.  HealthBench охватывает семь областей медицины, от неотложной помощи до глобального здравоохранения.   В ходе ранних тестов, проведенных в сентябре 2024 года, врачи могли улучшить результаты более старых моделей, редактируя их, в то время как ответы врачей без посторонней помощи получили самые низкие оценки. Но к апрелю 2025 года результаты изменились: GPT-4.1 и o3 превзошли врачей даже без дополнительного участия или доработки.
CIO: канал IT руководителей
CIO: канал IT руководителей
OpenAI утверждает, что ее последние модели превосходят врачей по медицинским показателям // Хабр Компания OpenAI выпустила новый тест для проверки систем искусственного интеллекта в сфере здравоохранения. Он называется HealthBench и предназначен для оценки того, насколько хорошо языковые модели справляются с реалистичными медицинскими беседами. По словам OpenAI, её новейшие модели превосходят врачей в этом тесте. HealthBench охватывает семь областей медицины, от неотложной помощи до глобального здравоохранения. В ходе ранних тестов, проведенных в сентябре 2024 года, врачи могли улучшить результаты более старых моделей, редактируя их, в то время как ответы врачей без посторонней помощи получили самые низкие оценки. Но к апрелю 2025 года результаты изменились: GPT-4.1 и o3 превзошли врачей даже без дополнительного участия или доработки.
Может ли ИИ консультировать пациентов так же качественно, как профессиональный врач?  Гостевой пост от канала Лонгридиум  обратите внимание:     В OpenAI решили ответить на вынесенный в заголовок вопрос, проведя сравнение своих языковых моделей с медицинскими экспертами в рамках проекта HealthBench.  В исследовании участвовали десятки врачей, которым предлагалось отвечать на типовые медицинские запросы – так, как они бы это сделали в беседе с пациентом.  Условия варьировались:   Одни врачи работали полностью самостоятельно.   Другим предоставлялись ответы, сгенерированные ИИ, – их задача заключалась в том, чтобы улучшить или отредактировать эти ответы.   Отдельно учитывались «чистые» ответы языковых моделей без вмешательства человека.  Результаты оценивались по клинически значимым критериям: точность, полезность, этичность и ясность ответа.  Итоги:    В 2024 году врачи уверенно улучшали ответы ИИ. Их опыт позволял выявить неточности и добавить важные детали.    Но уже в апреле 2025 года ситуация изменилась: врачи не смогли сделать ответы моделей лучше. Новые версии ИИ  GPT-4.1 и o3  продемонстрировали такой уровень проработки и точности, что врачебные корректировки не приносили никакой пользы.  Это не означает, что ИИ превзошел врачей. Скорее, теперь он вышел на новый уровень развития, где его можно рассматривать как полноценного помощника в медицинской практике.
Daily Reminder
Daily Reminder
Может ли ИИ консультировать пациентов так же качественно, как профессиональный врач? Гостевой пост от канала Лонгридиум обратите внимание: В OpenAI решили ответить на вынесенный в заголовок вопрос, проведя сравнение своих языковых моделей с медицинскими экспертами в рамках проекта HealthBench. В исследовании участвовали десятки врачей, которым предлагалось отвечать на типовые медицинские запросы – так, как они бы это сделали в беседе с пациентом. Условия варьировались: Одни врачи работали полностью самостоятельно. Другим предоставлялись ответы, сгенерированные ИИ, – их задача заключалась в том, чтобы улучшить или отредактировать эти ответы. Отдельно учитывались «чистые» ответы языковых моделей без вмешательства человека. Результаты оценивались по клинически значимым критериям: точность, полезность, этичность и ясность ответа. Итоги: В 2024 году врачи уверенно улучшали ответы ИИ. Их опыт позволял выявить неточности и добавить важные детали. Но уже в апреле 2025 года ситуация изменилась: врачи не смогли сделать ответы моделей лучше. Новые версии ИИ GPT-4.1 и o3 продемонстрировали такой уровень проработки и точности, что врачебные корректировки не приносили никакой пользы. Это не означает, что ИИ превзошел врачей. Скорее, теперь он вышел на новый уровень развития, где его можно рассматривать как полноценного помощника в медицинской практике.
Умный помощник, который всегда под рукой
1chatgpt.ru
1chatgpt.ru
Умный помощник, который всегда под рукой
Medical Ксю
Medical Ксю
#chatgpt #ИИ #ихнравы Компания-разработчик ChatGPT представила инструмент для оценки решений искусственного интеллекта ИИ в здравоохранении OpenAI, компания-разработчик легендарного ChatGPT, представила новую фишку — инструмент для оценки больших языковых моделей LLM в здравоохранении под названием HealthBench, сообщается в блоге OpenAI. HealthВench разработан совместно с 262 врачами из 60 стран. Инструмент использует 5000 реалистичных клинических диалогов, охватывающих экстренные ситуации, работу с медицинскими данными и глобальные медицинские сценарии. Каждый диалог оценивается по индивидуальным критериям — врачи разработали свыше 48 тысяч правил, проверяющих точность, коммуникацию, контекстную осведомлённость и другие параметры ответов ИИ. HealthBench вводит новый подход: вместо упрощённых вопросов с множественным выбором здесь анализируются открытые диалоги, где баллы присваиваются за выполнение или нарушение конкретных условий. Для повышения точности разработчики внедрили «критерии консенсуса» — 34 ключевых правила, утверждённых большинством врачей, а также подмножество HealthBench Hard из 1000 сложных случаев, где даже передовые модели вроде GPT-4.1 nano демонстрируют результаты всего в 0,32 балла. Результаты теста LLM ок от OpenAI демонстрируют прогресс моделей в сфере здравоохранения: GPT-3.5 Turbo набрал 16%, GPT-4o достиг 32%, а новейшая o3 — 60%. HealthBench — это открытый инструмент, доступный каждому разработчику на Github.
OpenAI утверждает, что ее последние модели превосходят врачей по медицинским показателям  Компания OpenAI выпустила новый тест для проверки систем искусственного интеллекта в сфере здравоохранения.   Он называется HealthBench и предназначен для оценки того, насколько хорошо языковые модели справляются с реалистичными медицинскими беседами.   По словам OpenAI, её новейшие модели превосходят врачей в этом тесте.  1   DevHub
DevHub Community
DevHub Community
OpenAI утверждает, что ее последние модели превосходят врачей по медицинским показателям Компания OpenAI выпустила новый тест для проверки систем искусственного интеллекта в сфере здравоохранения. Он называется HealthBench и предназначен для оценки того, насколько хорошо языковые модели справляются с реалистичными медицинскими беседами. По словам OpenAI, её новейшие модели превосходят врачей в этом тесте. 1 DevHub
КУЛИКОВ
КУЛИКОВ
HealthBench - новый стандарт LLM в здравоохранении Команда OpenAI представила результаты масштабного исследования HealthBench — тестового набора из 11 700+ медицинских вопросов, в качестве нового открытого стандарта тестирования больших языковых моделей LLM в сфере здравоохранения. Зачем нужен HealthBench? Основной целью является повышение уровня доверия к искусственному интеллекту среди практикующих врачей и улучшение качества медицинских консультаций. Современные LLM способны значительно повысить качество медицинской помощи, однако важно убедиться, что они действуют безопасно и эффективно. HealthBenchпомогает измерять прогресс и выявлять слабые места моделей, способствуя улучшению качества медицинского обслуживания. Ключевые выводы: • GPT-4 демонстрирует высокую точность до 90% в некоторых категориях , превосходя более ранние модели • В задачах диагностики точность составила 85%, в рекомендациях по лечению — 80% • В интерпретации лабораторных данных точность была ниже 70% ,что указывает на необходимость доработки • Лучшие результаты — в вопросах по фармакологии и фундаментальным наукам, сложнее — с дифференциальной диагностикой из-за вариативности клинических решений • Этические дилеммы ИИ решает на уровне опытного врача, но требует проверки контекста. Ограничения: неточности в сложных клинических случаях редкие заболевания, полипрагмазия , риск галлюцинаций модель может выдавать ложную информацию с высокой уверенностью , зависимость от качества входных данных неполные или некорректные вопросы снижают точность . Выводы для врачей: ИИ может быть полезен как вспомогательный инструмент для быстрого поиска, систематизации информации по диагностике и лечению, общения с пациентами например, объяснение диагноза простым языком . Важно помнить, что ИИ не заменяет врача — критически важно перепроверять рекомендации. Перспективы внедрения: интеграция в электронные медицинские карты, телемедицину, обучение медиков. HealthBench открывает новую эру в оценке и развитии больших языковых моделей для здравоохранения. Это важный инструмент, позволяющий обеспечить максимальную пользу от внедрения передовых технологий в медицину и создать надежные системы поддержки принятия решений. P.S. Я тоже учусь использовать ИИ - проект этого поста написали GigaChat и DeepSeek :-