Наука и технологии1717

«Последний экзамен человечества». Для нейросетей создали максимально сложный академический тест — и вот результат

Профессора, ученые, а также выдающиеся выпускники и студенты из почти 500 престижных образовательных учреждений по всему миру решили дать последний академический бой системам искусственного интеллекта, создав для них самый сложный из всех возможных тест экспертного уровня на рассуждение и владение техническими знаниями. Нейросети (в том числе ChatGPT и нашумевший китайский DeepSeek) приняли вызов и уже показали первые результаты.

Иллюстративное изображение. Фото: Vecteezy

Международная команда из 1000 экспертов в различных академических дисциплинах из почти 500 престижных образовательных учреждений (среди которых Оксфорд, Гарвард, Кембридж, Стэнфорд, швейцарский ETH, французская Inria и другие) разработали глобальный тест по техническим и передовым научным знаниям и логическому мышлению для измерения уровня совершенства систем искусственного интеллекта.

Тест получил название HLE (Humanity's Last Exam), или «Последний экзамен человечества». Эксперты назвали его самым сложным академическим испытанием в истории, которое можно создать для тестирования возможностей нейросетей в точных науках, не затрагивая аспект творческих способностей.

Экзамен HLE состоит из трех тысяч сложных вопросов по ста разным дисциплинам (например, классическая филология, химия, высшая математика, информатика, экология, лингвистика). Форматов заданий два: вопросы с точным совпадением (ИИ-модели сами пишут текст в качестве ответа) и вопросы с выбором ответа (ИИ выбирает один из пяти или более вариантов ответа). Особый акцент в тесте также делается на понимании схем и изображений.

Примеры вопросов по различным академическим дисциплинам в рамках экзамена HLE (на английском языке). Под вопросами указаны их авторы и образовательные учреждения, в которых те работают или обучаются. Источник: agi.safe.ai

В тесте уже приняли участие несколько топовых нейросетей, такие как ChatGPT (старые и новейшие версии), Claude (популярный у бизнесменов и программистов), Gemini (от корпорации Google), Grok (ИИ от Илона Маска) и DeepSeek (китайская нейросеть, которая обвалила весь технологический сектор США).

Все они с треском провалили экзамен (в плюс-минус 90% вопросов модели давали неправильный ответ, и еще настойчиво утверждали, что были правы), отметили авторы теста HLE.

Есть и показательный момент — худший и одновременно лучший результат продемонстрировал ChatGPT (его старая обычная версия Омни показала 3,3% точности ответов, средняя o1 показала результат 9,1, а новейшая o3-mini-high — 13). А нашумевший китайский DeepSeek, которого недавно назвали «убийцей ChatGPT», показал 9,4% точности ответов.

Результаты прохождения «Последнего экзамена человечества» (HLE) рядом топовых нейросетей. Все они с треском провалили тест (уровень правильности ответов составлял от 3 до 13 процентов), а лучший результат показала новая версия ChatGPT под названием o3-mini (high), которая вышла недавно. Источник: agi.safe.ai

Также показательно, что существующие сложные глобальные тесты на научные знания, такие как GPQA, MATH и MMLU, давались вышеупомянутым нейросетям намного легче, и те имели в них от 40 до почти 100 процентов правильных ответов.

Однако теперь с созданием теста HLE человечество бросило искусственному интеллекту очень серьезный вызов, который, как печально констатируют эксперты, может стать последним. По прогнозам авторов HLE, нейросети могут достичь в экзамене 50% точности ответов уже в конце этого года.

Сравнительные результаты точности ответов нескольких топовых нейросетей в существующих глобальных узкоспециализированных тестах GPQA, MATH и MMLU. С «Последним экзаменом человечества» (HLE) у систем искусственного интеллекта пока все плохо. Источник: agi.safe.ai

Комментарии17

  • Жвір
    03.02.2025
    А может они и правы, они же машины, видят суть без искажений. Вот попросите ши нарисовать звёздное небо, уверен, что оно будет иным. Люди в основном много видят того, чего нет.
  • не такі, як ёсць
    03.02.2025
    Лічбавыя вынікі выпрабавання HLE паказваюць, што кітайскі ‘’забойца GPT” быў спісаны з сярэдняй о1 чата GPT
  • Хех
    03.02.2025
    Жвір ,
    Трудно сказать, что они там видят.
    Никто исчерпывающе не представляет ход рассуждений ИИ.

    Управление и цензура в основном заключается в запрещении тех или иных действий, ответов, реакций.

    Нецензурированный ИИ вполне может дать ответ "убить всех больных" на вопрос "как сделать всех здоровыми"
    И разве ответ неправильный?

Сейчас читают

Путин предложил остановить конфликт по текущей линии фронта — Financial Times7

Путин предложил остановить конфликт по текущей линии фронта — Financial Times

Все новости →
Все новости

Стало известно, сколько в 2024 году заработали на перепродаже БелАЗов в Россию компании, связанные с сыновьями Лукашенко7

На участке проспекта Независимости поставят 17 стендов-плит, к которым можно будет возлагать цветы2

В понедельник в Беларуси было +28°С

Псевдоэлектрики напали на минского айтишника, пытали его и требовали больше $300 миллионов1

Биржевые индексы США и доллар снизились на фоне атаки Трампа на главу Центробанка3

Смерть важного героя и новая опасность. Что показали во втором сезоне хитового сериала The Last of Us4

В ОАЭ законодательство начнет писать искусственный интеллект

«С единственной надписью: Franciscus». Ватикан опубликовал завещание ушедшего Папы2

Сотни рублей, чтобы эффектно узнать пол будущего ребенка: белорусы устраивают все более масштабные гендер-пати22

больш чытаных навін
больш лайканых навін

Путин предложил остановить конфликт по текущей линии фронта — Financial Times7

Путин предложил остановить конфликт по текущей линии фронта — Financial Times

Главное
Все новости →

Заўвага:

 

 

 

 

Закрыць Паведаміць