Наука и технологии1717

«Последний экзамен человечества». Для нейросетей создали максимально сложный академический тест — и вот результат

Профессора, ученые, а также выдающиеся выпускники и студенты из почти 500 престижных образовательных учреждений по всему миру решили дать последний академический бой системам искусственного интеллекта, создав для них самый сложный из всех возможных тест экспертного уровня на рассуждение и владение техническими знаниями. Нейросети (в том числе ChatGPT и нашумевший китайский DeepSeek) приняли вызов и уже показали первые результаты.

Иллюстративное изображение. Фото: Vecteezy

Международная команда из 1000 экспертов в различных академических дисциплинах из почти 500 престижных образовательных учреждений (среди которых Оксфорд, Гарвард, Кембридж, Стэнфорд, швейцарский ETH, французская Inria и другие) разработали глобальный тест по техническим и передовым научным знаниям и логическому мышлению для измерения уровня совершенства систем искусственного интеллекта.

Тест получил название HLE (Humanity's Last Exam), или «Последний экзамен человечества». Эксперты назвали его самым сложным академическим испытанием в истории, которое можно создать для тестирования возможностей нейросетей в точных науках, не затрагивая аспект творческих способностей.

Экзамен HLE состоит из трех тысяч сложных вопросов по ста разным дисциплинам (например, классическая филология, химия, высшая математика, информатика, экология, лингвистика). Форматов заданий два: вопросы с точным совпадением (ИИ-модели сами пишут текст в качестве ответа) и вопросы с выбором ответа (ИИ выбирает один из пяти или более вариантов ответа). Особый акцент в тесте также делается на понимании схем и изображений.

Примеры вопросов по различным академическим дисциплинам в рамках экзамена HLE (на английском языке). Под вопросами указаны их авторы и образовательные учреждения, в которых те работают или обучаются. Источник: agi.safe.ai

В тесте уже приняли участие несколько топовых нейросетей, такие как ChatGPT (старые и новейшие версии), Claude (популярный у бизнесменов и программистов), Gemini (от корпорации Google), Grok (ИИ от Илона Маска) и DeepSeek (китайская нейросеть, которая обвалила весь технологический сектор США).

Все они с треском провалили экзамен (в плюс-минус 90% вопросов модели давали неправильный ответ, и еще настойчиво утверждали, что были правы), отметили авторы теста HLE.

Есть и показательный момент — худший и одновременно лучший результат продемонстрировал ChatGPT (его старая обычная версия Омни показала 3,3% точности ответов, средняя o1 показала результат 9,1, а новейшая o3-mini-high — 13). А нашумевший китайский DeepSeek, которого недавно назвали «убийцей ChatGPT», показал 9,4% точности ответов.

Результаты прохождения «Последнего экзамена человечества» (HLE) рядом топовых нейросетей. Все они с треском провалили тест (уровень правильности ответов составлял от 3 до 13 процентов), а лучший результат показала новая версия ChatGPT под названием o3-mini (high), которая вышла недавно. Источник: agi.safe.ai

Также показательно, что существующие сложные глобальные тесты на научные знания, такие как GPQA, MATH и MMLU, давались вышеупомянутым нейросетям намного легче, и те имели в них от 40 до почти 100 процентов правильных ответов.

Однако теперь с созданием теста HLE человечество бросило искусственному интеллекту очень серьезный вызов, который, как печально констатируют эксперты, может стать последним. По прогнозам авторов HLE, нейросети могут достичь в экзамене 50% точности ответов уже в конце этого года.

Сравнительные результаты точности ответов нескольких топовых нейросетей в существующих глобальных узкоспециализированных тестах GPQA, MATH и MMLU. С «Последним экзаменом человечества» (HLE) у систем искусственного интеллекта пока все плохо. Источник: agi.safe.ai

Комментарии17

  • Жвір
    03.02.2025
    А может они и правы, они же машины, видят суть без искажений. Вот попросите ши нарисовать звёздное небо, уверен, что оно будет иным. Люди в основном много видят того, чего нет.
  • не такі, як ёсць
    03.02.2025
    Лічбавыя вынікі выпрабавання HLE паказваюць, што кітайскі ‘’забойца GPT” быў спісаны з сярэдняй о1 чата GPT
  • Хех
    03.02.2025
    Жвір ,
    Трудно сказать, что они там видят.
    Никто исчерпывающе не представляет ход рассуждений ИИ.

    Управление и цензура в основном заключается в запрещении тех или иных действий, ответов, реакций.

    Нецензурированный ИИ вполне может дать ответ "убить всех больных" на вопрос "как сделать всех здоровыми"
    И разве ответ неправильный?

Сейчас читают

В результате пожара на «Керамине» объем производства заметно упадет. А возгорание могло быть косвенным последствием санкций1

В результате пожара на «Керамине» объем производства заметно упадет. А возгорание могло быть косвенным последствием санкций

Все новости →
Все новости

Главой федерации футбола избрали Евгения Булойчика1

Мария Шарапова продает особняк в Лос-Анджелесе за $25 миллионов ФОТО

Политзаключенный сделал селфи прямо в камере СИЗО на Володарского2

Как сегодня живут Кузнечики, которые почти два года скрывались в посольстве Швеции, чтобы не попасть в лапы силовиков?10

В России предложили ввести налог на блюда недружественных стран8

Константин Калиновский, который воевал в Украине, получил тяжелые травмы на стройке в Польше. Ему собирают деньги4

Лучшие сериалы года: список всех номинантов на премию «Эмми»1

В Индии нашли россиянку, которая вместе с детьми жила в пещере2

В Украине на полигоне курсант застрелил инструкторов из автомата7

больш чытаных навін
больш лайканых навін

В результате пожара на «Керамине» объем производства заметно упадет. А возгорание могло быть косвенным последствием санкций1

В результате пожара на «Керамине» объем производства заметно упадет. А возгорание могло быть косвенным последствием санкций

Главное
Все новости →

Заўвага:

 

 

 

 

Закрыць Паведаміць