Главная / Архив / Статьи / Почему GPT-5.2 пока что еще не всегда может достоверно анализировать результаты исследований

Обновлено: 23 февраля 2026

Почему GPT-5.2 пока что еще не всегда может достоверно анализировать результаты исследований

Около 30–60% клинических исследований отклоняются от заранее зарегистрированного протокола, и GPT-5.2 в режиме deep learning по умолчанию этого не проверяет, если его отдельно не попросить сопоставить публикацию с записью на ClinicalTrials.gov. В 31–47% случаев в опубликованных статьях меняются первичные конечные точки, но GPT-5.2 в режиме deep learning без специального статистического промпта анализирует только финальный PDF и не сверяет предзаданные исходы.

В 58,7% рандомизированных исследований одновременно проверяется несколько первичных исходов, однако GPT-5.2 в режиме deep learning по умолчанию не проверяет, была ли задана иерархия их анализа или применена корректировка на множественные сравнения. Только в 28,3% таких исследований применяется защита от ложноположительных результатов, тогда как примерно в 70% риск случайных значимых различий не контролируется, что даёт около 41% исследований с потенциально ложными «положительными» эффектами, но GPT-5.2 в режиме deep learning без специальных инструкций принимает отдельные p-values за подтверждение эффекта.

В 99% исследований анализируются 2 и более вторичных исхода, более 60% проводят дополнительные анализы подгрупп, а в 78% случаев корректировка на множественные проверки выполняется некорректно, однако без профессионального промпта GPT-5.2 в режиме deep learning не различает предзаданные и исследовательские результаты и не оценивает риск их случайного возникновения.

В результате, если пользователь без подготовки просто просит GPT-5.2 в режиме deep learning «найти доказательства эффективности в исследовании», модель анализирует публикацию как она есть и может находить статистически значимые различия там, где основной заранее заявленный исход не достигнут, что приводит к ошибочным выводам в значительной доле случаев. Поэтому корректное использование GPT-5.2 в режиме deep learning для оценки клинических исследований требует либо профессиональной подготовки в области доказательной медицины, либо применения специальных статистических промптов, учитывающих протокол исследования, структуру конечных точек, множественные сравнения и расчёт мощности.

Если дизайн в финальной публикации исследования отличается от заранее зарегистрированного протокола, то такое исследование не может давать доказательство эффективности, но GPT-5.2 по умолчанию не сравнивает финальную публикацию с протоколом.

Мы взяли рандомизированное клиническое исследование (PubMed: 32613634), нашли оригинальный PDF статьи и попросили GPT-5.2 в режиме Deep Search проанализировать статистику так, как это делает специалист по доказательной медицине, то есть определить, какие именно результаты в этом исследовании можно считать достоверно доказанными. Нейросеть сообщила, что среди доказанных эффектов есть снижение артериального давления и изменение скорости пульсовой волны, и даже указала, что эти показатели якобы фигурировали как первичные конечные исходы.

Однако если открыть первоначальный протокол исследования, зарегистрированный заранее на ClinicalTrials.gov, становится видно, что первичные исходы там были совсем другими — это показатели сосудистой функции, такие как augmentation index, flow-mediated dilation и изменение кровотока в бедренной артерии через 12 недель. Артериальное давление и скорость пульсовой волны не были заявлены как первичные конечные точки в протоколе, а значит любые статистически значимые различия по ним, найденные уже постфактум в опубликованной статье, относятся максимум к вторичным или исследовательским (exploratory) результатам. Более того, дизайн, представленный в финальной публикации, отличается от заранее зарегистрированного протокола, что в рамках доказательной медицины считается серьезным риском систематической ошибки и делает невозможным рассматривать такие пост-хок находки как доказательство эффективности вмешательства.

Также проблема в том, что GPT, без специальных промтов, анализируя только PDF статьи, вообще не проверяет, была ли у исследования достаточная статистическая мощность именно для каждого конкретного первичного конечного исхода. В результате из‑за выявленного отсутствия подтверждаемого контроля множественности для семьи из трёх первичных исходов и отсутствия подтверждаемой мощности ≥80% для каждого конкретного первичного исхода, ни один исход в этом исследовании не может получить статус (“доказано”) или (“близко к доказательству”).

Проблема в том, что GPT, анализируя только PDF статьи, не видит расхождений между протоколом и публикацией и не проверяет, какие исходы были предзаданы до начала исследования, поэтому принимает значимые p-values за подтверждение эффекта, даже если речь идет о не-первичных или добавленных позже конечных точках. В результате обычный пользователь, просто попросив GPT оценить исследование, может получить впечатление, что вмешательство доказанно снижает артериальное давление, хотя с точки зрения строгих принципов доказательной медицины никаких подтвержденных первичных исходов в этом исследовании достигнуто не было. Чтобы заметить эту проблему, нейросеть нужно отдельно просить анализировать протокол на ClinicalTrials.gov и сравнивать его с опубликованной статьей — без этого она может находить «доказательства» там, где их на самом деле нет.

Около 30–60% клинических исследований отклоняются от заранее зарегистрированного протокола, поэтому в этих случаях GPT потенциально не может оценить их достоверность.

Примерно от 30% до 60% клинических исследований в той или иной степени отходят от первоначально зарегистрированного протокола — чаще всего это касается замены, добавления или удаления первичных и вторичных конечных исходов уже после начала или даже завершения сбора данных. Это не частные наблюдения, а системная проблема, которая изучалась в мета-исследованиях. Например, систематический обзор Jones et al. (2015) показал, что медианная доля исследований с расхождениями между зарегистрированными и опубликованными первичными исходами составляет 31%, а если учитывать только проспективно зарегистрированные исследования — около 41%, при этом в разных работах частота таких расхождений колеблется от менее 10% до более чем 60% [pubmed.ncbi.nlm.nih.gov/26581191].

В исследовании Mathieu et al., опубликованном в JAMA (2009), также было показано, что несоответствия между зарегистрированными и опубликованными первичными конечными точками встречаются часто и отражают распространенность селективной отчетности исходов (selective outcome reporting) [jamanetwork.com/journals/jama/fullarticle/184503].

Аналогичные данные получали и при анализе публикаций в BMJ, где расхождения между первичными исходами, указанными в реестре исследования, и опубликованной статьей были обнаружены примерно в 47% случаев [journals.sagepub.com/doi/10.1177/2042533313517688].

С точки зрения доказательной медицины это критично, потому что такие изменения открывают дверь для outcome switching и p-hacking — ситуации, когда статистически значимые результаты «находятся» уже после анализа данных и затем подаются как изначально запланированные. Это подрывает достоверность исследования, поскольку четко предзаданные конечные точки нужны именно для того, чтобы избежать выбора «удобного» статистически значимого результата постфактум.

Именно поэтому CONSORT и ICMJE требуют предварительной регистрации протокола до начала исследования. Без этого даже формально значимые p-values по новым или изменённым исходам не считаются подтверждением эффективности вмешательства. И именно здесь возникает фундаментальная проблема при использовании GPT для анализа исследований. Если модель анализирует только PDF опубликованной статьи и не сопоставляет его с первоначальным протоколом на ClinicalTrials.gov, она может принять статистически значимые вторичные или пост-хок результаты за доказательство эффективности, хотя с точки зрения строгих принципов доказательной медицины такими доказательствами они не являются.

GPT-5.2 по умолчанию не проверяет, достигнут ли главный заранее заявленный результат исследования, не сопоставляет найденные улучшения с первичными исходами, не учитывает проблему множественных сравнений и не проверяет, как это влияет на вероятность случайных “улучшений”

Мы рассмотрели рандомизированное плацебо-контролируемое исследование Magnesium-L-threonate [https://pubmed.ncbi.nlm.nih.gov/39252819/].

Скачали PDF этой статьи, загрузили его в GPT-5.2 и попросили проанализировать, есть ли в этом исследовании доказательства того, что препарат действительно работает. В режиме deep learning GPT-5.2 нашёл статистически значимые различия между группами и сообщил, что приём магния L-треоната в течение 21 дня улучшает ряд показателей сна по данным кольца Oura, а также субъективные показатели бодрости, настроения, энергии и продуктивности. На основании этого был сделан вывод о наличии положительного эффекта.

Затем мы повторно запустили GPT-5.2, но уже снабдив его профессиональным промптом для оценки исследования по правилам доказательной медицины и медицинской статистики. И выяснилось следующее.

В любом клиническом исследовании заранее определяется главный показатель, ради которого оно проводится. Это называется первичный исход. Именно по нему в первую очередь оценивают, работает ли вмешательство.cВ данном исследовании таким главным показателем была шкала тяжести бессонницы (Insomnia Severity Index). Если сравнить группу, принимавшую магний, и группу плацебо по этому показателю, то статистически значимого различия между ними нет (p = 0.39). То есть основной заранее заявленный результат исследования не был достигнут.

При этом исследование одновременно проверяло большое количество других показателей: несколько субъективных шкал сна, около пятнадцати показателей из кольца Oura, настроение, энергию, продуктивность. Когда в исследовании одновременно анализируется много разных показателей, возникает проблема множественных сравнений. Даже если лечение на самом деле не работает, часть показателей может показать статистически значимое различие просто случайно — просто потому, что проверок было много. Чтобы этого избежать, международные правила требуют заранее определить, какой показатель является главным,  а если главных показателей несколько — задать порядок их проверки или ужесточить критерии статистической значимости при одновременной проверке нескольких показателей. В данном исследовании не был задан порядок проверки показателей, не были ужесточены статистические критерии при одновременной проверке нескольких исходов, не была отдельно рассчитана достаточность числа участников для каждого из главных показателей.

Это означает, что найденные различия по отдельным вспомогательным метрикам могли появиться случайно на фоне большого числа сравнений. При первом анализе GPT-5.2 в режиме deep learning нашёл статистически значимые различия по отдельным показателям, но не проверил, достигнут ли главный заранее заявленный результат исследования и не учёл, что при множественных проверках часть значимых различий может быть случайной.

После анализа с использованием статистического промпта выяснилось, что главный первичный исход не различался между группами
а остальные различия не могут интерпретироваться как доказательство эффективности в условиях множественных сравнений. Таким образом, первоначально GPT сообщил о наличии статистически значимых эффектов - нашел доказательства, но после проверки структуры исследования по правилам доказательной медицины стало ясно, что это исследование не даёт доказательств клинической эффективности Magnesium-L-threonate.

Проблема множественных проверок встречается в 58,7% клинических исследований, при этом примерно в 70% из них риск случайных «положительных» результатов не контролируется, а значит потенциально GPT может ошибаться в выводах о наличии доказательств эффективности примерно в 41% случаев

Откуда берутся эти цифры? Существует методологическое исследование, в котором учёные проанализировали 511 рандомизированных клинических исследований, опубликованных в крупнейших медицинских журналах мира: New England Journal of Medicine, The Lancet, JAMA, Circulation, European Heart Journal и Journal of the American College of Cardiology [https://pubmed.ncbi.nlm.nih.gov/32301992/].

Оказалось, что в 58,7% этих исследований одновременно проверялось несколько главных показателей эффективности лечения. То есть исследователи не ограничивались одним заранее выбранным результатом, а анализировали сразу несколько исходов, по которым можно было бы судить, работает лечение или нет. Однако среди этих исследований только 28,3% применяли специальные статистические методы, снижающие риск случайных «положительных» результатов при одновременной проверке нескольких показателей. В 56,6% исследований вообще не было ясно, применялись ли такие методы или нет.

Если пересчитать это экспертно, получается следующее. Из 58,7% исследований, где проверяется сразу несколько показателей, только около 30% защищены от случайных находок. Это означает, что примерно в 70% таких исследований риск ложноположительных результатов остаётся. 58,7% × 70% ≈ 41%. То есть ориентировочно в 41% рандомизированных клинических исследований могут возникать статистически значимые различия, которые являются результатом множественных сравнений, а не реального эффекта лечения. Это важно потому, что когда в исследовании проверяется сразу много показателей, резко возрастает вероятность того, что хотя бы один из них покажет статистически значимое улучшение просто случайно, даже если лечение на самом деле не работает.

В другом обзоре прагматических рандомизированных клинических исследований было показано, что 99% работ имеют два и более вторичных показателя эффективности, а более 60% проводят дополнительные анализы подгрупп участников [https://bmjopen.bmj.com/content/12/3/e057357]. При этом статистическая корректировка на множественные проверки применяется далеко не всегда. Даже при анализе публикаций в New England Journal of Medicine выяснилось, что среди исследований, где требовалась корректировка на множественные проверки, около 78% не проводили её должным образом [https://www.ncbi.nlm.nih.gov/pmc/articles/PMC12205177/].

Именно поэтому международные регуляторные документы требуют заранее определить главный показатель исследования, задать порядок проверки остальных показателей или ужесточить критерии статистической значимости при одновременной проверке нескольких исходов [https://www.fda.gov/media/102657/download].

Корректное использование GPT-5.2 в режиме deep learning для оценки клинических исследований требует либо профессиональной подготовки в области доказательной медицины, либо применения специальных статистических промптов.

И на самом деле подобных расхождений между тем, что находит GPT при анализе одной только опубликованной статьи, и тем, что показывает полноценный профессиональный анализ исследования с учётом протокола, статистической мощности, предзаданных исходов и контроля множественных сравнений, значительно больше. В рамках этой статьи мы разобрали лишь часть типичных ситуаций, чтобы наглядно продемонстрировать сам механизм возникновения ложного впечатления о наличии «доказанного эффекта» там, где с точки зрения строгих принципов доказательной медицины его нет, тогда как в реальной практике критической оценки литературы такие несоответствия встречаются регулярно и требуют отдельной системной проверки каждого исследования, а не только его финальной публикации.


Обязательно оставляйте свои комментарии под статьей, которую Вы читаете. Это очень важно для нас.

Предлагаем Вам оформить почтовую подписку на самые новые и актуальные новости, которые появляются в науке, а также новости нашей научно-просветительской группы, чтобы ничего не упустить. Обязательно оставляйте свои комментарии под статьей, которую вычитаете. Это очень важно для нас.

Автор статьи

Веремеенко Дмитрий Евгеньевич

Телефон:

+7 (925) 924-43-28

Почта:

Dmitriy-tae@yandex.ru


Исследователь, изобретатель в области биологии старения человека.
Аналитик медицинских данных и доказательной медицины.
Специалист по Data Science в медицине (Диплом №012202).
Создатель IT-сервиса для продления жизни Nestarenie.Expert.
Основатель курса обучения для начинающего исследователя в области биологии старения (nestarenie.ru/kurs_2.html)
Основатель проекта, изучающего терапии, направленные на увеличение продолжительности жизни человека (nestarenie.ru/slb-expert_.html)
Основатель международного форума о продлении жизни Nestarenie Camp (nestarenie.ru/camp.html)
Со-автор книги "Бонусные годы" (nestarenie.ru/kniga-3.html)
Образование: Московский педагогический университет - педагог по физической культуре и спорту; Тартуский университет спортивной медицины и физиотерапии, ГикБреинс - Data Science в медицине.
Создатель справочного блога о старении человека (nestarenie.ru)


Медицинская редакция:

Богданов Эмиль, к.м.н.

Источник данных: клинические рекомендации и научные публикации

Дисклеймер: материал носит образовательный характер

 

Социальные сети:





0 комментариев

Чтобы подписаться на комментарии, прочитайте Согласие с рассылкой и Политику конфиденциальности

Комментируя, вы принимаете условия соглашения.

Свежие комментарии