Главная / Математика нестарения / Почему нельзя обучать «часы старения» только на здоровых людях

Обновлено: 04 ноября 2025

Почему нельзя обучать «часы старения» только на здоровых людях

Почему нельзя обучать часы долголетия только на здоровых людях

На первый взгляд кажется логичным, что если хотим измерять «настоящий биологический возраст», нужно брать только здоровых людей — ведь у них нет хронических патологий, и данные будут «чистыми».

Но именно это «очищение» убивает смысл таких моделей. Исключая болезни, мы исключаем сам сигнал старения.

Старение — это не морщины и не холестерин, а ускорение риска

В биостатистике старение определяется так:

R(t) = A × e^(G × t),

где A — исходная уязвимость (базовый риск),

а G — темп возрастного роста этого риска, то есть скорость старения.

Пока G > 0, риск болезней и смерти растёт экспоненциально. Если G = 0, система не стареет.

По сути, G — это коэффициент ускорения вероятности поломок, а не просто «возраст».

С 1970-х годов этот показатель измеряют через MRDT (Mortality Rate Doubling Time) — время, за которое сила смертности удваивается. Этот параметр стабилен у человека и используется в десятках работ по геронтологии, например, [academic.oup.com/genetics/article/204/3/905/6066287] [academic.oup.com/genetics/article/208/4/1617/6084259].

Инцидентность (количество новых заболеваний по МКБ за год на душу населения) экспоненциально увеличивается с возрастом с тем же временем удвоения инцидентности, что и MRDT для смертности [pubmed.ncbi.nlm.nih.gov/30729179].

На графике видно, что с 20 до 70 лет экспоненциально растёт не только смертность, но и частота диагнозов — рак, диабет, инсульт, деменция. Это тот же закон Гомпертца, только в проекции на болезни. С каждым годом риск удваивается с той же скоростью, что и смертность.

Существует мнение, что старение — это внутренний биологический процесс, который можно измерять даже без болезней, например, по метилированию ДНК или снижению VO₂max.

Это частично верно. Но важно понимать, что такие маркеры отражают старение только постольку, поскольку коррелируют с риском смерти или заболеваемости.

Если удалить сам риск, мы теряем контекст — модель видит лишь течение времени, но не нарастание опасности.

Почему исключение больных стирает сигнал старения

Если из данных удалить всех, у кого есть диагнозы, то исчезает совокупный вклад возраст-зависимых патологий, который и делает кривую смертности выпуклой.

Функция риска выпрямляется, а экспонента «сплющивается», и модель перестаёт видеть ускорение.

На практике это означает, что ИИ, обученный только на здоровых, будет все больше предсказывать не старение, а все больше хронологический возраст — то, что и так написано в паспорте.

Существует мнение, что Гомпертц — это свойство популяции, а не отдельного человека, и что экспонента никуда не исчезнет.

Это формально верно, но не противоречит сути, так как мы не говорим, что экспонента перестаёт существовать, — она перестаёт быть наблюдаемой.

Если из индивидуальных данных убрать тех, кто вносит вклад в рост риска, агрегированная экспонента действительно «сплющивается». Математически G не равен нулю, но эмпирически модель теряет чувствительность к нему.

Дисбаланс возрастов - как модель «омолаживает» старших

По данным Минздрава (2020), в первой группе здоровья (т.е. без диагнозов) 60 % людей — в возрасте 21–36 лет, и лишь 2–3 % — старше 60.

То есть обучающая выборка в 20 раз «моложе» стареющей части населения [vestnik.mednet.ru/content/view/1434/30/lang,ru].

При таком дисбалансе нейросеть или другие ML, минимизируя среднюю ошибку, неизбежно подстраиваются под большинство — и занижает возраст пожилых, завышая молодых.

На графике видна иллюстрация:

  • пунктирная линия — идеал (y = x);
  • красная линия регрессии модели имеет меньший наклон:

    у молодых возраст завышен, у пожилых занижен,

    в среднем диапазоне даже возможен хаос из-за низкой чувствительности модели без явного сигнала старения, таких как болезни.

Это и есть эффект статистического «омолаживания» — систематическое смещение предсказаний из-за доминирования молодых данных.

Существует мнение, что такая модель всё же сохраняет полезный сигнал и не «бессмысленна».

Да, формально она работает. Но если цель — измерить темп старения или оценить эффект геропротектора, — то такая систематическая ошибка делает её непригодной.

Модель остаётся «умной», но не геронтологически осмысленной.

Старение — не болезнь, но болезни делают его видимым

Можно возразить, что болезни — следствие старения, а не его синоним, и их исключение не отменяет сам процесс.

Это верно.

Но для анализа старения в данных болезни — это носители информации о нём.

Удалив их, мы теряем позднюю часть возрастной траектории — ту, где старение проявляется наиболее резко.

Это как пытаться изучать сезонность, убрав зиму и лето - формально год остался, но амплитуда исчезла.

DeepQA показала, как «оздоровлённые» модели ошибаются

В 2024 году исследователи предложили модель DeepQA [pubmed.ncbi.nlm.nih.gov/39757434]., которая обучалась на смешанных данных — и здоровых, и больных людей.

Результат:

  • ошибка предсказания биологического возраста снизилась с ~6,3 до 4,8 года;
  • модель корректно определила ускоренное старение при болезни Альцгеймера и дегенерации сетчатки;
  • и не нашла ложного «ускорения» при кардиомиопатиях, где старение не ускоряется.

Это означает, что только модель, видящая весь спектр здоровья, способна отличить старение от болезни.

На сравнительных графиках из [pubmed.ncbi.nlm.nih.gov/39757434] видно, что у классических моделей линии регрессии сжаты (наклон <1) — те же «омолаживающие» искажения, что на первой иллюстрации.

У DeepQA наклон близок к 1 и сохраняется высокая точность на всех возрастах.

Авторы отмечают, что большинство существующих часов старения обучаются на здоровых людях, а затем применяются к больным.

Это, по их словам, «кажется разумным», но:

«…так как модель обучена только на здоровых субъектах, отклонение предсказанного возраста от хронологического у нездорового индивида может быть вызвано как аномальным старением, так и некомпетентностью модели справляться с разрывом доменов (domain gap) — ведь модель не обучалась на таких данных. В результате биологический возраст оказывается неточным».

Тем самым, они указывают, что ошибка не в данных больных, а в искусственной «оздоровлённости» обучающей выборки, когда модель теряет способность отличать нормальное и патологическое старение.

Чтобы устранить эту предвзятость, они вводят новую функцию потерь Hinge-MAE, позволяющую безопасно обучать модель на нездоровых субъектах.

Эта функция допускает отклонение предсказанного возраста от хронологического в некоторых пределах (параметр Δ = 5 лет), моделируя идею, что «биологический возраст больного может отличаться от паспортного».

Таким образом, они математически формализуют тезис, что невозможно построить универсальные часы старения, исключая больных.

Авторы показали, что все модели, обученные только на здоровых, теряют точность при применении к пациентам с возрастными заболеваниями

Пример модели, которая обучена на всей совокупности пациентов.

Существуют разные цели — но не все оправдывают «оздоровление»

Существует мнение, что если задача — просто предсказать возраст по физиологическим признакам, то использование только здоровых людей оправдано.

Это справедливо для age-prediction моделей.

Но часы долголетия — это не возрастные часы, а инструмент оценки риска и скорости старения (параметра G).

Для этой цели исключение больных делает модель статистически чистой, но биологически пустой.

Вывод

Обучая часы старения только на здоровых, мы убираем из данных всё, что делает старение видимым.

Модель перестаёт видеть экспоненту Гомпертца, теряет связь с риском и начинает предсказывать течение времени, а не темп старения.

Она остаётся красивой и точной внутри выборки, но в реальном мире её прогнозы теряют смысл.

Правильный подход — смешанная обучающая выборка, где представлены и здоровые, и больные, и промежуточные состояния.

Только в такой среде ИИ способен различать где патология, где естественный возраст, а где действительно замедление старения.


Обязательно оставляйте свои комментарии под статьей, которую Вы читаете. Это очень важно для нас.

Предлагаем Вам оформить почтовую подписку на самые новые и актуальные новости, которые появляются в науке, а также новости нашей научно-просветительской группы, чтобы ничего не упустить. Обязательно оставляйте свои комментарии под статьей, которую вычитаете. Это очень важно для нас.

Автор статьи

Веремеенко Дмитрий Евгеньевич

Телефон:

+7 (925) 924-43-28

Почта:

Dmitriy-tae@yandex.ru


Исследователь, изобретатель в области биологии старения человека.
Аналитик медицинских данных и доказательной медицины.
Специалист по Data Science в медицине (Диплом №012202).
Создатель IT-сервиса для продления жизни Nestarenie.Expert.
Основатель курса обучения для начинающего исследователя в области биологии старения (nestarenie.ru/kurs_2.html)
Основатель проекта, изучающего терапии, направленные на увеличение продолжительности жизни человека (nestarenie.ru/slb-expert_.html)
Основатель международного форума о продлении жизни Nestarenie Camp (nestarenie.ru/camp.html)
Со-автор книги "Бонусные годы" (nestarenie.ru/kniga-3.html)
Образование: Московский педагогический университет - педагог по физической культуре и спорту; Тартуский университет спортивной медицины и физиотерапии, ГикБреинс - Data Science в медицине.
Создатель справочного блога о старении человека (nestarenie.ru)


Социальные сети:





0 комментариев

Чтобы подписаться на комментарии, прочитайте Согласие с рассылкой и Политику конфиденциальности

Комментируя, вы принимаете условия соглашения.

Свежие комментарии