Главная / Архив / Статьи / Почему нельзя обучать модели с помощью машинного обучения на выборках только здоровых людей?

Обновлено: 26 ноября 2025

Почему нельзя обучать модели с помощью машинного обучения на выборках только здоровых людей?

Почему нельзя обучать модели с помощью машинного обучения на выборках только здоровых людей?

Старение в строгом биостатистическом смысле — это экспоненциальный рост силы смертности с возрастом, описываемый законом Гомпертца: R(t) = A × e^(G × t), где A отражает базовую уязвимость (исходный уровень риска), а G — темп её возрастного нарастания (скорость старения). Пока G > 0, мгновенный риск смерти растёт с t экспоненциально; если G = 0, риск остаётся постоянным, и мы наблюдаем состояние нестарения. Важно различать: вмешательства могут продлевать жизнь, снижая A (устраняя отдельные заболевания или внешние угрозы), даже не затрагивая G; однако именно G несёт смысл «старения как процесса» — ускорения риска с возрастом.

Из этой модели прямо следует, какие данные вообще содержат наблюдаемый сигнал старения. Экспонента Гомпертца возникает из совокупного вклада множества возраст-ассоциированных патологий и функциональных сбоев; именно они делают кривую смертности выпуклой. Если такие риски удалить из данных (искусственно «оздоровить» выборку), мы устраняем причины экспоненты, и старение перестаёт быть детектируемым: функция риска теряет возрастное ускорение. В «плоских» данных остаются лишь признаки, меняющиеся с возрастом, но не связанные с ростом риска смерти; они описывают течение времени, а не старение.

Отсюда — к машинному обучению. Если цель модели — измерять старение как биологический процесс, её таргет и признаки должны быть информационно связаны с A и/или G, то есть с риском смерти и его возрастной динамикой. На реальных, неочищенных данных модели улавливают изменения, сопряжённые с риском, поэтому улучшение образа жизни приводит к ожидаемой реакции: снижается A, иногда косвенно замедляется нарастание риска, и модель прогнозирует «омоложение» и удлинение ожидаемой жизни. Это логически согласовано с уравнением Гомпертца и клиническим смыслом вмешательств.

Если же мы тренируем модель на «оздоровлённой» выборке, в которой удалены заболевания и другие факторы риска, мы изымаем из данных сам механизм экспоненты. Такая модель неизбежно начинает опираться на возрастные корреляты, не несущие сигнала старения. Классическая иллюстрация — предсказание календарного возраста у детей по росту: модель будет очень точной, но её «улучшение» геропротектором принципиально бессмысленно — препарат не должен «уменьшать рост», а даже если бы уменьшал, это не означало бы замедления старения. Ровно так же «оздоровлённые» модели реагируют на реальные протективные изменения хаотично и без устойчивой тенденции, потому что измеряют не риск-обусловленное старение, а нейтральные маркеры течения времени.

Таким образом, логическая связка такова: закон Гомпертца определяет старение как экспоненциальное возрастание риска (параметр G) на фоне базовой уязвимости (A); наблюдаемость этого явления в данных обеспечивается присутствием возраст-ассоциированных рисков; «оздоровление» выборки устраняет сам источник экспоненты и оставляет лишь временные корреляты без отношения к смертности; модели, обученные на реальных рисках, валидно отражают изменения в A/G и потому чувствительны к улучшению образа жизни и потенциальным геропротекторам, тогда как модели, обученные на оздоровлённых данных, лишены биологического смысла в контексте старения и непригодны для тестирования геропротекторов.

https://journals.plos.org/plosone/article?id=10.1371%2Fjournal.pone.0108540

https://www.nature.com/articles/s41598-024-51669-5

https://pubmed.ncbi.nlm.nih.gov/39757434/


Обязательно оставляйте свои комментарии под статьей, которую Вы читаете. Это очень важно для нас.

Предлагаем Вам оформить почтовую подписку на самые новые и актуальные новости, которые появляются в науке, а также новости нашей научно-просветительской группы, чтобы ничего не упустить. Обязательно оставляйте свои комментарии под статьей, которую вычитаете. Это очень важно для нас.

Автор статьи

Веремеенко Дмитрий Евгеньевич

Телефон:

+7 (925) 924-43-28

Почта:

Dmitriy-tae@yandex.ru


Исследователь, изобретатель в области биологии старения человека.
Аналитик медицинских данных и доказательной медицины.
Специалист по Data Science в медицине (Диплом №012202).
Создатель IT-сервиса для продления жизни Nestarenie.Expert.
Основатель курса обучения для начинающего исследователя в области биологии старения (nestarenie.ru/kurs_2.html)
Основатель проекта, изучающего терапии, направленные на увеличение продолжительности жизни человека (nestarenie.ru/slb-expert_.html)
Основатель международного форума о продлении жизни Nestarenie Camp (nestarenie.ru/camp.html)
Со-автор книги "Бонусные годы" (nestarenie.ru/kniga-3.html)
Образование: Московский педагогический университет - педагог по физической культуре и спорту; Тартуский университет спортивной медицины и физиотерапии, ГикБреинс - Data Science в медицине.
Создатель справочного блога о старении человека (nestarenie.ru)


Социальные сети:





0 комментариев

Чтобы подписаться на комментарии, прочитайте Согласие с рассылкой и Политику конфиденциальности

Комментируя, вы принимаете условия соглашения.

Свежие комментарии