Добавил:
kiopkiopkiop18@yandex.ru Вовсе не секретарь, но почту проверяю Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
3
Добавлен:
24.03.2024
Размер:
3.09 Mб
Скачать

Про ложь и статистику

Генетические исследования представляют собой пример статистического анализа так называемых больших данных. Достаточно сказать, что связь вариантов гена APOE и продолжительности жизни установлена и подтверждена в результате исследования — так называемого метаанализа более 1 млн человеческих геномов.

Мы живем в мире, где данные собираются и анализируются каждый день. Уже многие устройства, начиная от телефона и часов и заканчивая кофемашиной, имеют доступ в интернет, а в ближайшем будущем туда же будут отсылать свои наблюдения «умная одежда», встроенные в мозг чипы и что там еще придумают для вящего комфорта. Показания этих сенсоров позволяют собирать и изучать колоссальные объемы разнородной информации — о погоде, экономической активности, здоровье людей, их привычках.

Каждый, кто пытался освоить азы теории вероятности — основы математической статистики, имел возможность почувствовать, что наш мозг абсолютно не приспособлен к осознанному анализу случайных явлений. Мозг человека и животных — это орган, который в первую очередь соединяет глаза с челюстями, позволяя тем из нас, кто умеет быстро и правильно извлекать закономерности из окружающих явлений, чаще, чем конкуренты, оказываться в нужное время в нужном месте. Наш мозг обожает закономерности: вот почему, кстати, мы любим хорошую музыку. Правильное решение задач по комбинаторике находится где-то бесконечно высоко в пирамиде Маслоу.

Каждый месяц медиа сообщают нам о безусловной пользе той или иной новой диеты или здоровой привычки. По причинам, заслуживающим отдельных изысканий, сообщения о результатах таких научных исследований в российском сегменте интернета намертво связаны с «успехами британских ученых». Это устойчивый мем,

https://t.me/medicina_free

обозначающий неразделимую на особи касту людей, обособленную от всех других, и от английских в частности, ученых. Согласно сложившейся традиции, британские ученые день и ночь занимаются разными глупостями, одновременно решая проблему бедных на события дней для СМИ.

Современные методы сбора информации и вычислительные мощности позволяют «достоверно» определять «связи» между все возрастающим набором фактов. С появлением дешевых компьютеров и программного обеспечения, доступного для освоения уже даже детьми, технический и интеллектуальный барьер, требуемый для статистических исследований, снизился практически до нуля. А вместе с тем мир наполнился чудесами.

Так, например, из статьи67 в BMJ Sexual & Reproductive Health мы узнали, что значительное число половых партнеров (более десяти в течение жизни, что относится к 29 и 41% опрошенных мужчин и женщин соответственно) почти вдвое повышает риски развития онкологических заболеваний по сравнению с контрольной группой (менее двух партнеров, 22 и 8% опрошенных мужчин и женщин соответственно). Предполагается, что эффект вызван воспалениями, типичными для заболеваний, передающихся половым путем. Немного удивительно, правда, что обратное соотношение между богатством сексуальной жизни и рисками болезни более выражено у женщин, чем у мужчин. Возможно, бурная половая жизнь повышает риски рака потому, что сексуально активные граждане в среднем еще и больше пьют и курят? Хотя, если верить другим исследованиям, те же люди чаще занимаются спортом. Кроме того, в более ранних исследованиях 2004 года сообщалось, что увеличение числа сексуальных партнеров у мужчин снижает вероятность риска рака простаты…

Все приведенные примеры говорят о том, что если какая-то наука полагается только на статистику, то это не идет ей на пользу и точно не прибавляет смысла корпусу научного знания. Можно считать, что такая область до сих пор находится в темных веках, несмотря на обилие наукообразных утверждений и даже формул. Статистические закономерности — это «низшая» форма знаний без объяснений, даже если поиск сложнейших связей между числами доверен моднейшим искусственным нейронным сетям или так называемому искусственному интеллекту.

https://t.me/medicina_free

Часть проблемы состоит в том, что, даже если две величины, полученные в ходе измерений, вообще случайны, в любой реалистично ограниченной выборке может возникнуть значительная корреляция. Если одновременно вычисляется множество корреляций между всеми возможными парами величин, порою возникают удивительные «факты». Так, например, выясняется, что расходы США на космические исследования коррелируют с числом самоубийств посредством повешения за период с 1999 по 2010 год. В том же периоде число разводов в штате Мэн коррелировало с потреблением маргарина, а продажи моцареллы соотносились с количеством выданных в США дипломов по специальности «инженер-строитель».

Удивительным «фактам» несть числа. С 1999 по 2009 год число фильмов, в которых снялся Николас Кейдж, отлично коррелирует с количеством американцев, погибших в результате утопления в бассейнах в тот же год. Возраст Мисс Америки коррелирует с числом убийств, а выручка от продаж компьютерных игр — с количеством американцев, получивших степень доктора философии (аналог нашей ученой степени кандидат наук) в области компьютерных наук. Развертывание мобильных сетей поколения 5G совпало с эпидемией коронавируса. Пастафарианцы, или адепты Церкви Летающего Макаронного Монстра, учат (к счастью, в шутку), что именно снижение количества пиратов на нашей планете стало причиной всемирного потепления.

Все перечисленные зависимости вызывают смех: нашей интуиции оказывается достаточно, чтобы почувствовать неладное. Что же делать исследователям, работающим в новейших научных областях, где накопленных знаний и опыта может не хватить, чтобы отфильтровать ложные закономерности?

При расчетах применяются определенные «гигиенические процедуры», такие как коррекция оценки достоверности публикуемых результатов на число попыток вычисления корреляции (тестирования статистических гипотез) в рамках одной работы. Вот почему, например, в генетических исследованиях публикуются не все найденные связи между генетическими вариантами и биологическими эффектами, а только те, для которых вероятность случайной корреляции меньше нескольких процентов, деленное на число генов

https://t.me/medicina_free

(порядка 10 000 у человека). Этот подход позволил бы развенчать большинство корреляций из наших примеров как случайные.

Аккуратная проверка статистических гипотез работала бы, быть может, только в идеальном мире. На практике общее число исследователей велико и каждый «статистически достоверный результат» немедленно ложится в основу новой статьи. Так как большинство таких статистических исследований производится независимо, выполнить коррекцию на число исследований невозможно, а значит, большая часть публикаций с результатами на грани достоверности не подтвердится в последующих работах.

Про «зефирный эксперимент»

Ложные закономерности возникают очень часто, являются золотой жилой для конспирологических теорий и нередко подхватываются и разносятся по миру благодаря массмедиа. В мире постправды «факты» становятся мемами и даже основанием для медицинских или политических решений, влияющих на жизнь миллионов людей. Кто,

например, не слышал о так называемом зефирном эксперименте?68

Все началось в 1970-х годах в Стэнфорде, когда исследователи под руководством психолога Уолтера Мишеля поставили себе задачу определить, какие признаки и особенности характера детей в возрасте 4–5 лет в максимальной степени определяют успехи в учебе и в жизни в дальнейшем. В результате исследований, затянувшихся на многие годы, удалось установить, что максимальных успехов удавалось достичь детям, которые могли заставить себя подождать, отказав себе в удовольствии некоторое время для достижения еще большего результата.

Так, малышам предлагали и удерживали в поле их зрения зефир, обещая дать еще один, если ребенок согласится подождать 15 минут. Исследователи считали, что подобные тесты легко делать в лаборатории в идеально контролируемых условиях и использовать в качестве показателя силы воли и способности прибегать к креативным способам подавлять искушения, например представлять, что зефира нет.

https://t.me/medicina_free

Судьба распорядилась так, что «зефирный эксперимент» стал самым, пожалуй, знаменитым психологическим экспериментом всех времен и народов. В последующие годы в многочисленных публикациях стэнфордской группы и других ученых было показано, что чем дольше (в смысле корреляции) ребенок был способен удержаться от поедания зефира, тем лучше была академическая успеваемость уже спустя много лет и меньше проблем с поведением. Результат казался настолько монументальным, что педагоги разрабатывали методики воспитания терпения и самоконтроля у малышей для решения всех будущих проблем, от улучшения оценок до повышения шансов на успех в жизни.

Между тем при внимательном прочтении между строк можно было найти признаки проблем с достоверностью полученных результатов. Во-первых, эксперименты проводились с маленькими группами детей (10–40 человек). Во-вторых, в тестах принимали участие исключительно дети высокообразованных и обеспеченных родителей

— в основном сотрудников и профессоров Стэнфорда. К слову, сами авторы не призывали применять результаты своей работы в школах или для формирования образовательных программ. Но кто читает мелкий шрифт в конце статьи?

Тайлер Уоттс из Нью-Йоркского университета решил проверить результаты «зефирного эксперимента» и собрал группу примерно из 900 детей. Строго говоря, этот эксперимент в новом исследовании несколько отличался от канонического — детям предстояло

дожидаться второй порции не 15, а всего 7 минут.

 

На

первый

взгляд,

результаты

нового

исследования,

опубликованного в 2018 году69, как будто подтвердили выводы оригинальной работы. Правда, величина эффекта — корреляции между временем «воздержания» и метриками академической успеваемости — была вдвое меньше, чем предполагалось. Была, однако, и другая важнейшая особенность.

Оказалось, что если учитывать данные о социальном статусе семьи и параметры интеллекта в момент исследования, то корреляция исчезает полностью. В переводе на человеческий язык это означает, что если перед вами два ребенка из одной среды и одинакового уровня когнитивного развития и один из них способен дождаться второй

https://t.me/medicina_free