Когда разница между значимым и незначимым — значима?

Все любят посмеиваться над шарлатанами от науки, когда те неправильно интерпретируют статистические данные. А что, если столь же глупые ошибки совершают многие исследователи? Сэндер Ньювенхюйс (Sander Nieuwenhuis) с коллегами опубликовал в журнале Nature Neuroscience настоящую «бомбу». Они выявили одну из основных грубых статистических ошибок, настолько широко распространённую, что она присутствует примерно в половине всех проверенных ими статей из академических изданий по нейронаучным исследованиям.

Чтобы понять масштабы проблемы, нужно рассмотреть саму ошибку. Это будет 400 слов боли. Но зато вы поймёте один важный аспект статистики лучше половины исследователей, публикующихся в области нейронаук. Например, вы работаете c нервными клетками и измеряете частоту смены их потенциалов при возбуждении. Если добавить некий химический препарат, покажется, что скорость смены потенциалов замедлилась. У вас есть несколько нормальных мышей и несколько мутировавших. Вы хотите знать, влияет ли химический реагент на их клетки по-разному. И вот вы измеряете скорость смены потенциалов до и после применения препарата: сначала у мутировавших мышей, затем — у нормальных.

Если нанести раствор на нервные клетки мышей-мутантов, смена их потенциалов замедлится, скажем, на 30%. Теперь у вас наверняка есть неслучайная, статистически значимая разница для некоторого числа мышей. Это — интересная находка, которую вы, возможно, захотите опубликовать. Когда вы добавили химическое вещество на нервные клетки нормальных мышей, также произошло замедление, но не такое сильное — скажем, 15%, что не имеет статистической значимости.

Но вот в чём загвоздка: можно констатировать, что налицо статистически значимый эффект химического замедления возбуждения мутировавших клеток. И вы можете сказать, что такого же статистически значимого изменения в нормальных клетках нет. Но нельзя утверждать, что мутировавшие и нормальные клетки реагируют различно: для этого вы должны провести третий статистический тест и специально сравнить «разницу в различиях» — разницу между химически вызванным изменением в частоте пульсации нормальных клеток и таким же изменением в мутировавших клетках.

\Сейчас, глядя на цифры, которые я дал вам в нашем воображаемом эксперименте, вы можете заметить, что эта «разница в различиях» с большой долей вероятности статистически значимой не покажется, потому что реакции на химическое воздействие отличаются друг от друга на 15%, а мы видели ранее, что падения на 15% самого по себе недостаточно для достижения статистической значимости.

Но именно в такой ситуации учёные в своих статьях обычно утверждают, что нашли разницу в полученных данных, во всех возможных областях, с применением всех видов раздражителей, сравнивая молодых со старыми, больных — со здоровыми, даже различные области мозга и так далее. Часто ли такое случается? Ньювенхюйс исследовал 513 статей, опубликованных в пяти престижных журналах по нейронаукам за два года. Эта ошибка присутствовала в 157 из них. Группа Ньювенхюйса расширила свой поиск на 120 клеточных и молекулярных статей в Nature Neuroscience за 2009 и 2010 гг. и нашла 25 исследований с той же ошибкой, и ни в одной статье различия в значениях полученных эффектов не были проанализированы правильно.

Такие ошибки наблюдаются даже в самых престижных журналах по нейронаукам. Как это объяснить? Анализировать данные корректно, определять «разницу в различиях» достаточно сложно. Поэтому можно благородно предположить, что исследователи опасаются сделать выводы слишком нудными для журнальной статьи или слишком сложными для читателей. А можно подумать менее благородно и решить, что процедура слишком сложна для самих исследователей.

Но самый неприглядный мотив может быть таким. Анализ «разницы в различиях», сделанный по всем правилам, с меньшей вероятностью даст статистически значимый результат, и поэтому гораздо менее вероятно, что такой результат будет выгодно смотреться в резюме, вызывать апплодисменты на конференциях и давать приятное ощущение победы. Хотя я всерьёз надеюсь, что это всего-навсего вопрос некомпетентности.

Ошибочные анализы взаимодействий в нейронауках: проблема значимости

В теории, чтобы сравнить два экспериментально полученных эффекта, требуется статистическая проверка их различий. На практике такое сравнение часто представляет собой некорректную процедуру двух отдельных проверок, после которых исследователи приходят к выводу, что эффекты различаются тогда, когда один эффект значим (P<0,05), а другой — нет (P>0,05). Мы сделали обзор 513 статей в области поведенческих, системных и когнитивных нейронаук из пяти авторитетных журналах (Science, Nature, Nature Neuroscience, Neuron и The Journal of Neuroscience) и выяснили, что в 78 использована корректная процедура, а в 79 — некорректная. Дополнительный анализ показал, что некорректные анализы взаимодействий чаще встречаются в статьях в области клеточных и молекулярных нейронаук. Мы рассмотрим ситуации, в которых проведение ошибочных процедур наиболее вероятно.

«Процент нейронов, активизирующихся в ответ на стимул, с тренировкой возрастает для мутантных мышей (P<0,05), но не для контрольной группы (P>0,05)». «Животные, получившие (контрольную) инъекцию раствора в миндалевидное тело, продемонстрировали пониженную чувствительность к условному стимулу в сравнении с контрольным стимулом (P<0,01); животные, получившие инъекцию мусцимола, этих различий не показали (F<1)».

Эти выдуманные, но показательные заявления иллюстрируют частую статистическую ошибку в нейронаучной литературе. Авторы этих заявлений утверждали, что одно воздействие (к примеру, влияние тренировки на нейронную активность у мутантных мышей) было сильнее или слабее, чем другое (влияние тренировки на контрольную группу). Чтобы подтвердить это, им требовалось найти статистически значимое взаимодействие (между объёмом нагрузки и типом мышей), но вместо этого они заявили, что один эффект статистически значим, а другой — нет. Хоть и убедительный на первый взгляд, последний вид статистических рассуждений ошибочен, потому что разница между значимым и незначимым не всегда статистически значима сама по себе. Предположим наихудший вариант: вызванные тренировкой действия почти достигают порога статистической значимости у мутантных мышей (к примеру, P=0,049) и едва превышают его у контрольной группы (к примеру, P=0,051). Несмотря на то, что эти два показателя находятся на противоположных сторонах порога статистической значимости, нельзя сделать вывод, что эффект на мутантных мышах и эффект на контрольной группе различаются статистически. Цитируя известное высказывание Росноу (Rosnow) и Розенталя (Rosenthal), «наверняка господь любит 0,06 почти так же, как 0,05». Следовательно, сравнивая два воздействия, исследователи должны сообщать о статистической значимости различий между ними, а не о разнице между уровнями их значимости.

Нам показалось, что такое бессмысленное сравнение уровней значимости широко распространено в нейронаучной литературе, но пока что это не подтверждалось совокупностью данных. Поэтому мы проверили все исследования в области поведенческих, системных и когнитивных нейронаук, опубликованные в четырёх престижных журналах (Nature, Science, Nature Neuroscience и Neuron) в 2009 и 2010 гг., и четверть выпусков The Journal of Neuroscience за 2009 и 2010 гг. В 157 из этих 513 статей (31%) авторы описывают как минимум одну ситуацию, где есть искушение сделать данную ошибку. В 50% случаев (78 статей, см. таблицу) авторы используют правильный подход — сообщают о значимом взаимодействии. За этим может следовать сообщение о простых основных воздействиях (например, различные результаты основного воздействия тренировок на мутантных мышей и на контрольную группу). В остальных 50% случаев (79 статей) авторы делают минимум одну ошибку описанного типа: сообщают не об эффекте взаимодействия, а о простых основных эффектах, указывая на качественную разницу между их уровнями значимости (к примеру, инъекции несущего раствора связаны со статистически значимым снижением чувствительности, а мусцимоловые инъекции — нет).

Ошибаются ли все эти авторы в основных выводах? Мы так не думаем. Во-первых, мы учитывали все статьи, содержащие как минимум один ошибочный анализ взаимодействия. Иногда основные выводы могут не зависеть от ошибочного анализа. Во-вторых, приблизительно в одной трети случаев ошибок мы были уверены, что недостающий здесь критический эффект взаимодействия был бы статистически значимым (в соответствии с утверждениями исследователей), либо из-за огромной разницы в величине двух эффектов, либо потому, что данной информации о методах было достаточно, чтобы приблизительно определить уровень значимости. Тем не менее, приблизительно две трети ошибок могли иметь серьёзные последствия. Во всех этих случаях незначительная разница, хоть и количественно маленькая, указывала в том же направлении, что и значительная. Кроме того, информация о методах исследований не позволила нам определить уровень значимости анализа недостающего взаимодействия. Оценить величину ошибки мы не можем. Большинство ошибок могут не иметь тяжёлых последствий. Однако же в некоторых случаях ошибка может значительно влиять на основные выводы статьи.

С учётом областей нашей квалификации, основной анализ касался поведенческих, системных и когнитивных нейронаук. Но, скорее всего, некорректный анализ взаимодействий распространяется не только на эти дисциплины. Чтобы подтвердить это предположение, мы дополнительно проверили 120 статей по клеточной и молекулярной нейронаукам, опубликованных в выпусках Nature Neuroscience в 2009 и 2010 гг. (первые 5 статей в каждом выпуске). Мы не нашли ни одного исследования, в котором для сравнения размера эффектов используется корректная статистическая процедура.

Напротив, мы нашли не менее 25 исследований, использующих ошибочную процедуру и явно или неявно сравнивающих уровни значимости. В целом, мы проанализировали данные, собранные в этих исследованиях, в основном с помощью t-теста (с поправкой на множественные сравнения или неравные расхождения, где это возможно) и одностороннего дисперсионного анализа даже там, где план эксперимента был многофакторным и требовал более сложного статистического анализа. Проведённый нами анализ показал, что ошибка случается в различных ситуациях: когда исследователи сравнивают эффект лекарства с эффектом плацебо, группу пациентов и контрольную группу, одно условие задания с другим, один участок коры головного мозга с другим, одну временную точку с другой, генномодифицированных и негенномодифицированных животных, молодых и старых испытуемых и т.д. Мы выделим три основных типа ситуаций, в которых происходит ошибка, и проиллюстрируем каждый типичным (вымышленным) примером.

Во-первых, большинство обнаруженных во время анализа ошибок происходит при сравнении экспериментальной группы или условия с контрольной (ложная ТМС, инъекция раствора, таблетка плацебо, немутантные мыши). Два примера из начала статьи относятся именно к этому типу. Ещё один пример — «оптогенетическое фотоингибирование клеток голубого пятна головного мозга уменьшает амплитуду вызванного потенциала P3 у трансдуцированных вирусом животных (P=0,012), но не у контрольной группы (P=0,3)» (График а).

Исследователи сравнили уровни значимости двух величин эффекта вместо того, чтобы сообщить уровень значимости их статистического сравнения. Утверждение, что у трансдуцированных вирусом животных оптогеническое фотоингибирование влияет на амплитуду P3 сильнее, чем у контрольной группы, требует значимого взаимодействия между действием (фотоингибирование и его отсутствие) и группой (трансдуцированные и контрольные мыши). Так как данные результаты отражают средние показатели групп, состоящие из средних показателей каждой мыши, которые мы получили отдельно (для десяти мышей в каждой группе), мы знаем, что взаимодействие в данном примере не значимо (P>0.05). Следовательно, утверждение исследователей не значимо статистически.

Графики, иллюстрирующие разные типы ситуаций, в которых происходит ошибка сравнения уровней значимости. (а) Сравнение величины эффекта в экспериментальной группе/состоянии и контрольной группе/состоянии. (b) Сравнение величины эффекта до тестирования и после. (c) Сравнение нескольких участков головного мозга и утверждение, что определённый эффект (свойство) специфичен для одного из этих участков. (d) Данные, представленные в (а), после сравнения двух повторяющихся измерений (фотоингибирование и его отсутствие). Показатели погрешности указывают на стандартное отклонение; незначимо (P>0,05), *P<0,05, **P<0,01.

Второй случай — сравнение величин эффекта перед тестированием и после. Его можно рассматривать как частный случай описанной выше ситуации, в котором контрольным считается состояние перед тестом (перед экспериментальным воздействием), а состояние после теста (после воздействия) считается экспериментальным. Пример: «Острая флуоцетиновая терапия усилила реакцию приближения (измеряемого по длине обнюхивания) при мышиной модели депрессии (P<0,01)» (График b). Ошибки этого типа реже встречаются и часто менее явные. В этом образце исследователи сравнили только постэкспериментальные результаты двух групп, предполагая, что по умолчанию не нужно включать в расчёты соответствующие предварительные результаты, возможно, потому, что предварительные результаты групп различаются незначительно. Следовательно, учёные неявно основывают своё утверждение на разнице между значимой постэкспериментальной разницей и незначимой предварительной разницей, хотя вместо этого они должны были непосредственно сравнить величины эффекта, к примеру, проверив взаимосвязь между временем и группой с использованием дисперсионного анализа повторных измерений.

Третий тип ошибок возникает, когда исследователь сравнивает несколько участков головного мозга и утверждает, что определённый эффект (свойство) специфично именно для какого-то из участков. В таких ситуациях исследователи не сравнивают выбранный участок с контрольным, а сопоставляют несколько участков мозга, которые, как предполагалось, с более или менее равной вероятностью задействованы в эффекте. Пример: «На время, требующееся для прохождения платформы в тесте с водным лабиринтом Морриса, повлияли повреждения в энторинальной коре (P<0,05), но не повлияли повреждения в периринальной и постринальной (обе P больше 0.1), что указывает на роль энторинальной коры в пространственной памяти» (График с). Хотя такой подход достоин большего доверия, чем явное указание на разницу между участками мозга, утверждение о том, что определённое свойство специфично для определённого участка мозга, требует прямого статистического сравнения. По меньшей мере, пространственная память должна быть слабее у животных с энторинальными повреждениями, чем у животных с повреждениями других отделов мозга. Следовательно, утверждение о специфичности требует, чтобы исследователи сообщили о значимом соотношении времени, затраченного на выполнение задания, с типом повреждения и значимых попарных сравнениях между выбранным участком мозга и другими участками.

Эти три образца включают в себя ошибки, которые можно классифицировать как потенциально опасные потому, что незначимый эффект принимается за значимый (за исключением случая с периринальным кортексом) и потому, что информации на графиках а-с недостаточно для оценки значимости упущенной проверки взаимодействия. Причина в том, что каждый из трёх графиков содержит повторяющиеся измерения (к примеру, до и после терапии). В случае повторяющихся измерений в одной и той же группе(ах) испытуемых, стандартное отклонение не даёт информации, необходимой для того, чтобы подтвердить значимость разницы между повторяющимися измерениями, потому что оно нечувствительно к соотношению этих измерений. Стандартное отклонение можно использовать, только чтобы подтвердить значимость внутригрупповых различий.

Следовательно, если среднее и стандартное отклонение отражают разницу между повторяющимися измерениями, читатель может только догадываться, было ли взаимодействие значимым (как на Графике d, основывающемся на тех же данных, что и График a). Следовательно, График d, в отличие от Графика а, можно использовать, чтобы оценить значимость взаимодействия, сравнив величину интервала (или, наоборот, степень пересечения) между двумя показателями погрешности.

Мы перечислили ошибки, допускаемые при сравнении экспериментальных эффектов. Однако благодаря анализу было обнаружено, что ошибки происходят и в тех случаях, когда исследователи сравнивают взаимосвязи. Выдуманный пример: «Синхронность гиппокампального потенциала действия коррелирует с производительностью памяти под действием плацебо (r=0,43, P=0,01), но не под действием лекарства (r=0,19, P=0,21)». Сопоставляя две корреляции, исследователи должны непосредственно сравнить их, используя при этом подходящие статистические методы.

Как уже замечено другими исследователями, ошибка сравнения уровней значимости чаще всего встречается в работах по нейровизуализации, в которых результаты обычно представляются в виде окрашенных статистических карт, демонстрирующих уровень значимости определённого оттенка для каждого (видимого) элемента изображения. При визуальном сравнении карт двух групп есть искушение сказать, например, что «активация гиппокампа статистически значима у молодых испытуемых, но не у взрослых». Однако же это утверждение подразумевает, что зона гиппокампа активировалась сильнее у молодых испытуемых, чем у испытуемых старшего возраста, и требует прямого статистического сравнения эффектов. Аналогично, утверждение о разнице в активизации двух участков мозга должно подтверждаться статистически значимым взаимодействием между участком мозга и фактором, обусловливающим различие. К примеру, «В отличие от неморальных дилемм, моральные активируют только островковую кору, что позволяет предположить, что этот и только этот участок задействован в принятии решений, связанных с моралью». Значимая активация островковой коры отнюдь не свидетельствует о том, что этот участок задействован в связанном с моралью принятии решений сильнее других. Она позволяет предположить только то, что, хотя нулевая гипотеза для этого участка не подтверждается, она может подтверждаться для остальных.

Интересно, что эта статистическая ошибка встречается очень часто, даже в журналах высокого качества. Вероятно, причиной тому, что её можно найти даже в таких изданиях, как Nature и Science, служат ограничения по объёму и необходимость упрощения. Если автор пишет для широкого круга читателей, проведение дисперсионного анализа может быть слишком сложным. Возможно, иногда исследователи сообщают о разнице между уровнями значимости потому, что соответствующий эффект взаимодействия не значим статистически. Рецензенты должны помогать авторам не допускать подобных ошибок. Ошибка также может быть воплощением «эффекта утёса» (англ. cliff effect) — резким понижением всеобщей уверенности в результате, когда P слегка превышает 0,05. Действительно, легко поддаться искушению придать слишком много значения разнице между значимым и незначимым. Использование доверительных интервалов может помочь исследователям избежать этой статистической ошибки. Что бы ни было причиной, её широкая распространённость и возможные последствия свидетельствуют, что разница между значимым и незначимым сама по себе значима не всегда.

📎📎📎📎📎📎📎📎📎📎