R-блогеры

Новости и учебные пособия по R, предоставленные сотнями блогеров R

Относительные коэффициенты риска и отношения шансов по @ ellis2013nz

Размещено 16 августа 2018 г. по статистике свободного выгула - R in R bloggers | 0 комментариев

Этот пост пытается объяснить разницу между отношениями шансов и относительными рисками; и как всего несколько букв в коде, подходящем для обобщенной линейной модели, означают разницу между извлечением одного или другого. Доступно множество других объяснений (например, здесь и здесь), но все еще остается много путаницы в отношении различий. Я хотел проиллюстрировать проблемы конкретным, но смоделированным примером и реальным кодом, который можно было бы использовать в качестве основы в дикой природе.

Концепции

Отношение шансов и относительный риск обычно используются для сравнения распространенности какого-либо показателя (например, болезни) в разных категориях населения. Кажется, что им уделяется особое внимание в медицинской и эпидемиологической литературе, но они используются широко.

Прежде чем мы рассмотрим шансы и соотношения рисков , давайте проясним, что такое шансы и вероятности (эта пара абзацев добавлена ​​20 августа 2018 года) .

  • Вероятность будет привычное понятие для читателей этого блога. Допустим, четверть тигров больны. Если мы выберем тигра наугад, с вероятностью 1/4 (или 0,25) мы выберем больного. При случайном выборе чего-либо вероятность - это отношение количества положительных событий (лечение «больного» как «положительного» в клиническом смысле), деленное на общее количество возможных событий .
  • Эти коэффициенты вместо этого число положительных случаев по отношению к количеству , не являющиеся положительных вхождений . Таким образом, хотя у тигра вероятность заболеть один из четырех, мы говорим, что шансы «3 ​​к 1» (или «1 к 3» - если вы перепутаете их, не волнуйтесь, как и все остальные, просто сделайте так, чтобы убедитесь, что вы отслеживаете, что вас беспокоит - «1» или «3»!). На каждого больного тигра приходится три здоровых тигра. Если бы вы играли в азартные игры 10 долларов, вы бы хотели, чтобы букмекер выплатил вам выигрыш «3 к 1» (30 долларов) по вашей ставке (плюс возврат вашей первоначальной ставки в 10 долларов), чтобы сделать ставку на то, что случайно выбранный тигр болен, имеет смысл.
  • отношение относительного риска является одной вероятности делится на другой; например, вероятность заболевания тигра, деленная на вероятность заболевания медведя. С моей точки зрения, можно было бы избежать путаницы, если бы мы могли называть эти «отношения вероятностей», но термин «отношение относительного риска», похоже, останется в силе.
  • отношение шансов - это один набор шансов, разделенный на другой; например, вероятность заболевания тигра, деленная на вероятность заболевания медведя.

Эта диаграмма демонстрирует на некоторых смоделированных данных основные концепции:

  • Тигры имеют вероятность заболеть 1/4 (0,25), что составляет «от 1 до 3» шансов заболеть.
  • У львов есть 1/2 (0,5) вероятность заболеть, что составляет «1 к 1» или «четный» шанс.
  • У медведей вероятность заболеть 1/10 (0,1), что составляет от 1 до 9.

Я считаю, что относительные вероятности очень интуитивно понятны - у тигров вероятность заболеть в 2,5 раза выше, чем у медведей, а у львов - в 5 раз.

Коэффициенты шансов - не так уж и много. Несмотря на то, что я статистик, особенно интересующийся азартными играми (которые формируют генеалогию шансов), я не очень понимаю, как интерпретировать отношение шансов Тигра к Медведям, в три раза превышающее шансы заболеть. Фактически, есть свидетельства того, что когда в научных статьях сообщается о соотношении шансов, их обычно неверно интерпретируют как отношения риска (распространенная формулировка «люди типа X в два раза чаще болеют этим заболеванием, чем люди типа Y»).

Когда вероятности очень близки к нулю, тогда отношения шансов аналогичны отношениям риска. Чем дальше они уходят от нуля, тем больше они различаются и тем опаснее, если люди неверно истолковывают отношение шансов как отношение рисков.

Лучшим аргументом в пользу сообщения об отношениях шансов является то, что они симметричны - независимо от того, сообщаете ли вы о присутствии или отсутствии, отношение шансов не изменяется. В нашем примере выше, если мы посмотрим на вероятность того, что не заболели, соотношение шансов Тигры: Медведи станет 3: 1/9: 1, что по-прежнему равно 3, тогда как относительная вероятность составляет (3/4) / (9 / 10), что составляет 5/6 или 0,833. Так что, хотя приятно и интуитивно понятно, что тигры в 2,5 раза чаще болеют, чем медведи, они в 0,833 раза чаще, чем медведи, не болеют. Это может привести к путанице. Отношение шансов равно трем в обе стороны (или, по крайней мере, 3 в одном направлении и 1/3 в другом).

Я думаю, что в большинстве ситуаций, когда нам нужна эта статистика, относительные коэффициенты риска намного лучше, более интуитивно понятны и легче объяснимы. Я не думаю, что асимметрия имеет большое значение в большинстве коммуникаций, в то время как неправильное понимание отношения шансов часто имеет значение. Частое непонимание целевой аудитории - высокая цена за симметрию. И я не уверен, зачем вообще нужна симметрия.

Сбалансированная (на мой взгляд) и бесплатная статья по этой теме (которая породила множество) - это статья Каммингса в JAMA Pediatrics.

Прежде чем мы перейдем к получению этих оценок из подобранной модели, вот код R, который создал эти смоделированные данные и графику:

Получение коэффициентов шансов и рисков из обобщенной линейной модели

Если оставить это в стороне, как мы можем получить эти оценки из модели?

Отношения шансов

Честно говоря, я подозреваю, что более существенная причина преобладания отношений шансов заключается в том, что они легко выпадают из результатов логистической регрессии (обобщенная линейная модель с канонической функцией логит-связи, связывающей среднее значение ответа с линейным предиктором). функция logit - это логарифм шансов). Для категориальной объясняющей переменной, которая была представлена ​​как фиктивные индикаторные переменные, e в степени коэффициента для фиктивной переменной даст оценку отношения шансов.

Вот пример извлечения оценок отношения шансов из наших данных:

Это отношение шансов для данного животного (Льва или Тигра) относительно уровня заболеваемости на контрольном уровне, которым в данном случае является Медведь. Итак, это оценки соотношений, изображенных на исходной диаграмме.

Вы получили бы такую ​​же точечную оценку, если бы использовали family = binomial или family = quasi (link = 'logit', variance = "mu (1-mu)"); здесь важна ссылка на логит.

Обратите внимание, что эти оценки смещены; несмотря на то, что они основаны на больших выборках из 100 000 животных, они не сошлись на истинном отношении шансов 9 и 3. Оценки исходных коэффициентов беспристрастны; но нелинейное преобразование exp (coef (model)) неизбежно вносит систематическую ошибку. Статистические данные, несмещенные по одной шкале, будут смещены, если вы преобразуете их в другую шкалу; такова жизнь.

Использование бинома по сравнению с квазибиномом действительно влияет на доверительные интервалы, но в нашем текущем случае это несущественно. По крайней мере, доверительные интервалы содержат правильные значения; хотя точечная оценка смещена (и также не находится в центре доверительного интервала, опять же из-за нелинейного преобразования), доверительный интервал все еще действителен для преобразованной шкалы:

Коэффициенты риска

Как минимум, единственное изменение, которое необходимо сделать для получения соотношений рисков, - это изменить функцию связи, которая связывает среднее значение переменной отклика с линейным предиктором. Для оценок отношения шансов это логит (т. Е. Логарифм шансов среднего); для оценок относительных рисков это становится логарифмом. Мы можем указать это вручную или просто использовать встроенное семейство для нашей обобщенной линейной модели, для которой логарифм является канонической функцией связи и, следовательно, значением по умолчанию. Квазипуассон - отличный выбор здесь:

Опять же, эти точечные оценки смещены из-за нелинейного преобразования exp () несмещенных исходных коэффициентов. Но доверительные интервалы содержат правильные значения (вспомним 5,0 и 2,5):

Если бы мы использовали пуассон в качестве нашего семейства вместо квазипуассона, параметр дисперсии был бы равен 1,0, а не 0,7, как это оценивается квазипуассонной моделью. Чистый эффект этой «недостаточной дисперсии» в данных в этом случае состоит в том, что доверительные интервалы с family = poisson больше, чем в случае квазипуассона. Это не всегда применимо, но часто будет, когда мы моделируем такие данные, которые на самом деле недостаточно рассредоточены по сравнению с чистым распределением Пуассона (потому что ни одно из значений не может превышать 1).

В этих примерах удалось избежать осложнений, связанных с другими независимыми переменными, но смысл использования для этого обобщенной линейной модели (а не прямого наблюдения пропорций) заключается в том, что мы можем добавлять другие переменные и сообщать об относительных рисках (или шансах, если необходимо) » контролируя… »другие переменные.

Подход также хорошо распространяется на сложные обследования; мы можем использовать svyglm () из пакета Lumley Survey с любым из перечисленных выше семейств, в соответствии с нашими потребностями, и получить хорошие результаты.

Резюме

  • тщательно выберите, какой (или оба) из шансов или соотношений рисков использовать
  • открыто сообщайте о том, о чем вы сообщаете, и старайтесь в своем общении противодействовать вероятным недоразумениям, особенно с помощью отношения шансов
  • exp (coef (model)) для соответствия glm с family = quasibinomial даст отношения шансов
  • exp (coef (model)) для соответствия glm с family = quasipoisson даст относительные отношения рисков
  • помните, что точечные оценки при таком подходе смещены и, как и все точечные оценки, создают чрезмерное впечатление точности; всегда включайте также доверительный интервал или доверительный интервал.

История изменений

Изменено от 20 августа 2018 г., чтобы добавить определения «шансов» и «вероятности».