THE BELL

Есть те, кто прочитали эту новость раньше вас.
Подпишитесь, чтобы получать статьи свежими.
Email
Имя
Фамилия
Как вы хотите читать The Bell
Без спама

Любая выборка дает лишь приближенное представление о генеральной совокупности, и все выборочные статистические характеристики (средняя, мода, дисперсия…) являются некоторым приближением или говорят оценкой генеральных параметров, которые вычислить в большинстве случаев не представляется возможным из-за недоступности генеральной совокупности (Рисунок 20).

Рисунок 20. Ошибка выборки

Но можно указать интервал, в котором с определенной долей вероятности лежит истинное (генеральное) значение статистической характеристики. Этот интервал называется д оверительный интервал (ДИ).

Так генеральное среднее значение с вероятностью 95% лежит в пределах

от до, (20)

где t – табличное значение критерия Стъюдента для α =0,05 и f = n -1

Может быть найден и 99% ДИ, в этом случае t выбирается для α =0,01.

Какое практическое значение имеет доверительный интервал?

    Широкий доверительный интервал показывает, что выборочная средняя неточно отражает генеральную среднюю. Обычно это связано с недостаточным объемом выборки, или же с ее неоднородностью, т.е. большой дисперсией. И то и другое дают большую ошибку среднего и, соответственно, более широкий ДИ. И это является основанием вернуться на этап планирования исследования.

    Верхние и нижние пределы ДИ дают оценку, будут ли результаты клинически значимы

Остановимся несколько подробнее на вопросе о статистической и клинической значимости результатов исследования групповых свойств. Вспомним, что задачей статистики является обнаружение хоть каких-либо отличий в генеральных совокупностях, опираясь на выборочные данные. Задачей клиницистов является обнаружение таких (не любых) различий, которые помогут диагностике или лечению. И не всегда статистические выводы являются основанием для клинических выводов. Так, статистически значимое снижение гемоглобина на 3 г/л не является поводом для беспокойства. И, наоборот, если какая-то проблема в организме человека не имеет массового характера на уровне всей популяции, это не основание для того, чтобы этой проблемой не заниматься.

Это положение рассмотрим на примере .

Исследователи задались вопросом, не отстают ли в росте от своих сверстников мальчики, перенесшие некое инфекционное заболевание. С этой целью было проведено выборочное исследование, в котором приняли участие 10 мальчиков, перенесших эту болезнь. Результаты представлены в таблице 23.

Таблица 23. Результаты статобработки

нижний предел

верхний предел

Нормативы (см)

среднего

Из этих расчетов следует, что выборочный средний рост мальчиков 10 лет, перенесших некое инфекционное заболевание, близок к норме (132,5 см). Однако нижний предел доверительного интервала (126,6 см) свидетельствует о наличии 95% вероятности того, что истинный средний рост этих детей соответствует понятию «низкий рост», т.е. эти дети отстают в росте.

В этом примере результаты расчетов доверительного интервала клинически значимы.

Цель – научить студентов алгоритмам вычисления доверительных интервалов статистических параметров.

При статистической обработке данных вычисленные средняя арифметическая, коэффициент вариации, коэффициент корреляции, критерии различия и другие точечные статистики должны получить количественные границы доверия, которые обозначают возможные колебания показателя в меньшую и большую стороны в пределах доверительного интервала.

Пример 3.1 . Распределение кальция в сыворотке крови обезьян, как было установлено ранее, характеризуется следующими выборочными показателями: = 11,94 мг%;= 0,127 мг%;n = 100. Требуется определить доверительный интервал для генеральной средней () при доверительной вероятностиP = 0,95.

Генеральная средняя находится с определенной вероятностью в интервале:

, где – выборочная средняя арифметическая;t – критерий Стьюдента; – ошибка средней арифметической.

По таблице «Значения критерия Стьюдента» находим значение при доверительной вероятности 0,95 и числе степеней свободы k = 100-1 = 99. Оно равно 1,982. Вместе со значениями среднего арифметического и статистической ошибки подставляем его в формулу:

или 11,69
12,19

Таким образом, с вероятностью 95%, можно утверждать, что генеральная средняя данного нормального распределения находится между 11,69 и 12,19 мг%.

Пример 3.2 . Определите границы 95%-ного доверительного интервала для генеральной дисперсии () распределения кальция в крови обезьян, если известно, что
= 1,60, приn = 100.

Для решения задачи можно воспользоваться следующей формулой:

Где – статистическая ошибка дисперсии.

Находим ошибку выборочной дисперсии по формуле:
. Она равна 0,11. Значениеt - критерия при доверительной вероятности 0,95 и числе степеней свободы k = 100–1 = 99 известно из предыдущего примера.

Воспользуемся формулой и получим:

или 1,38
1,82

Более точно доверительный интервал генеральной дисперсии можно построить с применением (хи-квадрат) - критерия Пирсона. Критические точки для этого критерия приводятся в специальной таблице. При использовании критериядля построения доверительного интервала применяют двусторонний уровень значимости. Для нижней границы уровень значимости рассчитывается по формуле
, для верхней –
. Например, для доверительного уровня= 0,99= 0,010,= 0,990. Соответственно по таблице распределения критических значений, при рассчитанных доверительных уровнях и числе степеней свободыk = 100 – 1= 99, найдем значения
и
. Получаем
равно 135,80, а
равно70,06.

Чтобы найти доверительные границы генеральной дисперсии с помощью воспользуемся формулами: для нижней границы
, для верхней границы
. Подставим данные задачи найденные значенияв формулы:
= 1,17;
= 2,26. Таким образом, при доверительной вероятностиP = 0,99 или 99% генеральная дисперсия будет лежать в интервале от 1,17 до 2,26 мг% включительно.

Пример 3.3 . Среди 1000 семян пшеницы из поступившей на элеватор партии обнаружено 120 семян зараженных спорыньей. Необходимо определить вероятные границы генеральной доли зараженных семян в данной партии пшеницы.

Доверительные границы для генеральной доли при всех возможных ее значениях целесообразно определять по формуле:

,

Где n – число наблюдений; m – абсолютная численность одной из групп; t – нормированное отклонение.

Выборочная доля зараженных семян равна
или 12%. При доверительной вероятностиР = 95% нормированное отклонение (t -критерий Стьюдента при k =
)t = 1,960.

Подставляем имеющиеся данные в формулу:

Отсюда границы доверительного интервала равны= 0,122–0,041 = 0,081, или 8,1%;= 0,122 + 0,041 = 0,163, или 16,3%.

Таким образом, с доверительной вероятностью 95% можно утверждать, что генеральная доля зараженных семян находится между 8,1 и 16,3%.

Пример 3.4 . Коэффициент вариации, характеризующий варьирование кальция (мг%) в сыворотке крови обезьян, оказался равным 10,6%. Объем выборки n = 100. Необходимо определить границы 95%-ного доверительного интервала для генерального параметра Cv .

Границы доверительного интервала для генерального коэффициента вариации Cv определяются по следующим формулам:

и
, гдеK промежуточная величина, вычисляемая по формуле
.

Зная, что при доверительной вероятности Р = 95% нормированное отклонение (критерий Стьюдента при k =
)t = 1,960, предварительно рассчитаем величину К:

.

или 9,3%

или 12,3%

Таким образом, генеральный коэффициент вариации с доверительной вероятностью 95% лежит в интервале от 9,3 до 12,3%. При повторных выборках коэффициент вариации не превысит 12,3% и не окажется ниже 9,3% в 95 случаях из 100.

Вопросы для самоконтроля:

Задачи для самостоятельного решения.

1. Средний процент жира в молоке за лактацию коров холмогорских помесей был следующим: 3,4; 3,6; 3,2; 3,1; 2,9; 3,7; 3,2; 3,6; 4,0; 3,4; 4,1; 3,8; 3,4; 4,0; 3,3; 3,7; 3,5; 3,6; 3,4; 3,8. Установите доверительные интервалы для генеральной средней при доверительной вероятности 95% (20 баллов).

2. На 400 растениях гибридной ржи первые цветки появились в среднем на 70,5 день после посева. Среднее квадратическое отклонение было 6,9 дня. Определите ошибку средней и доверительные интервалы для генеральной средней и дисперсии при уровне значимости W = 0,05 и W = 0,01 (25 баллов).

3. При изучении длины листьев 502 экземпляров садовой земляники были получены следующие данные: = 7,86 см; σ = 1,32 см, =± 0,06 см. Определите доверительные интервалы для средней арифметической генеральной совокупности с уровнями значимости 0,01; 0,02; 0,05. (25 баллов).

4. При обследовании 150 взрослых мужчин средний рост был равен 167 см, а σ = 6 см. В каких пределах находится генеральная средняя и генеральная дисперсия с доверительной вероятностью 0,99 и 0,95? (25 баллов).

5. Распределение кальция в сыворотке крови обезьян характеризуется следующими выборочными показателями: = 11,94 мг%, σ = 1,27, n = 100. Постройте 95%-ный доверительный интервал для генеральной средней этого распределения. Рассчитайте коэффициент вариации (25 баллов).

6. Было изучено общее содержание азота в плазме крови крыс-альбиносов в возрасте 37 и 180 дней. Результаты выражены в граммах на 100 см 3 плазмы. В возрасте 37 дней 9 крыс имели: 0,98; 0,83; 0,99; 0,86; 0,90; 0,81; 0,94; 0,92; 0,87. В возрасте 180 дней 8 крыс имели: 1,20; 1,18; 1,33; 1,21; 1,20; 1,07; 1,13; 1,12. Установите доверительные интервалы для разницы с доверительной вероятностью 0,95 (50 баллов).

7. Определите границы 95%-ного доверительного интервала для генеральной дисперсии распределения кальция (мг%) в сыворотке крови обезьян, если для этого распределения объем выборки n = 100, статистическая ошибка выборочной дисперсии s σ 2 = 1,60 (40 баллов).

8. Определите границы 95%-ного доверительного интервала для генеральной дисперсии распределения 40 колосков пшеницы по длине (σ 2 = 40, 87 мм 2). (25 баллов).

9. Курение считают основным фактором, предрасполагающим к обструктивным заболеваниям легких. Пассивное курение таким фактором не считается. Ученые усомнились в безвредности пассивного курения и исследовали проходимость дыхательных путей у некурящих, пассивных и активных курильщиков. Для характеристики состояния дыхательных путей взяли один из показателей функции внешнего дыхания – максимальную объемную скорость середины выдоха. Уменьшение этого показателя – признак нарушения проходимости дыхательных путей. Данные обследования приведены в таблице.

Число обследованных

Максимальная объемная скорость середины выдоха, л/с

Стандартное отклонение

Некурящие

работают в помещении, где не курят

работают в накуренном помещении

Курящие

выкуривающие небольшое число сигарет

выкуривающие среднее число сигарет

выкуривающие большое число сигарет

По данным таблицы найдите 95% доверительные интервалы для генеральной средней и генеральной дисперсии для каждой из групп. В чем заключаются различия между группами? Результаты представьте графически (25 баллов).

10. Определите границы 95%-ного и 99%-ного доверительного интервала для генеральной дисперсии численности поросят в 64 опоросах, если статистическая ошибка выборочной дисперсии s σ 2 = 8, 25 (30 баллов).

11. Известно, что средняя масса кроликов составляет 2,1 кг. Определите границы 95%-ного и 99%-ного доверительного интервала для генеральной средней и дисперсии при n = 30, σ = 0,56 кг (25 баллов).

12. У 100 колосьев измеряли озерненность колоса (Х ), длину колоса (Y ) и массу зерна в колосе (Z ). Найти доверительные интервалы для генеральной средней и дисперсии при P 1 = 0,95, P 2 = 0,99, P 3 = 0,999, если = 19, = 6,766 см, = 0,554 г; σ x 2 = 29, 153, σ y 2 = 2, 111, σ z 2 = 0, 064. (25 баллов).

13. В отобранных случайным образом 100 колосьях озимой пшеницы подсчитывалось число колосков. Выборочная совокупность характеризовалась следующими показателями: = 15 колосков и σ = 2,28 шт. Определите, с какой точностью получен средний результат () и постройте доверительный интервал для генеральной средней и дисперсии при 95% и 99% уровнях значимости (30 баллов).

14. Число ребер на раковинах ископаемого моллюска Orthambonites calligramma :

Известно, что n = 19, σ = 4,25. Определите границы доверительного интервала для генеральной средней и генеральной дисперсии при уровне значимости W = 0,01 (25 баллов).

15. Для определения удоев молока на молочно-товарной ферме ежедневно определялась продуктивность 15 коров. По данным за год каждая корова давала в среднем в сутки следующее количество молока (л): 22; 19; 25; 20; 27; 17; 30; 21; 18; 24; 26; 23; 25; 20; 24. Постройте доверительные интервалы для генеральной дисперсии и средней арифметической. Можно ли ожидать, что среднегодовой удой на каждую корову составит 10000 литров? (50 баллов).

16. С целью определения урожая пшеницы в среднем по агрохозяйству были проведены укосы на пробных участках площадью 1, 3, 2, 5, 2, 6, 1, 3, 2, 11 и 2 га. Урожайность (ц/га) с участков составила 39,4; 38; 35,8; 40; 35; 42,7; 39,3; 41,6; 33; 42; 29 соответственно. Постройте доверительные интервалы для генеральных дисперсии и средней арифметической. Можно ли ожидать, что в среднем по агрохозяйству урожай составит 42 ц/га? (50 баллов).

Часто оценщику приходится анализировать рынок недвижимости того сегмента, в котором располагается объект оценки. Если рынок развит, проанализировать всю совокупность представленных объектов бывает сложно, поэтому для анализа используется выборка объектов. Не всегда эта выборка получается однородной, иногда требуется очистить ее от экстремумов - слишком высоких или слишком низких предложений рынка. Для этой цели применяется доверительный интервал . Цель данного исследования - провести сравнительный анализ двух способов расчета доверительного интервала и выбрать оптимальный вариант расчета при работе с разными выборками в системе estimatica.pro.

Доверительный интервал - вычисленный на основе выборки интервал значений признака, который с известной вероятностью содержит оцениваемый параметр генеральной совокупности.

Смысл вычисления доверительного интервала заключается в построении по данным выборки такого интервала, чтобы можно было утверждать с заданной вероятностью, что значение оцениваемого параметра находится в этом интервале. Другими словами, доверительный интервал с определенной вероятностью содержит неизвестное значение оцениваемой величины. Чем шире интервал, тем выше неточность.

Существуют разные методы определения доверительного интервала. В этой статье рассмотрим 2 способа:

  • через медиану и среднеквадратическое отклонение;
  • через критическое значение t-статистики (коэффициент Стьюдента).

Этапы сравнительного анализа разных способов расчета ДИ:

1. формируем выборку данных;

2. обрабатываем ее статистическими методами: рассчитываем среднее значение, медиану, дисперсию и т.д.;

3. рассчитываем доверительный интервал двумя способами;

4. анализируем очищенные выборки и полученные доверительные интервалы.

Этап 1. Выборка данных

Выборка сформирована с помощью системы estimatica.pro. В выборку вошло 91 предложение о продаже 1 комнатных квартир в 3-ем ценовом поясе с типом планировки «Хрущевка».

Таблица 1. Исходная выборка

Цена 1 кв.м., д.е.

Рис.1. Исходная выборка



Этап 2. Обработка исходной выборки

Обработка выборки методами статистики требует вычисления следующих значений:

1. Среднее арифметическое значение

2. Медиана - число, характеризующее выборку: ровно половина элементов выборки больше медианы, другая половина меньше медианы

(для выборки, имеющей нечетное число значений)

3. Размах - разница между максимальным и минимальным значениями в выборке

4. Дисперсия - используется для более точного оценивания вариации данных

5. Среднеквадратическое отклонение по выборке (далее - СКО) - наиболее распространённый показатель рассеивания значений корректировок вокруг среднего арифметического значения.

6. Коэффициент вариации - отражает степень разбросанности значений корректировок

7. коэффициент осцилляции - отражает относительное колебание крайних значений цен в выборке вокруг средней

Таблица 2. Статистические показатели исходной выборки

Коэффициент вариации, который характеризует однородность данных, составляет 12,29%, однако коэффициент осцилляции слишком велик. Таким образом, мы можем утверждать, что исходная выборка не является однородной, поэтому перейдем к расчету доверительного интервала.

Этап 3. Расчёт доверительного интервала

Способ 1. Расчёт через медиану и среднеквадратическое отклонение.

Доверительный интервал определяется следующим образом: минимальное значение - из медианы вычитается СКО; максимальное значение - к медиане прибавляется СКО.

Таким образом, доверительный интервал (47179 д.е.; 60689 д.е.)

Рис. 2. Значения, попавшие в доверительный интервал 1.



Способ 2. Построение доверительного интервала через критическое значение t-статистики (коэффициент Стьюдента)

С.В. Грибовский в книге «Математические методы оценки стоимости имущества» описывает способ вычисления доверительного интервала через коэффициент Стьюдента. При расчете этим методом оценщик должен сам задать уровень значимости ∝, определяющий вероятность, с которой будет построен доверительный интервал. Обычно используются уровни значимости 0,1; 0,05 и 0,01. Им соответствуют доверительные вероятности 0,9; 0,95 и 0,99. При таком методе полагают истинные значения математического ожидания и дисперсии практически неизвестными (что почти всегда верно при решении практических задач оценки).

Формула доверительного интервала:

n - объем выборки;

Критическое значение t- статистики (распределения Стьюдента) с уровнем значимости ∝,числом степеней свободы n-1,которое определяется по специальным статистическим таблицам либо с помощью MS Excel ( →"Статистические"→ СТЬЮДРАСПОБР);

∝ - уровень значимости, принимаем ∝=0,01.

Рис. 2. Значения, попавшие в доверительный интервал 2.

Этап 4. Анализ разных способов расчета доверительного интервала

Два способа расчета доверительного интервала - через медиану и коэффициент Стьюдента - привели к разным значениям интервалов. Соответственно, получилось две различные очищенные выборки.

Таблица 3. Статистические показатели по трем выборкам.

Показатель

Исходная выборка

1 вариант

2 вариант

Среднее значение

Дисперсия

Коэф. вариации

Коэф. осциляции

Количество выбывших объектов, шт.

На основании выполненных расчетов можно сказать, что полученные разными методами значения доверительных интервалов пересекаются, поэтому можно использовать любой из способов расчета на усмотрение оценщика.

Однако мы считаем, что при работе в системе estimatica.pro целесообразно выбирать метод расчета доверительного интервала в зависимости от степени развитости рынка:

  • если рынок неразвит, применять метод расчета через медиану и среднеквадратическое отклонение, так как количество выбывших объектов в этом случае невелико;
  • если рынок развит, применять расчет через критическое значение t-статистики (коэффициент Стьюдента), так как есть возможность сформировать большую исходную выборку.

При подготовке статьи были использованы:

1. Грибовский С.В., Сивец С.А., Левыкина И.А. Математические методы оценки стоимости имущества. Москва, 2014 г.

2. Данные системы estimatica.pro

Доверительный интервал – предельные значения статистической величины, которая с заданной доверительной вероятностью γ будет находится в этом интервале при выборке большего объема. Обозначается как P(θ - ε . На практике выбирают доверительную вероятность γ из достаточно близких к единице значений γ = 0.9 , γ = 0.95 , γ = 0.99 .

Назначение сервиса . С помощью этого сервиса определяются:

  • доверительный интервал для генерального среднего, доверительный интервал для дисперсии;
  • доверительный интервал для среднего квадратического отклонения, доверительный интервал для генеральной доли;
Полученное решение сохраняется в файле Word (см. пример). Ниже представлена видеоинструкция, как заполнять исходные данные.

Пример №1 . В колхозе из общего стада в 1000 голов овец выборочной контрольной стрижке подверглись 100 овец. В результате был установлен средний настриг шерсти 4,2 кг на одну овцу. Определить с вероятностью 0,99 среднюю квадратическую ошибку выборки при определении среднего настрига шерсти на одну овцу и пределы, в которых заключена величина настрига, если дисперсия равна 2,5 . Выборка бесповторная.
Пример №2 . Из партии импортируемой продукции на посту Московской Северной таможни было взято в порядке случайной повторной выборки 20 проб продукта «А». В результате проверки установлена средняя влажность продукта «А» в выборке, которая оказалась равной 6 % при среднем квадратическом отклонении 1 %.
Определите с вероятностью 0,683 пределы средней влажности продукта во всей партии импортируемой продукции.
Пример №3 . Опрос 36 студентов показал, что среднее количество учебников, прочитанных ими за учебный год, оказалось равным 6. Считая, что количество учебников, прочитанных студентом за семестр, имеет нормальный закон распределения со средним квадратическим отклонением, равным 6, найти: А) с надежностью 0,99 интервальную оценку для математического ожидания этой случайной величины; Б) с какой вероятностью можно утверждать, что среднее количество учебников, прочитанных студентом за семестр, вычисленное по данной выборке, отклонится от математического ожидания по абсолютной величине не больше, чем на 2.

Классификация доверительных интервалов

По виду оцениваемого параметра:

По типу выборки:

  1. Доверительный интервал для бесконечной выборки;
  2. Доверительный интервал для конечной выборки;
Выборка называется повторной , если отобранный объект перед выбором следующего возвращается в генеральную совокупность. Выборка называется бесповторной , если отобранный объект в генеральную совокупность не возвращается. На практике обычно имеют дело с бесповторными выборками.

Расчет средней ошибки выборки при случайном отборе

Расхождение между значениями показателей, полученных по выборке, и соответствующими параметрами генеральной совокупности называется ошибкой репрезентативности .
Обозначения основных параметров генеральной и выборочной совокупности.
Формулы средней ошибки выборки
повторный отбор бесповторный отбор
для средней для доли для средней для доли
Соотношение между пределом ошибки выборки (Δ), гарантируемым с некоторой вероятностью Р(t), и средней ошибкой выборки имеет вид: или Δ = t·μ, где t – коэффициент доверия, определяемый в зависимости от уровня вероятности Р(t) по таблице интегральной функции Лапласа.

Формулы расчета численности выборки при собственно-случайном способе отбора

«Катрен-Стиль» продолжает публикацию цикла Константина Кравчика о медицинской статистике. В двух предыдущих статьях автор касался объяснения таких понятий, как и .

Константин Кравчик

Математик-аналитик. Специалист в области статистических исследований в медицине и гуманитарных науках

Город: Москва

Очень часто в статьях по клиническим исследованиям можно встретить загадочное словосочетание: «доверительный интервал» (95 % ДИ или 95 % CI - confidence interval). Например, в статье может быть написано: «Для оценки значимости различий использовали t-критерий Стьюдента с расчетом 95 % доверительного интервала».

Какого же значение «95 % доверительного интервала» и зачем его рассчитывать?

Что такое доверительный интервал? - Это диапазон, в котором находятся истинные средние значения в генеральной совокупности. А что, бывают «неистинные» средние значения? В каком‑то смысле да, бывают. В мы объясняли, что невозможно измерить интересующий параметр во всей генеральной совокупности, поэтому исследователи довольствуются ограниченной выборкой. В этой выборке (например, по массе тела) есть одно среднее значение (определенный вес), по которому мы и судим о среднем значении во всей генеральной совокупности. Однако едва ли средний вес в выборке (особенно небольшой) совпадет со средним весом в генеральной совокупности. Поэтому более правильно рассчитывать и пользоваться диапазоном средних значений генеральной совокупности.

Например, представим, что 95 % доверительный интервал (95 % ДИ) по гемоглобину составляет от 110 до 122 г/л. Это означает, что с вероятностью 95 % истинное среднее значение по гемоглобину в генеральной совокупности будет находиться в пределах от 110 до 122 г/л. Иными словами, мы не знаем средний показатель гемоглобина в генеральной совокупности, но можем с 95 %-й вероятностью указать диапазон значений для этого признака.

Доверительный интервал особенно уместен для разницы в средних значениях между группами или, как это называют, в размере эффекта.

Допустим, мы сравнивали эффективность двух препаратов железа: давно присутствующего на рынке и только что зарегистрированного. После курса терапии оценили концентрацию гемоглобина в исследуемых группах пациентов, и статистическая программа нам посчитала, что разность между средними значениями двух групп с вероятностью 95 % находится в диапазоне от 1,72 до 14,36 г/л (табл. 1).

Табл. 1. Критерий для независимых выборок
(сравниваются группы по уровню гемоглобина)

Трактовать это следует так: у части пациентов генеральной совокупности, которая принимает новый препарат, гемоглобин будет выше в среднем на 1,72–14,36 г/л, чем у тех, кто принимал уже известный препарат.

Иными словами, в генеральной совокупности разность в средних значениях по гемоглобину у групп с 95 %-й вероятностью находится в этих пределах. Судить, много это или мало, будет уже исследователь. Смысл всего этого в том, что мы работаем не с одним средним значением, а с диапазоном значений, следовательно, мы более достоверно оцениваем разницу по параметру между группами.

В статистических пакетах, на усмотрение исследователя, можно самостоятельно сужать или расширять границы доверительного интервала. Снижая вероятности доверительного интервала, мы сужаем диапазон средних. Например, при 90 % ДИ диапазон средних (или разницы средних) будет уже, чем при 95 %.

И наоборот, увеличение вероятности до 99 % расширяет диапазон значений. При сравнении групп нижняя граница ДИ может пересечь нулевую отметку. Например, если мы расширили границы доверительного интервала до 99 %, то границы интервала расположились от –1 до 16 г/л. Это означает, что в генеральной совокупности есть группы, различие средних между которыми по изучаемому признаку равняется 0 (М=0).

При помощи доверительного интервала можно проверять статистические гипотезы. Если доверительный интервал пересекает нулевое значение, то нулевая гипотеза, предполагающая, что группы не различаются по изучаемому параметру, верна. Пример описан выше, когда мы расширили границы до 99 %. Где‑то в генеральной совокупности у нас нашлись группы, которые никак не различались.

95% доверительный интервал разницы по гемоглобину, (г/л)


На рисунке в виде линии изображен 95 % доверительный интервал разницы средних значений по гемоглобину между двумя группами. Линия проходит нулевую отметку, следовательно, имеет место разница между средними значениями, равная нулю, что подтверждает нулевую гипотезу о том, что группы не различаются. Диапазон разницы между группами лежит от –2 до 5 г/л, Это означает, что гемоглобин может как снизиться на 2 г/л, так и повыситься на 5 г/л.

Доверительный интервал - очень важный показатель. Благодаря ему можно посмотреть, были ли различия в группах действительно за счет разности средних или за счет большой выборки, т. к. при большой выборке шансы найти различия больше, чем при малой.

На практике это может выглядеть так. Мы взяли выборку в 1000 человек, измерили уровень гемоглобина и обнаружили, что доверительный интервал разницы средних лежит от 1,2 до 1,5 г/л. Уровень статистической значимости при этом p

Мы видим, что концентрация гемоглобина повысилась, но практически незаметно, следовательно, статистическая значимость появилась именно за счет объема выборки.

Доверительный интервал может быть высчитан не только для средних значений, но и для пропорций (и отношений рисков). Например, нас интересует доверительный интервал пропорций пациентов, которые достигли ремиссии, принимая разработанное лекарство. Допустим, что 95 % ДИ для пропорций, т. е. для доли таких пациентов, лежит в пределах 0,60–0,80. Таким образом, мы можем сказать, что наше лекарство оказывает терапевтический эффект от 60 до 80 % случаев.



THE BELL

Есть те, кто прочитали эту новость раньше вас.
Подпишитесь, чтобы получать статьи свежими.
Email
Имя
Фамилия
Как вы хотите читать The Bell
Без спама