4.6. Интервальные оценки параметров распределения При оценивании неизвестных параметров наряду с точечными оценками используются и интервальные оценки. В отличие от точечной оценки интервальная оценка позволяет получить вероятностные характеристики точности и надёжности оценивания неизвестного параметра. Пусть X 1 , X 2 , ... , X n - случайная выборка из генеральной совокупности X с законом распределения, зависящим от параметра , значение которого неизвестно. Пусть X - генеральная совокупность, с законом распределения, зависящим от параметра , значение которого неизвестно. Доверительным интервалом или интервальной оценкой для параметра называется интервал ; , содержащий (накрывающий) истинное значение с заданной вероятностью 1 : P 1 . (4.6.1) Число 1 называется доверительной вероятностью, а значение уровнем значимости. Практический смысл имеет доверительная вероятность, близкая к 1, поэтому обычно выбирают 1 , как правило, 0,1 , 0,05 , 0,025 и 0,01 . Границы доверительного интервала определяют по выборке x1 , x2 , ... , xn из генеральной совокупности, поэтому они являются функциями выборки: x1, x2 , ... , xn , x1 , x2 , ... , xn . Поскольку выборка x1 , x2 , ... , xn есть реа- лизация случайной выборки X 1 , X 2 , ... , X n , то доверительный интервал ; X1, X 2 , ... , X n ; X1, X 2 , ... , X n является интервалом со случайными границами, накрывающим неизвестное значение с вероятностью 1 . 305 Пример 4.6.1. Большая партия однотипных конденсаторов, изготовленных на автоматической линии оказалась без маркировки. Для определения их номинальной ёмкости из этой партии случайным образом переложили по некоторому количеству конденсаторов в N коробок, каждую из которых отправили в одну из лабораторий для определения номинала . В каждой из лабораторий по «своим» результатам измерений построили «свой» доверительный интервал ; , см. рис. 4.6.1. 2 3 4 1 N Рис. 4.6.1. К примеру 4.6.1. Как видно из этого рисунка, доверительный интервал является случайным объектом. Возможны случаи, когда он не накрывает истинного значения . При больших N число таких случаев m обеспечивает выполнение приближённого равенства m . N Один из наиболее распространённых методов построения доверительных интервалов состоит в следующем. 1. Зададим уровень значимости или доверительную вероятность 1 . 2. Найдём статистику Z Z X1, X 2 , ... , X n , , зависящую от неизвестного параметра и удовлетворяющую следующим условиям: а) закон распределения статистики Z известен; 306 б) функция распределения FZ x PZ X1, X 2 , ... , X n , x статистики Z является непрерывной и возрастающей (т.е. FZ x не имеет интервалов постоянства); в) закон распределения статистики Z не зависит от параметра (такую статистику называют центральной); г) для любой выборки x1 , x2 , ... , xn функция Z x1 , x2 , ... , xn , является непрерывной и строго монотонной (убывающей или возрастающей) функцией аргумента . 3. По известному закону распределения статистики Z X 1 , X 2 , ... , X n , найдём два числа h и h так, чтобы выполнялось равенство P h Z X1, X 2 , ... , X n , h FZ h FZ h 1 . Допущение в) гарантирует, что h и h не зависят от . Определение h и h неоднозначно. В самом деле, возьмём произвольные положительные числа 1 и 2 , для которых выполняется равенство 1 2 и найдём h и h из уравнений FZ h 1 и FZ h 1 2 , в результате чего получим требуемый результат: FZ h FZ h 1 . Каждое из этих уравнений имеет решение, причём единственное, что следует из допущения б). Решениями уравнений являются квантили порядков 1 и 1 2 распределения статистики Z X 1 , X 2 , ... , X n , соответственно: h z1 , h z12 Обычно при определении h и h полагают 1 2 . Это объясняется 2 тем, что для симметричных распределений статистики Z X 1 , X 2 , ... , X n , (например, Z ~ N 0,1 или Z ~ St ( k ) ) такой выбор даёт доверительный интервал наименьшей длины. А для несимметричных распределений ( Z ~ 2 k , Z ~ F k1 , k 2 ) длина интервала будет близкой к минимальной и случайные вы- 307 бросы статистики Z X 1 , X 2 , ... , X n , в обе стороны от интервала h; h будут равновероятны. Итак, выбираем h z1 и h z12 , в результате получаем P z Z X 1 , X 2 , ... , X n , z 1 . 1 2 2 (4.6.2) 4. Решим неравенства z Z X 1, X 2 , ... , X n , z 1 2 (4.6.3) 2 относительно параметра : X 1 , X 2 , ... , X n , z , z X 1 , X 2 , ... , X n , z , z . 1 1 2 2 2 2 (4.6.4) В силу допущения г) неравенства (4.6.3) разрешимы в виде (4.6.4) и, кроме того, неравенства (4.6.3) и (4.6.4) равносильны. Поэтому с учётом (4.6.2) можно записать: P X 1 , X 2 , ... , X n , z , z X 1 , X 2 , ... , X n , z , z 1 , 1 1 2 2 2 2 т.е. неравенства определяют интервальную оценку параметра , см. (4.6.1). Окончательно, по выборке x1 , x2 , ... , xn находим доверительный интервал x1 , x2 , ... , xn , z 2 , z1 2 ; x1 , x2 , ... , xn , z 2 , z1 2 . Отметим, что для квантилей симметричных распределений статистики Z X 1 , X 2 , ... , X n , справедливо равенство z z 2 1 2 , поэтому для таких рас- пределений полагают h z и h z . 1 2 1 2 Итак, план построения доверительного интервала для параметра сводится к выполнению следующих действий. 1. Выбор доверительной вероятности 1 . 308 2. Подбор или построение центральной статистики Z X 1 , X 2 , ... , X n , с известным законом распределения и нахождение квантилей z и z распреде1 2 2 ления этой статистики, если это распределение несимметрично или квантили z 1 2 , если оно симметрично. 3. Решение неравенств z Z x1 , x2 , ... , xn , z относительно неизвест1 2 2 ного параметра , что приводит к искомому доверительному интервалу x1 , x2 , ... , xn , z , z x1 , x2 , ... , xn , z , z 1 1 2 2 2 2 (если распределение статистики симметрично, то z z ). 2 1 2 При построении доверительных интервалов для параметров нормально распределённых генеральных совокупностей обычно используются статистики, перечисленные в табл. 4.5.1. Пример 4.6.2. Построим доверительный интервал для математического ожидания m M X генеральной совокупности X ~ N m, при известной дисперсии DX 2 . ◄Выполняем действия в соответствии с приведённым выше планом построения интервальной оценки. 1. Задаём доверительную вероятность 1 . 2. Из табл. 4.5.1 находим подходящую статистику Z x m n ~ N 0,1 . По- скольку распределение N 0,1 симметрично, находим квантиль u этого рас1 2 пределения. 3. Решаем неравенства 309 u 1 x m 2 n u 1 2 относительно параметра m : x u 1 2 m x u . 1 n n 2 (4.6.5) Это решение и определяет искомый доверительный интервал.► Замечание. Длина полученного доверительного интервала l n 2u 1 2 n 0 при n . Это соответствует здравому смыслу: при увеличении объёма выборки n точность интервальной оценки растёт при фиксированной доверительной вероятности (надёжности) 1 этой оценки. Упражнения 4.6.1. Найдя в табл. 4.5.1 подходящую статистику, убедитесь в том, что доверительный интервал для математического ожидания m M X генеральной совокупности X ~ N m, при неизвестной дисперсии определяется неравенствами x t S m x t n 1 S , n 1 1 2 n 1 2 n (4.6.6) где t p k - квантиль порядка p распределения Стьюдента с k степенями свободы. 4.6.2. Используя свойства квантилей t p k (см. раздел 4.4), а также состоятельность оценки S 2 , убедитесь в том, что длина доверительного интервала из (4.6.6) с увеличением объёма выборки сходится по вероятности к нулю. 310 Пример 4.6.3. Пусть из генеральной совокупности X ~ N m, получены две выборки объёмов n1 и n2 . Обозначим выборочные средние, вычисленные по этим выборкам, x1 и x2 , а исправленные выборочные дисперсии – S21 и S 22 соответственно. Введём S 2 соответствующие n1 1S21 n2 1S22 n1 n2 2 объединённые оценки: x n1 x1 n2 x2 n1 n2 , и покажем, что если дисперсия генеральной совокуп- ности неизвестна, то доверительный интервал для математического ожидания m M X определяется неравенствами x t 1 n1 n2 2 2 S S m x t n1 n2 2 . 1 n1 n2 n n 1 2 2 (4.6.7) n X n X ◄Найдём закон распределения статистики X 1 1 2 2 . Поскольку n1 n 2 элементы X 1i первой случайной выборки независимы и X 1i ~ N m, , то в силу композиционной устойчивости нормального распределения можно записать: n1 x1 X 1i ~ N n1m, n1 . Аналогично, для второй случайной выборки: n1 i 1 n2 x2 X 2i ~ N n2 m, n2 . Поэтому, в силу той же композиционной устойn1 i 1 чивости имеем: n1 x1 n2 x2 ~ N n1 n2 m, n1 n2 или n1 x 1 n2 x 2 n1 n 2 . x ~ N m, n n 1 2 Приведя последнее соотношение к стандартизованному виду, получаем: x m n ~ N 0,1 , n n1 n2 . (4.6.8) 311 Найдём теперь закон распределения статистики S 2 Из (4.5.3) следует, что n1 1S21 2 2 n1 1 и n2 1S22 2 n1 1S21 n2 1S22 n1 n2 2 . 2 n2 1 . Поэтому с учётом композиционной устойчивости распределения 2 k , см. раздел 4.4, получаем n1 1S21 n2 1S22 n1 n2 2 S 2 2 n n 2 или 2 2 1 2 2 n 2 S 2 2 n 2 , 2 n n1 n2 . (4.6.9) Соотношения (4.6.8) и (4.6.9) аналогичны соответственно соотношениям (4.5.4) и (4.5.3), с помощью которых было выведено равенство (4.5.5) (см. упражнение 4.5.1). Точно так же получаем аналогичное равенство x m S n1 n 2 Далее, используя статистику St n1 n 2 2 . x m S n1 n 2 , строим доверительный интервал (4.6.7) точно так же, как был построен доверительный интервал (4.6.6), см упражнение 4.6.1. ► Упражнение 4.6.3. Убедитесь, что если в условиях примера 4.6.3 дисперсия 2 DX известна, то доверительный интервал для математического ожидания m M X определяется неравенствами x u 1 2 m x u 1 n1 n2 2 . n1 n2 Задание для самостоятельной работы Решите задачи: [1], №№ 19.157 - 19.160, 19.165 - 19.168. 312 Пример 4.6.4. Построим доверительный интервал для дисперсии 2 DX генеральной совокупности X ~ N m, при известном математическом ожидании M X m . ◄Выполняем действия в соответствии с приведённым выше планом построения доверительного интервала. 1. Задаём доверительную вероятность 1 . 2. Из табл. 4.5.1 находим подходящую статистику nS 02 ~ 2 n . Поскольку 2 распределение 2 n несимметрично, находим квантили 2 n и 2 n этого 2 1 2 распределения. 3. Решаем неравенства 2 n 2 nS02 2 n 2 1 2 относительно параметра 2 : nS02 2 n 1 2 2 nS02 . 2 n (4.6.10) 2 Последние неравенства определяют искомый доверительный интервал.► Пример 4.6.5. Исследуем поведение длины доверительного интервала (4.6.10) при n . 1 1 . С помощью асимптотическо 2 ◄Длина интервала l n nS02 2 n n 1 2 2 го представления (4.4.1) квантилей находим: 2p k 1 O 3 2 n 2 n 2 1 n 2 2 1 1 313 (проделайте выкладки самостоятельно!). Поэтому l n n S02 O 3 S02 O 1 . n 2 n p Статистика S02 является состоятельной оценкой параметра 2 , т.е. S02 2 p при n . Отсюда следует, что l n 0 при n . Таким образом, при до- статочно большом объёме выборки интервальная оценка (4.6.10) обеспечивает любую требуемую точность с как угодно большой надёжностью.► Упражнения 4.6.3. Выбрав подходящую статистику из табл. 4.5.1, убедитесь, что доверительный интервал для дисперсии 2 DX генеральной совокупности X ~ N m, при неизвестном математическом ожидании определяется неравен- ствами n 1S 02 n 1S 02 . 2 2 n 1 2 n 1 1 2 (4.6.11) 2 p 4.6.4. Убедитесь в справедливости соотношения l n 0 при n для длины l n доверительного интервала (4.6.11). Задание для самостоятельной работы Решите задачи: [1], №№ 19.171 - 19.173. Пример 4.6.6. Построим доверительный интервал для отношения дисперсий 12 22 двух ге- неральных совокупностей X ~ N m1 , 1 и Y ~ N m2 , 2 при известных математических ожиданиях m1 и m2 . ◄Действуем по плану построения доверительного интервала. 314 1. Задаём доверительную вероятность 1 . 2. Из табл. 4.5.1 находим подходящую статистику S 02y 12 S 02x 22 ~ F n2 ,n1 . По- скольку распределение F n2 ,n1 несимметрично, находим квантили F n2 ,n1 и 2 F 1 n 2 , n1 2 этого распределения. 3. Решаем неравенства F n2 ,n1 2 S 02y 12 S 02x 22 относительно отношения дисперсий 12 22 F n2 ,n1 1 2 : S2 2 S 2 F n2 , n1 02x 12 02x F n2 , n1 . S0 y 2 S0 y 1 2 2 (4.6.12) Неравенства (4.6.12) задают искомый доверительный интервал.► Упражнения 4.6.5. С помощью подходящей статистики из табл. 4.5.1, убедитесь, что доверительный интервал для отношения дисперсий 12 22 двух генеральных со- вокупностей X ~ N m1 , 1 и Y ~ N m2 , 2 при неизвестных математических ожиданиях определяется неравенствами F n2 1, n1 1 2 S x2 12 S x2 Sy 2 S 2y 2 2 F 1 . n 2 1, n1 1 2 (4.6.13) p 4.6.6. Проверьте соотношение l n 0 при n для длины l n довери- тельного интервала (4.6.12) и (4.6.13). Пример 4.6.6. Построим доверительный интервал для разности математических ожида- 315 ний m1 m2 двух генеральных совокупностей X ~ N m1 , 1 и Y ~ N m2 , 2 при известных дисперсиях 12 и 22 . ◄Согласно плану построения доверительного интервала выполним следующие действия. 1. Задаём доверительную вероятность 1 . 2. Из табл. 4.5.1 находим подходящую статистику x y m1 m2 ~ 12 22 n1 n 2 N 0,1 . Поскольку распределение N 0,1 симметрично, находим квантиль u этого 1 2 распределения. 3. Решаем неравенства 1 2 u x y m1 m2 12 22 n1 n 2 u 1 2 относительно разности математических ожиданий m1 m2 : x y u 1 2 12 22 2 2 m1 m2 x y u 1 2 . 1 n1 n2 n1 n2 2 (4.6.14) Доверительный интервал найден.► Упражнения 4.6.7. С помощью подходящей статистики из табл. 4.5.1, убедитесь, что доверительный интервал для разности математических ожиданий m1 m2 двух генеральных совокупностей X ~ N m1 , 1 и Y ~ N m2 , 2 при неизвестных, но равных друг другу дисперсиях 12 22 2 имеет вид x y t n1 n2 2S xy 1 2 1 1 1 1 , m1 m2 x y t n1 n2 2S xy 1 n1 n2 n1 n2 2 (4.6.15) 316 где S x2, y n1 1S x2 n2 1S 2y n1 n2 2 . p 4.6.8. Убедитесь в справедливости соотношения l n 0 при n для длины l n доверительного интервала (4.6.15). Задание для самостоятельной работы Решите задачи: [1], №№ 19.178 - 19.180, 19.182. В табл. 4.6.1 объединены результаты, полученные нами при построении доверительных интервалов для основных параметров нормально распределённых генеральных совокупностей. Таблица 4.6.1 Параметр Предположения m известна m 2 неизвестна 2 Доверительный интервал x u m x u 1 n n 2 S m x t n 1 S 1 2 2 x t n 1 1 2 nS02 m известно 2 n 1 2 12 22 известны неизвестны nS02 2 n 2 2 2 2 S2 2 S 2 F n2 , n1 02x 12 02x F n2 , n1 S0 y 2 S0 y 1 2 2 m1 и m2 m1 , m2 2 n 2 n 1S 02 n 1S 02 2 2 n 1 2 n 1 m неизвестно 1 12 22 1 n F n2 1, n1 1 2 S x2 12 S x2 Sy 2 S 2y 2 2 F 1 n 2 1, n1 1 2 317 12 и 22 m1 m2 x y u 1 известны 2 12 22 2 2 m1 m2 x y u 1 2 1 n1 n2 n1 n2 2 x y t n1 n2 2S xy 1 12 22 2 m1 m2 неизвестны 2 x y t 1 1 1 m1 m2 n1 n2 n1 n2 2 S xy 2 1 1 n1 n2 До сих пор мы предполагали, что рассматриваемые генеральные совокупности подчинены нормальному закону распределения. Рассмотрим возможность построения приближённого доверительного интервала для параметра генеральной совокупности с законом распределения, отличным от нормального. Пусть n X 1 , X 2 , ... , X n есть несмещённая оценка параметра распреде~ ления генеральной совокупности X . Её дисперсия может зависеть от некоторых параметров , 1, ... , m этого распределения: D~n , 1, ... , m . Предположим, что статистика асимптотически нормальное ~ n X 1, X 2 , ... , X n ~ N , D~n , 1, ... , m 1 2 ~ n X 1 , X 2 , ... , X n распределение, имеет т.е. при n . Тогда стандартизованная ~ n ~ N 0,1 , n . Поэтому при n 1 неравенD~n , 1 , ... , m статистика Z n ства u ~ D n X1, X 2 , ... , X n ~ n D~n , 1 , ... , m u 1 2 , где u p - квантиль стандартного нормаль- ного распределения, выполняются с вероятностью, близкой к 1 . Эти неравенства эквивалентны следующим: ~ n u 1 2 ~ D~n , 1, ... , m n u 1 2 D~n , 1, ... , m . Записанные неравенства ещё не дают приближённой интервальной оценки для , т.к. их левая и правая части зависят от неизвестных параметров 318 ~ ~ ~ , 1, ... , m . Заменив эти параметры их точечными оценками n , 1n , ... , mn , получим искомый приближённый доверительный интервал ~ n u 1 2 ~ ~ ~ ~ D~n n , 1n , ... , mn n u 1 2 ~ ~ ~ D~n n , 1n , ... , mn . (4.6.16) Напомним, что изложенный метод является приближённым и может применяться при достаточно большом объёме выборки n . В этом методе приближение используется дважды: сначала закон распределения оценки ~ n X 1 , X 2 , ... , X n заменяется нормальным законом, затем в выражениях для границ интервальной оценки вместо точных значений параметров , 1, ... , m используются их оценки n , 1n , ... , mn . Поэтому интервальные оценки ~ ~ ~ (4.6.16) нужно использовать с осторожностью, возможно, в качестве первого приближения. Пример 4.6.7. Пусть k n - число успехов в серии из n испытаний по схеме Бернулли с вероятностью успеха p . Построим приближённый доверительный интервал для параметра p . ~p k n n ◄Несмещённой, состоятельной и эффективной оценкой вероятности успеха p является относительная частота успехов ~p k n , см. примеры 4.3.5 n и 4.3.7. Согласно интегральной теореме Муавра-Лапласа, статистика ~p имеет асимптотически нормальное распределение: ~p ~ N p, p1 p , n . Поэто n 319 ~ p p ~ N 0,1 . Решив нераp 1 p n му при n 1 приближённо можно считать, что венства u 1 2 ~ p p u относительно p , получаем: 1 p1 p 2 n ~ p u 1 2 p1 p p ~ pu 1 n 2 p1 p . n Левая и правая части последних неравенств зависят от неизвестного параметра p . Заменяем этот параметр его оценкой ~p : ~ p u 1 2 ~ p 1 ~ p p ~ pu 1 n ~ p 1 ~ p . n 2 (4.6.17) Это и есть искомая приближённая интервальная оценка вероятности успеха p при n 1 .► Пример 4.6.8. Предполагая, что математическое ожидание M X m и дисперсия DX 2 генеральной совокупности X существуют, а закон распределения X отличен от нормального, найдём приближённый доверительный интервал для математического ожидания m . ◄Несмещённой и состоятельной оценкой параметра m является выбоn рочное среднее x 1 X i . Согласно центральной предельной теореме статиn i 1 стика x асимптотически нормальна: x ~ N m, виде, или, в стандартизованном n x m ~ N 0,1 . Отсюда следует, что для n 1 неравенства n u 1 2 x m u 1 2 n 320 и равносильные им неравенства x u 1 2 m x u 1 n n 2 выполняются с вероятностью, близкой к 1 . Чтобы получить из них искомую интервальную оценку, остаётся заменить в этих неравенствах неизвестный параметр его точечной оценкой S , где S 2 1 n xi x 2 - исправленn 1 i 1 ная выборочная дисперсия: x u 1 2 S n m x u 1 2 S n . (4.6.18) Эти неравенства определяют приближённый доверительный интервал при n 1 .► Отметим, что приближённый доверительный интервал (4.6.18) практически не отличается от соответствующего доверительного интервала (4.6.6) для нормальной генеральной совокупности, т.к. при n 1 для квантилей выполняется соотношение t p n 1 u p , см. раздел 4.4. Упражнения 4.6.9. Пусть генеральная совокупность X ~ Pu . Используя композиционную устойчивость и асимптотическую нормальность распределения Пуассона ( X ~ N , , ), показать, что приближённый доверительный интервал для параметра имеет вид x u 1 2 x x , n 1 . x u 1 n n 2 4.6.10. Покажите, что в случае генеральной совокупности X с законом распределения, отличным от нормального, при известном математическом ожидании M X m приближённый доверительный интервал для дисперсии имеет вид 321 nS02 nS02 , n 1 . 2 n 2n u1 2 n 2n u1 2 (4.6.19) 4.6.11. Покажите, что для генеральной совокупности X с произвольным законом распределения приближённая интервальная оценка дисперсии имеет вид nS 2 n 1 u1 2 2n 1 2 nS 2 n 1 u1 2 2n 1 , n 1 . (4.6.20) Замечание. Отметим, что приближённый доверительный интервал (4.6.18) практически не отличается от соответствующего доверительного интервала (4.6.6) для нормальной генеральной совокупности, т.к. при n 1 выполняется соотношение u p t p n 1 , см. раздел 4.4. То же относится и к приближённым доверительным интервалам (4.6.19), (4.6.20): они практически не отличаются от соответствующих интервалов (4.6.10) и (4.6.11) для нормальной генеральной совокупности, т.к. k u p 2k 2p k при k 1 , см (4.4.1). Таким образом, приближённые интервальные оценки для математического ожидания и дисперсии генеральной совокупности с произвольным законом распределения при объёме выборки n 1 можно строить по формулам, найденным для нормальной генеральной совокупности, см. табл. 4.6.1. Задание для самостоятельной работы Решите задачи: [1], №№ 19.183 - 19.187. Контрольные вопросы 1. Что называют доверительным интервалом для неизвестного параметра распределения генеральной совокупности? 322 2. Что такое доверительная вероятность, уровень значимости, каким требованиям они соответствуют? 3. Перечислите действия, которые необходимо выполнить для построения интервальной оценки параметра распределения? 4. Какие статистики используют при построении доверительных интервалов для математического ожидания нормально распределённой генеральной совокупности при известной и неизвестной дисперсии? Запишите неравенства, определяющие эти интервалы. 5. Укажите статистики, применяемые при построении интервальных оценок для дисперсии нормально распределённой генеральной совокупности при известном и неизвестном математическом ожидании? Запишите неравенства, определяющие эти интервальные оценки. 6. Какие статистики используют при построении доверительных интервалов для отношения дисперсий двух нормально распределённых генеральных совокупностей при известных и неизвестных математических ожиданиях? Запишите неравенства, определяющие эти интервалы. 7. Укажите статистики, применяемые при построении интервальных оценок для разности математических ожиданий двух нормально распределённых генеральных совокупностей при известных и неизвестных, но равных дисперсиях? Запишите неравенства, определяющие эти интервальные оценки. 8. Опишите общий подход к построению приближённых доверительных интервалов для параметров произвольного распределения генеральной совокупности. 9. Постройте приближённый доверительный интервал для неизвестной вероятности успеха в серии испытаний по схеме Бернулли. 323