Глава 3. Выборочный метод в статистике 3.1. Выборка. Выборочный метод Пусть X n X 1 ,..., X n - выборка объема n, полученная в результате наблюдения случайной величины , имеющей распределение F x . Будем считать, что наблюдения независимы X 1 ,..., X n и имеют одно и то же распределение F x . Следовательно FX n x1 ,...xn F x1 F x2 ... F xn , и нам не важен порядок следования наблюдений. Множество возможных значений [с распределениями F ] образуют генеральную совокупность L , которой принадлежит выборка X n . F F F x, , – параметрическая статическая модель. Параметр может быть как скалярным, так и векторным. 3.2. Порядковые статистики и вариационный ряд Упорядочим все наблюдения в выборке и произведем их перенумерацию: X 1 X 2 X 3 ... X n – вариационный ряд. Опр ед еле ни е Величина X i называется i -ой порядковой статистикой. Опр ед еле н и е Статистикой называется любая измеримая функция от выборки, которая, в свою очередь, также является случайной величиной или случайной функцией. Найдем распределение i -ой порядковой статистики. Введем вспомогательную случайную функцию: n x - количество наблюдений не превосходящих x . Найдем P n x k . x Xi Рис. Нахождение вероятности P x k n Событие n x k означает, что в интервал , x попало k наблюдений, а в x, – n k . Число равно способов, которыми можно P n x k Cnk F k x 1 F x выбрать k элементов из n Cnk .в результате получаем: nk P X i x P n x i P n x i n x i 1 ... n x n n P n x k Cnk F x 1 F x k nk . k i 1 3.3. Эмпирическая функция распределения. Функция Fn x n x n называется эмпирической функцией распределения. По определению эмпирическая функция распределения является случайной функцией; x R , Fn x – дискретная случайная величина, принимающая значения 0 1 2 n 1 n 0 , , ,..., , 1 n n n n n при этом P Fn x nk k k k P n x k Cn F x 1 F x . n Если все X i (наблюдения в выборке) различны, то 0, x X 1 k Fn x , X k x X k 1 , k 1,..., n 1 n 1, x X n или Fn x 0, x 0 1 n – функция Хевисайда (единичного скачка). h x xi , где h x n i 1 1, x 0 Тео р ема 3 .1 . Fn x Пусть – эмпирическая функция распределения случайной величины F . Тогда x , 0 lim P Fn x F x 1 n Доказательство: З.Б.Ч. (теорема Бернулли) i – независимы, одинаково распределенные, Mi a то 1 P i a , при n n 1 P n i a 1; 0, n Введем случайную величину 0, xi x , 1, xi x i h x xi найдем ее математическое ожидание Mi Mh x xi 1 P xi x 0 P xi x F x подставим в З.Б.Ч. получим условия теоремы. Таким образом, при n эмпирическая функция распределения Fn x является оценкой теоретической функции распределения F x . Введем статистику Dn sup | Fn ( x) F ( x) | | x| Тео р ема 3 .2 . ( Гл иве н к о - Ка нт ел л и) P lim sup | Fn ( x) F ( x) | 0 1 или P lim Dn 0 1 n | x| n Тео р ема 3 .3 . ( Ко л мо г о р о в) nD t K (t ) (1) e lim P n j n 2 j 2t 2 j 2 K (t ) – распределение Колмогорова. t P Dn K (t ) n Используя теорему Колмогорова можно построить доверительный интервал для теоретической функции распределения. t t | x | : P Fn ( x) F ( x) Fn ( x) [0,1] n , n 20 . n n K (t ) ( – квантиль распределения Колмогорова) И для эмпирической функции распределения: t t | x | : P F0 ( x) Fn ( x) F 0( x) n n 3.4. Непараметрическое оценивание плотности распределения 3.4.1. Гистограмма Разобьем область определения на n интервалов. x0 x1 x2 ... xk ni – количество наблюдений на xi , xi 1 ni n xi 1 xi x Рис. Гистограмма Высота определяется из условия нормировки: ni nx x i 1 i i n xi 1 xi i i n n 1 n Гистограмма довольно грубый способ оценивания плотности распределения, связанный с неопределенностью выбора k , границ интервалов, потерей информации при группировании. 3.4.2. Ядерные оценки плотности и эмпирической функции распределения. Пусть g (t ) – колоколообразная (ядерная) функция, удовлетворяющая условиям: g (t ) g (t ) g (t )dt 1 t g (t )dt 1 2 3 t g (t )dt ;0 m m и lim n 0 ; lim nn тогда функцию плотности можно оценить: n n 1 n x xi fˆn ( x) g nn i 1 n при n ; fˆn ( x) f ( x) функцию распределения: 1 n x xi Fˆn ( x) G n i 1 n n – параметр размытости ядерной функции. Основное преимущество «ядерных» оценок состоит в том, что они непрерывны, в отличии от эмпирической функции распределения и гистограмм. x G ( x) g ( x)dt 3.5. Задачи Пусть X 1 , X 2 ,..., X n - выборка из равномерного распределения на отрезке [a, b] , a b , причем значение параметра a известно. Какие из перечисленных ниже функций являются статистиками? а) 2 X , г) X , ж) 199, б) X ( n) a n , д) X 1 (b a ) , з) X 1 X 3 1 , в) (a b) 2 , е) n Xi , i 1 и) X (1) . Пусть X 1 , X 2 ,..., X n – выборка из нормального распределения с параметрами a и 2 . а) Вычислить математическое ожидание и дисперсию статистики X . б) Вычислить математическое ожидание статистик S 2 и S02 . Пусть X1 , X 2 ,..., X n – выборка из распределения Пуассона с параметром . Вычислить математическое ожидание и дисперсию статистики X . Имеет ли статистика X распределение Пуассона? Нормальное распределение? Пусть X 1 , X 2 ,..., X n – выборка из равномерного распределения на отрезке [a, b] , a b . Вычислить математическое ожидание и дисперсию статистики X . Имеет ли статистика X равномерное распределение? Нормальное распределение? Для выборки из распределения F с плотностью f найти функцию распределения а) максимального члена вариационного ряда X ( n) , б) минимального члена вариационного ряда X (1) , в) k -й порядковой статистики X ( k ) . Для выборки из распределения F с плотностью f найти плотность распределения а) максимального члена вариационного ряда X ( n) , б) минимального члена вариационного ряда X (1) , в) k -й порядковой статистики X ( k ) . Для выборки из равномерного распределения на [0, ] найти математическое ожидание и дисперсию а) максимального члена вариационного ряда X ( n) , б) минимального члена вариационного ряда X (1) , 4 в) k -й порядковой статистики X ( k ) . Пусть 3; 0; 4; 3; 6; 0; 3; 1; 2; 1 – наблюдавшиеся значения выборки. Построить эмпирическую функцию распределения. Решение: Объем выборки равен n 10 . Упорядочим выборочные значения по возрастанию: 0; 0; 1; 1; 2; 3; 3; 3; 4; 6 . Рис. Название? (Эмпирическая функция распределения Пусть 0,8; 2,9; 4,3; 5, 7; 1,1; 3, 2 – наблюдавшиеся значения выборки. Построить эмпирическую функцию распределения и проверить, что Fn (5) 1 6 , Fn (0) 1 2 , Fn (4) 5 6 . Найти, по крайней мере, две выборки разных объемов, которым соответствует следующая эмпирическая функция распределения: Рис. Название?(Эмпирическая функция распределения) Пусть a 0 и b – два фиксированных действительных числа. Пусть Fn ( x ) – эмпирическая функция распределения, построенная по выборке X 1 , X 2 ,..., X n , а Gn ( x ) – эмпирическая функция распределения, построенная по выборке Y1 , Y2 ,..., Yn , x b где Yi aX i b . Доказать, что при всех x имеет место равенство Gn ( x) Fn . a Пусть Fn ( x ) – эмпирическая функция распределения, построенная по выборке X 1 , X 2 ,..., X n , а Gn ( x ) – эмпирическая функция распределения, построенная по выборке Y1 , Y2 ,..., Yn того же объема. Является ли эмпирической функцией распределения функция ( Fn ( x) Gn ( x )) / 2 ? Если «да», то какой выборке она соответствует? Для выборки из распределения F найти математическое ожидание и дисперсию статистики Fn ( y ) . Указание: задачу можно решить двумя способами. Первым способом – воспользоваться равенством nk k P Fn ( y ) Cnk F k y 1 F y , вторым способом – воспользоваться определением эмпирического распределения. n 5 3.6. Лабораторный практикум П р им ер 1 . Восстановление плотности распределения с помощью ядерных функций (оценок Розенблата-Парзена). Экспериментальный подбор параметра размытости. Используя программу isw: Сгенеририруем выборку объема n из распределения минимального значения. Построим ядерную оценку плотности при разных значениях параметра размытости. (формат?)Сгенерированы выборки n 100, 500, 1000, 5000 . Для n 100 лучшее значение параметра размытости 0.37 Картинки выходят за границы документа!!! Для n 500 лучшее значение параметра размытости 0.32 6 Для n 1000 лучшее значение параметра размытости 0.28 7 Для n 5000 лучшее значение параметра размытости 0.22 8 Вы во ды : При изменении параметра размытости для выборки одного объема выявлена следующая закономерность: при увеличении график ядерной оценки становится более гладким. 9