Глава 3. Выборочный метод в статистике
3.1. Выборка. Выборочный метод
Пусть X n   X 1 ,..., X n  - выборка объема n, полученная в результате наблюдения случайной величины  , имеющей
распределение F  x  .
Будем считать, что
 наблюдения
независимы
X 1 ,..., X n
и
имеют
одно
и
то
же
распределение
F  x  . Следовательно
FX n  x1 ,...xn   F  x1  F  x2   ...  F  xn  , и нам не важен порядок следования наблюдений.
 Множество возможных значений  [с распределениями
F ] образуют генеральную совокупность L   , которой
принадлежит выборка X n .
F  F  F  x,  ,   – параметрическая статическая модель. Параметр  может быть как скалярным, так и

векторным.
3.2. Порядковые статистики и вариационный ряд
Упорядочим все наблюдения в выборке и произведем их перенумерацию: X 1  X  2  X  3  ...  X  n  – вариационный
ряд.
Опр ед еле ни е
Величина X  i  называется i -ой порядковой статистикой.
Опр ед еле н и е
Статистикой называется любая измеримая функция от выборки, которая, в свою очередь, также является случайной величиной или
случайной функцией.
Найдем распределение i -ой порядковой статистики.
Введем вспомогательную случайную функцию: n  x  - количество наблюдений не превосходящих x .


Найдем P n  x   k .
x
Xi
Рис. Нахождение вероятности P
  x   k 
n
Событие n  x   k означает, что в интервал  , x  попало k наблюдений, а в
 x,   –  n  k  .
Число
равно
способов,
которыми
можно
P n  x   k   Cnk F k  x  1  F  x  

выбрать
k
элементов
из
n
Cnk .в
результате
получаем:
nk

P X i   x  P n  x   i  P n  x   i  n  x   i  1  ...   n  x   n 
n
  P n  x   k    Cnk F  x  1  F  x  
k
nk
.
k i
1
3.3. Эмпирическая функция распределения.
Функция
Fn  x  
n  x 
n
называется эмпирической функцией распределения. По определению эмпирическая функция
распределения является случайной функцией; x  R , Fn  x  – дискретная случайная величина, принимающая значения
0 1 2
n 1 n
0  , , ,...,
, 1
n n n
n n


при этом P  Fn  x  
nk
k
k
k
  P n  x   k   Cn F  x  1  F  x   .
n
Если все X i (наблюдения в выборке) различны, то
0, x  X 1

k
Fn  x    , X  k   x  X  k 1 , k  1,..., n  1
n
1, x  X  n 

или Fn  x  
0, x  0
1 n
– функция Хевисайда (единичного скачка).
h  x  xi  , где h  x   

n i 1
1, x  0
Тео р ема 3 .1 .
Fn  x 
Пусть
–
эмпирическая
функция

распределения
случайной
величины

  F .
Тогда
 x  ,   0 lim P Fn  x   F  x     1
n 
Доказательство:
З.Б.Ч. (теорема Бернулли)
i – независимы, одинаково распределенные, Mi  a то
1
P
i 
a , при n  

n
 1


 P  n i  a     1;   0, n   

 

Введем
случайную
величину
0, xi  x
,
1, xi  x
i  h  x  xi   
найдем
ее
математическое
ожидание
Mi  Mh  x  xi   1 P  xi  x  0  P  xi  x  F  x  подставим в З.Б.Ч. получим условия теоремы. 
Таким образом, при
n   эмпирическая функция распределения Fn  x  является оценкой теоретической функции
распределения F  x  .
Введем статистику Dn  sup | Fn ( x)  F ( x) |
| x|
Тео р ема 3 .2 . ( Гл иве н к о - Ка нт ел л и)




P lim sup | Fn ( x)  F ( x) | 0   1 или P lim Dn  0  1
n  | x| 
n 


Тео р ема 3 .3 . ( Ко л мо г о р о в)
 nD  t  K (t )   (1) e

lim P
n 
j
n
2 j 2t 2
j 
2
K (t ) – распределение Колмогорова.
t 

P  Dn 
  K (t )
n

Используя теорему Колмогорова можно построить доверительный интервал для теоретической функции распределения.
t
t 

 | x |  : P  Fn ( x)    F ( x)  Fn ( x)       [0,1] n   , n  20 .
n
n

K (t )   (  – квантиль распределения Колмогорова)
И для эмпирической функции распределения:
t
t 

 | x |  : P  F0 ( x)    Fn ( x)  F 0( x)     
n
n

3.4. Непараметрическое оценивание плотности распределения
3.4.1. Гистограмма
Разобьем область определения на n интервалов.
  x0  x1  x2  ...  xk  
ni – количество наблюдений на  xi , xi 1   ni  n
xi 1
xi
x
Рис. Гистограмма
Высота определяется из условия нормировки:
ni
 nx  x 
i 1
i
i
n
 xi 1  xi   i
i
n

n
1
n
Гистограмма довольно грубый способ оценивания плотности распределения, связанный с неопределенностью выбора k ,
границ интервалов, потерей информации при группировании.
3.4.2. Ядерные оценки плотности и эмпирической функции
распределения.
Пусть g (t ) – колоколообразная (ядерная) функция, удовлетворяющая условиям:
g (t )  g (t )

 g (t )dt  1


 t g (t )dt  1
2

3

 t g (t )dt  ;0  m  
m

и lim n  0 ; lim nn   тогда функцию плотности можно оценить:
n 
n 
1 n  x  xi 
fˆn ( x) 

g
nn i 1  n 
при n   ; fˆn ( x)  f ( x)
функцию распределения:
1 n  x  xi 
Fˆn ( x)   G 

n i 1  n 
n – параметр размытости ядерной функции.
Основное преимущество «ядерных» оценок состоит в том, что они непрерывны, в отличии от эмпирической функции
распределения и гистограмм.
x
G ( x)   g ( x)dt

3.5. Задачи
Пусть X 1 , X 2 ,..., X n - выборка из равномерного распределения на отрезке [a, b] , a  b , причем значение параметра a
известно. Какие из перечисленных ниже функций являются статистиками?
а) 2 X ,
г) X ,
ж) 199,
б) X ( n)  a n ,
д) X 1 (b  a ) ,
з) X 1  X 3  1 ,
в) (a  b) 2 ,
е)
n
 Xi ,
i 1
и) X (1) .
Пусть X 1 , X 2 ,..., X n – выборка из нормального распределения с параметрами a и  2 .
а) Вычислить математическое ожидание и дисперсию статистики X .
б) Вычислить математическое ожидание статистик S 2 и S02 .
Пусть
X1 , X 2 ,..., X n – выборка из распределения Пуассона с параметром  . Вычислить математическое ожидание и
дисперсию статистики X . Имеет ли статистика X распределение Пуассона? Нормальное распределение?
Пусть X 1 , X 2 ,..., X n – выборка из равномерного распределения на отрезке [a, b] , a  b . Вычислить математическое
ожидание и дисперсию статистики X . Имеет ли статистика X равномерное распределение? Нормальное распределение?
Для выборки из распределения F с плотностью f найти функцию распределения
а) максимального члена вариационного ряда X ( n) ,
б) минимального члена вариационного ряда X (1) ,
в) k -й порядковой статистики X ( k ) .
Для выборки из распределения F с плотностью f найти плотность распределения
а) максимального члена вариационного ряда X ( n) ,
б) минимального члена вариационного ряда X (1) ,
в) k -й порядковой статистики X ( k ) .
Для выборки из равномерного распределения на [0, ] найти математическое ожидание и дисперсию
а) максимального члена вариационного ряда X ( n) ,
б) минимального члена вариационного ряда X (1) ,
4
в) k -й порядковой статистики X ( k ) .
Пусть
 3; 0; 4; 3; 6; 0; 3; 1; 2; 1
– наблюдавшиеся значения выборки. Построить эмпирическую функцию
распределения.
Решение: Объем выборки равен n  10 .
Упорядочим выборочные значения по возрастанию:  0; 0; 1; 1; 2; 3; 3; 3; 4; 6  .
Рис. Название? (Эмпирическая функция распределения
Пусть  0,8; 2,9; 4,3;  5, 7; 1,1;  3, 2  – наблюдавшиеся значения выборки. Построить эмпирическую функцию
распределения и проверить, что Fn (5)  1 6 , Fn (0)  1 2 , Fn (4)  5 6 .
Найти, по крайней мере, две выборки разных объемов, которым соответствует следующая эмпирическая функция
распределения:
Рис. Название?(Эмпирическая функция распределения)
Пусть a  0 и b – два фиксированных действительных числа. Пусть Fn ( x ) – эмпирическая функция распределения,
построенная по выборке X 1 , X 2 ,..., X n , а Gn ( x ) – эмпирическая функция распределения, построенная по выборке Y1 , Y2 ,..., Yn ,
 x b 
где Yi  aX i  b . Доказать, что при всех x имеет место равенство Gn ( x)  Fn 
.
 a 
Пусть Fn ( x ) – эмпирическая функция распределения, построенная по выборке X 1 , X 2 ,..., X n , а Gn ( x ) – эмпирическая
функция распределения, построенная по выборке Y1 , Y2 ,..., Yn того же объема. Является ли эмпирической функцией
распределения функция ( Fn ( x)  Gn ( x )) / 2 ? Если «да», то какой выборке она соответствует?
Для выборки из распределения F найти математическое ожидание и дисперсию статистики Fn ( y ) .
Указание: задачу можно решить двумя способами. Первым способом – воспользоваться равенством
nk
k

P  Fn ( y )    Cnk F k  y  1  F  y   , вторым способом – воспользоваться определением эмпирического распределения.
n

5
3.6. Лабораторный практикум
П р им ер 1 .
Восстановление плотности распределения с помощью ядерных функций (оценок Розенблата-Парзена). Экспериментальный подбор
параметра размытости.
Используя программу isw:
Сгенеририруем выборку объема n из распределения минимального значения.
Построим ядерную оценку плотности при разных значениях параметра размытости.
(формат?)Сгенерированы выборки n  100, 500, 1000, 5000 .
Для n  100 лучшее значение параметра размытости   0.37
Картинки выходят за границы документа!!!
Для n  500 лучшее значение параметра размытости   0.32
6
Для n  1000 лучшее значение параметра размытости   0.28
7
Для n  5000 лучшее значение параметра размытости   0.22
8
Вы во ды :
При изменении параметра размытости для выборки одного объема выявлена следующая закономерность: при увеличении 
график ядерной оценки становится более гладким.
9