ЛАБОРАТОРНАЯ РАБОТА №1
Тема работы: Анализ эмпирических распределений. Числовые характеристики выборки.
Цель работы: Научиться выполнять группировку данных и оформлять результаты
обработки эмпирической выборки графически (в виде полигона, гистограммы, эмпирической
функции распределения). Научиться вычислять числовые характеристики выборки
(показатели положения, разброса и формы распределения), используя приведенные в
теоретическом описании формулы и встроенные функции системы Mathcad.
Задание: По заданной эмпирической выборке оценить плотность распределения
вероятностей и функцию распределения генеральной совокупности, т.е. построить
гистограмму, полигон, эмпирическую функцию распределения и полигон накопленных
частот. Сравнить (изобразив на одном графике) эмпирическое и указанное в задании
теоретическое распределения вероятностей. Используя функцию Колмогорова, построить
95%-ную доверительную область («полосу») для функции распределения.
Вычислить выборочные характеристики (среднее, медиану, моду, дисперсию,
стандартное отклонение, коэффициент асимметрии, эксцесс). Сравнить вычисления по
приведенным в теоретическом описании формулам и встроенным функциям пакета Mathcad.
Теоретическая часть
Построение эмпирических распределений.
Оценка плотности вероятностей и функции распределения
Просматривая результаты наблюдений (измерений) трудно заметить какую-либо
закономерность в их изменении. Выявить такие закономерности позволяют статистические
методы.
Предварительная статистическая обработка опытных данных начинается обычно с
того, что их располагают в порядке возрастания (точнее, неубывания). Упорядоченная таким
образом выборка называется вариационным рядом, а сама процедура упорядочения –
ранжированием (или сортировкой) опытных данных.
Наглядной формой графического представления эмпирических данных является
гистограмма, полигон, эмпирическая функция распределения и полигон накопленных частот.
При этом гистограмма и полигон относительных частот аппроксимируют неизвестную
плотность распределения, а эмпирическая функция распределения и полигон накопленных
относительных частот – интегральную функцию распределения генеральной совокупности.
Построение гистограммы (полигона) позволяет обоснованно выдвигать гипотезы о законе
распределения обрабатываемых экспериментальных данных. Зная закон распределения
наблюдаемой случайной величины можно решать многие практические задачи, связанные с
обработкой результатов измерений, контролем качества продукции, оценкой эффективности
и стабильности технологических процессов.
При непрерывном распределении случайной величины X эмпирическая плотность
распределения вероятностей может быть изображена в виде гистограммы или полигона
относительных частот. Для этого должна быть выполнена группировка значений выборки,
которая состоит в следующем.
Весь интервал x min , xmax  , в котором заключены элементы выборки, разбивается на
ряд частичных непересекающихся интервалов (разрядов) ai ,bi  длины h и подсчитывается
число элементов выборки ni , попавших в i -й интервал i  1,2 , , m . Параллельно
вычисляется и относительная частота wi  ni / n . При графическом изображении
гистограммы и полигона каждый интервал удобнее представлять не двумя границами ai и
bi , а одним значением xi  ai  h / 2 - серединой интервала.
Гистограммой частот называется ступенчатая фигура, состоящая из
прямоугольников, основаниями которых служат частичные интервалы длины h , а высоты
равны отношению ni / h (плотность частоты). Площадь частичного i -го прямоугольника
равна hni / h  ni - числу выборочных элементов, попавших в i -й интервал. Площадь
гистограммы частот равна объему выборки n .
Полигон частот – это ломаная линия, получающаяся при соединении точек с
координатами xi , ni / h , т.е. соединяются середины верхних сторон прямоугольников
гистограммы.
Аналогично определяется гистограмма и полигон относительных частот.
Для гистограммы относительных частот площадь частичного i -го прямоугольника
равна hwi / h   wi -относительной частоте элементов, попавших в i -й интервал. Площадь
гистограммы относительных частот равна сумме всех относительных частот, т. е. единице.
При достаточно большом объеме выборки высоты построенных прямоугольников дают
приближенные значения плотности распределения f x  в средних точках xi интервалов
ai ,bi  . Гистограмма – кусочно-постоянная аппроксимация (неизвестной) плотности
распределения генеральной совокупности.
Полигон относительных частот – это ломаная линия, соединяющая точки x1 ,w1 / h ,
x2 ,w2 / h ,…, xm , wm / h , где xi - середины интервалов группирования, wi соответствующие им относительные частоты. Полигон – кусочно-линейная аппроксимация
плотности распределения генеральной совокупности.
Наглядное представление об интегральной функции распределения дают
эмпирическая функция распределения и полигон накопленных относительных частот.

Эмпирической (выборочной) функцией распределения называется функция F x  ,
определяющая для каждого значения x относительную частоту события X  x . Строится
она так. Для данного числа x подсчитывается число элементов вариационного ряда x i  ,
меньших x и делится на объем выборки:
x  xmin  x1
0,


k
Fn  x    , xk   x  xk 1 , k  1,2, ,n  1,
n
x  xmax  xn 
1,
Используя функцию единичного скачка
0, u  0
,
H u   
1, u  0
формулу для эмпирической функции распределения можно записать более компактно

1 n
Fn x    H x  xi   .
n i 1
Полигон накопленных частот – это график ломаной линии, соединяющей точки
k
m
x1 ,n1  , x2 ,n1  n2 , … ,  xk , ni  , … ,  xm , ni  ,
i 1
i 1




c абсциссами, равными правым границам интервалов группирования, и ординатами,
равными накопленным частотам.
Аналогично, полигон накопленных относительных частот – это ломаная линия,
получающаяся соединением точек с координатами
k
m
x1 , w1  , x2 , w1  w2  , … ,  xk , wi  , … ,  bm , wi  1 .
i 1
i 1




В математической статистике доказывается, что гистограмма и полигон
относительных частот являются состоятельными оценками плотности распределения, а
полигон накопленных относительных частот (или эмпирическая функция распределения) –
состоятельной оценкой истинной функции распределения генеральной совокупности. При
этом, чем больше объем выборки, тем мельче можно взять интервалы разбиения h и тем
точнее гистограмма и эмпирическая функция распределения будут аппроксимировать
соответствующие теоретические распределения.
Число интервалов группирования эмпирических данных m существенно влияет на
вид гистограммы. Четких рекомендаций на этот счет не существует, ясно лишь то, что это
число не должно быть «очень малым» или «очень большим». Для выборок среднего объема
(несколько сотен элементов) число интервалов обычно выбирают в диапазоне 8 – 12.
Согласно рекомендации ВНИИ Метрологии им. Д.И. Менделеева в зависимости от объема
выборки n число интервалов группирования m следует выбирать согласно таблице
n
m
40 – 100 100 – 500 500 – 1000 1000 – 10000
7–9
8 – 12
10 – 16
12 – 22
Часто в литературе по математической статистике для выбора оптимального значения
m рекомендуется формула
m  1  3.32 lg n  1  log 2 n  1  1.44 ln n ,
записанная с использованием десятичного, двоичного или натурального логарифма; или
формула
m  5 lg n ,
где n - объем выборки. Существуют и иные рекомендации. Однако все рекомендуемые
формулы не имеют строгого обоснования и дают лишь ориентировочное количество
интервалов m , которое при желании может быть изменено в ту или другую сторону.
При определении диапазона возможных значений параметра m можно
ориентироваться на формулы
mmin  0.55n 0.4 ,
mmax  1.25n 0.4 ,
дающие оценки минимального и максимального значения данного параметра. В качестве
оптимального значения m рекомендуется выбирать целое число из интервала mmin , mmax .
Обычно в этот интервал попадает несколько целых чисел; после построения гистограмм для
каждого из этих чисел, «оптимальное» значение параметра m определяется визуально. Для
симметричных распределений в качестве значения m рекомендуется выбирать нечетное
целое число из интервала mmin , mmax .
После определения m вычисляется длина интервалов группирования
x  x min
h  max
,
m
и производятся все дальнейшие вычисления, необходимые для построения гистограммы,
полигона и эмпирической функции распределения.
Доверительная область для функции распределения, соответствующая уровню
доверия p  1   , определяется неравенствами


z
z
Fn  x     F  x   Fn  x    .
n
n
Эти неравенства выполняются сразу для всех значений x с вероятностью, близкой к
p  1   . Данный результат следует из теоремы Колмогорова А.Н., доказываемой в курсе
теории вероятностей. Здесь z - корень уравнения (квантиль функции распределения
Колмогорова)
(1)
K z    1   ,
а K z  - функция (распределения) Колмогорова, определяемая абсолютно сходящимся
функциональным рядом z  0

K z   1  2  1
n 1


exp  2n 2 z 2 .
(2)
n 1
Этот ряд сходится крайне неравномерно, поэтому для достижения одной и той же точности
при различных значениях z приходится сохранять различное количество членов ряда (2).
Оценки показывают следующее. Чтобы обеспечить точность вычисления функции K z 
порядка 10-6 в окрестности точки z  1 достаточно сохранить три члена ряда, при z  0.1 уже
около 30 членов, а при z  0.001 около 2700 членов ряда. Таким образом, когда z  0 ,
количество членов ряда растет пропорционально z 1 . Но поскольку нас интересует только
решение уравнения (1) при малых значениях  , когда K z   1 и z  1 , функцию (2) для
наших целей можно записать в виде
N
K  z   1  2  1
n 1


exp  2n 2 z 2 ,
3  N  5,
(3)
n 1
сохранив в сумме всего три – пять слагаемых.
Когда вероятность p  1   близка к единице, квантиль функции распределения
Колмогорова можно определить, не решая уравнение 1, по следующей приближенной
формуле:
1 
z    ln   .
2 2
Вычисление эмпирических параметров
Числовые характеристики выборки вычисляются по следующим формулам:
- эмпирическое (выборочное) среднее
1 n
x   xi ;
n i 1
- выборочная дисперсия
1 n
1 n
1 n
2
2
S 2    xi  x    xi2  x 2 , или s 2 
 xi  x  ;
n i 1
n i 1
n  1 i 1
- стандартное отклонение
S
1 n
xi  x 2 , или

n i 1
s
1 n
xi  x 2 ;

n  1 i 1
(4)
(5)
(6)
- размах выборки
R  xmax  xmin ;
- эмпирический центральный момент k -го порядка
1 n
1 n


k
k
 k   xi  x  , или  k 
 xi  x  ;
n i 1
n  1 i 1
- эмпирические коэффициенты асимметрии и эксцесса


  4
3
A   3/ 2 ,
E  2 3.
2
2
(7)
(8)
(9)
Несмещенные оценки коэффициентов асимметрии и эксцесса вычисляются по формулам:

 nn  1M 4  3n  1M 22
nM 3
,
,
(10)
A
E

n  1n  2s 3
n  1n  2n  3s 4
где
n
M k    xi  x  ,
k
k  2 ,3,4 .
i 1
Вторая формула (5) дает несмещенную оценку дисперсии s 2 , но, несмотря на это, после
извлечения квадратного корня (формула (6)) получается смещенная (несколько

преуменьшенная) оценка для среднеквадратичного отклонения. Несмещенная оценка 
получается после введения поправочного коэффициента C n  , зависящего от объема
выборки:
 n 1


n 1  2 

,
(11)
C n  
  C n   s ,
2
n
 
2
где u  - гамма-функция Эйлера. Использовать эту формулу имеет смысл лишь при малом
объеме выборки, поскольку множитель C n  при больших значениях n приблизительно
равен единице и очень слабо изменяется с ростом n : C 5  1.064 ; C 10   1.028 ;
C 50   1.005 ; C 200   1.001 .
Отметим, что оценки математического ожидания и дисперсии x и s 2 являются
несмещенными оценками при произвольных распределениях, оценка стандартного
отклонения (11) может быть смещенной при распределениях, отличных от нормального
распределения.
Порядок выполнения задания
1. Присвойте переменной ORIGIN значение равное единице.
2. Из файла с именем «Lab1 Nx», где N – номер варианта задания, считайте исходные
данные и разместите их в массиве Х.
3. С помощью встроенной функции length (X) определите объем выборки – n .
4. Определите максимальное и минимальное значения и размах выборки.
5. Выполните операцию ранжирования выборки.
6. Задайте (или вычислите) число m интервалов группирования данных.
7. Вычислите характеристики интервалов группированной выборки: h , ai , bi , xi .
8. Определите с помощью встроенной функции hist(x,X) массив значений (вектор)
относительных частот.
9. Постройте гистограмму и полигон относительных частот, используя различные стили
графического оформления результатов.
10. Сравните гистограмму (полигон) с теоретической плотностью вероятностей.
11. Определите оптимальное значение количества интервалов группированной выборки
m ; все дальнейшие вычисления проводите при этом значении m .
12. Определите массив (вектор) относительных накопленных частот.
13. Постройте графики эмпирической функции распределения по исходной и
группированной выборке, сравните результаты.
14. Сравните эмпирическое и теоретическое распределения (изобразив на одном графике
эмпирические полигоны частот и указанное в задании распределение).
15. Вычислите все указанные в задании числовые характеристики выборки с
использованием формул (4) – (11) и встроенных функций системы Mathcad. Сравните
результаты вычислений.
16. Используя квантиль z распределения Колмогорова, постройте доверительную
область для эмпирической функции распределения. Обратите внимание на то, как
изменяется «ширина» доверительной области с изменением  .
17. Сформулируйте выводы по проделанной работе.
18. Сохраните рабочий документ.
При определении оптимального значения количества интервалов группированной выборки
m (пункт 11.) можно воспользоваться приведенной ниже Маткад-программой Gist(X,m)
(или аналогичной программой, составленной самостоятельно). Параметры этой программы:
X – массив, содержащий числовые значения элементов выборки, m – количество интервалов
группировки данных.
Gist( X m)  n  length ( X )
X  sort ( X )
R  max( X )  min( X )
X1  min( X )  0.01 R
X2  max( X )  0.01 R
X2  X1
 
m
for i  1  m  1
x  X1    ( i  1)
i
for i  1  m
x x
xc 
f
i 1
i
i
2
hist ( xX )
n 
f 
 
 xc 
Обратившись к этой программе с различными значениями параметра m и построив
соответствующие графики, оптимальное значение m можно определить визуально, «на
глаз». Проделав эту работу, сравните полученное вами оптимальное значение с
приведенными выше рекомендациями.