Выравнивание статистических
рядов
Во всяком статистическом распределении неизбежно
присутствуют элементы случайности, связанные с тем, что
число наблюдений ограничено, что произведены именно те,
а не другие опыты, давшие именно те, а не другие
результаты.
Только при очень большом числе наблюдений эти
элементы случайности сглаживаются, и случайное явление
обнаруживает в полной мере присущую ему
закономерность. На практике мы почти никогда не имеем
дела с таким большим числом наблюдений и вынуждены
считаться с тем, что любому статистическому распределению
свойственны в большей или меньшей мере черты
случайности.
Поэтому при обработке статистического материала
часто приходится решать вопрос о том, как подобрать для
данного статистического ряда теоретическую кривую
распределения, выражающую лишь существенные черты
статистического материала, но не случайности, связанные с
недостаточным объемом экспериментальных данных.
Такая задача называется задачей выравнивания
(сглаживания) статистических рядов.
Задача выравнивания заключается в том, чтобы
подобрать теоретическую плавную кривую
распределения, с той или иной точки зрения
наилучшим образом описывающую данное
статистическое распределение
Принципиальный вид теоретической кривой
выбирается заранее из соображений, связанных
с существом задачи, а в некоторых случаях
просто с внешним видом статистического
распределения. Аналитическое выражение
выбранной кривой распределения зависит от
некоторых параметров; задача выравнивания
статистического ряда переходит в задачу
рационального выбора тех значений
параметров, при которых соответствие между
статистическим и теоретическим
распределениями оказывается наилучшим.
Предположим, например, что исследуемая
величина
есть
ошибка
измерения,
возникающая
в
результате
суммирования
воздействий
множества
независимых
элементарных ошибок; тогда из теоретических
соображений можно считать, что величина
подчиняется нормальному закону:
и задача выравнивания переходит в задачу о
рациональном выборе параметров и .
Бывают случаи, когда заранее известно, что
величина
распределяется
статистически
приблизительно равномерно на некотором
интервале; тогда можно поставить задачу о
рациональном выборе параметров того закона
равномерной плотности
которым можно наилучшим образом заменить
(выровнять)
заданное
статистическое
распределение.
Следует при этом иметь в виду, что любая аналитическая
функция
, с помощью которой выравнивается
статистическое распределение, должна обладать основными
свойствами плотности распределения:
Плотность
функцией.
распределения
является
неотрицательной
Несобственный интеграл от плотности распределения в
пределах интегрирования по всей числовой оси равен
единице:
Это равенство означает достоверность события, что
случайная величина Х примет значение, принадлежащее
интервалу (- , ), т. е. вероятность этого события Р(- < Х <
) = 1.
Предположим, что, исходя из тех или иных
соображений, нами выбрана функция
,
удовлетворяющая вышеописанным условиям, с
помощью корой мы хотим выровнять данное
статистическое распределение; в выражение этой
функции входит несколько параметров
;
требуется подобрать эти параметры так, чтобы
функция
наилучшим образом описывала
данный статистический материал. Один из
методов, применяемых для решения этой задачи, это так называемый метод моментов.
Моменты распределения
Моменты распределения. Понятия математического
ожидания и дисперсии являются частными случаями
более общего понятия для числовых характеристик
случайных
величин
– моментов
распределения.
Моменты распределения случайной величины вводятся
как математические ожидания некоторых простейших
функций от случайной величины. Так, моментом
порядка k относительно
точки
х0
называется
математическое
ожидание
М ( Х – х0)k .
Моменты
относительно
начала
координат х = 0 называются начальными моментами и
обозначаются:
Начальный момент первого порядка есть центр
распределения рассматриваемой случайной величины:
Моменты
относительно
распределения х = m называются центральными
моментами и обозначаются:
центра
Центральный момент первого порядка всегда равен
нулю:
Начальный момент первого порядка есть центр
распределения рассматриваемой случайной величины:
Моменты
относительно
распределения х = m называются центральными
моментами и обозначаются:
центра
Центральный момент первого порядка всегда равен
нулю:
Центральные моменты не зависят от начала отсчета
значений случайной величины, так как при сдвиге на
постоянное
значение С ее
центр
распределения
сдвигается на то же значение С, а отклонение от центра
не
меняется: Х – m =
(Х – С)
–
(m – С).
Теперь очевидно, что дисперсия – это центральный
момент второго порядка:
Асимметрия. Центральный момент третьего порядка:
служит для оценки асимметрии распределения. Если
распределение симметрично относительно точки х = m,
то центральный момент третьего порядка будет равен
нулю (как и все центральные моменты нечетных
порядков). Поэтому, если центральный момент третьего
порядка отличен от нуля, то распределение не может
быть симметричным. Величину асимметрии оценивают с
помощью безразмерногокоэффициента асимметрии:
Знак коэффициента асимметрии указывает на
правостороннюю или левостороннюю асимметрию
Эксцесс. Центральный момент четвертого порядка:
служит для оценки так называемого эксцесса,
определяющего степень крутости (островершинности)
кривой распределения вблизи центра распределения по
отношению к кривой нормального распределения. Так
как для нормального распределения
качестве эксцесса принимается величина:
, то в
Мода дискретной случайной величины – это ее наиболее
вероятное значение. Модой непрерывной случайной величины
называется ее значение, при котором плотность вероятности
максимальна. Если кривая распределения имеет один максимум,
то распределение называется унимодальным. Если кривая
распределения имеет более одного максимума, то распределение
называется полимодальным. Иногда встречаются распределения,
кривые которых имеют не максимум, а минимум. Такие
распределения называются антимодальными. В общем случае
мода и математическое ожидание случайной величины не
совпадают. В частном случае, для модального, т.е. имеющего
моду, симметричного распределения и при условии, что
существует математическое ожидание, последнее совпадает с
модой и центром симметрии распределения.
Медиана случайной величины Х – это ее значение Ме , для
которого имеет место равенство:
т.е.
равновероятно, что случайная величина Х окажется меньше или
больше Ме. Геометрически медиана – это абсцисса точки, в
которой площадь под кривой распределения делится пополам. В
случае симметричного модального распределения медиана, мода
и математическое ожидание совпадают.
Согласно методу моментов, параметры
выбираются с
таким расчетом, чтобы несколько важнейших числовых
характеристик (моментов) теоретического распределения
были равны соответствующим статистическим
характеристикам.
Например, если теоретическая кривая
зависит только
от двух параметров и , эти параметры выбираются так,
чтобы
математическое
теоретического
соответствующими
ожидание
распределения
статистическими
и
дисперсия
совпадали
с
характеристиками
и
. Если кривая
зависит от трех параметров,
можно подобрать их так, чтобы совпали первые три
момента и т.д.
Пример. 1.
В табл.
приведено статистическое
распределение боковой ошибки наводки
при стрельбе с
самолета по наземной цели. Требуется выровнять это
распределение с помощью нормального закона:
.
-4; -3
-3; -2
-2; -1
-1; 0
0; 1
1; 2
2; 3
3; 4
6
25
72
133
120
88
46
10
0,012
0,050
0,144
0,266
0,240
0,176
0,092
0,020
Нормальный закон зависит от двух параметров:
и .
Подберем эти параметры так, чтобы сохранить первые два
момента – математическое ожидание и дисперсию –
статистического распределения
• На практике для вычисления числовых
характеристик случайных статистических величин
применяют следующий прием: используются те же
разрядамы, на которые был расклассифицирован
статистический материал для построения
статистического ряда или гистограммы, и считают
приближенно значение случайной величины в
каждом разряде постоянным и равным среднему
значению, которое выступает в роли
«представителя» разряда. Тогда статистические
числовые характеристики будут выражаться
приближенными формулами:
Пример 2. С целью исследования закона распределения ошибки измерения
дальности с помощью радиодальномера произведено 400 измерений
дальности. Результаты опытов представлены в виде статистического ряда:
0,140
Закон равномерной плотности выражается формулой
и зависит от двух параметров и . Эти параметры следует выбрать
так, чтобы сохранить первые два момента статистического распределения –
математическое ожидание
и дисперсию
.
Выражения математического ожидания и дисперсии для закона равномерной
плотности:
Критерии согласия
Определяют
меру
расхождения,
фактически
наблюденную для полученного статистического
материала v. Если она достаточно велика, например
0,8-0,9 и более, то очевидно, что отличие от
теоретического закона получилось только за счет
малого числа испытаний п, и следовательно, гипотеза
о законе распределения вероятностей, принятая
ранее, правдоподобна. Если же вероятность для V = v
мала (0,1-0,2 и менее), то это означает, что отличия от
теоретического закона вызваны неверной гипотезой
Но. Возникает вопрос: как же выбирать меру
расхождения V ? Оказывается эта мера и есть критерий
согласия.
• Общим для всех критериев согласия является то, что по своей сущности
•
•
•
•
они отрицательны, т.е. они основаны на так называемом принципе
невозможности маловероятных событий. Мы говорили о нем. Если при
определенных условиях вероятность появления какого-либо события
очень
мала, то при однократном осуществлении этого события можно быть
практически уверенным, что это событие не произойдет, т.е. считать его
практически невозможным.
С
принципом
невозможности
маловероятных
событий тесно связано понятие уровня значимости а .
Так, если а =5%, то мы считаем практически невозможным событие,
которое может появиться в среднем 5 раз из 100 испытаний.
Если а=1%, то практически невозможное событие - это то событие,
которое теоретически возможно только в одном случае из 100.
На практике в задачах электроэнергетики наиболее часто применяются
следующие критерии согласия: Пирсона, Колмогорова, Романовского и
критерий серий.
Критерий Пирсона
Карл Пирсон
Karl (Carl) Pearson
При больших
закон распределения величины обладает
весьма простыми свойствами: он практически не зависит от
функции распределения
и от числа опытов , а именно,
этот закон при увеличении
приближается к так
называемому «распределению
».
Среди школьников с 1 по 7 класс в течение двух недель
проводился опрос об удовлетворенности собственными
оценками.
Можно ли считать, что эмпирическое распределение на первой
неделе
исследования
согласуется
с
эмпирическим
распределением на второй неделе исследования, т.е. структура
удовлетворенности ответами учащихся сохранилась в течение
данного времени?
Номер возрастного интервала
(соответствует классу)
Число удовлетворенных оценками в
первую неделю исследования
Число удовлетворенных оценками на
второй неделе исследования
1
16
17
2
13
13
3
8
9
4
11
9
5
4
3
6
3
4
7
3
3
Пример. 1. В табл.
приведено статистическое
распределение боковой ошибки наводки
при стрельбе с
самолета по наземной цели. Требуется выровнять это
распределение с помощью нормального закона:
.
-4; -3
-3; -2
-2; -1
-1; 0
0; 1
1; 2
2; 3
3; 4
6
25
72
133
120
88
46
10
0,012
0,050
0,144
0,266
0,240
0,176
0,092
0,020
–3;–2
25
26,2
–2;–1
72
71,2
–1;0
133
122,
0;1
120
131,8
1;2
88
90,5
2;3
46
38,5
3;4
10
10,5
–4;–3
6
6,2
Критерии А.Н. Колмогорова
Данный критерий также позволяет оценить
существенность различий между двумя выборками, в
том числе возможно его применение для сравнения
эмпирического распределения с теоретическим.
В качестве меры расхождения между теоретическим
и статистическим распределениями А.Н. Колмогоров
рассматривает максимальное значение модуля
разности между статистической функцией
распределения
и соответствующей
теоретической функцией распределения:
.
Какова бы ни была функция распределения
непрерывной случайной величины , при
неограниченном возрастании числа независимых
наблюдений вероятность неравенства
стремится к пределу
При изучении творческой активности студентов были
получены
результаты
для
экспериментальных
и
контрольных групп (см. таблицу). Являются ли значимыми
различия между контрольной и экспериментальной
группами?
Уровень усвоения
Частота в
экспериментальной
группе
Частота в контрольной
группе
Хороший
172 чел.
120 чел.
Приблизительный
36 чел.
49 чел.
Плохой
15 чел.
36 чел.
Объём выборки
n1=172+36+15=223
n2=120+49+36=205