1) ГИСТОГРАММЫ
1.1.Введение
Результаты сводки и группировки материалов статистического
наблюдения оформляются в виде таблиц и статистических рядов
распределения.
1.2.Краткие сведения из теории обработки наблюдений
Статистический ряд распределения представляет собой упорядоченное (по возрастанию или убыванию) расположение единиц изучаемой
совокупности по определенному признаку. Построение рядов распределения
является
составной
частью
сводной
обработки
статистической
информации.
В зависимости от признака, положенного в основу образования ряда
распределения, различают атрибутивные и вариационные ряды
распределения. Последние, в свою очередь, в зависимости от характера
вариации признака делятся на дискретные (прерывные) и интервальные
(непрерывные) ряды распределения.
Удобнее всего ряды распределения анализировать с помощью их
графического изображения, позволяющего судить о форме распределения.
Наглядное представление о характере изменения частот вариационного ряда
дают полигон и гистограмма распределения.
Полигон распределения используется для отображения атрибутивных и
дискретных вариационных рядов. При построении полигона в
прямоугольной системе координат по оси абсцисс в масштабе откладываются ранжированные значения варьирующего признака, а по оси ординат
наносится шкала частот (или частостей), т. е. число случаев, в которых
встретилось то или иное значение признака в абсолютных или
относительных единицах. Полученные на пересечении абсцисс и ординат
точки соединяют прямыми линиями, в результате чего получают ломаную
линию, называемую полигоном частот.
Например, в табл.1 представлено распределение жилого фонда
городского района по типу квартир. Построим полигон для данного
распределения.
Табл.1
Распределение жилого фонда городского района по типу
квартир
№п/п
Группы квартир по числу
Число квартир, тыс.ед. .
комнат
1
1
10
2
2
35
3
3
4
5
4
5
30
15
5
ВСЕГО
95
Для построения полигона используйте мастер диаграмм MS Excel
(режим «График»).
40
30
Ряд1
Ряд2
20
10
0
1
2
3
4
5
Полигон распределения построенный с помощью мастера диаграмм.
Для изображения интервальных вариационных рядов распределений
применяются гистограммы. При этом на оси абсцисс откладываются
значения интервалов, а частоты (частости) изображаются прямоугольниками,
построенными на соответствующих интервалах. В результате получается
гистограмма - график, на котором ряд распределения представлен в виде
смежных друг с другом областей.
На рис.1 показана построенная с помощью мастера диаграмм
гистограмма интервального ряда распределения, приведенного в табл. 2.
Табл.2
Распределение семей по размеру жилой площади,
приходящейся на одного человека
№ Размер жилой площади,
п/п приходящейся на
одного человека, м2
1
3-5
2
5-7
3
7-9
4
9-11
5
11-13
ВСЕГО
Число семей с данным размером
жилой площади
10
20
40
30
15
115
Число семей нарастающим
итогом
10
30(10 + 20)
70(30+40)
100(70 + 30)
115(100+15)
45
40
35
30
25
20
15
10
5
0
Ряд1
3
5
7
9
11
Рис.1. Гистограмма распределения семей по размеру жилплощади на
1чел.
При необходимости гистограмма интервального ряда распределения
может быть преобразована в полигон. Для этого нужно середины верхних
сторон прямоугольников соединить прямыми линиями (ломаная линия на
рис. 1).
В рассмотренном распределении (см. табл. 2) интервалы имеют
одинаковую величину, поэтому высота столбиков гистограммы
пропорциональна частотам ряда распределения. При неравных интервалах
это условие не соблюдается, что не позволяет правильно оценить характер
распределения по данному признаку. В подобных случаях для обеспечения
необходимой
сравнимости
исчисляют
плотность
статистического
распределения, т.е. определяют, сколько единиц в каждой группе приходится
на единицу величины интервала.
Например, в табл.3 представлено распределение магазинов по размеру
товарооборота.
Сравнение частот отдельных групп показывает, что чаще всего
встречаются магазины с товарооборотом 250-450 тыс. руб., что не является
совсем верным. Для точной характеристики магазинов по товарообороту
рассчитаем плотность распределения путем деления значений частот на
величину интервала. Оказывается, что чаще всего встречаются магазины с
товарооборотом 50-120 тыс. руб.
При построении гистограммы вариационного ряда с неравными
интервалами высоту прямоугольников определяют пропорционально не
частотам, а показателям плотности распределения значений изучаемого
признака в соответствующих интервалах.
.
Табл.3
Распределение магазинов по размеру товарооборота
№
п/п
Число
магазинов
1
Группы магазинов по
размеру
товарооборота
до 50
Плотность
распределения
25
Величина
интервала,
тыс. руб.
50
2
3
50-120
120-250
45
65
70
130
0,64
0,5
4
5
240-450
450-980
80
20
200
530
0,4
0,04
ИТОГО
0,5
235
В практике экономической работы нередко возникает потребность в
преобразовании рядов распределения в кумулятивные ряды, строящиеся по
накопленным частотам. С их помощью можно определять структурные
характеристики и наблюдать
за процессом концентрации изучаемого
явления (кривые Лоренца). Полигон и кумулята дают начальное
представление о функции плотности распределения случайной величины.
При этом полигон можно рассматривать в качестве статистического аналога
плотности распределения, а кумуляту — в качестве статистического аналога
функции распределения.
1.3. Справочная информация по технологии работы
Для статистической обработки данных с помощью MS Exсel
используются статистические функции, либо надстройка Пакет анализа.
Для того, чтобы отыскать команду вызова надстройки Пакет анализа,
необходимо воспользоваться меню Сервис. В меню Сервис присутствует
команда Анализ данных. Необходимо щелкнуть указателем мыши по данной
команде, чтобы попасть в окно надстройки Пакет анализа. Если в меню
Сервис отсутствует команда Анализ данных, то необходимо в том же меню
выполнить команду Надстройки. Раскроется одноименное окно со списком
доступных надстроек. В этом списке нужно найти элемент Пакет анализ,
поставить рядом с ним "галку" и щелкнуть по кнопке OK
Работать со статистическими функциями удобнее с помощью мастера
функций. При работе с мастером функций необходимо выбрать сначала саму
функцию, а затем задать ее отдельные аргументы. Запустить мастер функций
можно командой Функция… из меню Вставка, или щелчком по кнопке
вызова мастера функций, или активизацией комбинации клавиш Shift-F3.
Чтобы задать статистическую функцию, сначала необходимо выбрать
категорию Статистические. При перемещении строки выделения по
списку функций будет представлен формат задания статистической функции
с краткой информацией о ней.
Если краткой информации недостаточно, щелкните в диалоговом окне
по кнопке Справка (?). На экране появится помощник и предложит помощь.
Щелкните по кнопке Справка по выделенной функции, и на экране будет
представлена соответствующая страница справочной подсистемы.
После выбора функции щелкните по кнопке OK для перехода в
следующее диалоговое окно мастера функций, в котором должны быть
заданы аргументы.
Режим «Гистограмма» служит для вычисления частот попадания
данных в указанные границы интервалов, а также для построения
гистограммы интервального вариационного ряда распределения.
В диалоговом окне данного режима задаются следующие
параметры:
1. Входной интервал.
2. Интервал карманов (необязательный параметр) - вводится ссылка на
ячейки, содержащие набор граничных значений, определяющих интервалы
(карманы). Эта значения должны быть введены в возрастающем порядке. В
Microsoft Excel вычисляется число попаданий данных в сформированные
интервалы, причем границы интервалов являются строгими нижними
границами и нестрогими верхними:a<x<b
Если диапазон карманов не был введен, то набор интервалов,
равномерно распределенных между минимальным и максимальным
значениями данных, будет создан автоматически,
3. Метки. Флажок Метки устанавливается в активное состояние, если
первая строка (столбец) во входном диапазоне содержит заголовки. Если
заголовки отсутствуют, флажок следует дезактивировать. В этом случае
будут автоматически созданы стандартные названия для данных выходного
диапизона.
4. Выходной интервал/Новый рабочий лист/Новая рабочая книга.
В положении Выходной интервал активизируется поле, в которое
необходимо ввести ссылку на левую верхнюю ячейку выходного диапазона.
Размер выходного диапазона будет определен автоматически, и на экране
появится сообщение в случае возможного наложения выходного диапазона
на исходные данные.
В положении Новый рабочий лист открывается новый лист, в который
начиная с ячейкиA1 вставляются результаты анализа.
В положении Новая рабочая книга открывается новая книга.
5. Парето (отсортированная гистограмма) — устанавливается в
активное состояние, чтобы представить данные в порядке убывания частоты.
Если флажок снят, то данные в выходном диапазоне будут приведены в
порядке следования интервалов.
6. Интегральный процент — устанавливается в активной состояние
для расчета выраженных в процентах накопленных частот (накопленных
частостей) и включения в гистограмму графика кумуляты.
7. Вывод графика - устанавливается в активное состояние для
автоматического создания встроенной диаграммы на листе, содержащем
выходной диапазон.
1.4.Задание.
Общий объем розничного товарооборота по районам Ярославской
области за 1998г. приведен в табл.4.
По набору данных в табл.4 необходимо построить гистограмму и
кумуляту. Для решения задачи использовать режим работы «Гистограмма».
Значения параметров, установленных в диалоговом окне «Гистограмма»,
следующие:
интегральный процент;
вывод графика.
Табл.4
Объем розничного товарооборота по районам Ярославской
области за 1998г.
Район
Товарооборот, млн руб.
Большеселъский
31,0
Борисоглебский
Брейтовский
Гаврилов-Ямский
Даниловский
Любимский
Мьшкинский
Некоузский
,
Некрасовский
Первомайский
•'•?>1 • ' '
-.'.--:- -г .-•.•--,..Переславский
Пошехонский
Ростовский
Рыбинский
Тутаевский
Угличский
Ярославский
38,5
34,0
87,6
139,6
46,0
46,0
76,6
68,3
41,1
93,7
80,9
52,6
76,3
45,8
28,5
190,5
1.5.Пояснения
Поясним подробнее порядок расчета накопленных частостей (см. в
выходных данных графу «Интегральный %»). На основании частот (см.
графу «Частота») рассчитываются накопленные частоты. Каждое значение
накопленной частоты делится на максимальное накопленное значение, в
результате чего получаются частости, выраженные в долях единицы. После
преобразования последних к процентному формату получаем окончательный
результат. Промежуточные и заключительные итоги вычислений сведены в
табл.5.
Табл.5
Частота
Накопленная частота
Накопленная
частость
Накопленная
частость, %
1
9
1 .
10
0,0588
0,5882
5,88
58,82
5
1
1
15
16
17
0,8824
0,9412
1,0000
88,24
94,12
100,00
Как правило, гистограммы изображаются в виде смежных
прямоугольных областей, поэтому столбики гистограммы целесообразно
расширить до соприкосновения друг с другом. Для этого на панели
инструментов Диаграмма щелкните правой кнопкой и в раскрывающемся
списке элементов диаграммы выбирите элемент Ряд «Частота», после чего
щелкните по кнопке Формат рядов данных. В появившемся одноименном
диалоговом окне необходимо активизировать вкладку Параметры и в поле
Ширина зазора установить значение 0. После указанных преобразований гистограмма примет стандартный вид.
В данном примере величина интервала, определялась автоматически
в соответствии с формулой Стерджесса.
n  1  3,322 * lg N
где n – число групп, N – число единиц совокупности.
Величина интервала определяется автоматически по формуле:
h
x max  x min
{n}  1
где h – величина равного интервала, xmax, xmin – соответственно
максимальное и минимальное значения признака в совокупности, {n} –
округленное оптимальное число групп, определяемое по формуле
Стерджесса.
В режиме работы «Гистограмма» пользователь может самостоятельно задать
величину интервала ряда (параметр Интервал карманов диалогового окна
Гистограмма). В случае если заданные интервалы будут не равны между
собой, то сгенерированная гистограмма будет представлять собой обычную
столбиковую диаграмму, в которой частоты попадания в интервал не связаны
с его размером, что не позволит правильно оценить характер распределения
изучаемого явления. Во избежание подобных ошибок рекомендуется задавать интервалы одинаковой величины или пользоваться режимом
автоматического формирования интервалов.
2) НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ
2.1. Введение
Нормальный закон распределения (часто называемый законом Гаусса) имеет
в статистике широкий круг приложений и занимает среди других законов
распределения особое положение. Главная особенность, выделяющая
нормальный закон среди других, состоит в том, что он является предельным
законом, к которому приближаются другие законы распределения при весьма
часто встречающихся условиях.
Доказано, что сумма достаточно большого числа независимых (или слабо
зависимых) случайных величин, подчиненных каким-либо законам
распределения, приближенно подчиняется нормальному закону, и это
выполняется тем точнее, чем большее количество случайных величин
суммируется. Основное ограничение, налагаемое на суммируемые величины,
состоит в том, что они все должны играть в общей сумме относительно
малую роль. Если ни одна из случайно действующих величин по своему
действию не окажется преобладающей над другими, то закон распределения
очень близко подходит к нормальному.
Такая закономерность проявляется во многих практических случаях.
Например, еще Кетле обнаружил, что вариация в однородной группе
характеризуется нормальной кривой. Если построить эмпирическую кривую
распределения людей одной нации, пола и возраста по росту, весу, то она
напоминает кривую Гаусса-Лапласа. Поэтому нормальное распределение
часто применяется в тех случаях, когда истинный закон распределения
известен, но вычисления по этому закону затруднительны, а аппроксимация
его нормальным распределением допустима.
Примечание. Несмотря на широкое распространение, нормальное распределение не универсально. Если нет уверенности в его применимости,
следует проверить возможность использования нормального распределения
для описания случайной величины с помощью критериев согласия.
Уравнение для плотности вероятности нормального распределения имеет вид
f (x) 
1
e
 2

(x x)2
2 2
а уравнение интегральной функции нормального распределения
—
F( x ) 
1
x
e
 2 

(  x ) 2
2 2
d
Кривая
плотности
нормального
распределения
имеет
симметричный
холмообразный вид (рис.).
Максимальная ордината кривой соответствует точке х = x = Mo = Me. По
мере удаления от этой точки плотность распределения падает, и при x  
кривая асимптотически приближается к оси абсцисс. Изменение средней
величины при постоянстве стандартного отклонения σ приводит к смещению
кривой вдоль оси абсцисс, не меняя ее формы. С увеличением стандартного
отклонения кривая становится более пологой, с уменьшением стандартного
отклонения — более острой. Площадь, заключенная под кривой,
асимптотически приближающейся к оси абсцисс, равна единице.
Весьма важной практической задачей является определение вероятности
того, что случайная величина попадет на заданный интервал вещественной
оси (а, b). Она определяется следующей формулой:
P(a ≤ x ≤ b) = F(b) F(a )
Для выполнения работы используйте функцию EXCEL НОРМРАСП и
другие связанные с ней функции
ФУНКЦИЯ НОРМРАСП
См. также НОРМОБР, НОРМСТРАСП, НОРМСТОБР, НОРМАЛИЗАЦИЯ.
Синтаксис:
НОРМРАСП (х; среднее; стандартное _ откл; интегральная)
Результат:
Рассчитывает нормальное распределение.
Аргументы:
• х: значение, для которого вычисляется нормальное распределение;
• среднее: средняя арифметическая распределения;
• стандартное_откл: стандартное отклонение распределения;
• интегральная: логическое значение, определяющее форму функции. Если
аргумент интегральная = 1, то функция НОРМРАСП рассчитывает функцию
распределения случайной величины(интегральную функцию распределения);
если аргумент интегральная = 0 — плотность вероятности случайной
величины (дифференциальную функцию распределения).
Замечания:
если аргумент среднее = 0 и аргумент стандартное __откл = =1, то
функция НОРМРАСП рассчитывает стандартное нормальное распределение
(см. описание функции НОРМСТРАСП).
Функция НОРМРАСП использует первое уравнение, если аргумент
интегральная = 0, и второе уравнение, если аргумент интегральная = 1.
Так, формула =НОРМРАСП(42;40;1,5;0) рассчитает значение 0,109, а
формула =НОРМРАСП(42;40;1,5;1) - значение 0,909.
Пример 1. Для закупки и последующей продажи мужских зимних курток
фирмой было проведено выборочное обследование мужского населения
города в возрасте от 18 до 65 лет в целях определения его среднего роста. В
результате было установлено, что средний рост = 176 см, стандартное
отклонение = 6 см. Необходимо определить, какой процент общего числа
закупаемых курток должны составлять куртки 5-го роста (182-186 см).
Предполагается, что рост мужского населения города распределен по
нормальному закону.
Формула для решения задачи имеет следующий вид:
=НОРМРАСП(186;176;6;ИСТИНА)-НОРМРАСП (182;176;6;ИСТИНА) =
0,95221 - 0,84134 = 0,11086.
Таким образом, куртки 5-го роста должны составлять приблизительно 11 %
общего числа закупаемых курток.
Функция НОРМОБР
См.
также
НОРМРАСП,
НОРМСТРАСП,
НОРМСТОБР,
НОРМАЛИЗАЦИЯ, ДОВЕРИТ. Синтаксис:
НОРМОБР (вероятность; среднее; стандартное _ откл) Результат:
Рассчитывает квантиль нормального распределения, т.е. значение признака
xq для которого выполняется условие:
P( X  x q )  q
где q – заданная вероятность.
Аргументы:
• вероятность: заданная вероятность q;
• среднее: средняя арифметическая распределения;
• стандартное __ откл: стандартное отклонение распределения.
Замечания:
• если аргумент среднее = 0 и аргумент стандартное _ откл = =1, то
функция НОРМОБР использует обратную функцию стандартного нормального распределения (см. описание функции НОРМСТОБР);
Математика-статистическая интерпретация:
См. описание функции НОРМРАСП.
Обратная функция нормального распределения используется в ситуациях,
когда известна вероятность определенного значения случайной величины и
необходимо рассчитать это значение.
Например, формула =НОРМОБР(0,90879;40;1,5) рассчитывает значение
42,00001 (сравните с формулой =НОРМРАСП(42;40; 1,5;1), рассчитывающей
значение 0,90879).
На практике часто встречается задача, обратная задаче вычисления
вероятности попадания нормально распределенной случайной величины на
участок, симметричный относительно математического ожидания.
Пример 2. Для задачи, рассмотренной выше, рассчитать границы интервала
роста мужского населения города, вероятность попадания в который
случайной величины роста составляет 0,95.Возможны следующие способы
решения этой задачи.
1) Необходимо рассчитать квантили уровня 0,025 и 0,975 с помощью
функции НОРМОБР. Полученные значения определят соответственно
верхнюю и нижнюю границы искомого интервала.
2) Формула для вероятности попадания случайной величины на участок,
симметричный относительно математического ожидания, имеет
следующий вид:
P( x m x < ) = 2F(
 0
) 1

Следовательно для определения величины ε нужно воспользоваться
функцией НОРМОБР:
ε = НОРМОБР((P + 1)/2;0;σ)
Границы искомого интервала –
( x  , x  )
Функция НОРМСТРАСП
См. также НОРМРАСП, НОРМОБР, НОРМСТОБР, НОРМАЛИЗАЦИЯ.
Синтаксис:
НОРМСТРАСП (z)
Результат:
Рассчитывает стандартное нормальное распределение.
Аргументы
:z:. значение, для которого вычисляется стандартное нормальное
распределение.
Математика-статистическая интерпретация:
См. описание функции НОРМРАСП.
Стандартное нормальное распределение представляет собой не что иное, как
«обычное» нормальное распределение, у которого среднее равно нулю, а
стандартное отклонение — единице.
Особое выделение функции стандартного нормального распределения
связано с тем, что она используется при вычислении функций нормального
распределения с другими значениями x и σ (отличными от 0 и 1
соответственно). Практически во всех учебниках по теории вероятностей и
теории статистики приведены таблицы для функции стандартного
нормального распределения. Поэтому, если нет под рукой компьютера,
можно производить расчеты вручную, используя таблицы. Для этого
необходимо выполнить преобразование
z
xx

Например, формула =НОРМСТРАСП((42-40)/1,5) рассчитает значение
0,90879, такое же как и формула =НОРМРАСП(42;40; 1,5;1) (см. описание
функции НОРМРАСП).
Функция НОРМСТОБР
См. также НОРМРАСП, НОРМОБР, НОРМСТРАСП, НОРМАЛИЗАЦИЯ.
Синтаксис:
НОРМСТОБР (вероятность)
Результат:
Рассчитывает квантиль стандартного нормального распределения.
Аргументы:
вероятность: вероятность, соответствующая нормальному распределению.
Математика-статистическая интерпретация:
См. описание функций НОРМСТРАСП, НОРМОБР.
Обратная функция стандартного нормального распределения рассчитывает
квантиль zq.
Например, формула =НОРМСТОБР(0,69146) вычисляет значение 0,5
(сравните с формулой =НОРМСТРАСП(0,5), рассчитывающей значение
0,69146). Кроме того, формула =НОРМСТОБР (0,69146) может быть
заменена формулой =НОРМОБР(0,69146; 0;1), также рассчитывающей
значение 0,5 (см. описание функции НОРМОБР).
Функция ДОВЕРИТ
См. также НОРМАЛИЗАЦИЯ, НОРМОБР, НОРМРАСП, НОРМСТОБР,
НОРМСТРАСП, ZTECT.
Синтаксис:
•
ДОВЕРИТ (альфа; станд _ откл; размер) Результат: Рассчитывает значение
предельной ошибки выборки.
Аргументы:
• альфа: уровень значимости, используемый для вычисления уровня
надежности. Уровень надежности равняется 100 (1—альфа) % (например,
альфа, равное 0,05, означает 95%-ный уровень надежности).
• станд _ откл:. стандартное отклонение генеральной совокупности для
интервала данных, предполагается известным;
• размер: размер выборки.
Математика-статистическая интерпретация: Одна из основных задач
выборочного исследования состоит в том, чтобы на основе характеристик
выборочной совокупности получить достоверные суждения об этих
характеристиках в генеральной совокупности. Возможные расхождения
между характеристиками выборочной и генеральной совокупности
измеряются разностью между значением характеристики в генеральной совокупности и ее значением, вычисленным по результатам выборочного
наблюдения. Для средней арифметической это расхождение определяется по
формуле
x  x  Mx
Зная выборочную среднюю величину признака и предельную ошибку
выборки, можно определить границы, в которых заключена генеральная
средняя.
x  x  Mx  x  x
Интервал в котором заключена генеральная средняя получил название
доверительного интервала.
Вероятность того, что случайный интервал содержит в себе истинное
значение средней величины (генеральной средней), получила название
доверительной вероятности.
Примечание. Необходимо отметить, что в качестве аргумента функция
ДОВЕРИТ используется не доверительная вероятность , а уровень значимости.
Предельная ошибка выборки связана со средней ошибкой выборки  x через
коэффициент доверия t
x  xt
Средняя ошибка выборки определяется выражением:
x =

n
,
где σ – стандартное отклонение, n – число наблюдений.
Коэффициент доверия определяется в зависимости от того, с какой
доверительной вероятностью нужно гарантировать результаты выборочного
обследования.
Если число наблюдений n > 30, то в Microsoft Excel для нахождения значения
коэффициента доверия t можно использовать формулу t = НОРМСТОБР((γ +
1)/2), где γ -доверительная вероятность(см. описание функции
НОРМАЛИЗАЦИЯ,
НОРМРАСП,
НОРМОБР,
НОРМСТРАСП,
НОРМСТОБР), в противном случае необходимо использовать функцию
СТЬЮДРАСПОБР(вероятность, степени_свободы). Здесь вероятность –это
уровень значимости α, число степеней свободы – n-1.
Применение функции ДОВЕРИТ для решения практических задач
рассмотрим на следующем примере.
Пример 3. В результате выборочного обследования жилищных условий
жителей города, осуществленного на основе собственно-случайной
повторной выборки, получен следующий ряд распределения (табл. 4.1).
Таблица 4.1
Общая площадь
До 5
5-10 10-15 15-20 20-25 25-30 30 и более
Число жителей
8
95
204
270
210
130
83
Требуется с уровнем надежности 95% определить границы интервала, в
который попадет средний размер общей площади.
Таблица 4.2
Общая площадь, прихо- Середина
дящаяся на 1 человека, м2 интервала
Число жителей
Квадрат отклонения
(x j  x) 2
fj
xj
До 5,0
2,5
8
5,0-10,0
7,5
95
10,0-15,0
12,5
204
15,0-20,0
17,5
270
20,0-25,0
22,5
210
25,0-30,0
27,5
130
30,0 и более
32,5
83
Число жителей в выборочной
совокупности, n
Выборочная средняя вариацион -
272,42
132,37
42,32
2,27
12,22
72,17
182,12
1000
ного ряда x
Дисперсия σ2
19,01
51,11
Стандартное отклонение σ
7,15
Средняя ошибка выборки  x
0,23
Коэффициент доверия t
Предельная ошибка выборки Δx
1,96
0,44
Верхняя граница x   x
19,45
Нижняя граница x   x
18,56
2.2. ЗАДАНИЕ:
1) Проведено исследование величины ежемесячного среднедушевого дохода
жителей поселка. Данные представлены в таблице 4.3.
Таблица 4.3.
№ интервала Ежемесячный среднедушевой Число жителей
доход (д.е.)
(чел.)
1
70 - 80
2
2
80 – 90
6
3
4
5
6
7
8
90 – 100
100 -110
110 -120
120 – 130
130 – 140
140 -150
19
30
22
13
5
3
1) Измените число жителей в таблице 4.3. в соответствии с вашим вариантом.
Используя функцию НОРМРАСП необходимо определить, какой процент
составляет среднедушевой доход 135 – 145 д.е.
2) Решите задачу примера 2, изменив значение стандартного отклонения в
соответствии с вашим вариантом..
3) В таблице 4.1 измените число жителей в соответствии с вариантом задания
и определите с вероятностью 90% верхнюю и нижнюю границы интервалов.
Рассмотрите два варианта решения задачи. Первый вариант основан на
последовательном применении рассмотренных формул для нахождения
предельной ошибки выборки. Во втором варианте (более быстром)
используйте функцию ДОВЕРИТ.
3) ИСПОЛЬЗОВАНИЕ КРИТЕРИЯ ПИРСОНА 2 ДЛЯ ПРОВЕРКИ
ГИПОТЕЗ
3.1. Введение
Распределением 2 с k степенями свободы называется распределение суммы
квадратов k независимых случайных величин, каждая из которых подчинена
нормальному закону с математическим ожиданием, равным нулю, и
дисперсией, равной единице.
Это распределение характеризуется плотностью


k
x
1 
1

2
f k (x)   k
x e 2 при x  0
 2 2 Г k 

2

где k – число степеней свободы (df), а Г(η) – гамма – функция вида

Г( )   x  1 e  x dx
0
Впервые  -распределение было рассмотрено Р. Хельмертом (1876) и
К. Пирсоном (1900).
Особую известность 2-распределение получило из-за своей тесной связи с
2-критерием, получившим также название критерия согласия Пирсона.
Критерий 2 широко применяется для проверки различных статистических
гипотез, основанных на 2-распределении. Основное преимущество 2критерия — его гибкость. Этот критерий можно применять для проверки
допущения о любом распределении, даже не зная параметров распределения.
Основной его недостаток — нечувствительность к обнаружению адекватной
модели, когда число наблюдений невелико.
Часто критерий 2 используется для проверки гипотезы о характере
распределения случайной величины на основе статистических данных. Для
этого исследователь, опираясь на свой опыт и имеющуюся информацию,
выдвигает гипотезу о законе распределения случайной величины. Используя
статистические данные, он должен подтвердить или отвергнуть выдвинутую
гипотезу. Эту проверку можно выполнить с помощью критерия 2 .
Последовательность расчетов такова:
1. Строится вариационный ряд наблюдаемых значений признака.
2. Вариационный ряд делится на k интервалов (групп).
3. Определяется число наблюдений, попавших в каждый интервал fjэ
(эмпирическая частота попадания), j – номер интервала.
4. Определяется теоретическая частота попадания fjт исходя из проверяемого
закона распределения.
2
5. Рассчитывается статистика 2
2 = [ (fjэ - fjт)2/fjт]
6. Поскольку критерий 2 определяет меру расхождения между
теоретическими значениями частот и эмпирическими данными, то
необходимо проверить, случайны или закономерны эти расхождения. Если
они случайны, то предположение о характере распределения можно принять.
Для этого определяется критическое значение статистики 2 -  кр
Это значение определяется как квантиль уровня α 2 – распределения с
числом степеней свободы df = k – m -1, где k – число групп, m – число
независимых параметров закона распределения. Для нормального закона
m=2.
2
Если значение 2 <  кр , то гипотеза о том, что расхождения между
теоретическими значениями частот и эмпирическими данными случайны,
принимается. Это означает, что наблюдаемые значения признака
согласуются с предполагаемым законом распределения.
Для проверки предположения о том, что наблюдаемые значения
признака подчиняются нормальному закону распределения, выполняем
следующие шаги.
2
1.Определяем среднее значение для каждого интервала x j , j – номер
интервала.
2.Вычисляем среднее значение ряда x по формуле x  
x jf j
f
.
j
3.Вычисляем выборочную дисперсию
x f  x
 
f
2
2
j j
2
j
и стандартное отклонение s = √s2
4.Вычисляем значения функции плотности нормального распределения для
каждого интервала по формуле f( x j ) = НОРМРАСП( x j ; x;  ;0 ).
5.Расчитываются теоретические частоты нормального распределения по
формуле fjт = f( x j )*j*fjэ, где Δ – длина интервала.
6.Расчитывается значение критерия 2
7.Вычисляется значение критическое значение  кр c помощью функции
ХИ2ОБР. Для нормального распределения число степеней свободы df = k – 3.
2
Функции ХИ2РАСП
См. также ХИ2ОБР, ХИ2ТЕСТ
Синтаксис:
ХИ2РАСП (x; степени_свободы)
Результат:
Рассчитывает 2-распределение.
Аргументы:
• х: значение, для которого вычисляется 2-распределение;
• степени _ свободы: число степеней свободы df.
3.2. Задание:
Вещевой службой военного округа составляется заявка на поставку
обмундирования для воинских частей на основании предположения, что рост
военнослужащих подчиняется нормальному закону распределения. Для
проверки данного предположения было проведено исследование одной из
типовых частей гарнизона..
Исходные данные приведены в табл. 5.1.
Заполните таблицу, изменив число в/с в соответствии с Вашим вариантом и
проверьте правдоподобность выдвинутой гипотезы о распределении роста
военнослужащих по нормальному закону
Рост в/с,
см
Число
в/с,/э
1
162 166
5
2
166 170
33
3
170 174
70
4
174 178
132
5
178 182
119
6
182 186
87
7
186 190
42
8
190 194
12
Середина интервала,
f( x j )
fjт
(fjэ-fjт)2/fjт
fэ
x=
χ2=
500
S=
2
 кр
=