Двухфакторный дисперсионный анализ
Пример. В таблице приведены суточные привесы (г) отобранных для
исследования 18 поросят в зависимости от метода содержания поросят (фактор А) и
качества их кормления (фактор В).
Количество голов в группе
(фактор А)
А1=30
А2=100
А3=300
Содержание протеина в корме, г (фактор В)
В1=80
В2=100
530, 540,550
600, 620, 580
490, 510, 520
550, 540, 560
430, 420, 450
470, 460, 430
Необходимо на уровне значимости α=0,05 оценить существенность
(достоверность) влияния каждого фактора и их взаимодействия на суточный привес
поросят.
Решение. Имеем m=3, 1=2, n =З. Определим (в г) средние значения привеса:
в ячейках:
530  540  550
x

 540 и аналогично x
= 600;
12 
11 *
3
= 506,7; x
=550; x
= 433,3; x
=453,3;
x
22 *
21 *
31 *
32 *
по строкам:
540  600
= 528,4; x
= 443,2;
x

 570 и аналогично x
2 **
1* *
3**
2
по столбцам:
540  506 .7  433 .3
=534,4.
x

 493 .3 и аналогично x
*1 *
*2*
3
Общий средний принес:
540  600  506 .7  550  433 .3  453 .3
x

 513 .9 (г)
***
6
Все средние значения привеса (г) поместим в таблицу.
Количество голов в Содержание протеина в корме, г (фактор В)
группе (фактор А)
В1=80
В2=100
x
i 
А1=30
x
11 
=540,0
x
12 
=600,0
x
1 
=570,0
А2=100
x
21 
=506,7
x
22 
=550,0
x
2
=528,4
А3=300
x
31 
=433,3
x
32 
=453,3
x
3
=443,3
=493,3
=534,4
=513,9
x
x
x
1 
2

 j
Из таблицы следует, что с увеличением количества голов группе средний суточный
принес поросят в среднем уменьшается, при увеличении содержания протеина в корме — в
среднем увеличивается. Но является ли эта тенденция достоверной или объясняется
случайными причинами? Для ответа на этот вопрос вычислим необходимые суммы
квадратов отклонений:
Q 1 =2*3[(570 - 513,9)2 + (528,4- 513,9)2 + (443,2 — 513,9)2 ]= 50 011,1;
Q2=3*3 [(493,3 - 513,9)2 + (534,4- 513,9)2] =7605,6;
Q3=3[(540-570-493,3+513,9)2 + ... + (453,3-443,3 -534,4+513,9)2] = 1211,1;
x
Q4=(530-540)2+ ... +(550-540)2+(600-600)2+...+(580-600)2+ ...+(470-453,3)2+ ..+ +(430453,3)2 =3000,0;
Q=(530-5 13,9)2+(540-513,9)2 + ... + (430-513,9)2 = 61827,8.
Средние квадраты находим делением полученных сумм на соответствующее им число
степеней свободы m-1 =2, l-1 =1; (m-1)(l- 1)=2; mln-ml=18-6=12;
mln- 1=18-1 =17
Результаты расчета в таблице.
Компонента дисперсии
Суммы
квадратов
Межгрупповая (фактор А)
Межгрупповая (фактор В)
Взаимодействие (АВ)
Остаточная
Общая
Q1=50011,1
Q2=7605,6
Q3=1211,1
Q4=3000,0
Q=61827,8
Число
степеней
свободы
2
1
2
12
17
Средние квадраты
s12=25005,5
s22=7605,6
s32=605,6
s42=250,0
Данные факторы имеют фиксированные уровни, т.е. мы находимся в рамках
модели I. Поэтому для проверки существенности влияния факторов А, В и их
взаимодействия АВ необходимо найти отношения:
2
S 605 .6
S22 7605 .6
S12 25005 .5
 2.42;
 30.4; FAB  32 
FA  2 
 100 .0; FB  2 
S 4 250 .0
S4 250 .0
S4
250 .0
и сравнить их с табличными значениями соответственно F0.05;2;12 =3,88; F0.05;1;12 =
4,75; F0.05;2;12 = 3,88. Так как FA > F0.05;2;12 и FB > F0.05;1;12 то влияние метода
содержания поросят (фактора А) и качества их кормления (фактора В) является
существенным. В силу того что FAB < F0.05;2;12 взаимодействие указанных факторов
незначимо (на 5%-ном уровне).
При решении реальных задач методом дисперсионного анализа используется
статистические программные пакеты. Отклонение от основных
предпосылок
дисперсионного анализа - нормальности распределения исследуемой переменной и
равенства дисперсий в ячейках (если оно не чрезмерное) - не сказывается существен
на результатах дисперсионного анализа при равном числе наблюдений в ячейках, но
может быть очень чувствительно при неравном их числе. Кроме того, при неравном
числе наблюдений в ячейках резко возрастает сложность аппарата дисперсионного
анализа. Поэтому рекомендуется планировать схему с равным числом наблюдений в
ячейках, а если встречаются недостающие данные, то возмещать их средними
значениями других наблюдений в ячейках. При этом, однако, искусственно введенные
недостающие данные не следует учитывать при подсчете числа степеней свободы.
Дисперсионный анализ данных с помощью пакета анализа в среде Excel
Однофакторный дисперсионный анализ
Это средство реализует критерий проверки гипотезы о равенстве математических ожиданий нескольких независимых выборок, построенный на основе дисперсионного анализа.
На рисунке показаны четыре выборки, имеющие нормальное распределение.
Объемы выборок — 5 значений. (Выборки сгенерированы с помощью средства
Генерация случайных чисел.) Все выборки задаются в виде одного диапазона ячеек. В
случае, когда выборки имеют разные размеры, диапазон задается в соответствии с
наибольшей выборкой и неизбежно содержит пустые ячейки. Но средство правильно
определяет объемы выборок.
На рисунке показаны результаты, выводимые средством Однофакторный
дисперсионный анализ. Они представлены в виде двух таблиц, озаглавленных итоги и
Дисперсионный анализ. В таблице итоги выводятся основные статистические
характеристики выборок: в столбце Счет — объемы выборок, в столбце Сумма —
суммы выборочных значений, в столбцах Среднее и Дисперсия — соответственно
выборочные средние и дисперсии.
Значения в первых четырех столбцах таблицы Дисперсионный анализ повторяют
значения из дисперсионной таблицы. В столбце SS приведены суммы квадратов
(межгрупповая, внутригрупповая и полная); в столбце df — значения степеней
свободы, а в столбце MS — дисперсии, межгрупповая и внутригрупповая. В столбце F
записано значение критериальной статистики, в столбце Р- Значение — значение
вероятности Р(Х > х), где X — случайная величина, имеющая P-распределение с df
степенями свободы. В столбце Fкритическое приводится критическое значение t,
рассчитанное в соответствии с заданным уровнем значимости (параметр Альфа).
Нулевая гипотеза о равенстве математических ожиданий всех выборок принимается, если выполняется неравенство F < F критическое.
Двухфакторный дисперсионный анализ с повторениями.
Структура входных данных представлена на рисунке: в строке 1 показаны обозначения уровней фактора А; в столбце — обозначения уровней фактора В; в данном
случае имеется три выборки, поэтому под общим обозначением уровней фактора В
записаны три строки числовых данных.
Диалоговое окно рассматриваемого средства показано на рисунке. В поле
Входной интервал указывается диапазон ячеек, содержащий входные данные,
включая заголовки. В поле Число строк для выборки указывается количество
рассматриваемых выборок, в данном случае введено число 3. В поле Альфа, как
обычно, указывается значение уровня значимости.
Выходные результаты работы данного средства, выведенные на отдельный
рабочий лист. Выходные результаты сгруппированы в несколько таблиц. В первой
таблице, озаглавленной итоги и состоящей из нескольких подтаблиц (по количеству
уровней фактора В), приводятся статистические характеристики выборочных
значений, соответствующих каждому сочетанию уровней фактора в и фактора В:
количество выборочных значений (строка Счет), сумма выборочных значений (строка
Сумма), выборочное среднее (строка Среднее) и выборочная дисперсия (строка
Дисперсия). На рисунке показана такая подтаблица для первого уровня фактора В
(таблица обозначена как А1), другие подобные подтаблицы, соответствующие другим
уровням фактора В. В столбце Итого подтаблиц выводятся такие же статистические
характеристики выборочных значений, соответствующие одному уровню фактора В:
количество выборочных значений, выборочное среднее и выборочная дисперсия
(вычисляется по всем значениям данного уровня относительно общего среднего). В
конце таблицы итоги выводится подтаблица Итого, в которой приведены те же
характеристики, но подсчитанные по выборочным значениям для каждого уровня
фактора р.
В нижней части выходных результатов приведена дисперсионная таблица. Здесь
в первом столбце, обозначенном SS, выведены суммы квадратов: соответственно SSb
SS2, SS3, SS4 и в строке Итого — SS. В столбце df приведены степени свободы сумм
квадратов, а в столбце MS — значения соответствующих дисперсий. В столбце
Fвычислены значения критериальных статистик, т.е. отношения дисперсий s12 , s22, s32
к дисперсии s4 .
В столбце Р-Значение вычисляются вероятности Р(Х > F), где X — случайная
величина, имеющая F-распределение со степенями свободы, значения которых
приведены в столбце df: первое значение степени свободы — из соответствующей
строки этого столбца, а второе — всегда из четвертой строки, F — значение из
столбца F. Значение можно вычислить по формуле Excel =FРАСП(E43;C43;C46). Эти
значения используются для проверки гипотез о значимом влиянии факторов или их
взаимного влияния: если вероятность больше заданного уровня значимости, то
нулевая гипотеза об отсутствии влияния принимается, в противном случае —
отвергается.
В столбце F критическое вычисляются критические значения, соответствующие
заданному в диалоговом окне Двухфакторный дисперсионный анализ с повторениями
уровню значимости α. Эти значения вычисляются как квантили порядка 1-α Fраспределения со степенями свободы, значения которых определяются так же, как
при вычислении вероятностей из столбца Р-Значение. Значение можно вычислить по
формуле Excel =FРАСПОБР(0,05;C43;C46). Эти значения используются для проверки
гипотез о значимом влиянии факторов или их взаимного влияния: если значение в
этом столбце больше значения в столбце F той же строки, то нулевая гипотеза об
отсутствии влияния принимается, в противном случае — отвергается.
B1
A1
A2
A3
ИТОГИ
B2
530
600
540
550
490
510
520
430
420
450
620
580
550
540
560
470
460
430
B1
B2
Итого
A1
Счет
Сумма
Среднее
Дисперсия
3
1620
540
100
3
1800
600
400
6
3420
570
1280
3
1520
506,666
7
233,333
3
3
1650
100
6
3170
528,333
3
696,666
7
3
1300
433,333
3
233,333
3
3
1360
453,333
3
433,333
3
6
2660
443,333
3
386,666
7
9
4440
493,333
3
9
4810
534,444
4
A2
Счет
Сумма
Среднее
Дисперсия
550
A3
Счет
Сумма
Среднее
Дисперсия
Итого
Счет
Сумма
Среднее
Дисперсия
2375
Дисперсионный анализ
Источник
вариации
Выборка
Столбцы
Взаимодействие
Внутри
Итого
SS
50011,1
1
7605,55
6
1211,11
1
3000
61827,7
8
4402,77
8
df
2
1
2
12
17
MS
25005,5
6
7605,55
6
605,555
6
250
PЗначение
3,285E08
0,000132
9
0,130721
6
F
критическо
е
3,885293835
4,747225336
3,885293835