Двухфакторный дисперсионный анализ Пример. В таблице приведены суточные привесы (г) отобранных для исследования 18 поросят в зависимости от метода содержания поросят (фактор А) и качества их кормления (фактор В). Количество голов в группе (фактор А) А1=30 А2=100 А3=300 Содержание протеина в корме, г (фактор В) В1=80 В2=100 530, 540,550 600, 620, 580 490, 510, 520 550, 540, 560 430, 420, 450 470, 460, 430 Необходимо на уровне значимости α=0,05 оценить существенность (достоверность) влияния каждого фактора и их взаимодействия на суточный привес поросят. Решение. Имеем m=3, 1=2, n =З. Определим (в г) средние значения привеса: в ячейках: 530 540 550 x 540 и аналогично x = 600; 12 11 * 3 = 506,7; x =550; x = 433,3; x =453,3; x 22 * 21 * 31 * 32 * по строкам: 540 600 = 528,4; x = 443,2; x 570 и аналогично x 2 ** 1* * 3** 2 по столбцам: 540 506 .7 433 .3 =534,4. x 493 .3 и аналогично x *1 * *2* 3 Общий средний принес: 540 600 506 .7 550 433 .3 453 .3 x 513 .9 (г) *** 6 Все средние значения привеса (г) поместим в таблицу. Количество голов в Содержание протеина в корме, г (фактор В) группе (фактор А) В1=80 В2=100 x i А1=30 x 11 =540,0 x 12 =600,0 x 1 =570,0 А2=100 x 21 =506,7 x 22 =550,0 x 2 =528,4 А3=300 x 31 =433,3 x 32 =453,3 x 3 =443,3 =493,3 =534,4 =513,9 x x x 1 2 j Из таблицы следует, что с увеличением количества голов группе средний суточный принес поросят в среднем уменьшается, при увеличении содержания протеина в корме — в среднем увеличивается. Но является ли эта тенденция достоверной или объясняется случайными причинами? Для ответа на этот вопрос вычислим необходимые суммы квадратов отклонений: Q 1 =2*3[(570 - 513,9)2 + (528,4- 513,9)2 + (443,2 — 513,9)2 ]= 50 011,1; Q2=3*3 [(493,3 - 513,9)2 + (534,4- 513,9)2] =7605,6; Q3=3[(540-570-493,3+513,9)2 + ... + (453,3-443,3 -534,4+513,9)2] = 1211,1; x Q4=(530-540)2+ ... +(550-540)2+(600-600)2+...+(580-600)2+ ...+(470-453,3)2+ ..+ +(430453,3)2 =3000,0; Q=(530-5 13,9)2+(540-513,9)2 + ... + (430-513,9)2 = 61827,8. Средние квадраты находим делением полученных сумм на соответствующее им число степеней свободы m-1 =2, l-1 =1; (m-1)(l- 1)=2; mln-ml=18-6=12; mln- 1=18-1 =17 Результаты расчета в таблице. Компонента дисперсии Суммы квадратов Межгрупповая (фактор А) Межгрупповая (фактор В) Взаимодействие (АВ) Остаточная Общая Q1=50011,1 Q2=7605,6 Q3=1211,1 Q4=3000,0 Q=61827,8 Число степеней свободы 2 1 2 12 17 Средние квадраты s12=25005,5 s22=7605,6 s32=605,6 s42=250,0 Данные факторы имеют фиксированные уровни, т.е. мы находимся в рамках модели I. Поэтому для проверки существенности влияния факторов А, В и их взаимодействия АВ необходимо найти отношения: 2 S 605 .6 S22 7605 .6 S12 25005 .5 2.42; 30.4; FAB 32 FA 2 100 .0; FB 2 S 4 250 .0 S4 250 .0 S4 250 .0 и сравнить их с табличными значениями соответственно F0.05;2;12 =3,88; F0.05;1;12 = 4,75; F0.05;2;12 = 3,88. Так как FA > F0.05;2;12 и FB > F0.05;1;12 то влияние метода содержания поросят (фактора А) и качества их кормления (фактора В) является существенным. В силу того что FAB < F0.05;2;12 взаимодействие указанных факторов незначимо (на 5%-ном уровне). При решении реальных задач методом дисперсионного анализа используется статистические программные пакеты. Отклонение от основных предпосылок дисперсионного анализа - нормальности распределения исследуемой переменной и равенства дисперсий в ячейках (если оно не чрезмерное) - не сказывается существен на результатах дисперсионного анализа при равном числе наблюдений в ячейках, но может быть очень чувствительно при неравном их числе. Кроме того, при неравном числе наблюдений в ячейках резко возрастает сложность аппарата дисперсионного анализа. Поэтому рекомендуется планировать схему с равным числом наблюдений в ячейках, а если встречаются недостающие данные, то возмещать их средними значениями других наблюдений в ячейках. При этом, однако, искусственно введенные недостающие данные не следует учитывать при подсчете числа степеней свободы. Дисперсионный анализ данных с помощью пакета анализа в среде Excel Однофакторный дисперсионный анализ Это средство реализует критерий проверки гипотезы о равенстве математических ожиданий нескольких независимых выборок, построенный на основе дисперсионного анализа. На рисунке показаны четыре выборки, имеющие нормальное распределение. Объемы выборок — 5 значений. (Выборки сгенерированы с помощью средства Генерация случайных чисел.) Все выборки задаются в виде одного диапазона ячеек. В случае, когда выборки имеют разные размеры, диапазон задается в соответствии с наибольшей выборкой и неизбежно содержит пустые ячейки. Но средство правильно определяет объемы выборок. На рисунке показаны результаты, выводимые средством Однофакторный дисперсионный анализ. Они представлены в виде двух таблиц, озаглавленных итоги и Дисперсионный анализ. В таблице итоги выводятся основные статистические характеристики выборок: в столбце Счет — объемы выборок, в столбце Сумма — суммы выборочных значений, в столбцах Среднее и Дисперсия — соответственно выборочные средние и дисперсии. Значения в первых четырех столбцах таблицы Дисперсионный анализ повторяют значения из дисперсионной таблицы. В столбце SS приведены суммы квадратов (межгрупповая, внутригрупповая и полная); в столбце df — значения степеней свободы, а в столбце MS — дисперсии, межгрупповая и внутригрупповая. В столбце F записано значение критериальной статистики, в столбце Р- Значение — значение вероятности Р(Х > х), где X — случайная величина, имеющая P-распределение с df степенями свободы. В столбце Fкритическое приводится критическое значение t, рассчитанное в соответствии с заданным уровнем значимости (параметр Альфа). Нулевая гипотеза о равенстве математических ожиданий всех выборок принимается, если выполняется неравенство F < F критическое. Двухфакторный дисперсионный анализ с повторениями. Структура входных данных представлена на рисунке: в строке 1 показаны обозначения уровней фактора А; в столбце — обозначения уровней фактора В; в данном случае имеется три выборки, поэтому под общим обозначением уровней фактора В записаны три строки числовых данных. Диалоговое окно рассматриваемого средства показано на рисунке. В поле Входной интервал указывается диапазон ячеек, содержащий входные данные, включая заголовки. В поле Число строк для выборки указывается количество рассматриваемых выборок, в данном случае введено число 3. В поле Альфа, как обычно, указывается значение уровня значимости. Выходные результаты работы данного средства, выведенные на отдельный рабочий лист. Выходные результаты сгруппированы в несколько таблиц. В первой таблице, озаглавленной итоги и состоящей из нескольких подтаблиц (по количеству уровней фактора В), приводятся статистические характеристики выборочных значений, соответствующих каждому сочетанию уровней фактора в и фактора В: количество выборочных значений (строка Счет), сумма выборочных значений (строка Сумма), выборочное среднее (строка Среднее) и выборочная дисперсия (строка Дисперсия). На рисунке показана такая подтаблица для первого уровня фактора В (таблица обозначена как А1), другие подобные подтаблицы, соответствующие другим уровням фактора В. В столбце Итого подтаблиц выводятся такие же статистические характеристики выборочных значений, соответствующие одному уровню фактора В: количество выборочных значений, выборочное среднее и выборочная дисперсия (вычисляется по всем значениям данного уровня относительно общего среднего). В конце таблицы итоги выводится подтаблица Итого, в которой приведены те же характеристики, но подсчитанные по выборочным значениям для каждого уровня фактора р. В нижней части выходных результатов приведена дисперсионная таблица. Здесь в первом столбце, обозначенном SS, выведены суммы квадратов: соответственно SSb SS2, SS3, SS4 и в строке Итого — SS. В столбце df приведены степени свободы сумм квадратов, а в столбце MS — значения соответствующих дисперсий. В столбце Fвычислены значения критериальных статистик, т.е. отношения дисперсий s12 , s22, s32 к дисперсии s4 . В столбце Р-Значение вычисляются вероятности Р(Х > F), где X — случайная величина, имеющая F-распределение со степенями свободы, значения которых приведены в столбце df: первое значение степени свободы — из соответствующей строки этого столбца, а второе — всегда из четвертой строки, F — значение из столбца F. Значение можно вычислить по формуле Excel =FРАСП(E43;C43;C46). Эти значения используются для проверки гипотез о значимом влиянии факторов или их взаимного влияния: если вероятность больше заданного уровня значимости, то нулевая гипотеза об отсутствии влияния принимается, в противном случае — отвергается. В столбце F критическое вычисляются критические значения, соответствующие заданному в диалоговом окне Двухфакторный дисперсионный анализ с повторениями уровню значимости α. Эти значения вычисляются как квантили порядка 1-α Fраспределения со степенями свободы, значения которых определяются так же, как при вычислении вероятностей из столбца Р-Значение. Значение можно вычислить по формуле Excel =FРАСПОБР(0,05;C43;C46). Эти значения используются для проверки гипотез о значимом влиянии факторов или их взаимного влияния: если значение в этом столбце больше значения в столбце F той же строки, то нулевая гипотеза об отсутствии влияния принимается, в противном случае — отвергается. B1 A1 A2 A3 ИТОГИ B2 530 600 540 550 490 510 520 430 420 450 620 580 550 540 560 470 460 430 B1 B2 Итого A1 Счет Сумма Среднее Дисперсия 3 1620 540 100 3 1800 600 400 6 3420 570 1280 3 1520 506,666 7 233,333 3 3 1650 100 6 3170 528,333 3 696,666 7 3 1300 433,333 3 233,333 3 3 1360 453,333 3 433,333 3 6 2660 443,333 3 386,666 7 9 4440 493,333 3 9 4810 534,444 4 A2 Счет Сумма Среднее Дисперсия 550 A3 Счет Сумма Среднее Дисперсия Итого Счет Сумма Среднее Дисперсия 2375 Дисперсионный анализ Источник вариации Выборка Столбцы Взаимодействие Внутри Итого SS 50011,1 1 7605,55 6 1211,11 1 3000 61827,7 8 4402,77 8 df 2 1 2 12 17 MS 25005,5 6 7605,55 6 605,555 6 250 PЗначение 3,285E08 0,000132 9 0,130721 6 F критическо е 3,885293835 4,747225336 3,885293835