Лекция 1 Тема: Введение в биологическую статистику Биологическая статистика, или биометрия, как наука сформировалась на стыке биологии и математики. Ее возникновение и развитие связано с превращением биологии из науки описательной в науку точную, основанную на измерениях, на применении количественных оценок при решении биологических задач. С формальной точки зрения биологическая статистика представляет собой совокупность математических методов, применяемых в биологии. Однако следует учитывать, что математическая статистика и теория вероятностей являются теоретическими науками, в то время как биологическая статистика – это наука прикладная, имеющая дело с конкретными фактами, которые она анализирует с помощью методов математической статистики и теории вероятностей. Биометрия преследует не математические, а исключительно биологические цели. Биометрия – это наука о статистическом анализе массовых явлений в биологии, т.е. таких явлений, в массе которых обнаруживаются закономерности, не выявляемые на единичных случаях наблюдений. Предметом биометрии служит любой биологический объект, если проводимые над ним наблюдения получают количественное выражение. Обычно наблюдения проводятся не на единичных, а на групповых объектах, например на растениях одного и того же сорта, которые рассматриваются в качестве составных элементов или членов группового объекта и называются единицами наблюдений. Совокупность таких относительно однородных, но индивидуально различимых единиц, объединенных в отношении некоторых общих условий для совместного изучения, называется статистической совокупностью. Понятие статистической совокупности является одним из фундаментальных понятий в биометрии, которое основано на принципе однородности ее состава. Т.е. нельзя объединять в одну группу растения разных видов, особей разных пород и возраста и т.д. Статистическая совокупность может состоять не только из аморфной массы однородных групп, но и из разных по составу, но внутренне однородных групп, объединяемых в отношении принятых в исследовании условий для совместной обработки. В этих случаях совокупность исходных данных называется статистическим комплексом. Вопрос о статистической совокупности решается исследователем в зависимости от объекта и цели исследования. Тема: Основные характеристики вариационного ряда Наблюдения над биологическим объектом могут проводиться по одному или по нескольким признакам. Результаты наблюдений заносятся в дневники (полевое наблюдения) или журналы (лабораторные наблюдения), которые относятся к формулярам первичного учета. Первичные документы учета содержат фактический материал, который нуждается в обработке. Обработка начинается с систематизации собранных числовых данных. Процесс систематизации первичных данных в целях обнаружения некоторых закономерностей называется группировкой. Причем группировка – это не просто технический прием, направленный на получение полноценной информации об изучаемом объекте. Выбранный способ группировки должен отвечать требованиям поставленной задачи и согласовываться с содержанием изучаемого явления. Группировка может быть различной в зависимости от того с какой целью и по каким признакам она проводится. Наиболее приемлемой формой группировки являются статистические таблицы. Исходные данные также могут быть сгруппированы и в статистические ряды – ряды числовых значений признака, расположенные в определенном порядке. В зависимости от того в каком плане (динамики или статики) и по каким признакам (количественным или качественным) рассматривается изучаемое явление статистические ряды подразделяются на атрибутивные, вариационные, динамики или временные. Вариационный ряд и его характеристика. Использование больших выборок позволяет снизить величину статистической ошибки, но получаемый при этом значительный массив данных неудобен для проведения статистической характеристики. Для группировки наблюдений в большой выборке, где число значений варьирующего признака 30 и более, используются вариационные ряды. Например, у 30 клубней было подсчитано количество глазков и были получены следующие значения: 6, 9, 5, 9,10, 7, 9, 8, 10, 8, 9, 10, 8, 11, 9,12, 8, 9, 10, 8, 10, 9, 11, 9, 10, 9, 8, 7, 11, 8 Если расположить эти значения в порядке возрастания, несложно убедиться, что каждая варианта (xi) повторяются по несколько раз, т.е. Значения признака, xi Число вариант (частота, f) 5 1 6 1 7 2 8 7 9 9 10 6 11 3 12 1 Число, показывающее сколько раз отдельное значение признака встречается в данной выборке, называется частотой и обозначается f. Сумма всех частот всегда равна объему выборки. Вариационным рядом называется ряд данных, в которых указаны возможные значения варьирующего признака в порядке возрастании или убывания и соответствующие им частоты. Основной характеристикой вариационного ряда является средняя арифметическая, или выборочная средняя. Вариационный ряд может быть интервальный или безинтервальный. Вопрос о характере интервального ряда решается исследователем в зависимости от размаха и характера варьирования признака. Если признак варьирует дискретно, т.е. прерывисто и слабо, то выборка распределяется в безинтервальный ряд. Если значение признака изменяется в широком диапазоне, то выборка распределяется в интервальный ряд. При этом важно, чтобы величина интервала удовлетворяла определенным требованиям. При выборе маленьких интервалов точность числовых характеристик повышается, но ряд получается слишком длинным и закономерности варьирования прослеживаются недостаточно четко. При больших интервалах точность расчетов снижается и закономерности варьирования также плохо прослеживаются как и при маленьких интервалах. Графическое изображение вариационных рядов. Для наглядности выражения закономерности варьирования того или иного количественного признака вариационные ряды изображают в виде геометрических фигур в системе прямоугольных координат. Графическое изображение вариационного ряда называется вариационной кривой, или кривой распределения. При построении графика безинтервального вариационного ряда по оси абсцисс откладываются значения признака, а по оси ординат – частоты. Высота перпендикуляров, восставляемых по оси абсцисс, соответствует частоте встречаемости каждого значения признака Х. Соединяя вершины перпендикуляров прямыми линиями, получают геометрическую фигуру в виде многоугольника, которая называется полигоном распределения частот. При построении графика интервального вариационного ряда по оси абсцисс откладываются границы классовых интервалов. В результате получается столбиковая геометрическая фигура, которая называется гистограммой распределения частот. Если из срединных точек вершин прямоугольников гистограммы опустить перпендикуляры на ось абсцисс, то гистограмма превращается в полигон распределения. Соединяя точки вершин прямоугольников гистограммы прямыми линиями, получаем вариационную кривую. При построении графиков вариационных рядов масштабы на осях координат выбираются произвольно, но с таким расчетом, чтобы высота вариационной кривой, относилась к ее основанию примерно как 5:8. Тема: Статистические характеристики изменчивости Наблюдения, проводимые над объектом, могут охватывать всех членов изучаемой совокупности без исключения или могут ограничиться обследованием лишь некоторой части членов данной совокупности. В первом случае наблюдение называется сплошным или полным, во втором – частичным или выборочным. Сплошное наблюдение позволяет получать наиболее исчерпывающую информацию о групповом объекте. Однако сплошное наблюдение сопряжено с большими затратами времени и труда, а зачастую оно практически неосуществимо, да и не целесообразно. Поэтому вместо сплошного наблюдения чаще всего используется выборочное, по которому делают общее заключение. Таким образом, всю группу объектов, подлежащую изучению, называют генеральной совокупностью, а ту часть, которая попала в изучение – выборочной совокупностью или выборкой. Типы изменчивости. Изменчивостью или варьированием называется свойство условных единиц отличаться друг от друга в однородной совокупности. Изменчивость присуща всем объектам природы. У растений варьирующими признаками являются высота, количество и масса плодов, содержание питательных веществ и т.п. Варьирование возникает вследствие того, что растения даже одного сорта отличаются своей наследственностью, их формирование протекает в относительно различных условиях внешней среды. Различают 2 типа изменчивости: количественную и качественную. Количественная изменчивость – эта такая изменчивость, при которой значение варьирующего признака имеет числовое выражение. Она бывает прерывистой (дискретной) и непрерывной. При прерывистой изменчивости значения признака выражаются только целыми числами; при непрерывной количественной изменчивости значение признака могут иметь любую величину в зависимости от точности, принимаемой для характеристики данного признака. Качественная или атрибутивная изменчивость – эта такая изменчивость, при которой значения признака не имеют числового выражения: окраска растений и их органов, форма листьев и плодов, структура поверхности листьев и плодов. Частным случаем качественной изменчивости является альтернативная изменчивость, когда признак может принимать только два взаимоисключающих друг друга значения, либо признак присутствует или отсутствует: больной – здоровый, остистый – безостый, с восковым налетом – без воскового налета, с опушением – без опушения и т.п. В опытах с качественной изменчивостью вместо измерения какого-либо показателя подсчитывают количество объектов с тем или иным признаком. Статистические характеристики количественной изменчивости. Основными статистическими характеристиками количественной изменчивости являются: Средняя арифметическая – x Дисперсия- s2 Стандартное отклонение –s Коэффициент вариации-V Ошибка выборочной средней – sx Средняя арифметическая x - это обобщенная, абстрактная характеристика совокупности. Она не содержит полной информации о варьирующих объектах. При одинаковых средних характеризуемые признаки могут отличаться по величине вариации. Различают простую и взвешенную среднюю арифметическую. Простая средняя арифметическая рассчитывается для выборок малого объема по формуле: _ x X n где ΣX - сумма всех значений признака n – количество значений признака, или объем выборки. Взвешенная средняя арифметическая рассчитывается для сгруппированных данных по формуле: _ x f x f x ... f x fX n f f ... f 1 1 1 Где 2 2 2 n n n n - значение признака, f - частота встречаемости каждого признака, n - объем выборки. Основное свойство средней арифметической заключается в равенстве суммы всех положительных и всех отрицательных отклонений от нее, т.е. сумма всех отклонений вариант равна 0. Дисперсия s2, или варианса, или средний квадрат рассчитывается как отношение суммы квадратов отклонений среднего арифметического от каждого значения признака к числу степеней свободы. Для выборки малого объема она рассчитывается по формуле: ( X x) 2 s 2 n 1 где n-1 – число степеней свободы, или количество варьирующих величин. Дисперсия показывает квадрат среднего отклонения значений признака X от средней арифметической. Стандартное отклонение s, или среднее квадратическое отклонение получают путем извлечения квадратного корня из дисперсии, т.е. s 2 s. Стандартное отклонение показывает величину среднего отклонения значений признака X от средней арифметической. Коэффициент вариации V – является относительным показателем изменчивости и представляет собой отношение стандартного отклонения к средней арифметической, выраженное в процентах: V s 100 x Коэффициент вариации показывает степень изменчивости признака: изменчивость считается незначительной если коэффициент вариации не превышает 10%, средним – если он колеблется от 10 до 20 и значительной – если он более 20%. Ошибка выборочной средней или ошибка выборки sx является мерой отклонения выборочной средней арифметической от средней генеральной совокупности. Ошибки выборки возникают вследствие неполной репрезентативности (представительности), т.к. не все возможные значения признака, имеющиеся в генеральной совокупности, попадают в выборку. Она свойственна только выборочному методу. Величина ошибки выборочной средней зависит от степени варьирования и от объема выборки. Ошибка выборочной средней прямо пропорциональна стандартному отклонению и обратно пропорциональна объемы выборки, т.е. sx s n Ошибка выборочной средней выражается в тех же единицах измерения, что и варьирующий признак и приписывается к соответствующим средним со знаком ±, т.е. x ± sx. Статистическими характеристиками качественной изменчивости являются: - доля признака; - показатель изменчивости; - коэффициент вариации; - ошибка выборочной доли. Доля признака характеризует относительную частоту встречаемости отдельной варианты (значения признака) в данной совокупности и обозначается через р1, р2, …, рn. Выражается доля признака в частях единицы или в процентах. Сумма всех долей признака в пределах совокупности равна 1 или 100%. Доля признака отражает вероятность появления данного признака в изучаемой совокупности и определяется как отношение численности каждого из членов ряда n1, n2, …, nn к объему выборки N: p nN ; p nN ; …; p nN 1 1 n 2 2 n При альтернативной изменчивости доля одного признака обозначается через p, другого - через q. Показатель изменчивости качественного признака s характеризует варьирование величин ряда относительно друг друга. При альтернативной изменчивости он определяется по формуле: s pq В зависимости от соотношения p и q значение показателя изменчивости изменяется от 0 до 0,5. Максимальная изменчивость качественного признака smax наблюдается при p=q=0,5. Коэффициент вариации качественного признака V – это отношение показателя изменчивости признака к максимально возможной изменчивости, выраженное в процентах: V s s 100 max Коэффициент вариации характеризует относительную степень изменчивости исследуемых признаков и используется для сравнительной оценки выравненности различных совокупностей. Максимальное значение V равное 100% наблюдается при s=smax. Ошибка выборочной доли sр определяет меру отклонения доли признака выборочной совокупности р от доли его во всей генеральной совокупности Р. Ошибка выборочной доли возникает как и ошибка выборочной средней вследствие неполной репрезентативности (представительности), т.к. не представляется возможным, а зачастую и нецелесообразно подсчитать частоту встречаемости признака в генеральной совокупности. Она свойственна только выборочному методу. Величина ошибки выборочной доли зависит от степени варьирования и от объема выборки. Вычисляется по формуле: sр s n