С А НКТ-ПЕТЕРБУРГСКИЙ ГО С УДА Р С ТВЕННЫЙ УНИВЕР СИТЕТ
А. Э. Сумачёв, С. В. Попов
СТАТИСТИЧЕСКАЯ ОБРАБОТКА
ГИДРОМЕТЕОРОЛОГИЧЕСКИХ
ДАННЫХ
Учебно-методическое пособие
ИЗДАТЕ ЛЬ С ТВ О С А НКТ-ПЕТЕРБУРГСКОГО УНИВЕР СИТЕТА
УДК 519.22
ББК 22.172
С89
Рецензенты:
канд. геогр. наук, доц. П. Н. Священников (С.-Петерб. гос. ун-т);
канд. геогр. наук, ст. науч. сотр. Л. С. Банщиков (Гос. гидролог. ин-т)
Рекомендовано к публикации
Учебно-методической комиссией по УГСН 05.00.00 Науки о Земле
Санкт-Петербургского государственного университета
С89
Сумачёв А. Э., Попов С. В.
Статистическая обработка гидрометеорологических данных: учеб.-метод.
пособие. — СПб.: Изд-во С.-Петерб. ун-та, 2024. — 132 с.
ISBN 978-5-288-06425-8
В учебно-методическом пособии рассмотрены основные методы статистического
анализа гидрометеорологических данных от их обработки до прогнозирования. Приведены исторические и теоретические аспекты теории вероятностей и математической
статистики, даны наиболее важные определения. Рассмотрены методы математической
статистики и анализа для решения реальных практических задач, связанных с гидрометеорологическими расчётами и прогнозами. Приведены три практические работы по
анализу гидрологических наблюдений. В приложении дан справочный материал, необходимый для решения практических задач.
Предназначено для студентов программ бакалавриата и магистратуры гидрометеорологической специальности.
УДК 519.22
ББК 22.172
Проект — победитель
ежегодного открытого конкурса учебных изданий СПбГУ
«Университетский заказ — 2023»
ISBN 978-5-288-06425-8
© Санкт-Петербургский
государственный университет, 2024
Содержание
ПРЕДИСЛОВИЕ..............................................................................................................
5
ВВЕДЕНИЕ......................................................................................................................
6
1. ОСНОВЫ ТЕОРИИ ВЕРОЯТНОСТЕЙ ......................................................................
7
1.1. Историческая справка.........................................................................................
—
1.2. Основы комбинаторики.....................................................................................
12
1.3. События, вероятность, действия над событиями.........................................
14
1.4. Условная вероятность, полная вероятность,
теорема Байеса....................................................................................................
15
2. ГИДРОМЕТЕОРОЛОГИЧЕСКИЕ ДАННЫЕ И ПОДХОДЫ К ИХ ИССЛЕДОВАНИЮ.
ОСНОВЫ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ И АНАЛИЗА ДАННЫХ.....................
18
2.1. Характеристика гидрометеорологических данных......................................
—
2.2. Математическая статистика:
краткая историческая справка.........................................................................
19
2.3. Понятие закона распределения и методы
оценки его параметров......................................................................................
20
2.4. Основные статистические критерии для оценки однородности
и стационарности рядов наблюдений............................................................
26
2.5. Основы и суть корреляционного
и регрессионного анализов..............................................................................
31
2.6. Основы и суть машинного обучения,
методы обучения искусственных нейронных сетей....................................
34
2.7. Кластерный анализ и задачи классификации ..............................................
37
2.8. Факторный анализ и метод главных компонент .........................................
42
2.9. Введение в теорию случайных процессов
и анализ временны' х рядов...............................................................................
43
3. РАБОТА I. КОМПЛЕКСНЫЙ СТАТИСТИЧЕСКИЙ АНАЛИЗ
ГИДРОМЕТЕОРОЛОГИЧЕСКОЙ ИНФОРМАЦИИ.................................................
47
Порядок выполнения работы и отчётные материалы.......................................
48
Контрольные вопросы...............................................................................................
70
4. РАБОТА II. ПРОГНОЗИРОВАНИЕ ЭКСТРЕМАЛЬНЫХ ХАРАКТЕРИСТИК
ВОДНОГО РЕЖИМА МЕТОДАМИ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ.............
72
Порядок выполнения работы и отчётные материалы.......................................
—
Контрольные вопросы...............................................................................................
83
3
' Х РЯДОВ
5. РАБОТА III. АНАЛИЗ И ПРОГНОЗИРОВАНИЕ ВРЕМЕННЫ
С ИСПОЛЬЗОВАНИЕМ МОДЕЛИ АРПСС И ИСКУССТВЕННЫХ
НЕЙРОННЫХ СЕТЕЙ.................................................................................................
84
Порядок выполнения работы и отчётные материалы.......................................
—
Контрольные вопросы...............................................................................................
98
СПИСОК ЛИТЕРАТУРЫ.................................................................................................
99
ПРИЛОЖЕНИЯ...............................................................................................................
101
Приложение 1. Значения статистики Фишера для различных уровней
значимости и степеней свободы......................................................................
101
Приложение 2. Значения статистики Стьюдента для разных уровней
значимости и чисел степеней свободы..........................................................
104
Приложение 3. Ординаты кривых обеспеченности Крицкого — Менкеля
(трёхпараметрического гамма-распределения) в модульных
коэффициентах Kp = f(Cv, Cs/Cv, P)........................................................................
106
Приложение 4. Нормированные ординаты распределения Пирсона
III типа TP % = (XP % – ХСР)/σ (биномиальная кривая распределения) ...........
118
Приложение 5. χ2-распределение (ординаты даны в зависимости от
числа степеней свободы и уровня значимости)...........................................
121
Приложение 6. Номограммы для определения параметров
распределения Крицкого — Менкеля методом приближённого
наибольшего правдоподобия .........................................................................
122
Предисловие
Учебно-методическое пособие состоит из трёх связанных частей. Первая часть
охватывает теоретические аспекты математической статистики и анализа
данных, приводятся важные определения, иллюстрируемые рисунками и графиками. Вторая часть посвящена практическому применению и закреплению
теоретических навыков в ходе решения практических работ, имеющих комплексный характер. В третьей части рассматриваются три практические работы по анализу гидрологических наблюдений.
Практические работы направлены как на углубление уже имеющихся базовых знаний и умений обучающихся по статистике, так и на формирование
новых компетенций, связанных с использованием методов кластерного, факторного и регрессионного анализов, методов машинного обучения при решении гидрометеорологических задач. Углубление имеющихся знаний связано в первую очередь с использованием специальных статистических программных продуктов и надстроек Excel, которые способны значительно облегчить вычислительные операции, для чего студентам необходимо выполнить
комплексную работу по статистическому анализу гидрометеорологической
информации. Освоение новых компетенций сопряжено с выполнением ряда
практических работ, связанных с расчётом характеристик временны
' х рядов
и случайных процессов, кластеризации и классификации данных, прогнозирования случайных величин с использованием методов множественной регрессии и машинного обучения. В каждой работе приведены теоретические
основы её выполнения, необходимые вычислительные функции, условия и порядок выполнения работы, отчётные материалы и контрольные вопросы.
В приложении приведен справочный материал, необходимый для решения
практических задач.
Настоящее пособие предполагает хорошее знание методологии и источников получения исходных гидрометеорологических данных и в свою очередь
является основой, на которой базируются специальные гидрометеорологические дисциплины.
5
Введение
Статистика — отрасль знаний науки, в которой излагаются общие вопросы
сбора, измерения, мониторинга, анализа массовых статистических (количественных или качественных) данных и их сравнение; изучение количественной
стороны массовых общественных и природных явлений в числовой форме.
В гидрометеорологии великое множество характеристик определяются
огромным числом факторов. Согласно центральной предельной теореме в случаях, когда эти факторы по отдельности слабы и ни один из них не является
доминирующим, распределение подобных величин является нормальным или
стремится к таковому. Наличие как минимум четырёх равнозначных факторов
уже приводит к тому, что распределение случайной величины стремится к нормальному. Например, в соответствии с уравнением теплового баланса океана изменение температуры поверхностного слоя воды определяется восемью основными факторами. При этом ценность данных факторов в значительной степени
зависит как от масштабов временнóго осреднения процессов формирования теплового баланса, так и от географического района океана. Например, при периоде
осреднения, равном 1 мес., для большинства районов океана преобладающим
фактором оказывается годовой ход коротковолнового притока солнечной радиации, который может значительно превышать вклад в изменения температуры
воды других тепловых процессов. Именно вследствие преобладания этого фактора распределение среднемесячных значений температуры поверхности океана
обычно не подчиняется нормальному закону. Если же в качестве масштаба временного осреднения взять один год, то радиационный фактор уже, как правило,
не даёт преобладающего вклада в колебания температуры поверхности океана.
Поэтому распределение средних годовых значений температуры, в отличие от
среднемесячных величин, носит значительно более симметричный характер.
Таким образом, статистика является инструментом для количественного анализа и описания каких-либо процессов, происходящих в обществе, природе или
в результате опыта. Задача статистического анализа заключается в численно-вероятностном описании сложных процессов, которые не могут быть описаны иными
способами. Этим и определяется область применения статистических методов.
6
1. ОСНОВЫ ТЕОРИИ ВЕРОЯТНОСТЕЙ
Теория вероятностей — это математическая наука, изучающая закономерности, присущие массовым случайным явлениям. При этом изучаемые явления рассматриваются в абстрактной форме, независимо от их конкретной
природы. Иначе говоря, теория вероятностей рассматривает не сами реальные
явления, а их упрощённые схемы — математические модели. Предметом теории вероятностей являются математические модели случайных явлений. Под
случайным явлением понимают такое явление, исход которого предсказать невозможно, поскольку при неоднократном воспроизведении одного и того же
опыта он протекает каждый раз по-разному. В качестве примеров случайных
явлений можно назвать выпадение герба при подбрасывании монеты, выигрыш по купленному лотерейному билету, результат измерения какой-либо
величины, длительность работы телевизора и т. п. Цель теории вероятностей — осуществление прогноза в области случайных явлений, влияние на ход
этих явлений, контроль их, ограничение сферы действия случайности [Письменный, 2004].
1.1. Историческая справка
У теории вероятностей, в отличие от других разделов математики, не было
античных или средневековых предшественников, она целиком является созданием Нового времени, а её строгое обоснование было разработано лишь
в 1929 г. В наше время теория вероятностей занимает одно из основных мест
в прикладных науках, и нет почти ни одной естественной науки, в которой так
или иначе не применялись бы вероятностные методы.
Первые задачи вероятностного характера возникли в различных
азартных играх. Французский каноник XIII в. Ришар де Фурниваль (1201–
1260) правильно подсчитал все возможные суммы очков после броска трёх
костей и указал число способов, которыми может получиться каждая из этих
сумм, что можно рассматривать как первую числовую меру ожидаемости
события, аналогичную вероятности. В обширной математической энциклопедии «Сумма арифметики, геометрии, отношений и пропорций» итальянца Луки Пачоли (1445–1517) имеется множество оригинальных задач,
7
например о том, как разделить ставку между игроками, если серия игр прервана досрочно [Реньи, 1980]. Крупный учёный XVI в. Джероламо Кардано
(1501–1576) посвятил анализу игры содержательную монографию «Книга
об игре в кости» (1576), в которой он провёл полный и безошибочный комбинаторный анализ для значений суммы очков и указал для различных событий степень их вероятности [Майстров, 1967]. Аналогичными вопросами
интересовался итальянский алгебраист Никколо Тарталья (1499–1557). Исследованием подобных математических задач занимался и Галилео Галилей
(1564–1642), написавший трактат «О выходе очков при игре в кости» (1718).
Изложение теории игры у него отличается исчерпывающей полнотой и ясностью. В своём основном трактате «Диалог о двух главнейших системах мира,
птолемеевой и коперниковой» автор также указал на возможность оценки
погрешности астрономических и иных измерений, допуская при этом, что
небольшие ошибки вероятнее, чем значительные, отклонения в обе стороны
равновероятны, а средний результат должен быть близок к истинному значению измеряемой величины. Эти качественные рассуждения стали первым
в истории предсказанием закона нормального распределения ошибок [Майстров, 1967].
В XVII в. постепенно стало формироваться представление о проблематике
теории вероятностей, появились первые математические методы решения
вероятностных задач на основе комбинаторики. Основателями математической теории вероятностей стали Блез Паскаль (1623–1662) и Пьер Ферма
(1601–1665) [Стройк, 1969]. Б. Паскаль в своих трудах далеко продвинул применение комбинаторных методов, которые систематизировал в книге «Трактат
об арифметическом треугольнике» (опубл. 1665). Кроме того, опираясь на вероятностный подход, он даже доказывал, что быть верующим выгоднее, чем
атеистом (так называемые пари Паскаля). Приведём фрагмент текста ввиду
нетривиальности:
…скажем так: “Бог либо есть, либо Его нет”. Какой же ответ мы изберём?
Разум нам тут не помощник: между нами и Богом — бесконечность хаоса. На
самом краю этой бесконечности идёт игра — что выпадет: орёл или решка? На
что вы поставите? <…> Давайте подумаем. Поскольку выбор неизбежен, подумаем, что вас меньше затрагивает. Вам грозят два проигрыша: в одном случае
проигрыш истины, в другом — блага… Взвесим наш возможный выигрыш или
проигрыш, если вы поставите на орла, т. е. на Бога. Сопоставим тот и другой: выиграв — вы выиграете всё, проиграв — не потеряете ничего. Ставьте же, не колеблясь, на Бога! <…> Итак, чем вы рискуете, сделав такой выбор? Вы станете
честным, неспособным к измене, смиренным, благодарным, творящим добро человеком, способным к нелицеприятной, искренней дружбе. Да, разумеется, для
вас будут заказаны низменные наслаждения: слава, сладострастие, но разве вы
ничего не получите взамен? Говорю вам, вы много выиграете даже в этой жизни,
и с каждым шагом по избранному пути всё несомненнее будет для вас выигрыш
и всё ничтожнее то, против чего вы поставили на несомненное и бесконечное,
ничем при этом не пожертвовав [Паскаль, 2020. С. 451].
8
Над вопросами вероятности выигрыша также размышлял Христиан Гюйгенс (1629–1695), который опубликовал трактат «О расчётах при игре в кости»
(1657), по сути первое глубокое исследование по теории вероятностей [Стройк,
1969]. В нём автор подробно изложил вопросы, рассмотренные Ферма и Паскалем, но также поставил и новые. Главным достижением голландского учёного стало введение понятия математического ожидания, а также ставший
классическим способ его подсчёта [История математики, 1970]. К этому же
периоду относятся публикации английских статистиков Джона Граунта (1620–
1674) и Уильяма Петти (1623–1687). Обработав данные более чем за столетие,
они показали, что многие демографические характеристики лондонского населения, несмотря на случайные колебания, имеют достаточно устойчивый
характер. Дж. Граунт также впервые составил таблицы смертности, таблицы
вероятности смерти как функции возраста [История математики, 1970]. Вопросами теории вероятностей и её применения к демографической статистике
занялись также Иоганн Худде (1628–1704) и Ян де Витт (1625–1672), которые
в 1671 г. также составили таблицы смертности и использовали их для вычисления размеров пожизненной ренты. Более подробно данный круг вопросов
был изложен в 1693 г. Эдмундом Галлеем (1656–1742) [Реньи, 1980].
На трактат Гюйгенса опирались появившиеся в начале XVIII в. работы
Пьера де Монмора (1678–1719) «Опыт исследования азартных игр» и Якоба
Бернулли (1655–1705) «Искусство предположений», которые имели для теории вероятностей особо важное значение [Реньи, 1980]. Над книгой Я. Бернулли работал 20 лет, и она был первым систематическим изложением теории
вероятностей, а одна из вероятностных схем и распределение случайных величин носят его имя. Достойный вклад в этот раздел математики также внесли
Абрахам де Муавр (1667–1754) и Пьер-Симон Лаплас (1749–1827). Огромное
значение как для теории вероятностей, так и для науки в целом имел доказанный Я. Бернулли первый вариант закона больших чисел (название закону
дал позже С. Пуассон), который объясняет, почему статистическая частота
при увеличении числа наблюдений сближается с теоретическим её значением.
В дальнейшем закон больших чисел трудами многих математиков был значительно обобщён и уточнён [Майстров, 1967].
Трактат Я. Бернулли вызвал резкий подъём интереса к вероятностным
проблемам и рост числа исследований новых задач. Абрахам де Муавр опубликовал ряд работ, среди которых статья «Об измерении случайности, или вероятностях результатов в азартных играх» (1711) и трактат «Учение о случаях»
(1718). В трактате автор решил так называемую задачу о разорении игрока.
Суть игры в следующем. Некто играет в орлянку. У него одна монета, а у его
противника иное количество. Каковы шансы у игроков на выигрыш и на разорение? И какое количество партий до разорения одного из игроков? В другой
работе («Аналитическая смесь») автор дал первый вариант теоремы Муавра —
Лапласа, исследующей распределение возможных отклонений статистической
частоты от вероятности. Ещё одним достижением А. де Муавра стало введение
в науку нормального распределения (1733), которое появилось у него как ап-
9
проксимация биномиального распределения [Стройк, 1984]. Даниил Бернулли
(1700–1782), племянник Я. Бернулли, также внёс вклад в эту науку. Он независимо от А. де Муавра исследовал нормальное распределение для ошибок наблюдений и первым применил к вероятностным задачам методы математического анализа.
Следующий важный шаг в теории вероятностей сделал английский математик Томас Симпсон (1710–1761), который в своей монографии «Природа
и законы случая» (1740) использовал третье (наряду с классическим и статистическим) определение вероятности: геометрическое. Подход Симпсона
развил Жорж-Луи де Бюффон (1707–1788), который в 1777 г. привёл классический пример подобного рода задач, так называемую задачу Бюффона о бросании иглы: плоскость разграфлена «в линейку», на неё наудачу бросается
игла, требуется найти вероятность того, что игла пересечёт линию. В 1901 г.
итальянский математик Марио Лаццарини использовал её для опытного определения числа π. Английским математиком Томасом Байесом (1702–1761)
была решена важнейшая и фундаментальная задача о сложении вероятностей
для нескольких несовместимых событий и получена основополагающая в теории вероятностей и статистике «формула Байеса» (опубл. 1763). К середине
XVIII в. анализ игр всё ещё был привлекателен. В частности, Леонард Эйлер
(1707–1783) дал подробный анализ разных типов лотерей, но центром внимания математиков всё в большей степени становятся демографическая статистика, страхование и оценка ошибок. Этим вопросам Эйлер посвятил множество работ, в частности решил задачу оценки вероятности того, что человек
в возрасте m лет проживёт ещё n лет [Майстров, 1967].
В XIX в. число работ по теории вероятностей продолжало расти, а её
математический аппарат продолжал совершенствоваться. Основной сферой
её применения в тот период была математическая обработка данных, содержащих случайные погрешности, а также расчёты рисков в страховом деле
и других статистических параметров. Уже к середине XIX в. формируется
вероятностная теория артиллерийской стрельбы, а в большинстве крупных
стран Европы создаются национальные статистические организации. В конце
века область применения вероятностных методов начала успешно распространяться на физику, биологию, экономику, социологию [Стройк, 1969].
Карл Фридрих Гаусс (1777–1855) разработал вероятностную методику работы с измерениями, содержащими погрешности (1809). Он обосновал применение метода наименьших квадратов, а также глубоко изучил нормальное
распределение и показал, что оно во многих практических ситуациях является предельным для случайных значений. Его вклад в теорию этого важнейшего распределения столь велик, что долгое время оно носило его имя.
Основные достижения теории вероятностей подытожены в капитальном
научном труде Лапласа «Аналитическая теория вероятностей», изданном
в 1812 г. Симеон Дени Пуассон (1781–1840) в 1837 г. обобщил закон больших
чисел. Он же опубликовал формулу Пуассона, удобную для описания схемы
Бернулли в том случае, когда вероятность события близка к нулю или к еди-
10
нице. Распределение Пуассона (закон редких событий) является одним из основных в прикладных задачах.
До середины XIX в. практическое применение теории вероятностей было
в основном ограничено статистикой и приближёнными вычислениями. Одним
из первых случайных процессов в физике стало изученное Робертом Броуном
(1773–1858) в 1827 г. под микроскопом хаотическое движение цветочной
пыльцы, плававшей в воде (броуновское движение). Однако его математическая модель появилась лишь в начале XX в. Первые физические вероятностные
модели возникли в статистической физике, которую разработали во второй
половине XIX в. Людвиг Больцман (1844–1906), Джеймс Клерк Максвелл (1831–
1879) и Джозайя Уиллард Гиббс (1839–1903). К концу XIX в. огромное практическое значение вероятностных методов стало общепризнанным фактом.
Математическая статистика, как основа для принятия надёжных решений
о случайных величинах, возникла на рубеже XIX–XX вв. благодаря основополагающим работам Карла Пирсона (1857–1936), который разработал теорию
корреляции, критерии согласия, регрессионный анализ, алгоритмы проверки
гипотез, принятия решений и оценки параметров. Его алгоритмы нашли широкое применение в физике, медицине, биологии, социологии, сельском хозяйстве и смежных науках. Виднейшим продолжателем работ Пирсона по прикладной математической статистике стал Рональд Эйлмер Фишер (1890–1962).
Он опубликовал работы по планированию эксперимента, разработал метод
максимального правдоподобия, тест статистической значимости, дисперсионный анализ и решение ряда других практически важных статистических
задач. Совместно с Ежи Нейманом (1894–1981) он разработал концепцию доверительного интервала (1937), а также является автором такого важного понятия, как «дисперсия случайной величины».
В России в первой половине XIX в. появились собственные серьёзные исследования по теории вероятностей. Первый учебный курс в Вильнюсском
университете (1829) начал читать Зигмунд Ревковский. Там же в 1830 г. была
создана первая в Российской империи кафедра теории вероятностей. В Петербургском университете лекции с 1837 г. читал сначала Викентий Александрович Анкудович (1790–1876), а с 1850 года Виктор Яковлевич Буняковский
(1804–1889), который в 1846 г. опубликовал фундаментальный учебник «Основания математической теории вероятностей», а его русская терминология
стала в нашей стране общепринятой. В Московском университете курс теории
вероятностей появился в 1850 г. Лекции читал Август Юльевич Давидов (1823–
1886), будущий президент Московского математического общества. Работы по
этой тематике публиковали многие крупные математики России, в том числе
Михаил Васильевич Остроградский (1801–1861), Николай Иванович Лобачевский (1792–1856), Николай Ефимович Зернов (1804–1862), Пафнутий Львович
Чебышёв (1821–1894) и его ученики: Андрей Андреевич Марков (1856–1922),
Александр Михайлович Ляпунов (1857–1918) и Андрей Николаевич Колмогоров (1903–1987).
11
1.2. Основы комбинаторики
Комбинаторика — это раздел математики, который изучает задачи выбора и расположения элементов из некоторого множества в соответствии с заданными
правилами. Её формулы и принципы используются в теории вероятностей для
подсчёта вероятности случайных событий и получения законов распределения
случайных величин. Рассмотрим основные правила комбинаторики.
Правило суммы. Пусть имеется два действия А и В, которые взаимно
исключают друг друга, при этом действие А можно выполнить m способами,
а В — n способами. Тогда выполнить любое из них, А или В, можно n + m способами.
Пример. В урне находятся 16 белых шаров и 10 чёрных. Сколькими способами можно вытащить один шар?
Решение. Шар можно вытащить или белый, или чёрный. По правилу
суммы получаем, что это можно сделать 16 + 10 = 26 способами.
Правило произведения. Пусть требуется выполнить последовательно k
действий. Если первое можно выполнить n1 способами, второе — n2 способами, третье — n3 способами и так до k-го, которое можно выполнить nk способами, то все k действий вместе могут быть выполнены N способами:
k
N = ∏ nJ .
J =1
Пример. В урне находятся 16 белых шаров и 10 чёрных. Сколькими способами можно вытащить два шара?
Решение. Первый шар можно вытащить либо белый, либо чёрный, и сделать это можно 26 способами. Второй шар может быть выбран из оставшихся
25 штук, т. е. 25 способами. При этом такое количество способов относится
к каждому из выбранных шаров первый раз, т. е. общее количество способов
составляет 26 · 25 = 650 вариантов.
Сочетания без повторений. Это классическая задача комбинаторики, которая отвечает на вопрос: сколькими способами можно выбрать k из n различных вариантов ( Cnk )?
Cnk =
n!
.
k !(n − k) !
(1.1)
Пример. В урне находится 10 шаров. Сколькими способами можно вытащить четыре шара?
Решение. Поскольку порядок вытаскивания шаров значения не имеет, нужно
найти число сочетаний 10 элементов по 4. Оно равно 10!/(6! · 4!) = 210 способов.
12
Сочетания с повторениями. Это несколько иная задача. Пусть имеется
по r одинаковых предметов каждого из n различных типов. Сколькими способами можно выбрать k из этих n ⋅ r предметов ( Cnk )?
Cnk = Cnm+ m −1
(n + m − 1) !
.
m!(n − 1) !
Пример. В урне находятся шары четырёх цветов. Сколькими способами
можно вытащить семь шаров?
Решение. Так как среди выбранных шаров могут быть шары одного цвета,
то число способов определяется числом сочетаний с повторениями 7 по 4 и составляет 10!/(7! · 3!) = 120 вариантов.
Размещения без повторений. Это ещё одна классическая задача комбинаторики. Она заключается в определении количества способов размещения по
различным местам k из n предметов (Ank ) :
Ank =
n!
.
(n − k)!
(1.2)
Пример. В газете 12 страниц. Сколькими способами можно разместить на
них четыре фотографии и не более одной на странице?
Решение. Мы не просто выбираем фотографии, а размещаем их на определённых страницах газеты. Таким образом, задача сводится к определению числа размещений без повторений из 12 элементов по 4 и составляет
12!/8! = 11 880 вариантов.
Размещения с повторением. Также классической задачей комбинаторики
является задача о числе размещений с повторениями, о том, сколькими способами можно выбрать и разместить по различным местам m из n предметов,
среди которых есть одинаковые. Оно составляет Ank = nk .
Пример. В лифт восьмиэтажного дома вошли четыре человека. Сколькими
способами они могут выйти (выход возможен на любом этаже, начиная со второго)?
Решение. У каждого пассажира лифта есть семь способов выхода на любом
из этажей. Аналогичная возможность имеется и у остальных, поэтому общее
число вариантов составляет 74 = 2401.
Перестановки без повторений. Это ещё одна классическая задача о том,
сколькими способами можно разместить n различных предметов на n различных местах (Pn):
Pn = n!
(1.3)
13
Пример. Сколькими способами можно разместить пять монет?
Решение. Нужно определить общее число комбинаций размещения пяти
предметов. Оно составляет 5! = 120.
k
Соотношение (1.2), согласно (1.1) и (1.3), можно переписать: A=
Cnk ⋅ k ! .
n
Перестановки с повторениями. Это аналогичная задача о количестве
способов перестановки n предметов, расположенных на nj различных местах,
если среди них имеется k одинаковых. Оно составляет Pn1, n2, n3 …, nk, Pn1, n2, n3б …, nk =
n!/(n1! n2! … nk!).
Пример. Сколько разных буквосочетаний можно сделать из букв слова
«Миссисипи»?
Решение. Здесь одна буква «м», четыре буквы «и», три буквы «c» и одна
буква «п». Всего девять букв. Следовательно, число перестановок с повторениями равно 9!/(1! · 4! · 3! · 1!) = 2520.
1.3. События, вероятность, действия над событиями
Определим основные понятия теории вероятностей. Случайное событие (или
просто событие) — это исход некоторого опыта (испытания), которое может
произойти либо не произойти. Например, в результате опыта (или испытания)
подбрасывается кубик, и событием A может быть выпадение пяти очков, событием B — трёх очков. Непосредственные исходы опыта называются элементарными событиями. Множество всех элементарных событий называется пространством элементарных событий, или пространством исходов. Событие
называется достоверным, если оно обязательно наступит в результате данного
опыта. Событие называется невозможным, если оно заведомо не произойдёт
в результате проведения опыта. Два события называются несовместными, если
появление одного из них исключает появление другого события в одном и том
же опыте, в противном случае события называются совместными. События
называются попарно несовместными, если любые два из них несовместны. Несколько событий образуют полную группу, если они попарно несовместны и
в результате каждого опыта происходит одно и только одно из них. Несколько
событий в некотором опыте называются равновозможными, если ни одно из них
не является объективно более возможным, чем другие.
Вероятностью события A (P(A)) называется отношение количества элементарных благоприятных исходов к общему количеству всех равновозможных несовместных элементарных исходов. Шансом называется отношение вероятностей
благоприятных и неблагоприятных событий. Например, в урне три шара: два
белых и один чёрный. Шанс вытащить белый шар 2 : 1, а чёрный 1 : 2. Шансу 1:10 соответствует вероятность, равная 1/(1 + 10), или 9 %. Вероятности характеризуются
рядом свойств. Вероятность достоверного события A: P(A) = 1. Вероятность невозможного события A: P(A) = 0. Вероятность случайного события A: 0 ≤ P(A) ≤ 1.
14
Суммой (или объединением) событий A и B называется такое событие C,
C = A + B (или C = A ∪ B), которое заключается в наступлении хотя бы одного
из этих событий. Произведением (или пересечением) событий A и B называется
такое событие C, C = A·B (или C = A ∩ B), которое состоит в совместном наступлении этих событий. Противоположным событием A называется событие, которое происходит тогда и только тогда, когда не происходит событие A. Разностью событий A и B называется такое событие C, C = A – B, происходящее тогда
и только тогда, когда происходит событие A, но не происходит событие B. Иначе
его можно записать так: C = A + B. Событие A влечёт событие B, если из того, что
произошло событие A, следует наступление события B: A ⊆ B. Если A ⊆ B и B ⊆ A,
то события A и B равны, т. е. A = B. События и действия над ними наглядно иллюстрируются так называемыми диаграммами Эйлера — Венна (рис. 1.1).
Рис. 1.1. Диаграммы Эйлера — Венна (Ω — достоверное событие) [Кузичев, 1968]
Из вышеизложенного имеется ряд следствий. В частности, сумма всех несовместных событий равна единице. Затем, если события независимы, то появление любого из них не меняет вероятности последующего.
Рассмотрим вероятность суммы двух совместных событий, т. е. тех, которые могут появляться одновременно. Напомним, что вероятность суммы
двух несовместных A и B событий P(A + B) = P(A) + P(B), при этом раз они несовместны, то P(A · B) = 0. Представим вероятность суммы совместных событий
P(A + B) в качестве суммы вероятностей трёх несовместных: P(A + B) = P(A · B) +
P(B · A) + P(A · B). Каждое из них при этом можно также представить как
сумму несовместных событий с вероятностями: P(A) = P(A · B)+P(A · B) и P(B) =
P(B · A) + P(A · B). Подставив их в предыдущее соотношение, получим следующее выражение: P(A + B) = P(A) – P(A · B) + P(B) – P(A · B) + P(A · B), или
P(A + B) = P(A) + P(B) – P(A · B),
(1.4)
которое верно для любых случаев. Вероятность суммы трёх событий (как совместных, так и несовместных) равна
P(A + B + C) = P(A) + P(B) + P(C) – P(A · B) – P(A · C) – P(B · C) + P(A · B · C).
1.4. Условная вероятность, полная вероятность,
теорема Байеса
До этого рассматривались безусловно-вероятностные события. Обратимся
к несколько иному типу задач о вероятности появления некоторого события
при условии появления другого. Условная вероятность P(A | B) — это насту-
15
пление события A при условии, что событие B уже произошло. Например, вероятность того, что из колоды вытянута карта чёрной масти при условии, что
до этого вытянута карта масти такого же цвета. Условная вероятность является одним из наиболее фундаментальных и наиболее важных понятий теории
вероятностей.
Условной вероятностью события A при условии, что произошло событие
B, называется отношение вероятности произведения этих событий к вероятности события B, при этом P(B) ≠ 0, т. е.
P ( A | B) =
P ( A ⋅ B)
.
P ( B)
(1.5)
Вероятность Р(В), в отличие от условной, называется безусловной вероятностью.
Задача. В урне два белых шара и семь чёрных. Из неё последовательно вынимают два шара. Какова вероятность того, что второй шар окажется белым,
при условии, что первый шар был чёрным?
Решение. Пусть событие А — появление первого чёрного шара, а событие B — второго белого. Поскольку событие А произошло, то в урне осталось на один шар меньше, т. е. восемь, причём из них два белых. Поэтому
P(B | A) = 2/8 = 0,25.
Теперь решим эту же задачу с использованием формулы условной вероятности (1.5). Полная вероятность безусловного события P(A), т. е. появление
первого чёрного шара, составляет P(A) = 7/9. Найдём P(A · B). Событию AB благоприятствуют, согласно (1.1), C21 ⋅ C71 =
14 исходов; полное количество исходов
9 · 8 = 72. Таким образом, P(A · B) = 14/72 = 7/36. Тогда P(B | A) = 7/36 : 7/9 = 0,25.
С темой условной вероятности непосредственно связано понятие полной
вероятности. Пусть имеются события A1, A2, A3, …, AN, при этом они образуют
полную группу событий. Тогда вероятность любого события B
N
=
P ( B) ∑ P ( AJ ) ⋅ P ( B | AJ ).
J =1
(1.6)
Задача. В сборочный цех завода поступает 40 % деталей из первого цеха
и 60 % — из второго. В первом цехе производится 90 % качественных деталей,
а во втором — 95 %. Требуется найти вероятность того, что деталь, выбранная
случайным образом, окажется качественной.
Решение. Выбор детали можно разбить на два этапа. Первый — это выбор
цеха. Имеется две гипотезы: A1 — деталь изготовлена первым цехом, A2 —
вторым. Следующий этап заключается в выборе детали. Событие B — взятая
наугад деталь является качественной. Понятно, что события A1 и A2 образуют
полную группу, причём P(A1) = 0,4 и P(A2) = 0,6. Вероятности выбора деталей
для цехов таковы: P(B | A1) = 0,90 и P(B | A2) = 0,95. По формуле (1.6) получаем,
что P(B) = 0,4 · 0,9 + 0,6 · 0,95 = 0,93, или 93 %.
16
Важным следствием соотношений (1.5) и (1.6) является теорема Байеса,
формула Байеса или теорема гипотез [Письменный, 2004]. Это одно из основных и наиболее значимых понятий теории вероятностей, названное в честь
её автора Томаса Байеса (1702–1761), английского математика и священника.
Сэр Гарольд Джеффрис (1891–1989), английский математик, статистик, геофизик и астроном, писал, что теорема Байеса для теории вероятностей то же,
что теорема Пифагора для геометрии [Jeffreys, 1973]. Она позволяет переоценить вероятности гипотез, принятых до опыта (априорных), по результатам
уже проведённого опыта, т. е. получить апостериорные оценки. Теорема Байеса
звучит следующим образом. Пусть события AJ, J = 1…N образуют полную
группу событий. Тогда вероятность наступления события AJ при условии, что
произошло событие B, P(AJ | B), такова, что
P ( AJ | B ) =
P ( AJ ) ⋅ P ( B | AJ ) ,
P( B)
(1.7)
при этом P (B) является полной вероятностью, которую можно вычислить по
формуле (1.6).
Задача. Некто, почувствовав себя плохо, пришёл к врачу. Врач предложил
больному сдать анализы, которые показали наличие некоторого заболевания.
Какова вероятность того, что он действительно болен при условии, что анализ
определяет факт заболевания в 80 % случаев, а в 40 % случаев даёт ложно положительный результат?
Решение. Для решения этой задачи воспользуемся теоремой Байеса об условной вероятности. Пусть событие A заключается в том, что пациент действительно болен, а событие B в том, что получен положительный тест. Тогда P(A | B)
равна произведению вероятности заразиться (т. е. априорной информации, до
того, как пройден тест) P(A) на вероятность P(B | A) события в случае, если гипотеза правдива (т. е. на вероятность того, что пациент действительно болен
и получил положительный тест), — произведению, поделённому на общую вероятность события P(B) (т. е. на полную вероятность получения положительного теста вне зависимости от здоровья пациента). Но она складывается из вероятности двух событий: вероятности того, что положительный тест получен
при условии болезни, т. е. P(A) · P(B | A), и в случае ошибки, т. е. P(A) · P(B | A).
Окончательно:
P ( A | B) =
P(B | A) ⋅ P(A)
.
P(A) ⋅ P(B | A) + P(A) ⋅ P(B | A)
Обычно наиболее сложным вопросом является оценка изначальной вероятности появления события P(A), но в нашем случае это может быть распространённость заболевания в популяции. Если подставить числа в полученную
формулу: (0,8 · 0,001)/(0,001 · 0,8 + 0,999 · 0,4), то получится, что вероятность
реального заражения, при наличии положительного теста, составляет всего
около 0,5 %.
2. ГИДРОМЕТЕОРОЛОГИЧЕСКИЕ ДАННЫЕ
И ПОДХОДЫ К ИХ ИССЛЕДОВАНИЮ.
ОСНОВЫ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ
И АНАЛИЗА ДАННЫХ
2.1. Характеристика гидрометеорологических данных
С точки зрения охвата объекта исследования статистический анализ можно
подразделить на два вида: сплошной и выборочный. Первый предполагает изучение генеральной совокупности данных, т. е. явления в целом, во всём его
многообразии без распространения выводов на другие элементы, не входящие
в анализируемую совокупность. Из названия следует, что этот вид анализа
проводится по полным данным, которые охватывают всю возможную вариацию случайной величины. Этот тип статистического исследования является
наиболее полным и точным. Примером сплошного статистического анализа
можно назвать всеобщую перепись населения. Пограничными в этом плане
являются различные опросы общественного мнения, референдумы и т. д.
С одной стороны, это является полным анализом, но лишь при условии нераспространения мнения опрошенных на всё население или социальную группу.
При экстраполяции результатов голосования на всё население мы уже имеем
дело с выборочным анализом, а достоверность результатов подобных оценок
зависит от репрезентативности выборки. Как бы там ни было, у сплошного
наблюдения есть и очевидные минусы: на организацию и проведение исследования могут потребоваться значительные ресурсы.
Другим видом анализа является выборочный анализ. Название метода
точно отражает его суть: из генеральной совокупности отбирается и анализируется только часть данных, а выводы распространяются на всю генеральную
совокупность. Отбор данных происходит таким образом, чтобы выборка была
репрезентативной, т. е. сохранила внутреннюю структуру и закономерности
генеральной совокупности. При соблюдении этого условия есть основания
рассчитывать на достаточно точное описание всей генеральной совокупности.
Анализ выборочных данных происходит так же, как и при сплошном наблюдении (рассчитываются различные показатели, делаются прогнозы и т. д.),
только с поправкой на ошибку. Это значит, что, рассчитывая тот или иной показатель, мы понимаем, что при повторной выборке его значение будет другим.
Допустим, опрос 1000 человек на улице дал некоторый результат. Вполне очевидно, что, опросив другую тысячу человек, будет получен другой результат,
18
отличный от первого. Однако, если обе выборки репрезентативны, то различия будут статистически незначимые. Положительный аспект заключается в том, что для проведения выборочного обследования требуется гораздо
меньше ресурсов. Отрицательный же заключается в том, что выборочное наблюдение всегда ошибочно. Поэтому основная задача проведения подобного
исследования в том, чтобы добиться максимальной точности при приемлемых
затратах на его проведение. Рассчитывая выборочные параметры, необходимо
оценить и параметры генеральной совокупности.
Подавляющее большинство гидрометеорологических характеристик являются выборочными, так как исследователь всегда имеет дело с данными,
ограниченными периодом наблюдения, и распространяет свои выводы на
все возможные значения случайной величины. К примеру, нормой стока какой-либо реки является среднее значение величины стока за многолетний
период такой продолжительности, при увеличении которой полученное значение существенно не меняется. То есть, по сути, норма стока — это достаточно точная оценка математического ожидания случайной величины.
Гидрологическая информация представляется в серии ежегодных изданий
водного кадастра. При этом статистическому анализу, как правило, подвергаются среднегодовые и экстремальные значения той или иной гидрометеорологической величины; при исследовании внутригодовых колебаний — среднемесячные или среднесуточные значения.
2.2. Математическая статистика:
краткая историческая справка
Математическая статистика возникла в XVII в. и развивалась параллельно с теорией вероятностей. Дальнейшее развитие математической статистики (вторая
половина XIX — начало XX в.) связано с именами К. Ф. Гаусса, П. Л. Чебышёва,
А. А. Маркова, А. М. Ляпунова, а также с А. Кетле, Ф. Гальтоном, К. Пирсоном
и др. Математическая статистика как наука начинается с работ знаменитого
немецкого математика Карла Фридриха Гаусса (1777−1855), который на основе
теории вероятностей исследовал и обосновал метод наименьших квадратов,
созданный им в 1795 г. и применённый для обработки астрономических
данных (с целью уточнения орбиты малой планеты Церера). Его именем часто
называют одно из наиболее популярных распределений вероятностей — нормальное, а в теории случайных процессов основной объект изучения — гауссовские процессы.
В XX в. наиболее существенный вклад в математическую статистику
был сделан советскими математиками (В. И. Романовский, Е. Е. Слуцкий,
А. Н. Колмогоров, Н. В. Смирнов), а также английскими (Стьюдент (Уильям
Сили Госсет), Р. Фишер, Э. Пирсон) и американскими (Ю. Нейман, А. Вальд)
учёными.
19
В области гидрологических статистических расчётов особое место занимают работы С. Н. Крицкого и М. Ф. Менкеля, которым удалось разработать
так называемое трёхпараметрическое гамма-распределение, называемое также
распределением Крицкого — Менкеля. Дальнейшее развитие методов математической статистики в практике гидрологических расчётов можно отследить
по работам Д. Л. Соколовского, А. В. Рождественского, В. А. Рожкова и других
авторов.
2.3. Понятие закона распределения и методы
оценки его параметров
С характеристикой гидрометеорологической информации и с одним из важнейших приёмов математической статистики и анализа — выборочности
данных для будущего анализа — мы познакомились в подразд. 2.1. Классическая математическая статистика изучает так называемые случайные величины,
т. е. величины, изменяемые случайным образом. Именно из таких величин извлекается выборка, которая также должна отвечать требованию случайности
и быть репрезентативна генеральной совокупности. Исчерпывающей характеристикой случайной величины (генеральной совокупности) является её закон
распределения, который может быть выражен в аналитическом, графическом
или ином виде. Под законом распределения понимается закон, описывающий
область значений случайной величины и соответствующие вероятности появления этих значений; в гидрометеорологической практике, как правило, применяется графическое представление законов распределения в виде аппроксимирующих эмпирических данных интегральных кривых превышения (обеспеченности) или непревышения случайной величиной некоторого заданного
числа. В российской гидрометеорологической практике применяются именно
кривые обеспеченности:
=
Px P{ X > x},
(2.1)
где Px — вероятность P того, что случайная величина X примет значение
больше x.
Из формулы (2.1) совершенно очевидны свойства функции обеспеченности: при устремлении x к бесконечности вероятность превышения этого
значения стремится к нулю, при устремлении x к нулю вероятность превышения этого значения стремится к единице; для всех возможных значений х
функция обеспеченности больше или равна нулю, если x1 > x2, то вероятность
превышения x1 меньше, чем x2.
При этом надо разделять аналитическую и эмпирическую кривые обеспеченности. Эмпирическая кривая обеспеченности рассчитывается непосредственно по данным выборки, аналитическая кривая обеспеченности — по
выборочным параметрам распределения и является характеристикой генеральной совокупности. Степень удачности аппроксимации аналитической
20
кривой обеспеченности эмпирических данных свидетельствует о соответствии выборки данному аналитическому закону распределения.
К наиболее распространённым законам распределения, используемым
в практике гидрометеорологических расчётов, относятся: распределение Гаусса (нормальное распределение); логарифмически нормальное распределение, распределение Пирсона III типа, распределение Крицкого — Менкеля.
Нормальное распределение является наиболее типичным для многих
естественных процессов. Распределение является двухпараметрическим, т. е.
определяется двумя параметрами: математическим ожиданием и стандартным
отклонением (симметричным), т. е. коэффициент асимметрии распределения
равен нулю. Зачастую случайная величина может иметь несколько аномальных
значений, придающих распределению асимметричный вид, приведение такого
распределения к симметричному виду проводится путём логарифмирования.
Таким образом, логарифмически нормальным распределением обладает такая
случайная величина, логарифмы значений которой будут иметь нормальное
распределение. Распределения Пирсона III типа и Крицкого — Менкеля
в общем случае являются трёхпараметрическими и определяются тремя параметрами: математическим ожиданием, коэффициентом вариации и асимметрии. Соответственно, оба распределения являются асимметричными. Кривая
Крицкого — Менкеля используется только для положительной асимметрии
и имеет нижний предел, равный нулю, она наиболее подходит для оценки максимальных обеспеченных расходов воды. Кривая Пирсона может применяться
как при отрицательной, так и при положительной асимметрии, что делает её
пригодной для оценки высших обеспеченных уровней воды, которые зачастую
могут иметь отрицательную асимметрию. Более подробно данные кривые обеспеченности рассмотрены в учебнике по методам статистической обработки
гидрометеорологической информации [Сикан, 2007] и в соответствующих
разделах данного учебно-методического пособия.
Как уже было сказано выше, для аналитического закона распределения
следует оценить его параметры, которые не должны изменяться с течением
времени. Параметры распределения играют важную самостоятельную роль
и могут определяться вне рамок задачи аналитического закона распределения.
К основным параметрам распределения относятся математическое ожидание,
стандартное отклонение (коэффициент вариации), коэффициент асимметрии.
Помимо прочего, перед началом построения кривых обеспеченности надо
убедиться в однородности и стационарности ряда, отсутствии выбросов, одномодальности.
Для расчёта параметров распределения используются два основных метода: метод моментов и метод приближённого наибольшего правдоподобия.
Суть метода моментов заключается в определении параметров аналитического закона распределения по выборке. Такие параметры называются выборочными. Как правило, для оценки аналитического закона распределения
достаточно двух-трёх параметров, характеризующих центр распределения,
вариацию распределения и его асимметричность. Соответственно, центром
21
аналитического распределения является математическое ожидание, которое
определяется через первый начальный момент, соответствующий среднему
арифметическому значению:
=
m1.0
1 N
=
∑x x .
N i =1 i
(2.2)
Данная оценка является эффективной и несмещённой.
Через второй центральный момент рассчитываются дисперсия, стандартное отклонение и коэффициент вариации:
2
2
1 N
1 N
xi − x=
ki − 1) ,
(
)
(
∑
∑
N i 1=
N i1
=
m
=
2
(2.3)
где ki — модульный коэффициент рассматриваемой характеристики,
xi
.
(2.4)
x
Однако дисперсия по выборочным данным обладает смещённостью, что
особенно заметно при N < 50. Смещённость данной оценки обусловлена тем
фактом, что при её расчёте используется выборочное среднее значение, которое всегда несколько отличается от математического ожидания. Расстояние
до выборочного среднего будет всегда меньше, чем расстояние до математического ожидания, что и обусловливает смещённость данной оценки. Однако
при достаточно большой выборке выборочное среднее стремится к истинному
значению математического ожидания, поэтому и дисперсия при достаточно
большой выборке будет стремиться к своему истинному значению. Для достижения несмещённости оценки выборочной дисперсии и стандартного отклонения используют поправку N − 1:
ki =
2
2
1 N
1 N
xi =
−x)
ki − 1) .
(
(
∑
∑
N −1 i 1=
N −1 i 1
=
=
Díåñì
(2.5)
Стандартное отклонение в свою очередь равно квадратному корню из выборочной дисперсии:
σíåñì =
Díåñì .
(2.6)
Коэффициентом вариации Cv называется отношение стандартного отклонения к математическому ожиданию:
Cv =
σíåñì .
x
(2.7)
Все перечисленные величины, определяемые через второй центральный
момент, являются характеристиками рассеивания случайной величины от-
22
носительно математического ожидания. При этом для разных целей анализа
могут использоваться разные величины, например для сравнения изменчивости стока двух разных рек, обладающих разной водностью, целесообразно
использовать коэффициент вариации. В то же время рассчитывать коэффициент вариации имеет смысл для величин, измеренных в абсолютной шкале,
и для ненулевых средних, так как в противном случае значение коэффициента
вариации будет сильно зависеть от выбора начала координат или уйдёт в область бесконечных значений. К примеру, для того чтобы корректно рассчитать
коэффициент вариации для температуры воздуха, необходимо перевести градусы Цельсия в кельвины.
Зная математическое ожидание и стандартное отклонение, можно провести стандартизацию случайной величины таким образом, чтобы её среднее
значение равнялось нулю, а стандартное отклонение — единице. Данный приём
позволяет оценить разброс случайной величины в единицах стандартного отклонения и изучать взаимосвязи двух и более величин безотносительно их размерности. Также стоит отметить, что ординаты кривых обеспеченности, как
правило, представляются либо в модульных коэффициентах, либо в стандартизованном виде. Процедура стандартизации проводится следующим образом: от
каждого значения случайной величины отнимается величина математического
ожидания, затем полученные разности делятся на стандартное отклонение.
На рис. 2.1 проиллюстрировано так называемое правило трёх сигм, которое говорит о том, что разброс нормального распределения с вероятностью
0,9973 лежит в диапазоне ± 3σ.
Коэффициент асимметрии определяется через третий центральный мо-
Рис. 2.1. Нормальное стандартное распределение.
Составлено по: [Сикан, 2007]
мент: он равен третьему центральному моменту, отнесённому к стандартному
отклонению в третьей степени. C учётом поправки на смещённость коэффициент асимметрии Cs примет вид
N
N
N ∑ ( xi − x )
N ∑ ( ki − 1)
=i 1 =i 1
=
Cs =
.
σ3 ( N − 1)( N − 2 ) Cv 3 ( N − 1)( N − 2 )
3
3
(2.8)
23
Для трёхпараметрического распределения Крицкого — Менкеля, согласно
Своду правил по проектированию и строительству (Определение основных
расчётов гидрологических характеристик) СП 33-101-2003, коэффициент
вариации и отношение Cs к Сv следует определять методом приближённого
наибольшего правдоподобия. Суть метода заключается в выборе таких параметров распределения, при которых при данном законе распределения вероятность получить данную выборку наибольшая. Основным недостатком данного метода является необходимость точно знать аналитическое выражение
закона распределения, что далеко не всегда возможно. Коэффициент вариации
и коэффициент асимметрии для трёхпараметрического гамма-распределения
Крицкого — Менкеля рассчитываются методом приближённого наибольшего
правдоподобия в зависимости от статистик λ2 и λ3, вычисляемых по формулам
N
∑ lg ki
λ 2 =i =1
,
N −1
(2.9)
N
∑ ki lg ki
.
λ 3 =i =1
N −1
(2.10)
Дальнейшие оценки могут проводиться различными способами, наиболее
удобно рассчитывать коэффициенты вариации и асимметрии по специально
разработанным номограммам. Принцип использования данных номограмм
заключается в интерполяции значений Cv и Cs/Cv (рис. 2.2).
Рис. 2.2. Пример использования номограммы для определения параметров распределения
Крицкого — Менкеля методом приближённого наибольшего правдоподобия [Сикан, 2007]
24
Полученные данным способом оценки параметров трёхпараметрического
гамма-распределения являются состоятельными, эффективными и несмещёнными. В России номограммы для метода наибольшего правдоподобия разработаны применительно к распределению Крицкого — Менкеля. Однако на
практике нередки ситуации, когда выборочные λ2 и λ3 приводят к выходу за
пределы номограмм, т. е. решение отсутствует. В этом случае можно использовать сокращённый метод наибольшего правдоподобия. При реализации
сокращённого метода статистика λ3 не рассчитывается, а вместо неё используется районное соотношение Cs/Cv. Зная λ2 и Cs/Cv, по номограмме можно рассчитать коэффициент вариации Cv.
Все без исключения перечисленные характеристики, в случае их определения по выборке из генеральной совокупности, имеют определённые погрешности, которые тем меньше, чем более репрезентативна выборка. Формулы для расчёта погрешностей зависят от метода оценки параметра и закона
распределения исследуемой величины. При использовании методов моментов
погрешности величины рассчитываются по следующим формулам.
Абсолютная погрешность математического ожидания определяется по
формуле
σ
(2.11)
σm( x ) = .
N
Относительная погрешность математического ожидания соответственно
равна
Cv
σ
(2.12)
100 %
100 %.
=
εm( x )
=
x N
N
Для расчёта абсолютной и относительной погрешностей коэффициента
вариации используются формулы:
C 1 + aCv 2
,
σCv =v
2N
(2.13)
1 + aCv 2
εCv =
100 %,
2N
(2.14)
где а = 2 — для нормального распределения; а = 1 — для двухпараметрического
гамма-распределения. Напомним, что у двухпараметрического гамма-распределения Cs/Cv = 2, а у нормального распределения Cs = 0. Так как гидрологические ряды имеют, как правило, умеренную положительную асимметрию, эти
формулы рекомендуется использовать при а = 1.
Погрешность коэффициента асимметрии определяется по формуле Крицкого — Менкеля:
σC s =
(
6 1 + 6Cv 2 + 5Cv 4
N
(2.15)
25
или в относительных величинах:
1
εCs =
Ñs
6(1 + 6Cv 2 + 5Cv 4
N
100 %.
(2.16)
Формулы для расчёта погрешности коэффициента асимметрии (2.15)
и (2.16) даны для Cs = 2Cv. Для распределений, у которых коэффициент асимметрии близок к нулю, эти формулы не применимы, так как множитель 1/Сs
стремится к бесконечности. В этом случае относительная погрешность Cs вообще не вычисляется.
При использовании метода наибольшего правдоподобия погрешность
математического ожидания и коэффициента асимметрии рассчитываются по
тем же формулам. Приближённая оценка абсолютной и относительной погрешности коэффициента вариации при использовании метода наибольшего
правдоподобия определяется по формулам:
σCv =
Cv
3
⋅
,
2N 3 + Cv 2
3
εCv =
100 %.
2N 3 + Cv 2
(
)
(2.17)
(2.18)
При использовании метода моментов погрешность тем больше, чем
меньше ряд наблюдений и больше вариации. При определении коэффициента
вариации методом наибольшего правдоподобия погрешность тем меньше, чем
больше вариация.
Продолжительность периода наблюдений считают достаточной, если рассматриваемый период репрезентативен (представителен), а относительная
средняя квадратическая погрешность расчётного значения исследуемой гидрологической характеристики не превышает 10 % для годовых и сезонных
характеристик и 20 % — для экстремальных (максимальные и минимальные
значения характеристик). Погрешность коэффициента асимметрии при имеющихся длинах ряда наблюдений, как правило, велика и может достигать
100 % и более, поэтому, как уже было сказано выше, на практике вместо выборочного значения коэффициента асимметрии рекомендуется использовать
районное соотношение Cs/Cv. Имея районное соотношение Cs/Cv и рассчитав
выборочный коэффициент вариации, несложно получить и Cs [Сикан, 2007].
2.4. Основные статистические критерии для оценки
однородности и стационарности рядов наблюдений
Для оценки параметров распределения и вообще численных характеристик
случайной величины необходимо убедиться в их неизменности во времени.
Также иногда важно определить степень соответствия подобранного анали-
26
тического распределения эмпирическим данным или степень аномальности
конкретного значения. Для этого используются специальные статистические критерии, которые часто называются статистическими тестами. В целом
существует огромное множество статистических тестов, основанных на различных специальных распределениях, о которых будет сказано ниже. Суть,
как правило, сводится к формулированию так называемой нулевой гипотезы,
которая подвергается проверке и может быть отвергнута.
Нулевая гипотеза в подавляющем большинстве случаев утверждает о равенстве двух характеристик: либо соответствии данных выбранному закону
распределения, либо независимости переменных друг от друга. Соответственно, в гидрологической практике параметры распределения не должны
зависеть от времени, а их оценки за различные хронологические периоды
должны быть примерно равны или, выражаясь языком математической статистики, разница между ними должна быть в пределах случайной погрешности
и являться статистически незначимой. Как правило, существует формально
определённая область принятия нулевой гипотезы, которая называется доверительным интервалом, а область опровержения нулевой гипотезы — критической областью, которая соответствует уровню значимости.
Совершенно очевидны и свойства данных характеристик: чем меньше доверительная область, тем статистический тест жёстче; в то же время возрастают уровень значимости и вероятность ложного отклонения нулевой гипотезы. Такая вероятность, а следовательно, и уровень значимости называются
вероятностями совершения ошибки первого рода. Эта вероятность всегда заранее фиксируется определённым допустимым значением, которое зависит от
целей анализа и количества доступной
информации для анализа. Ошибками
второго рода называют вероятность
ложного принятия нулевой гипотезы;
как правило, вероятность совершения
ошибки второго рода убывает с увеличением количества анализируемых значений. Уровень значимости может быть
односторонним или двухсторонним
в зависимости от альтернативной гипотезы (рис. 2.3).
Все статистические тесты основываются на специальных распределениях,
которым подчиняются производные той
или иной характеристики.
Рассмотрим основные из них. Пусть
имеется N независимых случайных величин Х, каждая из которых распреде- Рис. 2.3. Уровень значимости и доверительлена по нормальному закону с нулевым ная область для различных альтернативсредним значением и единичной диспер- ных гипотез. Составлено по: [Сикан, 2007]
27
сией. Тогда распределением χ2 с 𝑣 степенями свободы называется распределение
суммы квадратов независимых случайных величин: χ2 = X12 + X22 + X32 + Xn2 .
Число степеней свободы — это количество значений, функционально не связанных между собой, или, другими словами, число независимых параметров,
в данном случае число степеней свободы численно равно N. При увеличении
значения числа степеней свободы распределение медленно приближается
к нормальному.
Пусть Z и E — независимые случайные величины, причём величина Z
является нормально распределённой с параметрами MZ = 0; DZ = 1, а E — распределённой по закону χ2 с 𝑣 степенями свободы. Тогда случайная величина
t = Z / v / E имеет распределение Стьюдента с 𝑣 степенями свободы. По мере
увеличения числа степеней свободы распределение Стьюдента приближается
к нормальному закону, причём скорость этого приближения выше, чем у распределения χ2. Из свойств распределения Стьюдента следует, что величина
X − mx имеет распределение Стьюдента.
σ/ N
Если Z и U — независимые случайные величины, обладающие распределеZ / v1
нием χ2 с 𝑣1 и 𝑣2 степенями свободы, то случайная величина F =
имеет
U / v2
распределение Фишера с 𝑣1 и 𝑣2 степенями свободы. Это распределение также
называется F-распределением. Из свойств распределения Фишера следует, что
отношение двух выборочных дисперсий будет подчиняться распределению
Фишера.
Рассмотрим основные статистические тесты и критерии, применяемые
в гидрометеорологии. Для проверки нулевой гипотезы о равенстве двух
средних значений применяется критерий Стьюдента, основанный на одноимённом распределении. Пусть Х и Y — выборки длиной n и m из нормальных
распределений с неизвестными параметрами mх, σх и mу, σу, но при этом известно, что σх = σy, т. е. они имеют одинаковые, хотя и неизвестные стандартные
отклонения. Тогда эмпирическое значение статистики t* Стьюдента можно
рассчитать по следующей формуле:
t* =
x−y
,
σx y
(2.19)
где σxy — стандартное отклонение разности средних x и y.
В математической статистике доказано, что
m+n
σx − y =
S
m×n ,
где S — эмпирическая оценка σ x − y .
28
(2.20)
Значение S зависит от выборочных величин Dx и Dy:
S=
(n − 1)D X + (m − 1)DY
m+n−2
.
(2.21)
В окончательном виде значение статистики Стьюдента рассчитывается по
формуле
t* =
x−y
S
n×m
.
n+m
(2.22)
В практике гидрологических расчётов данный критерий применяется для
оценки стационарности рядов по среднему значению. Весь ряд наблюдений
разбивается на две части: длиной n и m соответственно. Эмпирическое значение статистики Стьюдента сравнивается с аналитическим значением, которое определяется по специально разработанным таблицам в зависимости
от двухстороннего уровня значимости, равного 5 или 10 %, а также числа
степеней свободы 𝑣 = n + m − 2. В случаях, когда эмпирическое значение статистики Стьюдента по модулю больше теоретического, говорят, что нулевая
гипотеза опровергается при заданном уровне значимости.
Для равенства двух дисперсий применяется критерий Фишера, основанный также на одноимённом распределении. Если X и Y — выборки из нормальных совокупностей с параметрами mх, Dх и mу, Dу, то отношение их выборочных дисперсий Dх/Dу подчиняется распределению Фишера с числом
степеней свободы 𝑣1 = n – 1 и 𝑣2 = m – 1. Эмпирическое значение статистики
Фишера рассчитывается по формуле
D
(2.23)
F* = x ,
Dy
где Dx — большая из двух дисперсий.
Совершенно очевидно, что эмпирическое значение статистики Фишера
принимает значения, равные или большие одного. В этом случае доверительная область при двухстороннем уровне значимости 2a соответствует
1≤
Dx
< F1−a .
Dy
(2.24)
Теоретическое значение статистики Фишера определяется по специально
разработанным таблицам в зависимости от уровня значимости и числа степеней свободы. В практике гидрологических расчётов данный критерий применяется для определения однородности гидрологического ряда по дисперсии,
для чего аналогичным критерию Стьюдента образом весь ряд разбивается на
две части. В случаях, когда эмпирическое значение статистики Фишера превышает теоретическое, говорят, что нулевая гипотеза о равенстве двух дисперсий
опровергается при заданном уровне значимости. Так как критерий Стьюдента
подразумевает равенство дисперсий, анализ следует начинать именно с определения равенства двух дисперсий по критерию Фишера. Критерии Стьюдента
29
и Фишера могут применяться также для так называемой интервальной оценки
математического ожидания и дисперсии [Сикан, 2007].
Для оценки соответствия аналитической кривой обеспеченности эмпирическим данным необходимо использовать критерии согласия, основным из которых является критерий Пирсона, или критерий χ-квадрат. Критерий χ-квадрат был предложен в начале XX в. Карлом Пирсоном и в настоящее время
является наиболее распространённым критерием согласия. Для его применения область допустимых значений (ОДЗ) исследуемой случайной величины
X разбивается на k равнообеспеченных интервалов. При назначении границ
интервалов наиболее удобно использовать следующую схему [Сикан, 2007]:
1) выбрать аналитическую кривую для аппроксимации закона распределения исследуемой случайной величины;
2) рассчитать по имеющейся выборке параметры распределения;
3) построить на клетчатке вероятности аналитическую кривую обеспеченностей;
4) разбить ось обеспеченностей на k равных интервалов;
5) используя аналитическую кривую, определить границы интервалов
для случайной величины X в зависимости от границ интервалов на оси.
В качестве меры расхождения между эмпирическими данными и аналитической функцией распределения используется тестовая статистика:
=
χ2
2
1 k
mi* − N ,
∑
m i =1
( )
(2.25)
где mi* и m — соответственно эмпирическое (фактическое) и теоретическое
число случаев попадания значения случайной величины X в i-й интервал, m = n/k.
Из выражения (2.25) видно, что чем выше значение статистики χ2, тем
больше расхождение между эмпирической и аналитической кривыми. Поэтому
при использовании критерия χ2 (Пирсона) назначают односторонний уровень
значимости (обычно а = 5 % или а = 10 %). Критерий χ2 может быть применён
при выяснении вопроса о лучшем соответствии одной из нескольких аналитических кривых распределения одному и тому же эмпирическому ряду. При
этом меньшее значение χ2 будет свидетельствовать о лучшем соответствии
данной функции распределения эмпирическим данным.
Для оценки крайних членов выборки (максимальных и минимальных значений) соответствию нормальному распределению могут применяться критерии Смирнова — Граббса и Диксона. Данные критерии предназначены для
проверки рядов наблюдений на выбросы — резко отличающиеся значения. По
сути, определяется, относится ли конкретное значение к той же генеральной
совокупности, что и остальные члены выборки, или нет. В первом случае отклонение можно объяснить тем, что данный гидрологический ряд содержит
значение очень редкой повторяемости, во втором — ряд следует признать неоднородным. При использовании указанных критериев исходный ряд ранжируется в возрастающем порядке. Эмпирические значения статистики Смир-
30
нова — Граббса для максимального и минимального выборочного значения
определяются по следующим формулам:
*
Gmax
=
x max − x
,
σx
(2.26)
*
Gmin
=
x − x min
,
σx
(2.27)
где σx — выборочное стандартное отклонение, xmax и xmin — выборочные максимальные и минимальные значения соответственно.
Гипотеза об однородности рядов по критерию Смирнова — Граббса не
опровергается, если:
G* < Ga ,
(2.28)
где Ga — теоретическое значение статистики Смирнова — Граббса, определяемое в зависимости от уровня значимости коэффициентов автокорреляции
и асимметрии, а также длины выборки (здесь, наверное, нужно говорить
о присутствии в наблюдениях ошибки).
Более подробно ознакомиться со статистическими критериями можно
в учебниках по статистике [Сикан, 2007; Малинин, 2008]. Применение данных
и других критериев будет показано в разборе практического задания.
2.5. Основы и суть корреляционного
и регрессионного анализов
Взаимосвязанности двух и более переменных определяются методом корреляционного и регрессионного анализов.
Парная корреляция позволяет оценить тесноту связи между двумя переменными. Для этого необходимо построить диаграмму рассеяния (рис. 2.4)
и рассчитать коэффициент корреляции Пирсона. Коэффициент корреляции
имеет диапазон значений от –1 до +1, и чем ближе по модулю коэффициент
корреляции к единице, тем теснее линейная связь между ними. В случае отрицательного значения коэффициента корреляции говорят об обратной связи
между переменными, в случае положительного — о прямой. Когда наблюдается обратная связь, одна переменная увеличивается при уменьшении другой,
при прямой связи — обе переменные изменяются в одном направлении.
Связь между двумя переменными может быть линейной (рис. 2.4, б и в),
тогда коэффициент линейной корреляции, или коэффициент корреляции
Пирсона, рассчитывается по формуле
RXY =
∑ ( X − X )(Y − Y ) .
2
2
∑ ( X − X ) ∑ (Y − Y )
(2.29)
31
Рис. 2.4. Диаграммы рассеяния: а — корреляция отсутствует; б — корреляция
линейная обратная; в — корреляция линейная прямая; г — корреляция нелинейная. Составлено по: [Сикан, 2007]
В некоторых случаях используется коэффициент детерминации, который
в частном случае линейной зависимости представляет собой квадрат коэффициента корреляции. Коэффициент детерминации для модели с константой
принимает значения от 0 до 1. Чем ближе значение коэффициента к единице,
тем сильнее зависимость. При оценке регрессионных моделей это интерпретируется как соответствие модели данным. Для приемлемых моделей предполагается, что коэффициент детерминации должен быть не менее 0,50 (в этом
случае коэффициент множественной корреляции превышает по модулю 0,70).
Физический смысл коэффициента детерминации заключается в доле объяснённой дисперсии зависимой переменной. Оценка парной связи переменных
называется корреляционным анализом и применяется для выявления наиболее информативных предикторов для уравнения регрессии. Для данных
целей могут быть использованы пакет анализа программы Excel и соответствующая процедура «корреляционного анализа», где необходимо выбрать переменные для анализа, после чего будет построена корреляционная матрица,
позволяющая выбрать наиболее информативные предикторы.
Оценив тесноту связи между двумя переменными, можно построить уравнение линейной регрессии. Уравнение линейной регрессии между двумя переменными имеет вид
Y
= aX + C + ε ,
(2.30)
где Y — зависимая величина; С — параметры регрессионной модели; X — независимая величина; ε — случайная ошибка регрессионной модели.
Коэффициенты а и С в уравнении линейной регрессии рассчитывают
методом наименьших квадратов, суть которого сводится к минимизации
суммы квадратов отклонений некоторой функции от искомой переменной.
Коэффициент а в уравнении линейной регрессии является угловым коэффициентом, или градиентом оценённой линии; он представляет собой величину, на которую Y увеличивается в среднем, если мы увеличиваем X на
одну единицу, свободный член (пересечение) линии оценки — это значение
Y, когда X = 0:
32
σY
,
σX
(2.31)
C= Y − aX .
(2.32)
a=R
Выше рассмотрен случай парной линейной регрессии; в случае, когда
больше одного предиктора, говорят о множественной регрессии. Уравнение
множественной линейной регрессии имеет вид
Y= a1 X1 + a2 X2 + ... + an Xn + C .
(2.33)
Множественная регрессия предоставляет пользователю «соблазн» включить в качестве предикторов все возможные переменные для увеличения надёжности регрессионного уравнения. Однако увеличение числа членов регрессионного уравнения может привести к прямо противоположному результату.
Таким образом, к независимым переменным, используемым в регрессионном
уравнении, предъявляется ряд требований, а именно: их значимость — парные
коэффициенты корреляции с зависимой переменной должны быть статистически значимы, отсутствие мультиколлинеарности — независимые переменные не должны коррелировать между собой. На практике максимальное
число членов регрессионного уравнения зависит от длины рядов наблюдений,
в практике гидрологических расчётов и прогнозов рекомендуется применять
не более трёх членов регрессионного уравнения. При необходимости использования более трёх членов регрессионного уравнения и преодоления мультиколлинеарности уместна процедура факторного анализа (см. разд. 2.8).
Частным случаем корреляции является автокорреляция, представляющая
собой статистическую взаимосвязь между последовательностями величин
одного ряда, взятыми со сдвигом, например для случайного процесса — со
сдвигом по времени. Коэффициенты автокорреляции имеют самостоятельное
важное значение для моделей временны' х рядов авторегрессии проинтегрированного скользящего среднего (АРПСС).
Ограничения регрессионного анализа сводятся к аналитическому поиску
лучших объясняющих переменных — необходимому условию стационарности
рядов в настоящем и будущем, к сильному влиянию выбросов на коэффициенты регрессионного уравнения, а также к возможности так называемой
ложной корреляции. Понятие ложной корреляции связано с ограничением
всех методов регрессионного анализа, которое состоит в том, что они позволяют обнаружить только числовые зависимости, а не лежащие в их основе
причинные связи, поэтому модели линейной регрессии называют моделями
«чёрного ящика». Контроль регрессионных моделей заключается в использовании физически обоснованных предикторов, проверки моделей на независимом материале, а также проверки остатков модели на нормальность, стационарность и автокорреляцию. Наличие автокорреляции случайных ошибок регрессионной модели приводит к ухудшению качества оценок параметров регрессии, а также к завышению тестовых статистик, по которым проверяется
33
качество модели (т. е. создаётся искусственное улучшение качества модели относительно её действительного уровня точности).
Более подробно ознакомиться с процедурой корреляционного и регрессионного анализа можно в учебниках по статистике: [Сикан, 2007; Малинин, 2008].
2.6. Основы и суть машинного обучения,
методы обучения искусственных нейронных сетей
Основным отличием методов обучения искусственных нейронных сетей
(ИНС) от стандартных регрессионных моделей являются нелинейные преобразования внутри модели, а при прогнозировании временных рядов — использование и дополнительных предикторов, в отличие от моделей АРПСС. Также
одним из преимуществ нейронных сетей является возможность сокращения
числа предикторов непосредственно внутри модели. При использовании регрессионных моделей данная процедура выполняется посредством факторного
анализа. Таким образом, ИНС являются достаточно гибким и универсальным
инструментом при прогнозировании любых гидрологических величин.
Нейронная сеть представляет собой многослойную структуру из слоёв
нейронов, причём каждый нейрон предыдущего слоя, как правило, связан
с каждым нейроном последующего слоя. При отсутствии обратных связей
нейронная сеть называется сетью прямого распространения. В самом простом виде это может быть один скрытый слой с определённым количеством
скрытых нейронов, в котором происходит преобразование исходной информации посредством активационной функции и весовых коэффициентов, которые изменяются в процессе обучения с целью минимизации ошибки моделирования (в более сложном случае может быть несколько скрытых слоёв),
выходного слоя предиктантов (рис. 2.5).
Нахождение оптимальных весовых коэффициентов и минимизация
ошибки прогноза являются задачей, решаемой в процессе обучения искусственной нейронной сети. Активационные функции могут быть различны,
Рис. 2.5. Схематическое изображение искусственной
нейронной сети
34
однако наиболее широко распространены линейная, гиперболический тангенс и ReLu. В скрытых слоях можно использовать любую из представленных
функций, в выходном слое, для регрессионных задач, — линейное преобразование.
Определение начальных весов нейронов скрытого слоя называется процессом инициализации, а процесс их изменения — обучением. Инициализация нейронной сети должна выполняться таким образом, чтобы начальные
веса для каждого нейрона были отличны, являлись случайным числом и были
близки по своему значению к нулю. С точки зрения математики, обучение нейронных сетей — это многопараметрическая задача нелинейной оптимизации.
Обучение нейронной сети происходит посредством оптимизации ошибки обучения, т. е. разницы между прогнозируемой величиной и фактически наблюдённым значением прогнозируемой величины.
В настоящее время существует большое количество методов оптимизации
нейронных сетей. Суть методов оптимизации сводится к использованию относительно малых скоростей обучения (скорости изменения весов) и уменьшению этой скорости с приближением к локальному минимуму ошибки обучения. Уменьшение скорости обучения предназначено в первую очередь для
невозможности преодоления минимума ошибки обучения, после чего ошибка
обучения начинает возрастать.
Из наиболее распространённых методов оптимизации нейронных сетей
можно назвать метод градиентного спуска и Adam, а также различные комбинации этих методов, например метод градиентного спуска с использованием
момента Нестерова. Использование того или иного метода оптимизации ИНС
в некоторых случаях способно значительно улучшить качество обучения, однако при решении регрессионных задач зачастую все методы дают примерно
сопоставимые результаты. Критерием качества выпускаемых прогнозов при
ИНС могут быть абсолютные ошибки прогноза, их процентное выражение
или квадратические ошибки. В целях прогнозирования гидрологических величин уместно выбрать именно квадраты ошибок, потому что именно стандартная ошибка прогноза является критерием оценки качества выпускаемых
прогнозов по методике Гидрометцентра и в критерии Нэша — Сатклиффа.
К внешним параметрам модели, неизменяемым в ходе обучения, относятся
количество скрытых слоёв и скрытых нейронов в них, выбранные метод
инициализации и оптимизации, активационные функции для каждого слоя;
к внутренним параметрам модели — весовые коэффициенты скрытых нейронов. Вышеописанные сети прямого распространения, имеющие один или
несколько скрытых слоёв, называются многослойными персептронами, или
MLP-сетями (Multilayer perceptron).
В настоящее время широко распространены методы глубокого обучения,
или deep learning, что обусловило повышенный интерес к нейросетевому моделированию. Deep learning представляет собой развитие концепции обучения искусственных нейронных сетей с применением, в первую очередь, многослойной
их структуры. Строго говоря, сеть, имеющую более одного скрытого слоя, можно
35
назвать глубокой. Зачастую глубокое обучение нейронных сетей связано с использованием и более замысловатой архитектуры нейронных сетей, например
сетей с обратными связями, так называемых рекуррентных нейронных сетей.
Рекуррентные нейронные сети применяются не только в задачах классификации и распознавании образов, но и в решении сложных регрессионных задач.
Наиболее перспективными рекуррентными нейронными сетями для прогнозирования временных рядов являются искусственные нейронные сети с долгосрочной кратковременной памятью, так называемые LSTM-сети (англ. — Long
short-term memory). Модель Long short-term memory является модификацией рекуррентной нейронной сети для глубокого обучения [Hochreiter, Schmidhuber,
1997] с так называемой долгой кратковременной памятью — дополнительными
переменными состояния, сохраняющими веса отдельных нейронов и передающими их между расчётными шагами при обучении искусственной нейронной
сети, если их значение приводит к снижению ошибки модели. LSTM сохраняет
информацию о состояниях между расчётными шагами и на основании параметров регуляторов памяти определяет, когда и как долго сохранять эту информацию. Однако в отечественной гидрологии LSTM-сети не получили широкого
распространения, поскольку требуются большой объём данных для их обучения
и специализированные языки программирования.
Основным программным продуктом, позволяющим проводить обучение
ИНС на уровне пользователя, является программный пакет Statistica. На
уровне разработчика обучение нейронных сетей возможно на языке программирования Python 3, где доступно обучение в том числе и глубоких нейронных
сетей. На языке Python 3 написаны специализированные библиотеки для обучения искусственных нейронных сетей. Одной из таких открытых библиотек
является TensorFlow, разработанная компанией Google. При работе с ТensorFlow
необходимо использовать библиотеку Keras, которая представляет собой надстройку над фреймворками Deeplearning, TensorFlow и Theano. Первым шагом
при создании нейронных сетей на языке программирования Python 3 является
подключение к оперативной системе компьютера и импорт необходимых библиотек. После импорта данных необходимо провести стандартную процедуру разделения выборки на предикторы и предиктанты, а также на тестовую
и обучающую подвыборки. Разделение на тестовую и обучающую подвыборки
может осуществляться случайным образом, в данном случае требуется лишь
указать объём тестовой выборки в процентах, альтернативным вариантом
является использование каких-либо правил разделения. Также при необходимости может быть рекомендована выборка валидации. После определения
размеров выборок нужно написать непосредственно код нейронной сети.
В настоящее время обучение нейронных сетей на языке программирования Python 3 допустимо и в более автоматизированном варианте. К примеру,
библиотека Autokeras позволяет использовать методику автоматической оптимизации всей архитектуры нейронной сети.
В программном пакете Statistica 12 может быть реализован автоматический режим подбора архитектуры нейронной сети — необходимо лишь задать
36
диапазон количества скрытых нейронов для обучения. Нейронные сети, обучаемые в программном пакете Statistica 12, имеют всего один скрытый слой,
однако автоматизированный режим позволяет подбирать архитектуру сети не
уступающую, а в ряде случаев и превосходящую нейронные сети, обученные
на языке программирования Python 3. В целом само по себе это неудивительно,
так как алгоритмы обучения в Statistica 12 являются достаточно надёжными,
а задачи регрессии в большинстве случаев практики гидрологических прогнозов не требуют процессов глубокого обучения.
2.7. Кластерный анализ и задачи классификации
Кластерный анализ — многомерная статистическая процедура, упорядочивающая объекты в сравнительно однородные группы. Задача кластеризации
относится к статистической обработке, а также к широкому классу задач
обучения без учителя, т. е. количество, а главное — признаки кластеров, заранее неизвестны и определяются в процессе анализа. При решении задачи
классификации, напротив, известно количество кластеров (классов объектов);
целью же работы является нахождение алгоритма, по которому объект можно
отнести к одному из известных классов. Задача классификации сводится к нахождению алгоритма отнесения объекта к одному из известных классов (кластеров). Зачастую задачи кластеризации и классификации могут решаться
параллельно. Приведём такой пример: имеется некоторый набор гидрогеологических скважин, расположенных в различных широтах и обладающих
различной глубиной. По всем этим скважинам есть полный набор гидрохимических показателей, по которому можно разделить скважину на несколько
крупных групп — кластеров. Затем появляется или создаётся ещё какая-либо
группа скважин, координаты и глубина которых известны, но нет гидрохимических показателей. Для отнесения этих скважин к одному из ранее определённых кластеров необходимо разработать алгоритм отнесения скважины
к одному из кластеров лишь по данным координат и их глубины. Данный алгоритм может быть по-разному реализован, например методом обучения ИНС,
но в сущности представляет собой логистическую регрессию. Таким образом,
задача кластеризации — это так называемая задача обучения без учителя,
когда правильные ответы заранее неизвестны, задача классификации — классическая задача «обучения с учителем».
Основные задачи, при которых необходимо использовать кластерный
анализ:
• разработка типологии или классификации;
• исследование полезных концептуальных схем группирования объектов;
• порождение и проверка различных гипотез на основе исследования данных.
Первая задача решается, когда требуется научная классификация объектов
на основании их признаков, например классификация рек в зависимости от
множества признаков. Вторая задача — когда необходимо сокращение вы-
37
борки данных по каким-либо однородным группам, например гидрологическую информацию по большому количеству водных объектов можно сгруппировать и рассматривать характеристики кластеров, а не объектов. Для решения последней задачи у исследователя должна быть определённая гипотеза
относительно исходных данных, например, используя методы кластерного
анализа, можно проверить и уточнить существующие классификации.
Таким образом, методы кластерного анализа, с одной стороны, направлены на разработку, проверку
и уточнение классификаций, с другой
стороны — на сокращение объёмов исходных данных при работе с большими
объёмами информации (big data). Для
решения задачи кластеризации данных
вводится понятие схожести отдельных
наблюдений и кластеров. Под понятием схожести, в рамках кластерного
Рис. 2.6. Наиболее распространённые
анализа, имеется в виду близость отметрики
дельных наблюдений и кластеров, а
в качестве меры близости принимается расстояние между объектами и кластерами. Множества, отнесённые к кластеру, не пересекаются, задача сводится
к построению гиперплоскости, разделяющей кластеры. В настоящее время
наиболее распространены следующие виды расстояний между объектами: евклидово расстояние, квадрат евклидова расстояния и расстояние городских
кварталов (манхэттенское расстояние). На рис. 2.6 графически показано евклидово расстояние и расстояние Манхэттен от точки А до точки В, при этом
можно заметить, что два этих расстояния для точек А — Г и А — Б совпадут.
Выбор метода определения расстояния зависит от исследователя; так,
расстояние Манхэттен является линейным и менее подвержено влиянию выбросов, чем евклидово и квадрат евклидова расстояния. На первом шаге, когда
каждый объект представляет собой отдельный кластер, расстояния между
этими объектами определяются выбранной мерой. Однако, когда связываются
вместе несколько объектов, необходимо правило объединения или связи для
двух кластеров. Здесь имеются различные возможности: например, вы можете
связать два кластера вместе, когда любые два объекта в двух кластерах ближе
друг к другу, чем соответствующее расстояние связи. Другими словами, вы
используете «метод ближайшего соседа» для определения расстояния между
кластерами; этот метод называется методом одиночной связи. Это правило
«волокнистых» кластеров, т. е. кластеров, «сцепленных вместе» только отдельными элементами, случайно оказавшимися ближе остальных друг к другу. Как
альтернативу можно использовать «правило дальнего соседа», среднее невзвешенное или взвешенное расстояние, а также метод Варда, который отличается
от всех других методов, поскольку в нём используются методы дисперсионного анализа для оценки расстояний между кластерами. В целом метод пред-
38
ставляется очень эффективным, если необходимо получить детальную кластеризацию с кластерами малого размера.
В настоящее время известно достаточно большое количество методов
кластерного анализа, наибольшее распространение получили метод иерархического кластерного анализа и метод k-средних.
Алгоритм иерархического кластерного анализа выглядит следующим образом: на первом этапе каждый объект объявляется кластером, после чего два
ближайших кластера объединяются в один, и т. д., пока вся выборка не объединится в один кластер; оптимальное число кластеров определяется по дендрограмме, где схематично изображаются кластеры и расстояния между ними
(рис. 2.7).
Рис. 2.7. Общий вид дендрограммы при использовании метода
иерархического кластерного анализа. Составлено авторами
По виду дендрограммы можно судить о числе кластеров. Так, расстояние
между объектами, входящими в первый и во второй кластеры, увеличивается
постепенно. Это свидетельствует о том, что объекты действительно представляют собой два кластера данных, объединение этих двух кластеров в один
третий кластер невозможно из-за значительного расстояния между ними.
Таким образом, на данной дендрограмме фактически представлено два кластера. В целом иерархический кластерный анализ является универсальным,
однако его использование затруднено при большом количестве кластеров,
когда дендрограмма становится нечитаемой.
Альтернативным методом кластерного анализа является метод k-средних
(k-means). Данный метод представляет собой алгоритм, минимизирующий
суммарное квадратичное отклонение точек кластеров от центров этих кластеров. Основная идея заключается в том, что на каждой итерации перевычисляется центр масс для каждого кластера, полученного на предыдущем
шаге, затем векторы разбиваются на кластеры вновь в соответствии с тем,
какой из новых центров оказался ближе по выбранной метрике, при этом не
39
гарантируется достижение глобального минимума суммарного квадратичного отклонения, а только одного из локальных минимумов. Начальное положение центров кластеров может определяться либо случайным образом,
либо из числа наблюдений, что является предпочтительнее, и т. д. При этом
результат зависит от выбора исходных центров кластеров — их оптимальный
выбор неизвестен. Число кластеров надо знать заранее. Несмотря на перечисленные недостатки, метод k-средних является на сегодняшний день наиболее
популярным методом кластеризации данных.
Процедура кластерного анализа может быть одномерной — когда каждый
столбец является отдельным объектом и целью кластерного анализа является группировка данных, также возможна многомерная (многофакторная)
кластеризация — когда каждый столбец является характеристикой объекта.
Например, для кластеризации качества воды может использоваться несколько
химических показателей, которые при этом могут иметь разный порядок значений; в случаях, когда важно учесть вклад каждой характеристики вне зависимости от её абсолютного значения, обязательно проводится предварительная
процедура стандартизации данных, чтобы среднее каждой из характеристик
равнялось нулю, а стандартное отклонение — единице.
Таким образом, кластерный анализ является не столько обычным статистическим методом, сколько «набором» различных алгоритмов «распределения объектов по кластерам». Кластерный анализ определяет наиболее
возможное значимое решение, поэтому проверка статистической значимости
в действительности здесь неприменима. Процедура кластерного анализа сходится даже при отсутствии кластеров данных, поэтому основой проверки результатов является возможность интерпретации полученных кластеров.
В качестве примера рассмотрим многофакторную кластеризацию рек бассейнов Белого и Баренцева морей по ледовому режиму, проведённую в программном продукте Statistica 12. Исходными данными послужили 23 характеристики ледового режима (даты и уровни воды) по 34 гидрологическим
пунктам; каждая строка представляет собой гидрологический пункт, каждый
столбец — осреднённую характеристику ледового режима для конкретного
пункта. Многомерная кластеризация данных требует обязательной стандартизации исходной информации. Стандартизация данных может проводиться
непосредственно в программном пакете Statistica. На вкладке «Данные» необходимо выбрать процедуру стандартизации. После этого можно приступить
к кластерному анализу: на вкладке «Статистик» (statistics) выбрать вкладку
многомерного анализа (mul/Exploratory) — кластерный анализ (cluster) —
иерархический кластерный анализ (joining). Затем на вкладке параметров иерархического кластерного анализа найти все характеристики выбранных объектов, а также способы определения расстояний между объектами и кластерами объектов.
Дендрограмма (рис. 2.8) читается сверху вниз. Из анализа дендрограммы
следует, что реки и участки рек объединяются в некоторые группы, однако
есть и группы, состоящие лишь из одного объекта. В целом определение
40
Печора — с. Оксино
Печора — с. Урмицы
Печора — Усть-Цильма
Печора — дер. Мутный Материк
Печора — с. Щельяюр
Печора — Усть-Уса
Мезень — Малонисогорская
Мезень — Дорогорское
Мезень — Разгорт
Онега —Турчасово
Онега — дер. Надпорожский Погост
Воронья — Исток
Кола, 1429-й км
Поной — с. Поной
Поной — с. Каневка
Поной — с. Краснощелье
Воронья — стан. Голи
Воронья — с. Воронин
Лотта — 5 км от устья
Печора — с. Усть-Кожва
Печора — с. Усть-Щугор
Мезень — Койнас
Мезень — Большая Пысса
Печора — с. Троицко-Печорск
Печора — дер. Якша
Вакша — Важгорт
Вакша — Вендинги
Мезень — Макариб
Печора— Усть-Унья
Кола — г. Кола
Кола — Исток
Онега — с. Порог
Онега — г. Каргополь
Рис. 2.8. Пример дендрограммы, построенной в программе Statistica, в качестве метода
определения расстояния между объектами (использован квадрат евклидова расстояния);
расстояние между кластерами определяется методом полной связи
кластеров по дендрограмме субъективно: на данной дендрограмме можно
увидеть от трёх до шести кластеров данных. Наиболее правдоподобными
представляются три кластера данных: первый кластер данных выделен на
рисунке красным квадратом, второй — зелёным, последний кластер данных
состоит из одного объекта — дер. Надпорожский Погост, при этом может
быть и большее число кластеров, например кластер данных, выделенный
красным цветом, может быть разделён на два. Таким образом, процедура
анализа дендрограммы начинается сверху вниз, определение количества
кластеров зависит от желаемой степени обобщённости. Далее можно воспользоваться процедурой кластерного анализа методом k-средних. Для
этого необходимо задать два кластера данных, дер. Надпорожский Погост
будет отнесена к одному из этих кластеров принудительно. Напомним, что
в методе k-средних используется евклидово расстояние между объектами,
поэтому данные кластеры могут несколько отличаться по составу. Тем не
менее состав кластеров, полученный методом k-средних, не претерпел значительных изменений: было выделено два кластера данных, соответству-
41
ющих крупным незарегулированным и зарегулированным участкам рек.
При проведении кластерного анализа особое внимание необходимо уделить
оценке статистической значимости характеристик для отнесения объекта
к определённому кластеру (незначимые характеристики можно удалить),
а главное — возможности интерпретации полученных кластеров. В настоящее время программа Statistica 12 автоматизированно определяет оптимальное число кластеров при использовании метода k-средних. Для этого
необходимо перейти во вкладку «Добыча данных» (data mining), выбрать
кластерный анализ, и на вкладке «Валидация» (validation) определить параметры кросс-валидации.
2.8. Факторный анализ и метод главных компонент
Рассмотренный в предыдущем разделе кластерный анализ предназначается
прежде всего для разработки той или иной классификации данных. Однако
при разработке моделей прогнозирования иногда необходимо не только
объединение переменных в кластеры для сокращения числа предикторов,
но и обеспечение независимости этих кластеров друг от друга для преодоления проблемы мультиколлинеарности. Такие независимые кластеры
принято называть факторами, а процедуру их получения — факторным
анализом. Таким образом, использование факторного анализа преследует
несколько целей: сокращение числа переменных, построение обобщенных
показателей (кластеризация данных), преодоление мультиколлинеарности
предикторов и т. д.
Процедура факторного анализа сводится к объединению сильно коррелирующих между собой переменных в факторы, как следствие, происходит перераспределение дисперсии. Парная корреляция между фактором и исходными
переменными называется факторной нагрузкой. Анализ факторной нагрузки
помогает интерпретировать результаты факторного анализа.
Суть данного метода состоит в замене большого числа коррелированных
между собой переменных меньшим числом некоррелированных факторов.
Для выявления особенно значимых факторов наиболее оправдан метод
главных компонент. Важной характеристикой метода является возможность
ограничиться наиболее информативными главными компонентами и исключить остальные из анализа, что упрощает интерпретацию результатов.
Достоинство метода главных компонент (МГК) также в том, что он единственный математически обоснованный метод факторного анализа.
Для применения факторного анализа в программе Statistica 12 откроем
исходные данные, затем на вкладке «Статистик» (statistics) выбираем вкладку
«Многомерный анализ» (mul/Exploratory) — факторный анализ (factor). Выбрав все исходные данные, переходим на следующую вкладку и задаём максимальное число факторов, после чего вся процедура выполнится автоматически. Для завершения факторного анализа необходимо выбрать метод вра-
42
щения факторов, обеспечивающий интерпретацию полученных результатов
на основе анализа факторных нагрузок, которые представляют собой коэффициент корреляции между фактором и исходной переменной. Анализируя,
какими именно переменными нагружен тот или иной фактор, можно интерпретировать полученные результаты.
Распространённые методы вращений для факторного анализа:
1. Метод варимакс. Ортогональный метод вращения, минимизирующий
число переменных с высокими нагрузками на каждый фактор. Этот метод
упрощает интерпретацию факторов.
2. Метод прямой облимин. Метод косоугольного (неортогонального) вращения. Косоугольное решение соответствует разности, равной нулю (по умолчанию). По мере того как разность отклоняется в отрицательную сторону, факторы становятся более ортогональными.
3. Метод квартимакс. Метод вращения, который минимизирует число
факторов, необходимых для объяснения каждой переменной. Этот метод
упрощает интерпретацию наблюдённых переменных.
4. Метод эквимакс. Метод вращения, объединяющий методы варимакс,
упрощающий интерпретацию факторов, и квартимакс, упрощающий интерпретацию наблюдённых переменных. Минимизируются число переменных
с большими факторными нагрузками и число факторов, требуемых для объяснения переменной.
5. Вращение типа промакс. Косоугольное вращение в предположении,
что факторы могут коррелировать между собой. Оно производится быстрее,
чем вращение типа прямой облимин, поэтому оно полезно для больших наборов данных.
2.9. Введение в теорию случайных процессов
и анализ временны́х рядов
Гидрологические расчёты или прогнозы предполагают знание о том, какая математическая модель используется для описания вероятностной структуры гидрологического ряда [Сикан, 2007]. Классическая математическая статистика
и теория вероятностей, как правило, связаны со случайными величинами,
основные свойства которых рассмотрены нами в предыдущих разделах. При
этом отметим, что случайная величина принимается априори не зависящей от
времени — время в данном случае не более чем формальный счётчик опытов.
На практике, как правило, случайными величинами являются экстремальные
ежегодно повторяющиеся значения расходов уровней воды и других гидрометеорологических характеристик, также к случайным величинам следует отнести ряды среднегодовых расходов. Теперь для понимания понятия случайного процесса перейдём от среднегодовых значений к среднемесячным.
При рассмотрении уровней или расходов воды месячной дискретности
мы получим определённое количество гидрографов стока, каждый из ко-
43
торых является реализацией случайного процесса, а вся возможная их совокупность случайным процессом. Совершенно очевидно, что значения
этого процесса за конкретный месяц могут быть различные, но и возможны
вполне определённые значения: например, в мае наблюдается половодье
и среднемесячные уровни воды за май являются высшими в году. Таким образом можно рассмотреть каждый из 12 мес. года и заключить, что значения
случайного процесса за каждый отдельный месяц года являются случайной
величиной. Соответственно, данный случайный процесс может быть разложен на 12 случайных величин, которые будут называться сечением случайного процесса. При этом данные случайные величины будут зависимы друг
от друга (рис. 2.9).
Сформулируем ряд формальных определений:
• случайным процессом X(t) называется процесс, значение которого при любом фиксированном t = ti является случайной величиной X(ti);
• реализацией случайного процесса X(t) называется неслучайная функция X(t), в которую превращается случайный процесс X(t) в результате
опыта;
• случайная величина X(ti), в которую обращается случайный процесс при
t = ti, называется сечением случайного процесса Х(t), соответствующим
данному значению аргумента.
Большинство гидрологических процессов являются процессами с непрерывными состояниями и непрерывным временем. Например, расход воды
Рис. 2.9. Реализации случайного процесса и математическое ожидание (mx) этого процесса
44
может изменяться в любой момент времени и принимать любые значения
из некоторого интервала, границы которого зависят от размера реки и климатических особенностей региона. При этом надо учитывать, что на практике расходы воды осредняют за некоторый интервал времени (год, месяц,
сутки и т. д.). Вводя шаг дискретности по времени, мы заменяем процесс с непрерывным временем на процесс с дискретным временем. Таким образом,
проводя измерения гидрологических процессов, мы чаще всего используем
модель случайного процесса с дискретным временем и непрерывными состояниями. Однако в гидрометеорологии используются и другие модели. Процесс количественного изменения облачности обычно представляют в виде
процесса с дискретным временем и дискретными состояниями, так как наблюдения за облаками проводятся в фиксированные сроки, а их количество
округляется до целых баллов (по 9-балльной шкале) [Сикан, 2007].
В общем случае исчерпывающей характеристикой случайного процесса
является n-мерный закон распределения. Под n-мерной функцией распределения понимается совместное распределение n-го количества сечений случайного процесса. Однако определение даже двухмерных законов распределения
является достаточно трудоёмкой задачей, вышеприведённый случайный процесс должен быть описан 12-мерным законом распределения. Поэтому на
практике, как правило, вместо многомерных законов распределения используют основные характеристики случайных процессов, которые описывают
случайный процесс частично [Сикан, 2007].
Так же, как и для случайной величины, для случайного процесса можно
рассчитать основные моменты и статистические характеристики, только для
случайного процесса искомые характеристики будут функциями.
Математическим ожиданием случайного процесса X(t) называется неслучайная функция mx(t), которая при любом значении аргумента t равна математическому ожиданию соответствующего сечения случайного процесса. Таким
образом, математическое ожидание случайного процесса представляет собой
некоторую «среднюю» функцию (а в случае среднемесячных расходов воды
средний за многолетний период — гидрограф), вокруг которой происходит
разброс случайного процесса (рис. 2.9).
Дисперсией случайного процесса X(t) называется неслучайная функция
Dx(t), которая при любом значении аргумента t равна дисперсии соответствующего сечения случайного процесса X(t). Соответственно, стандартное отклонение представляет собой квадратный корень из дисперсии.
Представленные выше характеристики случайного процесса не являются
исчерпывающими, так как не учитывают взаимосвязь между сечениями. Такую
связь характеризует корреляционная функция. Корреляционной (или ковариационной) функцией случайного процесса X(t) называется неслучайная функция
Kx(t, t'), которая при каждой паре значений аргументов t и t' равна ковариации
соответствующих сечений x(t) и x(t').
Помимо вышеперечисленного, случайный процесс может характеризоваться величиной периода (сезонности) и цикличности. Случайный процесс,
45
представленный в виде непрерывного ряда гидрографов, расположенных
в хронологическом порядке, будет называться временны' м рядом. Особенности
анализа и методы прогнозирования случайных процессов (временных рядов)
разобраны в соответствующих работах, представленных в настоящем учебно-методическом пособии. Более подробную теоретическую информацию
о случайных процессах и методах их моделирования можно найти в учебниках
по статистике [Сикан, 2007; Рожков, 2001, 2002].
3. РАБОТА I. КОМПЛЕКСНЫЙ СТАТИСТИЧЕСКИЙ
АНАЛИЗ ГИДРОМЕТЕОРОЛОГИЧЕСКОЙ
ИНФОРМАЦИИ
В настоящей работе рассмотрен пример применения базовых методов математической статистики для комплексного описания случайной величины.
Исходные данные должны представлять собой случайную величину за период наблюдения не менее 50 лет. Они могут иметь различный генезис, как
правило, это экстремальные или среднегодовые значения какой-либо гидрометеорологической характеристики. Для студентов-гидрологов это могут
быть данные о максимальных и среднегодовых расходах воды либо высшие
и среднегодовые уровни воды по конкретному гидрологическому посту. Для
студентов других специальностей — температуры воздуха и океана, значения
солёности и т. д. Исходные данные для анализа готовятся непосредственно
студентами на основе ежегодных изданий Государственного водного кадастра
и других возможных источников.
Цель работы — получение практических навыков в области статистического анализа гидрометеорологической информации. Для достижения поставленной цели студентам необходимо научиться применять встроенные
функции и надстройки программного продукта Excel для расчёта основных
статистических характеристик, а также правильно интерпретировать полученные результаты анализа.
Задание. По данным многолетних наблюдений построить хронологический график и гистограмму эмпирического распределения, выполнив их
анализ. При анализе хронологического графика проанализировать характер
ряда, наличие трендов и выбросов в ряде данных. При подозрении на наличие
выбросов провести статистический тест на определение выбросов в ряде. Анализируя гистограмму, обращать внимание на её общий вид, асимметрию, количество мод и размах значений (для стандартизованной гистограммы).
Далее оценить стационарность и однородность рядов по критериям Фишера и Стьюдента, определить статистическую значимость линейного тренда.
Расчёты выполнять при двухстороннем уровне значимости 2α = 10 %.
Затем рассчитать статистические характеристики (параметры распределений) рядов наблюдений и их статистические погрешности. К основным статистическим характеристикам относятся: математическое ожидание, оцениваемое
через среднее арифметическое, медиана, мода, дисперсия, стандартное отклонение, коэффициенты вариации и асимметрии. Статистические погрешности
рассчитываются для математического ожидания, коэффициентов вариации
47
и асимметрии. Расчёты выполняются методом моментов и методом приближённого максимального правдоподобия (для распределения Крицкого — Менкеля).
На заключительном этапе работы рассчитать эмпирические обеспеченности и по определённым ранее параметрам распределения построить аналитические кривые обеспеченности, провести статистическую оценку соответствия построенных аналитических кривых обеспеченности эмпирическим
данным. Используя значение статистики χ2, выбрать наиболее подходящую
кривую обеспеченности.
Порядок выполнения работы и отчётные материалы
В качестве примера рассмотрим статистический анализ максимальных расходов воды за год по гидрологическому посту дер. Абрамково (р. Северная
Двина). Исходные данные следует представить в виде таблицы с подписями
характеристик и величин измерения (табл. 3.1).
Предварительный анализ данных таблицы выполняется визуально. В ходе
анализа следует отметить анализируемую характеристику, период наблюдения, пропуски в данных, очевидно аномальные значения. В настоящем примере рассматриваются максимальные расходы воды Северной Двины по гидрологическому посту в дер. Абрамково за период наблюдений с 1950 по 2015 г.
Пропуски и аномальные значения в данных отсутствуют, и можно приступить
к построению хронологического графика. На хронологический график наносятся непосредственно значения исследуемой величины, а также в настройках
диаграммы настраивается отображение линии тренда (рис. 3.1, пунктирная
линия) и коэффициента детерминации линейного тренда.
Анализ графика показывает, что максимальные расходы воды в целом
изменяются случайным образом, статистически значимый тренд, очевидно,
отсутствует, в то же время с 1980 г. заметно уменьшается размах данных.
Минимальное значение расхода воды составило 5860 м3/с (1967 г.), максимальное —18 900 м3/с (1974 г.). Отметим, что минимальное значение несколько
больше, чем должно быть по отношению к общей вероятностной структуре
ряда, что свидетельствует о том, что данное значение, возможно, является аномальным.
Построение гистограммы эмпирического распределения может выполняться по-разному. При ручном расчёте следует ранжировать исходный ряд,
рассчитать количество интервалов и частоту попадания значений в заданный
интервал. В программном продукте Excel возможно более автоматизированное
построение гистограммы эмпирического распределения через пакет анализа данных, который входит в стандартные надстройки данного программного продукта. При построении гистограммы эмпирического распределения
через пакет анализа данных следует выбрать соответствующий пункт меню
и перейти к выбору данных. Для построения гистограммы достаточно показать входной (исходные данные для построения) и выходной (место вывода
данных построения) интервалы, а также указать на необходимость вывода
48
Таблица 3.1. Максимальные расходы воды р. Северная Двина
по гидрологическому посту в дер. Абрамково за 1950–2015 гг.
Год
Qmax, м3/с
Год
Qmax, м3/с
1950
8020
1983
9140
1951
7520
1984
9610
1952
15 000
1985
9710
1953
13 900
1986
15 500
1954
8290
1987
12 100
1955
15 500
1988
9530
1956
10 800
1989
8640
1957
18 400
1990
11 800
1958
13 100
1991
15 200
1959
10 600
1992
14 300
1960
8040
1993
16 700
1961
17 000
1994
14 500
1962
12 300
1995
17 500
1963
8190
1996
8540
1964
13 100
1997
13 100
1965
9710
1998
15 500
1966
11 400
1999
9930
1967
5860
2000
15 800
1968
15 300
2001
12 400
1969
11 400
2002
13 200
1970
8020
2003
11 300
1971
11 900
2004
12 000
1972
9610
2005
12 800
1973
7830
2006
11 700
1974
18 900
2007
8940
1975
8160
2008
11300
1976
14 800
2009
9300
1977
11 400
2010
11 000
1978
7710
2011
9660
1979
15 200
2012
18 000
1980
11 700
2013
10 400
1981
16 400
2014
10 100
1982
12 400
2015
9500
49
Рис. 3.1. Хронологический график максимальных расходов воды за 1950–2015 гг.
по гидрологическому посту, расположенному в дер. Абрамково
графика, поставив галочку в соответствующем пункте. Помимо прочего, можно
заблаговременно самостоятельно рассчитать желаемое число интервалов и интервал карманов и при построении гистограммы указать диапазон ячеек, в котором показаны граничные интервалы диапазонов (карманы). Можно поэкспериментировать с количеством интервалов для определения их оптимального числа.
Построенная гистограмма, однако, не лишена недостатков и нуждается в некоторой «косметической» доработке. Во-первых, необходимо перевести частоту
в доли единицы или проценты, во-вторых, по оси абсцисс желательно указать
именно диапазон значений, а не верхнее значение диапазона, как это рассчитывается программой автоматически.
Количество интервалов рассчитывается по формуле
k = 4 ⋅ lg(n) = 4 ⋅ lg(66) ≈ 7,3,
где n — число членов ряда.
Размах данных, определяемый как разность максимального и минимального значений, составляет 13 040, что можно округлить до 13 000. Ширина одного диапазона равна отношению размаха данных к числу интервалов, в данном
случае 1862, что можно округлить до 2000. Соответственно, имеем в общей
сложности восемь диапазонов до 20 000 м3/с. Заметим, что гистограмма эмпирического распределения аналогичным образом может быть рассчитана и для
стандартизованной случайной величины (для которой среднее значение равно
нулю, а стандартное отклонение — единице), в этом случае интервалы значений
будут представлены величиной стандартного отклонения выборки, методика
расчёта которого показана далее. Для приведения случайной величины к стан-
50
Рис. 3.2. Эмпирические гистограммы распределения максимальных расходов воды р. Северной
Двины по гидрологическому посту, расположенному в дер. Абрамково
дартному виду необходимо от каждого её значения отнять математическое ожидание и эту разность поделить на стандартное отклонение. Предварительная
стандартизация данных является важной, так как более точно позволяет определить соответствие эмпирической гистограммы нормальному закону распределения. В отчёте гистограммы представляются в следующем виде (рис. 3.2).
Анализ данных гистограмм позволяет сделать следующие выводы: распределение максимальных расходов воды близ дер. Абрамково является одномодальным (с модой в диапазоне от 8000 до 10 000 м3/с), имеет умеренную
положительную асимметрию, так как правый хвост распределения длиннее
левого, размах распределения не превышает шести стандартных отклонений,
что свидетельствует об отсутствии выбросов (ошибок измерений), значения
менее 8000 м3/м встречаются относительно редко (лишь 6 % значений меньше
заданного числа). Таким образом, распределение случайной величины близко
к распределению Пирсона III типа или Крицкого — Менкеля при соответствующих параметрах коэффициента асимметрии (Cs) и коэффициента вариации
(Cv). В то же время существенных отклонений от нормального распределения,
к которым относятся, например, двумодальность, наличие выбросов и т. д.,
не обнаружено. Это позволяет применять статистические критерии, обязательным условием для которых является близость распределения случайной
величины к нормальному распределению.
Прежде чем определять параметры распределения и строить аналитические кривые обеспеченности, необходимо проверить ряд на стационарность
и однородность. Под однородностью и стационарностью в данном случае подразумеваются постоянство математического ожидания и дисперсия, а также
отсутствие статистически значимых трендов. В природе достаточно часто
в связи с климатическими изменениями и антропогенной нагрузкой можно
наблюдать нарушение однородности и стационарности рядов, в этом случае
51
расчёт параметров распределения по рядам с нарушенной однородностью
и стационарностью заведомо является грубой ошибкой. Выявив неоднородность рядов, необходимо проанализировать её причины и при необходимости
привести ряд к однородному виду.
Приведение рядов к однородному виду может выполняться различными
способами в зависимости от целей анализа и природы нарушения однородности и стационарности. Одной из распространённых причин нарушения
однородности рядов является постройка гидротехнических сооружений, которые значительным образом трансформируют гидрологический режим (например, могут быть существенно снижены максимальные значения расходов
воды).
Когда совершенно очевидно, что река уже не может быть приведена к своему
прошлому состоянию, целесообразно исключить из анализа предшествующую
часть наблюдений либо вычислить разность средних значений и привести весь
ряд к новому среднему значению путём добавления разности средних значений
к каждому значению случайной величины за период, предшествующий постройке гидротехнического сооружения. Подобная процедура также может выполняться для уровней воды при изменении отметки нуля поста (прибавлением
разности отметок нуля поста). При неоднородности и по дисперсии, и по среднему значению для предшествующей нарушению однородности части ряда необходимо провести процедуру стандартизации, после чего обратным пересчётом
привести её к новому среднему значению и дисперсии. В случае статистически
значимого тренда целесообразен анализ разностей с единичным лагом (анализ
приращений). Все перечисленные процедуры нужно выполнять с большой осторожностью при полной уверенности в своих действиях.
Выполним проверку случайной величины на однородность и стационарность по критериям Фишера (прил. 1) и Стьюдента (прил. 2), оценим значимость линейного тренда при двухстороннем уровне значимости 2α = 10 %.
Для оценки однородности по дисперсии применим критерий Фишера. Так
как предположительная дата нарушения однородности неизвестна, разделим
ряд на две равные части: с 1950 по 1982 г. и с 1983 по 2015 г., количество значений в рядах n = m = 33. Строго говоря, разделение рядов может быть выполнено не пополам, а с учётом гипотетической даты нарушения однородности.
Также рассчитаем значение p-value (P-значение), которое представляет собой
минимальный уровень значимости, при котором опровергается нулевая гипотеза, которая в данном случае формулируется следующим образом: различие
дисперсий двух выборок является статистически незначимым. Для проверки
данной гипотезы рассчитаем дисперсии двух выборок, используя встроенную
функцию Excel ДИСП.В.
Дисперсия выборки с 1950 по 1982 г.:
N
= D=
ÄÈÑÏ.Â
íåñì
52
∑ (xi − x )2
i =1
= 12 084 605 ì3 / ñ2.
n −1
Дисперсия выборки с 1983 по 2015 г.:
n
= D=
ÄÈÑÏ.Â
íåñì
y )2
∑ i =1( yi −=
7 554 409 ì3/ c2 .
m −1
Эмпирическое значение статистики Фишера рассчитывается как отношение двух дисперсий, причём в числителе всегда указывается большая
из дисперсий:
=
F*
12084605
= 1,59.
7554409
Теоретическое значение статистики Фишера F находится по специальным таблицам, которые непосредственно связаны с распределением Фишера (прил. 1). Значение F зависит от принятого уровня значимости и числа
степеней свободы двух выборок. В нашем случае уровень значимости 10 %,
а число степеней свободы 𝑣 (n(m) – 1) равно 32 для обеих частей выборки. По
таблице (прил. 1) F ≈ 1,8. Так как F * < F, нулевая гипотеза об однородности ряда
по дисперсии (равенстве дисперсий) не опровергается при заданном уровне
значимости.
Определим минимальный уровень значимости, при котором нулевая
гипотеза отклоняется. Для этого в программном продукте Excel рассчитаем
p-value, используя встроенную функцию F.ТЕСТ, для которой необходимо задать лишь два диапазона данных:
F.ТЕСТ = 0,189 ≈ 19 %.
Таким образом, минимальный уровень значимости, при котором мы вынуждены отклонить нулевую гипотезу, в два раза больше принятого, что свидетельствует о возможности принятия нулевой гипотезы.
После проверки ряда на однородность по критерию Фишера определяем
однородность по критерию Стьюдента о равенстве средних значений двух половин ряда. Ряд разбивается аналогичным образом. Выполним необходимые
расчёты вручную с использованием пакета встроенного анализа. Эмпирическое значение статистики Стьюдента рассчитываем по формуле
xn − y m
n×m
–0, 44,
t* =
=
(n − 1)Dn + (m − 1)Dm n + m
m+n−2
где xn и ym — средние значения по первой и второй части выборки; n — длина
первой части выборки; m — длина второй части выборки; Dn и Dm — дисперсии
по первой и второй части выборки.
Теоретическое значение статистики Стьюдента определяется по соответствующим таблицам для двухстороннего уровня значимости 10 % и числа степеней
свободы 𝑣, равного 66 (m + n – 2) (прил. 2) Значение t, рассчитанное по таблицам
(прил. 2), t ≈ 1,7. При этом гипотеза об однородности рядов по критерию Стьюдента
53
не опровергается, если |t*| < t. Так как |t*| < t, нулевая гипотеза об однородности ряда
по математическому ожиданию (равенстве средних значений) не опровергается
при заданном уровне значимости. Определим минимальный уровень значимости,
при котором нулевая гипотеза отклоняется. Для этого в программном продукте
Excel рассчитаем p-value, используя встроенную функцию СТЬЮДЕНТ.ТЕСТ,
для которой необходимо задать два диапазона данных: количество хвостов распределения (двухсторонний или односторонний уровень значимости) и виды выполняемого t-теста (для одинаковых и разных дисперсий). Параметр «хвосты» является обязательным. Если значение «хвосты» равно 1, функция СТЬЮДЕНТ.ТЕСТ
возвращает одностороннее распределение, если равно 2, — возвращает двухстороннее распределение. Вид выполняемого t-теста также является обязательным
параметром (2 — тест выполняется для выборки с равными дисперсиями, 3 — для
выборки с различными дисперсиями). Так как критерий Фишера показал, что дисперсии различаются статистически незначимо, можно применять двухсторонний
t-тест для выборок с равными дисперсиями:
СТЬЮДЕНТ.ТЕСТ = 0,66 = 66 %.
Таким образом, минимальный уровень значимости, при котором нулевая
гипотеза опровергается, почти в 7 раз больше, чем принятый, свидетельствует
о хорошей стационарности ряда по среднему значению.
Аналогичные результаты можно получить и при использовании пакета
анализа: в меню анализа выбирается t-тест с одинаковыми или различными
значениями дисперсии (в данном случае с одинаковыми). Результаты представляются в виде таблицы, в которой приводятся все статистические оценки,
включая уровень p-value (табл. 3.2).
Оценить статистическую значимость линейного тренда необходимо для
того, чтобы убедиться в отсутствии детерминированного тренда к увеличению
или уменьшению значений случайной величины. Уровень значимости применяется тот же, что и в предыдущих тестах. Определять статистическую значимость линейного тренда удобнее всего сравнением коэффициента корреляции
с его критическим значением, при котором тренд принимается статистически
значимым. Для заданного уровня значимости рассчитывается критическое значение коэффициента корреляции Rкрит по следующей формуле [Малинин, 2008]:
Rêðèò ≈
2
N +2
≈ 0 , 24.
Коэффициент детерминации R2 был определён ранее и выведен на хронологическом графике. Коэффициент корреляции равен квадратному корню
из коэффициента детерминации и в данном случае составляет 0,05. Так как
коэффициент корреляции меньше критического значения, статистически значимые тренды отсутствуют (как и было указано при визуальном анализе хронологического графика).
Таким образом, выполненный тест свидетельствует о том, что ряд максимальных расходов воды близ дер. Абрамково однороден и стационарен.
54
Таблица 3.2. Результаты статистического теста Стьюдента
Характеристика
Переменная 1
Переменная 2
Среднее
11 741
12 081
Дисперсия
12 084 604
7 554 409
Наблюдения
33
Объединённая дисперсия
33
9 819 507
Гипотетическая разность средних
0
Df
64
t-статистика
–0,44
P(T <= t) одностороннее (p-value)
0,33
t-критическое одностороннее
1,29
P(T <= t) двухстороннее (p-value)
0,66
t-критическое двухстороннее
1,66
Рассчитаем статистические параметры распределения случайной величины. Параметры распределения могут рассчитываться методом приближённого наибольшего правдоподобия для распределения Крицкого — Менкеля
(прил. 3) и иногда для распределения Пирсона III типа (прил. 4), а также методом моментов для любого из распределений, существенным образом не отклоняющихся от нормального. Удачность выбора параметров распределения
и самого распределения может оцениваться визуально или формально по
критерию χ-квадрата (прил. 5). Проще всего статистические параметры рассчитывать методом моментов, потому что он является общепринятым и даёт
достаточно точные оценки статистических характеристик. Но применять
этот метод без введения поправок допустимо при коэффициенте вариации
менее 0,6 и коэффициенте асимметрии менее 1. При превышении данных
значений рекомендуется введение соответствующих поправок согласно
Своду правил по проектированию и строительству СП 33-101-2003. В программном продукте Excel математическое ожидание, дисперсию, стандартное
отклонение и коэффициент асимметрии можно рассчитать с помощью соответствующих функций:
N
ÑÐÇÍÀ×
= m=
x
N
= D=
ÄÈÑÏ.Â
íåñì
∑ xi
= 11 900 ì3/ ñ2 ,
N
i =1
∑ ( xi − x )
i =1
2
= 970 000 ì3/ ñ2 ,
N −1
СТАНДОТКЛОН.В = σ = 3110 м3/c,
C=
v
σ
= 0 , 26 ,
x
55
N
= C=
ÑÊÎÑ
s
N ∑ ( xi − x )
3
i =1
= 0,38,
σ3 (N − 1)(N − 2)
Cs/Cv = 1,46.
Так как расход воды измеряется с точностью до трёх значащих цифр, результаты всех вычислений в отчёте целесообразно записывать с аналогичной
точностью. Значение коэффициентов асимметрии и вариации не превышают
допустимых для метода моментов, поэтому их уточнение можно не проводить.
Далее покажем алгоритм вычисления параметров распределения методом
приближённого наибольшего правдоподобия (табл. 3.3).
Таблица 3.3. Фрагмент вспомогательной таблицы для оценки параметров
распределения методом наибольшего правдоподобия
Год
1950
1951
1952
1953
1954
1955
…………
2010
2011
2012
2013
2014
2015
Сумма
Q, м3/с
8020
7520
15 000
13 900
8290
15 500
…………
11 000
9660
18 000
10 400
10 100
9500
–
ki (Qi / Qср)
0,67
0,63
1,26
1,17
0,70
1,30
…………
0,92
0,81
1,51
0,87
0,85
0,80
–
lgk
–0,17
–0,20
0,10
0,07
–0,16
0,11
…………
–0,03
–0,09
0,18
–0,06
–0,07
–0,10
–0,97
k ⋅ lgk
–0,12
–0,13
0,13
0,08
–0,11
0,15
…………
–0,03
–0,07
0,27
–0,05
–0,06
–0,08
0,96
Метод приближённого наибольшего правдоподобия рекомендован в качестве
основного при расчёте параметров распределения Крицкого — Менкеля (прил. 6)
с учётом Свода правил по проектированию и строительству СП 33-101-2003. Согласно действующим рекомендациям, математическое ожидание определяется
методом моментов. Для оценки коэффициента вариации и отношения коэффициента асимметрии к коэффициенту вариации рассчитаем статистики λ2 и λ3.
Для определения данных статистики целесообразно выполнить промежуточные расчёты, при этом случайная величина переводится в модульные коэффициенты ki.
После промежуточных расчётов статистики λ2 и λ3 равны:
N
∑ lg ki
−0,97
λ 2 =i =1
=
=−0,15,
n −1
65
56
N
∑ ki lg ki
0,97
= 0,15.
n −1
65
По номограмме (прил. 6) в зависимости от λ2 и λ3 находим параметры распределения:
i =1
λ=
3
=
Cv = 0,26,
Cs/Cv = 2,31,
Cs = 0,60.
Кроме этого, в программном продукте Excel можно определить медиану
при помощи функции МЕДИАНА, либо КВАРТИЛЬ.ВКЛ. Применяя последнюю функцию, можно рассчитать и значения остальных квартилей. Округлённая до трёх значащих цифр, медиана ряда будет равна 11 600. В случае положительной асимметрии медиана всегда меньше среднего значения.
Рассчитав основные статистические характеристики, необходимо выполнить оценку точности. При использовании метода моментов оценка точности
определяется по приведённым ниже формулам.
Относительная погрешность оценки математического ожидания:
=
εm( x )
ε=
Cv
σ
x N
1 + aCv 2
2N
100 %
=
%
× 100=
3110
100 % 3,2 %.,
=
11900 66
1 + 1× 0 ,262
2 × 66
% 8 ,9 %.
× 100=
Погрешность коэффициента асимметрии может быть рассчитана по формуле Крицкого — Менкеля:
εCs
(
)
(
)
2
4
6 1 + 6 ⋅ 0,262 + 5 ⋅ 0,264
1 6 1 + 6Cv + 5Cv
1
=
100 %
=
100 % 94 %.
CS
N
0,38
66
Погрешность коэффициента асимметрии при имеющихся длинах ряда, как
правило, велика и может достигать 100 % и более, поэтому, как уже было сказано выше, на практике вместо выборочного значения коэффициента асимметрии рекомендуется использовать районное соотношение Cs/Cv. Имея последнее
и рассчитав выборочную оценку коэффициента вариации, несложно получить
и значение Cs.
При использовании метода наибольшего правдоподобия величина погрешности определения математического ожидания и коэффициент асимметрии определяются по тем же формулам, что и для метода моментов. Приближённая величина относительной погрешности коэффициента вариации при
использовании метода наибольшего правдоподобия равна
57
=
εCv
3
=
100 % 8,6 %.
2N 3 + Cv 2
(
)
В гидрологической практике принято считать, что расчёт параметров распределения выполнен надёжно, если погрешность среднего значения не превышает 10 %, а коэффициента вариации 15 %. Допустимая ошибка коэффициента асимметрии не регламентирована.
Рассчитав необходимые параметры распределений, можно приступить
к оценке ординат эмпирической кривой обеспеченности и подбору аналитического закона распределения случайной величины. Для расчёта эмпирической
обеспеченности исходный ряд ранжируется в убывающем порядке. Обеспеченность ординат рассчитывается по формуле Крицкого — Менкеля:
p=
m
100 %,
N +1
где m — порядковый номер расхода ранжированного ряда; N — количество
лет наблюдений. Значения обеспеченности записываются в процентах и показывают вероятность превышения случайной величиной заданного числа. Значения ординат и эмпирической обеспеченности приведены в табл. 3.4.
После определения эмпирических ординат и их обеспеченности рассчитывают ординаты аналитических кривых распределения. В настоящей работе
были рассчитаны параметры распределения, необходимые для построения
стандартных кривых обеспеченности Пирсона III типа и Крицкого — Менкеля.
Для кривой Крицкого — Менкеля были определены параметры как методом
моментов, так и методом приближённого наибольшего правдоподобия. Поэтому необходимо выбирать аналитическую кривую, которая бы наилучшим
образом аппроксимировала ординаты эмпирической кривой обеспеченности.
Для этого нужно поэтапно построить все три кривые и методами математической статистики выбрать лучшую из трёх.
Значения ординат аналитической кривой обеспеченности Пирсона
III типа определяются по следующей формуле:
Q p%= x p% σ x + mx ,
где xp% — табличные значения нормированных ординат кривой обеспеченности Пирсона III типа; σх — стандартное отклонение случайной величины;
mx — математическое ожидание случайной величины.
Табличные значения нормированных ординат кривой обеспеченности
Пирсона III типа определяются в зависимости от коэффициента асимметрии
Cs и значения обеспеченности p (прил. 4).
Ординаты кривой обеспеченности Крицкого — Менкеля оцениваются
по специализированным таблицам для модульных коэффициентов, которые
58
Таблица 3.4. Фрагмент таблицы расчёта ординат эмпирической кривой
обеспеченности
1974
Номер расхода воды
в ранжированном
ряде
1
18 900
1,5
1957
2
18 400
3,0
2012
3
18 000
4,5
1995
4
17 500
6,0
1961
5
17 000
7,5
1993
6
16 700
9,0
1981
7
16 400
10,4
2000
8
15 800
11,9
1955
9
15 500
13,4
…………
…………
………
…………
1954
57
8290
85,1
1963
58
8190
86,6
Год
Q, м3/с
p, %
1975
59
8160
88,1
1960
60
8040
89,6
8020
91,0
1950
61
1970
62
8020
92,5
1973
63
7830
94,0
7710
95,5
1978
64
1951
65
7520
97,0
1967
66
5860
98,5
зависят от соотношения коэффициента асимметрии к коэффициенту вариации.
В настоящей работе коэффициент вариации равен 0,26, соотношение Cs/Cv
может быть округлено при определении параметров распределения методом моментов до 1,5 и до 2,5 — методом приближённого наибольшего правдоподобия.
Расчёты без округления параметров достаточно трудоёмки, но могут
быть выполнены в специализированных программных комплексах, например
в HydroStat.
Значения ординат аналитической кривой обеспеченности Крицкого —
Менкеля определяются по формуле
Q=
x p% + mx ,
p%
где xp% — табличные значения ординат кривой обеспеченности Крицкого —
Менкеля в модульных коэффициентах; mx — математическое ожидание случайной величины.
Значения ординат всех кривых приведены в табл. 3.5.
59
60
Таблица 3.5. Ординаты кривых обеспеченности (КО) Пирсона III типа и Крицкого — Менкеля при различных значениях Cs/Cv
p, %
Нормированные
ординаты
КО Пирсона
III типа
Ординаты
КО Пирсона
III типа, м3/с
0,01
4,6
26 200
2,18
26 000
2,40
28 600
0,1
3,6
23 200
1,96
23 300
2,07
24 700
1
2,6
20 000
1,68
20 000
1,74
20 700
Нормированные
Нормированные
Ординаты КО
ординаты
ординаты КО
Крицкого —
КО Крицкого —
Крицкого —
Менкеля (Cs/Cv = 1,5)
Менкеля (Cs/Cv = 1,5)
Менкеля (Cs/Cv = 2,5)
Ординаты КО
Крицкого —
Менкеля
(Cs/Cv = 2,5)
5
1,7
17 300
1,46
17 400
1,47
17 500
10
1,3
16 000
1,34
16 000
1,34
16 000
20
0,8
14 500
1,22
14 500
1,20
14 300
25
0,6
13 900
1,17
13 900
1,16
13 800
30
0,5
13 400
1,12
13 400
1,12
13 300
40
0,2
12 500
1,05
12 500
1,04
12 400
50
–0,1
11 700
0,98
11 700
0,97
11 600
60
–0,3
11 000
0,92
10 900
0,91
10 800
70
–0,6
10 100
0,85
10 100
0,85
10 100
75
–0,7
9710
0,81
9700
0,81
9690
80
–0,9
9260
0,77
9230
0,78
9260
90
–1,2
8070
0,68
8070
0,69
8220
95
–1,5
7160
0,60
7180
0,62
7440
98
–1,8
6170
0,53
6260
0,56
6640
99
–2,1
5500
0,48
5670
0,52
6140
99,9
–2,6
3940
0,36
4260
0,41
4940
Рис. 3.3. Эмпирическая (1) и аналитические кривые распределения расходов воды Пирсона
III типа (2), Крицкого — Менкеля при Cs/Cv = 1,5 (3) и Cs/Cv = 2,5 (4)
После расчёта ординат всех кривых обеспеченностей при различных параметрах все значения эмпирической и аналитической кривых обеспеченности
наносятся на один график. Идеальным является нанесение всех кривых обеспеченности на специальную клетчатку вероятностей, спрямляющую нормальный закон распределения. В отсутствие клетчатки вероятности допустимо представить результаты на одном графике, построенном в Excel.
Соответствие той или иной кривой эмпирическим данным можно оценить визуально либо с помощью статистических критериев, в частности критерия χ2 Пирсона (табл. 3.6).
Для расчёта статистики χ2 нужно разделить ряд на 10 равнообеспеченных
интервалов k, теоретическое число случаев попадания в каждый интервал
будет равно 6,6 (66/10). Числовые границы интервалов могут быть установлены по таблице ординат обеспеченности. После этого следует подсчитать
число попаданий ранжированной случайной величины в каждый интервал
и, возведя полученную статистику в квадрат, просуммировать. В настоящей
работе необходимо определить лучшее соответствие эмпирических данных
одной из трёх кривых обеспеченностей (рис. 3.4).
Рассчитав все необходимые параметры для критерия χ2, можно приступить непосредственно к его определению (табл. 3.7, 3.8).
Для кривой обеспеченности Пирсона III типа значение статистики χ2 будет
наименьшим:
=
χ2
1 k *2
1
−n
− 66 7,63.
(mi )=
486=
∑
m i =1
6,6
61
Таблица 3.6. Вспомогательная таблица расчёта критерия χ2 для кривой Пирсона
III типа при Cs = 0,38; Cv = 0,26
p, %
0–10
10–20
20–30
30–40
40–50
50–60
60–70
70–80
80–90
90–100
Сумма
Границы
интервалов
Беск. — 16 000
16 000–14 500
14 500–13 400
13 400–12 500
12 500–11 700
11 700–11 000
11 000–10 100
10 100–9260
9260–8070
8070 — отр. число
—
Число случаев
попадания расхода
воды в интервал m
7
10
3
4
9
6
4
9
7
7
66
m2
49
100
9
16
81
36
16
81
49
49
486
Таблица 3.7. Вспомогательная таблица расчёта критерия χ2 для кривой
Крицкого — Менкеля при Cs/Cv = 1,5; Cv = 0,26
p, %
0–10
10–20
20–30
30–40
40–50
50–60
60–70
70–80
80–90
90–100
Сумма
Границы
интервалов
Беск. — 16 000
16 000–14 500
14 500–13 400
13 400–12 500
12 500–11 700
11 700–10 900
10 900–10 100
10 100–9230
9230–8070
8070–0
—
Число случаев
попадания расхода
воды в интервал m
7
10
3
4
9
7
3
9
8
6
66
m2
49
100
9
16
81
49
9
81
64
36
494
Для кривой Крицкого — Менкеля эти значения составят 8,84 и 10,3 для
Cs/Cv = 1,5 и Cs/Cv = 2,5 соответственно.
Критическое значение данной статистики зависит от количества параметров распределения и числа интервалов.
По прил. 5 находим теоретическое значение χ2 при числе степеней свободы
𝑣 = k – r – 1 = 10 – 3 – 1 = 6 и уровне значимости α = 5 %. В данном случае χ2 = 12,6.
Таким образом, нулевая гипотеза о соответствии эмпирических данных
аналитическому закону распределения при заданном уровне значимости не
опровергается для всех аналитических кривых. Тем не менее лучшее соотношение по критерию χ2 показала кривая Пирсона III типа (рис. 3.4).
62
Таблица 3.8. Вспомогательная таблица расчёта критерия χ2 для кривой
Крицкого — Менкеля при Cs/Cv = 2,5; Cv = 0,26
p, %
Границ
интервалов
Число случаев
попадания расхода
воды в интервал m
m2
0–10
Беск. — 16 000
7
49
10–20
16 000–14 300
11
121
20–30
14 300–13 300
2
4
30–40
13 300–12 400
6
36
40–50
12 400–11 600
7
49
50–60
11 600–10 800
7
49
60–70
10 800–10 100
3
9
70–80
10 100–9260
9
81
80–90
9260–8220
5
25
90–100
8220–0
9
81
Сумма
—
66
504
Рис. 3.4. Кривая обеспеченности Пирсона III типа (1) максимальных расходов воды р. Северная
Двина (2) по гидрологическому посту, расположенному в дер. Абрамково, Cv = 0,25, Cs = 0,38,
(кривая обеспеченности построена в программе Hydrostat)
63
Заключение по работе должно содержать основные выводы и полученные
результаты. В настоящем примере проанализированы максимальные значения
расходов воды по гидрологическому посту в дер. Абрамково за 1950–2015 гг.
Установлено, что настоящий ряд является статистически однородным и стационарным при уровне значимости 2α = 10 % как по дисперсии, так и по среднему
значению, статистически значимые тренды и выбросы отсутствуют. Выборочное
распределение отклоняется от нормального и является умеренно асимметричным. Параметры распределения оценивались двумя способами: методом моментов и методом наибольшего правдоподобия, статистические погрешности не
превышают допустимых. Рассчитаны ординаты эмпирической и аналитической
кривых обеспеченности, наибольшее соответствие эмпирическим данным показала кривая Пирсона III типа с параметрами распределения Cv = 0,25 и Сs = 0,38.
Частным случаем при выполнении данной работы может быть выявление
нарушения стационарности рядов наблюдений по среднему значению или (и)
дисперсии. Нарушение стационарности рядов наблюдений может быть вызвано
различными причинами, в частности влиянием изменений климата или генетической неоднородностью, когда максимальные и средние значения расходов или
уровней воды имеют различное происхождение. Например, высшие уровни воды
могут формироваться в отдельные годы на чистой воде, в другие же годы имеют
место подпорные явления, значительно увеличивающие величину уровней.
В таких случаях принято пользоваться усечёнными или составными кривыми
обеспеченности. В обоих случаях суть методов заключается в определении параметров распределения и построении кривых обеспеченностей лишь для отдельных частей рядов, с последующим пересчётом величины обеспеченности.
Рассмотрим пример построения таких кривых обеспеченностей на примере высших уровней р. Кундрючья по пос. Владимирская. Для начала построим и проанализируем хронологический график (рис. 3.5).
Анализ данного графика и результаты статистических тестов показали
нарушение стационарности данного ряда как по среднему значению, так и по
дисперсии (при разделении ряда на два периода: 1960–1990 гг. и 1991–2019 гг.).
Отметим, что нарушение стационарности ряда, по сути, обусловлено отсутствием во второй его части высоких значений, которые периодически появлялись до 1990 г., минимальные же значения не претерпели значительных
изменений. Это можно рассматривать по-разному: с одной стороны, можно
говорить о необратимости этих изменений, например в связи со строительством какого-либо гидротехнического сооружения, с другой — о некоторой
цикличности, что приведёт к увеличению уровней в будущем. В первом случае
необходимо было бы привести ряд к однородному виду, во втором случае (или
если невозможно установление однозначной необратимости этих изменений)
применяются усечённые или составные кривые обеспеченности.
Первым этапом является построение эмпирической кривой обеспеченности (рис. 3.6).
На графике виден достаточно резкий перелом эмпирической кривой
в районе 40 % обеспеченности, что можно принять за условную границу
64
Рис. 3.5. Хронологический график высших уровней воды р. Кундрючья за 1960–2020 гг.
по гидрологическому посту, расположенному в пос. Владимирская, с нанесённой
линией тренда
Рис. 3.6. Эмпирическая кривая обеспеченности высших уровней воды р. Кундрючья
по пос. Владимирская
65
разделения данного ряда. Отметим, что в данном случае можно построить
и обычную кривую обеспеченности при достаточно хорошем соответствии
эмпирических данных аналитической кривой обеспеченности в верхней её
части. Для построения кривой обеспеченности Пирсона III типа (рис. 3.7) использованы значения математического ожидания (177), СКО (86) и коэффициента асимметрии (1,5).
Рис. 3.7. Эмпирическая (кружочки) и аналитическая (сплошная линия) кривые обеспеченности
Пирсона III типа для высших уровней воды р. Кундрючья по пос. Владимирская
Кривая обеспеченности Пирсона III типа плохо описывает эмпирические
точки в верхней части, что свидетельствует о целесообразности построения
усечённой или составной кривой обеспеченности.
Построим усечённую кривую обеспеченности для верхней части, приняв
за условную границу отнесения к верхней части уровень воды, равный 170 см.
Таким образом, в расчёте участвуют все данные более 170 см, исключаются
34 значения. Далее по данной части выборки следует рассчитать все параметры
распределения (в примере использовано распределение Пирсона III типа)
и, построив кривую обеспеченности, снять все значения уровней воды для
опорных обеспеченностей. Пересчёт значения обеспеченности для исходной
выборки выполняется по формуле
P ( N − m)
P0 = 1
,
N
где P0 — значение обеспеченности в исходном ряде длиной N; P1 — значение
обеспеченности в укороченном ряде на m элементов.
Занесём значения в табл. 3.9.
66
Таблица 3.9. Ординаты усечённой кривой обеспеченности Пирсона III типа
Значение обеспеченности
P1, %
Высший уровень воды, см
Значение обеспеченности
в исходной выборке P0, %
0,01
957
0,004
0,02
889
0,009
0,05
813
0,022
0,1
756
0,043
0,2
698
0,087
0,5
618
0,22
1
555
0,43
2
495
0,87
5
418
2
10
357
4
20
298
9
25
280
11
30
263
13
40
239
17
50
220
22
60
205
26
70
193
30
75
187
33
80
181
35
90
172
39
95
168
41
98
165
42
99
165
43
99,5
165
43
99,8
164
43
99,9
164
43
По приведённым данным строится усечённая кривая обеспеченности
(рис. 3.8).
Для высших уровней воды и максимальных экстремальных расходов воды
обычно даются значения обеспеченности до 25–50 %. В данном случае кривая
обеспеченности несколько лучше описывает верхнюю часть. Если расчётная задача не включает в себя определения значения обеспеченностей, больших, чем
точка усечения, то задачу можно считать решённой, в противном случае необходимо рассчитать составную кривую обеспеченности, которая, по сути, собирается из двух усечённых кривых. Алгоритм сводится к следующим операциям:
67
Рис. 3.8. Эмпирическая (кружочки) и усечённая аналитическая (сплошная линия) кривая
обеспеченности Пирсона III типа высших уровней воды р. Кундрючья по пос. Владимирская
1) строим две (или более) кривые обеспеченности (любые) для верхней
и нижней части ряда;
2) по этим кривым определяем максимальное и минимальное значения
характеристики, размах; после этого разбиваем весь диапазон данных
на n-е количество интервалов (необязательно равновеликих);
3) оцениваем обеспеченность каждого расхода воды по обеим кривым
и вычисляем значение составной кривой обеспеченности.
Значение составной кривой обеспеченности рассчитывается по формуле
Pn +P n +P n
P0 = 1 1 2 2 N N ,
N
где P1 — обеспеченность значения расхода воды по первой части ряда; n1 —
длина этой части ряда и т. д.
Выполним соответствующий расчёт, разделив ряд на две части, как в предыдущем случае. Вторая часть ряда обладает отрицательной асимметрией,
поэтому целесообразно, так же, как и в первом случае, использовать распределение Пирсона III типа. После выполнения всех расчётов получаем минимальное значение уровня воды, равное 31 см (обеспеченность 99,9 %); максимальное значение уровня воды нам известно по первой кривой, построенной
ранее, оно составляет 957 см (табл. 3.9). Задаём шаг по уровню воды, который
может быть переменным; при решении данной задачи необходимо руководствоваться плавным изменением обеспеченности, после чего путём интерполяции для каждого значения уровня воды определяется обеспеченность по
обеим кривым (табл. 3.10).
68
Таблица 3.10. Ординаты составной кривой обеспеченности Пирсона III типа
Значение обеспеченности, %
Значение уровня
воды, см
для многоводных лет
для маловодных лет
составной кривой
31
100
99,9
99,94
40
100
99,7
99,83
50
100
99,3
99,60
60
100
98,4
99,09
70
100
96,4
97,96
80
100
92,9
95,98
90
100
87
92,63
100
100
78
87,53
120
100
57
75,63
140
100
30
60,33
160
100
11,5
49,85
……
……
……
……
760
0,98
0
0,42
780
0,07
0
0,03
800
0,06
0
0,03
820
0,048
0
0,02
840
0,037
0
0,02
860
0,028
0
0,01
880
0,022
0
0,01
900
0,018
0
0,01
910
0,015
0
0,01
920
0,013
0
0,01
930
0,0125
0
0,01
940
0,012
0
0,01
957
0,01
0
0,004
После определения ординат построим составную кривую обеспеченности,
для визуального сравнения добавим и простую кривую обеспеченности, рассчитанную ранее (рис. 3.9).
Визуальный анализ соответствия аналитических законов распределения
эмпирическим данным наглядно показывает лучшее соотношение для составной кривой обеспеченности. Однако надо понимать, что подобный подход
не часть классической статистики, а метод гидрологических расчётов, поэтому
его применение требует большой осторожности. В частности, ряды данных
для определения параметров распределения должны быть достаточной продолжительности, составные кривые должны иметь большее число параметров
69
Рис. 3.9. Эмпирическая (1), аналитическая кривая обеспеченности Пирсона III типа (2)
и составная (3) кривая обеспеченности Пирсона III типа высших уровней воды р. Кундрючья
по пос. Владимирская
распределения (для каждой части ряда, по сути, определяются свои параметры
распределения, при этом при достаточном обосновании могут использовать
любые законы распределения). Поэтому применение составных кривых обеспеченности требует не только статистического, но и гидрологического обоснования.
Контрольные вопросы
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
70
Что такое случайная величина?
Что такое хронологический график и что он показывает?
Что такое линия тренда, для чего она используется?
Что такое эмпирическая гистограмма распределения и каковы её свойства?
В чём сущность центральной предельной теоремы?
Как проводится стандартизация данных?
Что такое модульные коэффициенты?
Назовите способы оценки однородности и стационарности рядов.
Как рассчитывается и для чего используется критерий Стьюдента?
Как рассчитывается и для чего используется критерий Фишера?
Что такое уровень значимости и доверительная область?
Что такое и для чего используется p-value?
Для чего используются метод моментов и метод наибольшего правдоподобия?
Что называется несмещёнными оценками параметров распределения?
Назовите формулы для оценки параметров распределения методом моментов.
16. Какие существуют формы представления закона распределения случайной величины, что такое понятие обеспеченности?
17. Эмпирические и аналитические кривые распределения.
18. Назовите параметры, необходимые для расчёта ординат кривой обеспеченности
Пирсона III типа.
19. Назовите параметры, необходимые для расчёта ординат кривой обеспеченности
Крицкого — Менкеля.
20. Критерий χ2 для оценки соответствия аналитического закона распределения эмпирическим данным.
4. РАБОТА II. ПРОГНОЗИРОВАНИЕ
ЭКСТРЕМАЛЬНЫХ ХАРАКТЕРИСТИК
ВОДНОГО РЕЖИМА МЕТОДАМИ
МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ
Настоящая работа посвящена разработке методики прогнозирования высших
уровней воды.
Исходные данные должны представлять собой случайные величины с датами регистрации (измерения). В качестве прогнозируемой величины предпочтительно использовать расходы воды на бесприточном участке реки за
период наблюдений не менее 30–50 лет. В качестве предикторов можно взять
данные о снегозапасах, расходах воды на вышележащих пунктах с лагом во
времени и т. д. Оптимальный состав и количество предикторов определяется
непосредственно студентами. Исходные данные для анализа готовятся непосредственно студентами на основе ежегодных изданий Государственного водного кадастра и других возможных источников.
Цель работы — получение практических навыков использования статистических методов для прогнозирования. Для достижения поставленной цели
студентам необходимо освоить применение методов корреляционного и регрессионного анализов, а также метода обучения искусственных нейронных сетей.
Задание. По результатам совместных наблюдений за максимальными
расходами (уровнями) воды и другими гидрометеорологическими характеристиками, анализа литературных источников определить оптимальный предиктивный состав прогностической модели. Оценить заблаговременность
прогноза на основе метода множественной линейной регрессии и метода обучения искусственных нейронных сетей, построить и обучить прогностические
модели. Оценить качество и эффективность полученных моделей.
Порядок выполнения работы и отчётные материалы
При выполнении данной работы надо полагаться не только на методы математической статистики, но и на профессиональный опыт и знания о физических
процессах формирования прогнозируемого события (прогнозируемая величина также может называться предиктантом). Безусловно, на формирование
высших уровней воды оказывают влияние множество факторов, которые
можно разделить на постоянно и переменно действующие.
К постоянно действующим факторам можно отнести характеристики и параметры водосбора и русла, учёт которых крайне важен в физико-математиче-
72
ских моделях. С точки зрения статистики, при разработке модели прогнозирования для конкретного створа данные факторы не играют роли, так как не оказывают влияния на вариацию прогнозируемой характеристики. С другой стороны,
изменение этих параметров вследствие антропогенной нагрузки или иных воздействий приведёт к неустойчивости всей модели. Поэтому при использовании
статистических методов прогнозирования принимается допущение о неизменности во времени состава грунтов и вклада этого состава в коэффициенты фильтрации, шероховатости, залесённости, заболоченности, озёрности.
К переменно действующим факторам (предикторам) относятся все условия
текущего года, непосредственно оказывающие влияние на величину высшего
уровня воды данного года в данном створе. К ним могут быть отнесены, с одной
стороны, запасы воды в снеге, степень увлажнённости бассейна в осенний период, глубина промерзания почвогрунтов, максимальные расходы (уровни) воды
на вышележащих створах, осадки, выпадающие в период половодья, — как факторы, характеризующие приток воды к створу (расходы воды). С другой стороны,
это различные гидравлические факторы, определяющие величину переменного
подпора и вероятность образования заторов льда. К данным факторам, как правило, относят высший уровень в начале ледостава как характеристику зашугованности русла, максимальные толщины льда как интегральную характеристику
его прочности (что в целом весьма условно) и другие возможные предикторы,
хорошо коррелирующие с прогнозируемой величиной. Общее правило об окончательном составе предиктивной модели должно исходить из максимальной их
информативности для прогноза, лёгкости и прозрачности интерпретации, отсутствии несогласованного нарушения стационарности, мультиколлинеарности
(предикторы не должны коррелировать между собой). Максимальное число
предикторов при этом будет зависеть от длины выборки. В целом при длине выборки 50–100 лет допустимо использовать 3–4 предиктора. Если нужно большее
количество предикторов, коррелируемых между собой, предикторы объединяются в некоррелируемые между собой факторы. Из методов факторного анализа
наиболее распространённым является метод главных компонент.
Несомненно, что от выбора предикторов будет зависеть заблаговременность
прогноза. Так, по информации о запасе воды в снеге, глубине промерзания и степени осеннего увлажнения можно прогнозировать высшие уровни воды с заблаговременностью более 1 мес., тогда как по значениям высших уровней вышележащих створов заблаговременность прогноза будет всего несколько суток. Под
заблаговременностью подразумевается разница в днях от даты выпуска прогноза
до наступления прогнозируемого события. Дата выпуска прогноза приурочивается к дате последнего события, используемого в качестве предиктора. В большинстве случаев с уменьшением заблаговременности прогноза растёт и его качество, которое оценивается стандартной ошибкой прогнозирования:
N
S=
*
)
∑ ( xi − xïðîãíîçíîå
i =1
N
2
.
(4.1)
73
Несложно увидеть, что данная величина представляет собой среднее квадратическое отклонение фактических значений прогнозируемой величины от
её прогнозных значений и по своему физическому смыслу близка к стандартному отклонению случайной величины. При этом из свойств среднего значения известно, что именно в зависимости от его фиксированного значения
среднее квадратическое отклонение будет минимальным. Поэтому критерием
качества и эффективности долгосрочных прогнозов является отношение
стандартной ошибки прогнозирования S к стандартному отклонению прогнозируемой величины σ. Прогностическая модель считается эффективной, если
S
< 0 , 8.
σ
Для краткосрочных прогнозов используется отношение
S
< 0 ,8 ,
σ∆
где σ∆ — среднее квадратическое отклонение фактических значений прогнозируемой величины от суммы фактических значений прогнозируемой величины на
дату выпуска прогноза и среднего её изменения за период заблаговременности,
N
∑ ( ∆i − ∆ )
σ∆ = i =1
N
2
,
(4.2)
∆i и Δ — фактическое и среднее изменения прогнозируемой величины за период заблаговременности соответственно.
В зарубежной литературе можно встретить иные критерии качества,
наиболее распространённым из которых является критерий Нэша — Сатклиффа — отношение суммы квадратов ошибок прогноза к сумме квадратов
ошибок прогнозов, данных по среднему значению. В идеальном случае, когда
прогнозные значения равны наблюдённым, дробь обращается в ноль, а коэффициент Нэша — Сатклиффа равен единице. Если прогностическая методика
неэффективна по сравнению с ориентированием на среднее значение, коэффициент Нэша — Сатклиффа стремится к нулю:
N
*
)
∑ ( xi − Xïðîãíîçíîå
NSE = 1 − i =1
N
∑ ( xi − X )
2
2
.
(4.3)
i =1
Применение того или иного критерия качества должно отвечать наибольшей его строгости для критической оценки прогностической модели.
В качестве примера рассмотрим прогнозирование высших уровней воды
за период весеннего ледохода, г. Котлас. Специфика формирования высших
74
уровней в Котласе обусловливается тем, что он расположен в месте слияния
рек — Северной Двины и Вычегды. Однако предварительный анализ показал,
что Вычегда вскрывается несколько позже Северной Двины и её основного
притока — Сухоны. Таким образом, учёт ледовой ситуации на Вычегде невозможен ввиду отрицательной заблаговременности. Повторимся, что определение оптимального состава предиктивной модели является непосредственной
задачей исследователя, и именно от этого и зависит конечная эффективность
полученной модели. Для определения оптимального состава предикторов необходимо в первую очередь обратиться к литературным источникам, посвящённым решению той или иной проблемы прогнозирования. В случае же их
отсутствия — полагаться на свой опыт и интуицию, статистические методы
при этом являются вспомогательным инструментом, анализировать целесообразнее всего парные коэффициенты корреляции между предикторами
и предиктантом, отбирая наиболее значимые.
Для Котласа ранее уже были разработаны методики прогнозирования высшего уровня воды за период весеннего ледохода. В частности, в работе [Бузин,
2015] предложена методика прогнозирования высшего уровня ледохода в Котласе в зависимости от максимального (высшего) уровня в начале ледостава
(Hлс), максимальной толщины льда (tл), расхода воды р. Сухоны в первый день
ледохода у г. Тотьмы (QТотьма), который при прогнозе вычисляется через уровень
воды в Тотьме (HТотьма) и подъём уровня в этот же день (∆H), а также среднесуточной температуры воздуха на дату выпуска прогноза (θ):
Hлдх = 0,0281Нлс + 3,968tл + 0,273QТотьма + 4,93θ – 27,
QТотьма = 2,74HТотьма – 0,783ΔН – 206.
(4.4)
(4.5)
Средняя заблаговременность такого прогноза составляет пять дней, стандартная ошибка 64 см, эффективность, оценённая по отношению к стандартному отклонению прогнозируемой величины, составила 0,59, к среднему изменению за период заблаговременности 0,47, что свидетельствует о достаточно
высоком качестве данной методики [Бузин, 2015]. Среднесуточная температура воздуха как фактор, влияющий на формирование высшего уровня ледохода, как правило, остаётся незначимой, то же самое касается и максимальной
толщины льда. Например, отмечается, что статистическая связь высшего
уровня ледохода и максимальной толщины льда невысока, а коэффициент
корреляции редко может достигать 0,45 [Бузин, 2015. С. 117]. Высший уровень
в начале ледостава иногда может оказывать существенное влияние на формирование высшего уровня ледохода, однако для Котласа коэффициент корреляции между ними составляет всего 0,35.
Таким образом, основным информативным предиктором в уравнении
(4.4) является расход воды р. Сухоны в первый день ледохода у г. Тотьмы, который может быть заменён уровнем воды на тот же день. При этом стоит отметить, что замена расхода воды соответствующим уровнем с гидрологической
точки зрения является оправданной, так как расходы воды обычно вычисляются в конце года, а их предвычисление закладывает серьёзную ошибку и неод-
75
нозначность в текущий прогноз. Однако подобная модель содержит всего лишь
один предиктор, она недостаточно эффективна, поэтому требуется найти как
минимум ещё один предиктор. Таким предиктором может быть за октябрь —
март низший уровень воды в районе Котласа. Минимальные уровни, с гидрологической точки зрения, с одной стороны, прямо связаны с дефицитом воды
в русле, а с другой — обратно связаны с вероятностью образования заторов льда.
Проанализируем парные коэффициенты корреляции между предикторами и предиктантом, для чего в пакете анализа перейдём в раздел «Корреляция» и выберем все исходные данные, предназначенные для анализа,
и укажем выходной интервал (табл. 4.1).
Таблица 4.1. Результаты корреляционного анализа
Нmin. Котлас (X1)
НТотьма (X2)
НКотлас (Y)
Нmin. Котлас (X1)
1
–
–
НТотьма (X2)
0,33
1
–
НКотлас (Y)
0,52
0,74
1
Переменная
Как известно, коэффициенты корреляции изменяются от –1 до +1, при
этом чем ближе абсолютное значение коэффициента корреляции к единице, тем
лучше связь между переменными. При прогнозировании рядов значимыми, как
правило, можно считать коэффициенты корреляции более 0,50. Анализ представленных результатов показал корреляционную значимость данной модели,
отсутствие выраженной мультиколлинеарности. Это позволяет использовать
данную модель в дальнейшем при положительной заблаговременности прогноза.
В настоящей модели использовано два предиктора, дата выпуска прогноза
приурочивается к первому дню ледохода в Тотьме. Следовательно, заблаговременность прогноза будет определяться разницей между этой датой и датой
формирования высшего уровня воды в Котласе (табл. 4.2). Таким образом,
средняя заблаговременность прогноза составила 6 дней. В отчёте представляют гистограмму распределения заблаговременности прогноза (рис. 4.1) (порядок построения гистограммы см. в разд. 3, работа I).
Анализ данной заблаговременности показывает модальное значение заблаговременности за 4–8 дней и сильную положительную асимметрию. Прогнозы, данные с заблаговременностью от 1 до 16 дней, можно считать среднесрочными, поэтому проверку качества надо проводить по обеим вышеописанным методикам.
После того как были рассчитаны заблаговременности прогноза и получены положительные результаты, свидетельствующие о корректности и адекватности прогностической модели, можно приступить непосредственно
к разработке прогностической модели на основе метода множественной линейной регрессии. Для понимания множественной линейной регрессии следует обратиться к обычной парной линейной регрессии, которая представляет
собой простую линейную аппроксимацию поля точек методом наименьших
76
77
420
439
23.04.1954
03.05.1987
22.04.2016
30.04.2013
21.04.2010
01.05.1985
20.04.1962
14.04.1990
06.05.1974
……
29.04.1958
27.04.1993
23.04.2003
22.04.1953
05.05.1971
04.05.1965
04.05.1956
27.04.1972
25.04.1969
26.04.2012
1951
1954
1987
2016
2013
2010
1985
1962
1990
1974
……
1958
1993
2003
1953
1971
1965
1956
1972
1969
2012
6
59
45
51
86
56
108
54
-15
135
……
47
34
97
65
45
95
48
92
98
41
Минимальный
уровень воды
(Котлас)
за октябрь — март
23.04.2012
21.04.1969
24.04.1972
01.05.1956
25.04.1965
21.04.1971
17.04.1953
18.04.2003
25.04.1993
28.04.1958
……
27.04.1974
11.04.1990
14.04.1962
27.04.1985
15.04.2010
23.04.2013
13.04.2016
26.04.1987
20.04.1954
05.04.1951
3
4
3
3
9
14
5
5
2
1
……
9
3
6
4
6
7
9
7
3
2
Начало
Заблаговреледохода
менность
в г. Тотьма
прогноза
Примечаниe. Курсивом выделено тестовое подмножество данных.
605
585
629
635
384
382
605
437
468
590
……
534
475
460
502
618
392
586
562
07.04.1951
Год
Уровень
воды
Высший
уровень
воды
(Котлас)
618
399
536
510
377
316
502
180
485
502
……
337
478
447
387
408
497
475
269
492
494
Уровень воды
в первый день
ледохода
(Тотьма)
218
222
300
301
194
235
366
166
318
340
……
156
274
247
149
195
238
350
172
236
489
Уровень воды
на дату выпуска
прогноза,
г. Котлас
387
363
329
334
190
147
239
271
150
250
……
283
146
287
326
265
264
268
220
350
73
Изменение уровня
воды за период
заблаговременности
(∆)
14 641
9409
3969
4624
5776
14 161
729
25
13 456
256
……
289
14 400
441
3600
1
4
4
2116
7056
37 249
(∆ – ∆ср)2
Таблица 4.2. Основные параметры для построения предиктивной модели и оценки заблаговременности и качества
выпускаемых прогнозов
Рис. 4.1. Гистограмма распределения заблаговременности прогноза
квадратов. Разновидностью парной линейной регрессии является уравнение
линии тренда, оценка значимости коэффициента корреляции которого была
проведена в работе I. Построение линии регрессии проводится методом наименьших квадратов, суть которого заключается в минимизации квадратического отклонения наблюдённых значений от линии регрессии. Уравнение
парной линейной регрессии имеет вид
Y
= aX + C + ε ,
где Y — зависимая величина (предиктант или прогнозируемая величина
в случае решения задачи прогнозирования); ε — случайная погрешность уравнения линейной регрессии, a и С — эмпирические коэффициенты, определяемые методом наименьших квадратов.
Коэффициент a показывает, насколько в среднем изменится зависимая
переменная Y при изменении факторной переменной на единицу своего измерения, и в геометрическом смысле представляет собой тангенс угла наклона
линии регрессии; коэффициент С — расстояние от начала координат до точки
пересечения оси ординат с линией регрессии. Данные коэффициенты определяются по следующим формулам:
a=R
σY
,
σx
С = Y – aX,
78
где R — коэффициент корреляции,
RXY =
∑ (X − X ) × (Y − Y ) .
∑ (X − X ) × ∑ (Y − Y )
2
2
В случае множественной линейной регрессии зависимость результирующей переменной одновременно от нескольких объясняющих переменных
описывает уравнение или модель. Таким образом, вместо линии регрессии
в ней используется гиперплоскость. Как и в простой линейной регрессии, параметры модели an и С вычисляются методом наименьших квадратов. Разумеется, мы будем изучать построение модели множественной регрессии и её
оценивание с использованием программных средств. Преимущество множественной линейной регрессии по сравнению с простой заключается в том, что
использование в модели нескольких входных переменных позволяет увеличить долю объяснённой дисперсии выходной переменной и таким образом
улучшить соответствие модели данным. То есть при добавлении в модель каждой новой переменной коэффициент детерминации растёт. Однако его рост
с добавлением новых предикторов обозначает также и минус данного метода,
поэтому в качестве меры надёжности уравнения множественной линейной
регрессии рекомендуется использовать скорректированный коэффициент
детерминации, который снижается при необоснованном добавлении предикторов. Как уже было сказано выше, при длительности рядов наблюдения
50–100 лет рекомендуется использовать не более трёх предикторов.
Для построения регрессионной модели в целях прогнозирования величин
всю выборку следует разделить на две подвыборки, одна из которых используется для построения регрессионной модели, а вторая — для проверки на независимом материале. Разделение является обязательным условием проверки получившейся модели, так как именно проверка на независимом материале показывает устойчивость полученной модели и её параметров, свидетельствует о достаточности и неизбыточности количества предикторов. Считается, что данное
разделение объективнее всего проводить случайным образом. Такое разделение
можно выполнить, предварительно ранжировав ряд по сгенерированному случайному числу. В пакете Excel с помощью функции генерации случайных чисел,
расположенной в пакете анализа, создаётся синтетическая случайная величина,
имеющая нормальное распределение, и помещается в столбце рядом с прогнозируемой величиной. После этого необходимо выполнить сортировку (ранжирование) всех данных по столбцу со сгенерированной случайной величиной.
Таким образом, n столбцов с годом, прогнозируемой величиной и предикторами расположатся в случайном порядке, а столбец со сгенерированной
случайной величиной — в убывающем или возрастающем порядке. При описанном способе обучающая подвыборка составляет первые 70–85 % значений
от всей выборки, тестовая — последние 15–30 %. Отметим, что не рекомендуется формировать обучающее и тестовое подмножество из первых и по-
79
следних значений выборки хронологического ряда без предварительного ранжирования рядов описанным выше способом, так как в этом случае в обучающее подмножество совсем не попадут современные наблюдения, что может
сказаться на качестве модели (табл. 4.2).
После разделения выборки на два подмножества приступают к построению
модели множественной линейной регрессии. В пакете Excel из окна «Анализ
данных» нужно перейти в окно «Регрессионный анализ». В открывшемся окне
указываются обучающий диапазон прогнозируемой величины (Y) и диапазон
предикторов (X), целесообразно также показать необходимость вывода остатков
модели. Результаты моделирования представляют в отчёте (табл. 4.3, 4.4).
Анализ полученных результатов показал следующее. Значение коэффициента множественной корреляции должно быть в пределах 0,7; нормированного коэффициента детерминации 0,5; P-значения — менее 0,05, что свидетельствует о статистической значимости полученных оценок. Также можно
сразу оценить качество модели по критериям S/σ и S/σ∆ по обучающей выборке:
S
65
= = 0,63,
σ 103
S 65
= = 0 ,72.
σ∆ 90
Таблица 4.3. Характеристики регрессионного уравнения
Регрессионная статистика
Р-значение
Множественный R
0,78
R-квадрат
0,61
Нормированный R-квадрат
0,60
Стандартная ошибка
65
Наблюдения
56
Таблица 4.4. Параметры регрессионного уравнения
Коэффициенты
уравнения
P-значение
С (Y-пресечение)
208
0
Коэффициент при первом предикторе а1
0,80
0,04
Коэффициент при втором предикторе а2
0,62
0
Коэффициент
После оценки качества выпускаемых прогнозов на зависимом материале,
необходимо рассчитать прогнозные значения для независимого материала
и оценить качество выпускаемых прогнозов по аналогичным критериям. На
независимом материале значения данных критериев равны 0,59 и 0,79 соответ-
80
ственно. Качество выпускаемых прогнозов может быть значительно улучшено
при использовании метода искусственных нейронных сетей. Искусственная
нейронная сеть (ИНС) — математическая модель, а также её программное или
аппаратное воплощение, построенное по принципу организации и функционирования сетей нервных клеток живого организма. Это понятие возникло
при изучении процессов, протекающих в мозге, и попытках их смоделировать.
Первой такой попыткой были нейронные сети, представленные в работе [МакКаллок, Питтс, 1956].
После разработки алгоритмов обучения полученные модели стали использовать в практических целях: в задачах прогнозирования, для распознавания образов, в задачах управления и др. Методы обучения искусственных
нейронных сетей для краткосрочного и долгосрочного прогнозирования элементов водного режима рек и озёр распространяются всё более широко и повсеместно. В настоящее время проведено много исследований применимости
ИНС в целях краткосрочного прогнозирования расходов и уровней воды за
период весеннего половодья и дождевых паводков.
Рассмотрим на нашем примере решение регрессионной задачи прогнозирования с применением метода обучения ИНС в программном продукте
Statistica 12. Во вкладке «Статистик» перейдём в окно «Нейронные сети — регрессия», где на первом этапе обозначим целевую переменную и предикторы,
а также зададим размер обучающей и валидационной выборки, которая является квазинезависимой. Тестовое подмножество не следует указывать, так
как оно вообще не будет участвовать в процессе обучения. Это делается для
того, чтобы разбиение на подмножества у двух методов было одинаковым
и возможно было принципиальное сравнение результатов двух методов.
После перехода в окно «Автоматическое обучение искусственных нейронных
сетей» следует указать тип ИНС, минимальное и максимальное число скрытых
нейронов и активационные функции, число обучающихся нейронных сетей
и число сохраняемых (лучших сетей). Рекомендуется использовать сеть многослойного персептрона (MLP), максимальное число скрытых нейронов должно
быть необходимым и достаточным — не следует создавать излишне сложную
сеть; в качестве активационных можно взять комбинации гиперболического
тангенса и линейной функции.
После настройки перечисленных параметров нужно запустить обучение,
а по его окончании перейти в окно «Анализ результатов». В данном окне наибольший интерес вызывают производительность нейронной сети, представляющая собой коэффициент корреляции между прогнозными и фактическими значениями, прогнозные значения и абсолютные ошибки прогнозирования. После обучения ИНС следует выбрать сеть с меньшей квадратической
ошибкой прогнозирования и сделать поверочные прогнозы на независимом
материале.
В настоящем примере лучшей по данным параметрам оказалась искусственная нейронная сеть MLP 2-5-1, в качестве активационных функций использованы гиперболический тангенс на скрытом слое и линейная активаци-
81
онная функция. На зависимом материале нейронная сеть MLP 2-5-1 показала
следующие результаты:
S
50
= = 0, 48,
σ 103
S 50
= = 0 ,55.
σ∆ 90
На независимом материале данные значения составляют 0,36 и 0,51 соответственно. Полученные результаты свидетельствуют о высоком качестве прогностической модели. Хорошее соответствие прогностических и фактических
значений на независимом материале можно показать на совмещённом графике
(рис. 4.2).
Рис. 4.2. Сопоставление фактических (1) и прогностических данных при использовании
регрессионной (2) и нейросетевой (3) моделей высших уровней за период весеннего ледохода
воды (Котлас)
Анализ представленных числовых значений показал, что искусственные
нейронные сети обеспечивают существенное уменьшение стандартной
ошибки прогнозирования (табл. 4.5).
В заключение к работе следует сделать выводы о соответствии фактических и прогностических данных, привести оценки качества моделей и среднюю
заблаговременность прогноза. В данном случае искусственные нейронные
сети показали лучший по сравнению с регрессионными методами результат,
о чём можно судить по стандартной ошибке прогнозирования.
82
Таблица 4.5. Оценка качества выпускаемых прогнозов для Северной Двины
различными методами (г. Котлас)
Выборка
S, см
S/σср
S/σ∆
Допустимая
ошибка, см
0,674 ⋅ σ∆
Число
оправдавшихся
прогнозов
Оправдываемость,
%
Искусственная нейронная сеть MLP 2-5-1
Полная
48
0,47
0,54
Обучающая
50
0,48
0,55
Тестовая
41
0,37
0,50
Полная
65
0,63
0,73
Обучающая
65
0,63
0,72
Тестовая
65
0,59
0,79
60
52
79
43
77
9
90
Уравнение множественной регрессии
60
38
58
33
59
5
50
Контрольные вопросы
1.
2.
3.
4.
В чём суть и задачи регрессионного и корреляционного анализа?
Суть метода наименьших квадратов.
Каковы меры для оценки связи между двумя величинами?
Суть парной линейной и нелинейной регрессии, запись уравнения линейной регрессии в общем виде.
5. Назовите формулы для определения коэффициентов уравнения линейной регрессии, их физический и геометрический смысл.
6. Стандартная ошибка регрессионного уравнения и его коэффициентов.
7. Суть стохастических методов прогнозирования, понятие заблаговременности.
8. Назовите критерии, применяемые для оценки качества выпускаемых прогнозов
и их суть, допустимой оценки прогнозирования.
9. Суть метода обучения искусственных нейронных сетей при прогнозировании гидрометеорологических характеристик.
10. Понятия инициализации, активационных функций и обучения искусственной
нейронной сети.
5. РАБОТА III. АНАЛИЗ И ПРОГНОЗИРОВАНИЕ
ВРЕМЕННЫ́Х РЯДОВ С ИСПОЛЬЗОВАНИЕМ
МОДЕЛИ АРПСС И ИСКУССТВЕННЫХ
НЕЙРОННЫХ СЕТЕЙ
Настоящая работа посвящена оценке параметров временных рядов (случайных процессов) и их прогнозированию с использованием вероятностных
подходов.
Исходные данные должны представлять собой случайный процесс за период наблюдения не менее 50 лет. В качестве исходных данных рекомендуется
использовать средние месячные значения уровней воды крупных озёр либо
расходы или уровни воды крупных рек с озёрным регулированием стока (Нева,
Ангара и т. п.). Исходные данные для анализа готовятся непосредственно студентами на основе ежегодных изданий Государственного водного кадастра
и других возможных источников.
Цель работы — получение практических навыков в области статистического анализа временных рядов и их прогнозирования. Студентам необходимо
научиться применять встроенные функции и надстройки программного продукта Excel и Statistica для расчёта основных статистических характеристик
и прогнозирования временных рядов; правильно интерпретировать полученные результаты анализа.
Задание. По результатам многолетних наблюдений определить и проанализировать характеристики случайного процесса. Оценить периодичность
и цикличность исходных данных. Провести сезонную декомпозицию и на её
основе построить авторегрессионную модель, учитывающую сезонные изменения. Определить параметры модели авторегрессии проинтегрированного скользящего среднего (АРПСС) и нейросетевых моделей многослойного
персептрона для прогнозирования среднемесячных значений. Оценить качество выпускаемых прогнозов по всем трём моделям и обоснованно выбрать
лучшую из них для решения конкретной задачи.
Порядок выполнения работы и отчётные материалы
В качестве примера рассмотрим анализ и прогнозирование среднемесячных
уровней воды оз. Ильмень с использованием модели АРПСС и искусственных нейронных сетей. Данный временной ряд является случайным процессом, который
может быть представлен двенадцатью его реализациями (среднемесячными значениями уровня воды). Исходные данные представить в таблице (табл. 5.1).
84
Далее по исходным данным надо рассчитать основные статистические характеристики за каждый месяц (так же, как это делалось в разд. 3, работа I).
Поскольку статистические характеристики нужны для описания ряда, а не для
изучения его закона распределения, то расчёты следует выполнять методом
моментов. Результаты расчёта приводятся в табл. 5.2.
Анализ таблицы показал нарушение стационарности временного ряда по
дисперсии, для чего использовалась функция F.ТЕСТ, возвращающая значение
p-value, и нарушение общей стационарности ряда по наличию статистически
значимого тренда. Все расчёты следует выполнять для двухстороннего уровня
значимости 10 %. В настоящем примере можно отметить наличие статистически значимого тренда к увеличению среднемесячных значений уровня воды
с января по март, что приводит к увеличению уровней воды за год, однако
в данном случае не наблюдается увеличения водности озера, так как подъём
уровней воды может быть связан и с постепенным заилением. Наиболее заметное нарушение стационарности по дисперсии характерно для ноября
и марта, что соответствует переходным периодам гидрологического режима,
это можно увидеть по построенным спарклайнам. Смещение же сроков наступления данных фаз из-за глобального потепления вызывает неоднородность
по дисперсии. Математическое ожидание случайного процесса представляет
собой типичный гидрограф уровней воды, который показан в графе спарклайн
(табл. 5.2).
Изучение распределений 12 случайных величин по гистограммам неудобно, так как гистограмма эмпирического распределения наглядно демонстрирует распределение одной случайной величины: при анализе нескольких
случайных величин необходимо строить гистограммы для каждой из них. Для
сравнительного анализа нескольких эмпирических распределений на практике используется диаграмма «ящики с усами» (box-and-whiskers diagram/plot,
box plot), представляющая собой упрощённую модель гистограммы эмпирического распределения. Характеристики «ящика» и «усов» рассчитываются
методами квантильного анализа. Алгоритм построения «ящиков с усами» сводится к определению медианы ряда, 1-го и 3-го квартилей (25-й и 75-й процентили соответственно); являясь верхней и нижней границами «ящика», 1-й
и 3-й квартиль образуют тело «ящика». Затем наносятся выбросы, которые,
как правило, могут быть определены как большие и меньшие на 1,5 межквартальных расстояния от границ «ящика» значения, выбросы обозначаются точками, максимальное и минимальное значения выборки, без учёта выбросов,
соединяются усами; помимо медианы для оценки величины асимметрии в теле
ящика наносится среднее арифметическое значение ряда. Однако не существует единого общего согласия, как конкретно строить «ящик с усами», при
виде такого графика необходимо искать информацию в сопроводительном
тексте, по каким параметрам «ящик с усами» строился.
Несмотря на свою простоту и удобство, первоначальная форма «ящика
с усами» обладает и некоторыми недостатками. Один из таких существенных
недостатков — отсутствие на графике информации о количестве наблюдений
85
86
218
366
242
228
394
488
2014
2015
2016
2017
2018
380
366
2012
297
2011
2013
475
439
2009
2010
250
303
………
264
1969
222
274
1967
1968
1970
………
2008
231
220
1966
210
346
467
251
241
342
329
352
294
365
435
258
………
256
194
201
220
242
239
1964
343
252
377
177
II
1965
263
408
418
1961
1962
201
1960
1963
I
Год
382
403
291
306
314
290
299
271
302
430
213
………
364
184
206
200
203
204
181
288
233
417
156
III
524
482
377
409
360
352
404
443
551
499
350
………
494
258
562
396
492
296
255
328
457
519
297
IV
560
573
446
441
354
579
555
636
610
568
535
………
494
497
609
491
574
552
433
479
628
521
503
V
489
450
367
350
319
527
457
527
523
497
421
………
388
446
508
412
606
478
383
377
533
448
406
VI
463
342
319
260
275
409
375
405
412
418
309
………
303
332
400
326
454
376
296
285
502
344
337
VII
498
277
344
214
236
321
297
303
301
366
249
………
258
264
325
262
333
299
239
247
462
301
284
VIII
463
242
311
204
208
257
257
261
261
345
224
………
231
229
266
239
274
262
201
235
432
313
277
IX
427
234
281
203
210
235
257
250
232
365
227
………
233
224
252
242
267
238
187
237
414
278
264
X
444
241
296
209
215
265
342
256
264
464
241
………
251
243
298
305
267
242
204
274
402
264
296
XI
429
242
367
217
221
313
377
321
312
503
254
………
269
323
282
318
252
228
224
276
464
276
391
XII
452
370
323
275
285
354
363
355
381
447
299
………
317
289
351
301
345
303
255
315
420
373
299
Средние
годовые
Таблица 5.1. Среднемесячные уровни воды оз. Ильмень по озёрному пункту дер. Войцы за 1960–2018 гг. (I–XII — месяцы)
Таблица 5.2. Статистические характеристики среднемесячных значений уровней
воды оз. Ильмень по озёрному гидрологическому пункту (дер. Войцы) за 1960–
2018 гг. (I–XII — месяцы)
Характеристика
Мх
I
II
III
IV
V
VI
VII
VIII
IX
X
XI
313
295
292
431
518
442
360
303
273
268
291
Средние
годовые
313
344
XII
Спарклайн
σ
—
86
84
100
102
71
70
68
67
69
73
78
81
Спарклайн
41
—
Сv
0,28
0,28
0,34
0,24
0,14
0,16
0,19
0,22
0,25
0,27
0,27
0,26
0,12
Cs
0,5
0,5
0,8
–0,3
–0,4
0,2
0,8
1,5
1,7
2,1
1,3
0,9
0,3
Fтест, %
Rтренда
8
0,30
12
0,39
2
0,42
85
0,24
22
0,02
40
0,03
41
0,11
46
0,14
52
0,09
10
0,05
1
0,06
10
0,06
37
0,32
Значимость R
+
+
+
–
–
–
–
–
–
–
–
–
+
по выборке, что в некоторых случаях может быть решено путём связи ширины
ящика с величиной выборки. Безусловно, «ящики с усами» являются упрощённой версией гистограммы эмпирического распределения и могут быть
использованы только в целях экспресс-анализа. «Ящики с усами», начиная
с Excel 2016, являются стандартной диаграммой и имеют следующий путь:
вставка — диаграммы — гистограмма — «ящик с усами». Для построения
«ящиков с усами» необходимо выбрать все необходимые данные для анализа,
после выполнения вышеуказанных процедур эти гистограммы построятся автоматически (рис. 5.1).
Случайные процессы, подобные данному, являются периодически скоррелированными, и представленные в виде 12 реализаций месяцы года хорошо
коррелируют между собой. Для подобного корреляционного анализа необходимо рассчитать автокорреляционную матрицу с различными временными
сдвигами, как правило, от 1 до 12 мес. Матрица корреляционных зависимостей внутригодовой изменчивости имеет две ветви связей: «вперёд» и «назад».
Ветвь связи «вперёд» показывает коррелированность значений процесса
в каждый j-й месяц года с величинами в последующие месяцы, ветвь связи
«назад» — зависимость отсчётов процесса в каждый j-й месяц от значений
в предшествующие ему месяцы. Подобный анализ надо провести для каждого
месяца года [Бродская и др., 2015]. Таким образом, с одной стороны, получается корреляционная матрица января с январём, февралём, мартом и т. д.,
и января с декабрём, ноябрём и т. д. — с другой стороны. Результаты анализа
представляются в виде графика корреляционной функции (рис. 5.2).
Анализ графика показывает быстрое снижение корреляционной функции
уже после второго сдвига, когда значение коэффициентов корреляции падает
87
Рис. 5.1. Эмпирические гистограммы распределения среднемесячных (I–XII) уровней воды
оз. Ильмень (дер. Войцы)
Рис. 5.2. График корреляционной функции периодически скоррелированного случайного
процесса
88
до 0,6, что не всегда достаточно для прогнозирования. В целом также можно
отметить однородную корреляционную структуру ряда, так как для каждого
месяца года коррелограммы выглядят аналогичным образом.
После анализа характеристик случайного процесса, разместив последовательно все месяцы друг за другом в хронологическом порядке, строим график
временного ряда (рис. 5.3).
Рис. 5.3. Хронологический график среднемесячных значений уровней воды оз. Ильмень
за 1960–2018 гг. (дер. Войцы)
При анализе временного ряда целесообразно построить не просто линейный тренд, а аппроксимировать ряд разночастотными фильтрами. Одним
из таких фильтров является фильтр Баттерворта, приближённые значения
также можно получить простым полиномиальным сглаживанием высокого
порядка. Таким образом, на графике прослеживаются не только периодические
колебания с периодом 12 мес., но и циклические колебания, учёт которых при
прогнозировании может значительно улучшить качество выпускаемых прогнозов. Анализ циклических колебаний проводится с помощью программного
продукта Statistica. Для реализации данного анализа на вкладке «Статистик»
необходимо запустить «продвинутые» статистики и, выбрав анализ Фурье для
одной переменной, построить периодограмму и вывести её значения. Анализ
периодограммы можно выполнять непосредственно в программе Statistica. Отчётным материалом в данном случае является сама периодограмма или её ранжированные значения, отражающие циклические колебания (табл. 5.3).
Из таблицы видна наибольшая значимость годового, полугодового и сезонного периодов, а также примерно четырёхлетнего цикла. Наиболее важными с точки зрения дальнейшего анализа являются именно годовой период
и четырёхлетние циклы.
89
Таблица 5.3. Наиболее значимые характеристики циклических колебаний,
полученные в ходе спектрального анализа Фурье
Частота
Период, мес.
Cos
Sin
Значение
периодограммы
Спектральная
плотность
0,083333
12,0
–45
73
2 597 967
1 172 917
0,166667
6,0
–6
–58
1 204 223
550 557
0,250000
4,0
27
–7
273 571
125 250
0,021186
47,2
–10
–24
243 496
170 559
0,025424
39,3
–23
–8
211 114
104 021
0,019774
50,6
–22
2
180 979
164 935
Как правило, анализ периодичности временного ряда не требуется, так
как периодичность известна заранее. Для гидрологических и многих других
величин периодичность составляет 12 мес. Зная периодичность временного
ряда, можно проанализировать четыре составляющие временного ряда методом сезонной декомпозиции. Основная идея метода — отделить эти компоненты, т. е. разложить ряд на составляющую тренда, сезонную и тренд-циклическую компоненты, а также оставшуюся случайную составляющую. Приём,
позволяющий выполнить такую декомпозицию, известен как метод Census I.
Основная идея сезонной декомпозиции проста. В общем случае временной
ряд можно представить себе состоящим из четырёх различных компонент: 1) сезонной компоненты St (где t — момент времени); 2) тренда Tt; 3) циклической
компоненты Ct; 4) случайной, нерегулярной компоненты, или флуктуации It.
В методе Census I тренд и циклическую компоненту обычно объединяют в одну
тренд-циклическую компоненту TCt. Конкретные функциональные взаимосвязи между этими компонентами могут иметь самый разный вид.
Изменение временного ряда может быть выражено аддитивной и мультипликативной моделью, сезонной и тренд-циклической составляющей.
В аддитивном случае ряд будет иметь постоянные сезонные и тренд-циклические колебания, величина которых не зависит от общего уровня значений ряда;
в мультипликативном — сезонные колебания будут меняться в зависимости от общего уровня значений ряда. То есть аддитивная модель подразумевает увеличение
переменной на определённое число по отношению к предыдущему её значению,
а в мультипликативном случае — увеличение переменной на определённый процент от предыдущего её значения. Таким образом, аддитивная модель имеет вид
Xt = TCt + St + It ,
а мультипликативная
Xt = TCt St It .
Сезонная декомпозиция может быть использована для анализа по отдельности всех компонент ряда для выявления закономерностей и для прогнози-
90
рования временных рядов. При анализе трёх основных компонент ряда можно
обратить внимание на нерегулярную компоненту. Анализ данной компоненты
и факторов, на неё влияющих, может дать определённую информацию о ряде
и облегчить прогнозирование.
Метод сезонной декомпозиции может применяться, как правило, для прогнозирования с заблаговременностью 1 мес., что относит прогнозы данной
модели к долгосрочным. Суть при этом заключается в прогнозировании
тренд-циклической компоненты с помощью авторегрессионной модели первого
порядка, после чего к прогнозному значению прибавляется квазистационарная
сезонная составляющая; нерегулярная компонента является ошибкой модели.
Для выполнения сезонной декомпозиции в программе Statistica 12 необходимо предварительно определить тип модели и периодичность данных. С увеличением среднего значения повышение амплитуды колебаний уровней воды
не наблюдается, поэтому можно предположить, что в данном случае ряд описывает аддитивная модель, период которой равен 12 мес. После определения
типа модели оценивают сезонную декомпозицию. В программе Statistica 12 выбирается пакет анализа временных рядов и процедура сезонной декомпозиции
(метод Census I). После выполнения данной процедуры можно перейти к результатам анализа, которые будут представлены в таблице разложения исходного ряда на сезонную, тренд-циклическую и нерегулярную компоненту. Таким
образом, мы получим две компоненты (сезонную и тренд-циклическую), значения которых могут быть вычислены с определённым упреждением. Заблаговременность такого прогноза будет зависеть от лага, на котором наблюдаются
значимые коэффициенты корреляции для циклической компоненты.
Построим модель для прогнозирования среднемесячного уровня воды
оз. Ильмень за период с 1960 по 2017 г. (2018 г. оставим для проверки на независимом материале) с заблаговременностью 1 мес. на основании уравнения
линейной регрессии TСt от TСt–1, которое имеет вид
=
TC t 0,94 TC t −1 + 20.
Конечное уравнение для прогнозирования среднемесячного уровня воды
имеет вид аддитивной модели без нерегулярной компоненты:
=
H t TC t* + St .
Сезонная компонента остаётся постоянной для всего ряда в настоящем
и будущем, значения ТСt – 1 пересчитываются для каждого нового данного прогноза на независимом материале (в будущем).
Стандартная ошибка прогнозирования представляет собой среднее квадратическое отклонение реальных значений уровней воды от прогнозируемых
и рассчитывается по формуле
∑ (H
S=
n
i =1
ôàêò
− H ïðîãíîçíîå )2
n
.
91
Для ряда данных с 1960 по 2017 г. стандартная ошибка прогнозирования
с заблаговременностью 1 мес. составила 39 см.
Качество выпускаемых долгосрочных прогнозов характеризуется отношением стандартной ошибки прогнозирования к стандартному отклонению
случайной величины или случайного процесса. В данном случае прогнозируется случайный процесс, поэтому в качестве стандартного отклонения используется стандартное отклонение от математического ожидания случайного
процесса, т. е. нормального гидрографа (12 математических ожиданий). Таким
образом, стандартное отклонение составило 79 см, а S/σ = 0,49. Приемлемыми
считаются прогнозы, для которых S/σ < 0,8. Однако качество выпускаемых
прогнозов несколько понижается для независимой выборки, и для 2018 г.
S/σ = 0,54. В качестве альтернативной модели также может быть применена
простая модель авторегрессии первого порядка, хотя без сезонной составляющей данная модель является необоснованной. Для наглядности все прогнозы
на независимом материале следует разместить на одном графике (рис. 5.4).
График показывает, что модель авторегрессии первого порядка без сезонной декомпозиции не описывает сезонную составляющую и уже поэтому
непригодна для прогнозирования; в то же время аналогичная модель с сезонной
декомпозицией, выполненной методом Census 1, достаточно точно описала сезонную составляющую, а ошибки прогнозирования данной модели значительно
ниже, чем при ориентировании на математическое ожидание случайного про-
Рис. 5.4. Фактические (1) и прогнозные данные за 2018 г. при использовании метода сезонной
декомпозиции (2), модели авторегрессии первого порядка (3) и средние многолетние (4)
уровни воды оз. Ильмень (дер. Войцы)
92
цесса. Тем не менее модель Census 1 не всегда удобна в использовании, так как
требуется постоянный пересчёт тренд-циклической компоненты, прогнозирование же с использованием данной модели с заблаговременностью более 1 мес.
нецелесообразно из-за существенного накопления ошибок.
Следующим шагом развития методов прогнозирования временных рядов
являются методы АР (AR), СС (MA), АРСС (ARMA) и АРПСС. Модели АР, СС,
АРСС, АРПСС в гидрологической практике используются, как правило, для
прогнозирования среднемесячных уровней воды крупных озёр с упреждением
от 1 до 12 мес. Методы теории АРСС разработаны и доведены до практического применения Дж. Боксом и Г. Дженкинсом [Бокс, Дженкинс, 1974]. Они
позволяют не только описывать корреляционную и спектральную структуру
временных рядов в терминах модельных процессов АРСС и отражать их статистическую взаимосвязь в терминах моделей передаточных функций, но и составлять прогноз, поскольку эти модели фактически являются прогнозирующей
функцией. Обобщением модели АРСС на случай нестационарных временных
рядов является модель авторегрессии — проинтегрированного скользящего
среднего (р, d, q), где p — параметр авторегрессии, d — порядок операции взятия
разностей, q — параметр скользящего среднего. Обобщением модели АРПСС на
случай сезонных нестационарных рядов является мультипликативная сезонная
модель АРПСС (р, d, q) (Ps, Ds, Qs), где к параметрам модели АРПСС (р, d, q) добавлены сезонные параметры: сезонный параметр авторегрессии — Ps, сезонная
разность — Ds, сезонный параметр скользящего среднего — Qs.
Для понимания модели АРПСС необходимо разобрать сущность процессов авторегрессии и скользящего среднего. Авторегрессионная модель —
это модель временных рядов, в которой значения временного ряда в данный
момент линейно зависят от предыдущих показателей этого же ряда. Как правило, значения частной автокорреляционной функции наиболее существенны
на первом лаге и на лаге, равном сезонности, что визуально можно оценить
по коррелограммам. Значимые частные коэффициенты корреляции на различных лагах позволяют оценить параметры p и Ps. Согласно модели скользящего среднего, прогнозируемые члены ряда линейно зависят от текущего
и прошлых значений, а также некоторого стохастического члена, который отражает вероятностный характер модели. Аналитически модель скользящего
среднего для величины Х можно представить следующим образом:
Xt= X + et + β1et −1 + β2et −2 + βq en−q ,
где Хt — прогнозируемая величина; X — среднее значение случайной величины;
et — белый шум в различные моменты времени; β — весовые коэффициенты.
Так как выборочные значения случайной величины X нам известны, то
данное уравнение может быть решено относительно величины белого шума.
Весовые коэффициенты β находятся таким образом, чтобы обеспечивался
минимум выражения min
∑ e2j . Соединение двух этих моделей даёт модель
ββ
1 2
АРСС, основным недостатком которой является требование стационарности.
93
Взятие разности с различным лагом, как правило, приводят исходный ряд
к стационарному виду. Полученная модель является моделью АРПСС (р, d, q)
(Ps, Ds, Qs).
Основная трудность в применении этих методов для решения практических задач гидрометеорологии заключается в идентификации модели для конкретного временного ряда, т. е. в подборе для него соответствующего модельного выражения, в терминах вероятностных характеристик которого осуществляется анализ либо прогнозирование. На практике каждый параметр модели
АРПСС имеет порядок не больше второго, поэтому целесообразно проверить
альтернативные модели и выбрать лучшую.
Параметры разности подбираются таким образом, чтобы выполнялось
условие стационарности, как правило, это разности с лагом, кратным сезонности, и с лагом, равным единице. Затем можно определить начальные значения параметров p, q и Ps, Qs. Большинство встречающихся на практике временных рядов можно с достаточной степенью точности аппроксимировать
одной из пяти основных моделей, которые можно идентифицировать по виду
автокорреляционной (АКФ) и частной автокорреляционной функции (ЧАКФ):
1. Один параметр авторегрессии (p): АКФ экспоненциально убывает;
ЧАКФ имеет резко выделяющееся значение для лага 1, нет корреляций на других лагах.
2. Два параметра авторегрессии (p): АКФ имеет форму синусоиды или
экспоненциально убывает; ЧАКФ имеет резко выделяющиеся значения на лагах 1, 2, нет корреляций на других лагах.
3. Один параметр скользящего среднего (q): АКФ имеет резко выделяющееся значение на лаге 1, нет корреляций на других лагах. ЧАКФ
экспоненциально убывает.
4. Два параметра скользящего среднего (q): АКФ имеет резко выделяющиеся значения на лагах 1, 2, нет корреляций на других лагах. ЧАКФ
имеет форму синусоиды или экспоненциально убывает.
5. Один параметр авторегрессии (p) и один параметр скользящего среднего (q): АКФ экспоненциально убывает с лага 1; ЧАКФ экспоненциально убывает с лага 1.
Функция частной автокорреляции при лаге k — это корреляция между рядами значений, отстоящих друг от друга на k интервалов со значениями интервалов в промежутке.
Прогнозирование с использованием модели АРПСС доступно в программе Statistica во вкладке «Временные ряды и прогнозирование» — АРПСС.
Для анализа количества параметров модели АРПСС необходимо провести
анализ автокорреляционной и частной автокорреляционной функции, предварительно трансформировав ряд с разностями с лагами 1 и
­ 12. Анализ автокорреляционной функции представить в отчёте (рис. 5.5).
Анализ графиков показывает существенные значения автокорреляционной и частной автокорреляционной функции на лагах 1 и 12, также наблю-
94
Рис. 5.5. График корреляционной (а) и частной корреляционной (б)
функции ряда уровней воды после взятия разностей с лагами 1 и 12
95
даются значимые показатели на лагах 3 и 4, в целом обе функции имеют форму
синусоиды. Таким образом, однозначно можно судить только о наличии сезонных параметров авторегрессии и скользящего среднего. Параметры p и q
необходимо определить методом подбора так, чтобы порядок параметров
оставался значимым, а ошибка модели была минимальна. Одна из лучших моделей для решения данной задачи может быть идентифицирована как АРПСС:
(1,1,2); (2,1,2). Стандартная ошибка прогнозирования данной модели с упреждением в 1 мес. составила 49 см, отношение S/σ = 0,62, что близко к значению
S/σ при прогнозировании методом сезонной декомпозиции при проверке на
независимом материале. Проверка обеих методик на независимом материале
АРПСС даёт более устойчивые и лучшие результаты (рис. 5.6).
Рис. 5.6. Фактические (1) и прогностические данные (2018 г.) уровня воды оз. Ильмень
(дер. Войцы) с использованием модели АРПСС (1,1,2; 2,1,2) (2) и метода сезонной декомпозиции (3)
Методом АРПСС можно прогнозировать с заблаговременностью более
1 мес. без существенного накопления ошибок прогнозирования, помимо прочего, АРПСС даёт намного более устойчивое решение и проще в расчётах.
К недостаткам метода можно отнести: ручной подбор параметров модели,
прогнозирование с минимальной дискретностью одна неделя, невозможность
прогнозирования с суточной дискретностью и использования второстепенных
предикторов. Тем не менее долгосрочное (стратегическое) прогнозирование
методом АРПСС на сегодняшний день является общепризнанным.
Дальнейшее совершенствование и уменьшение ошибки прогнозирования
возможно методом обучения искусственных нейронных сетей.
96
Рассмотрим прогнозирование временных рядов методом искусственных
нейронных сетей в Statistica 12. Во вкладке искусственных нейронных сетей
необходимо выбрать временные ряды — регрессию, а затем прогнозируемую
переменную и задать количество наблюдений, используемых на входе в искусственную нейронную сеть. Как правило, используется количество наблюдений
кратное сезонности, в данном случае — 12. Однако зачастую целесообразно
брать большее число наблюдений, примерно равное цикличности; при этом
количество скрытых нейронов стоит сократить для оптимальной аппроксимации. Цикличность в данном случае примерно 47 наблюдений, поэтому лучше
использовать это количество наблюдений в качестве входных для прогнозирования с заблаговременностью 1 мес. и более. Обучив искусственные нейронные сети и выбрав лучшие из них, следует приступить к анализу ошибок.
Так, стандартная ошибка лучшей искусственной нейронной сети MLP 50-4-1
составила 44 см, S/σ = 0,55, что несколько лучше, чем методом АРПСС. На независимом материале стандартная ошибка составила 48 см, что примерно равно
стандартной ошибке при прогнозировании методом АРПСС. В 2018 г. ИНС
также не показала превосходства в качестве выпускаемых прогнозов по сравнению с АРПСС: были получены схожие результаты (рис. 5.7).
Анализ графика показал, что модель достаточно хорошо описала сезонную
составляющую и пригодна для прогнозирования. В целом прогнозирование
с использованием ИНС является наиболее целесообразным и удобным способом, так как обеспечивает конкурентное качество выпускаемых прогнозов,
Рис. 5.7. Фактические (1) и прогностические данные (2018 г.) уровня воды оз. Ильмень
(дер. Войцы) с использованием модели MLP 50-4-1 (2)
97
оптимизация же параметров обучения может проводиться полностью в автоматическом режиме, что минимизирует влияние человеческого фактора.
В заключение работы следует отразить основные результаты, полученные
в ходе выполнения задания, использованные модели, их параметры и оценку
точности. В частности, в настоящей работе проанализированы среднемесячные уровни воды оз. Ильмень за 1960–2018 гг. Установлены статистически
значимые тренды, способствующие увеличению среднегодовых значений
уровня воды, в первую очередь за счёт увеличения уровней за январь — март;
на смещение фаз водного режима косвенно указывает сильная неоднородность рядов по дисперсии за март и ноябрь. Выявлены сезонность (12 мес.)
и цикличность (примерно 47 мес.). Наиболее значимые для прогнозирования
коэффициенты автокорреляции характерны для лага в 1 мес., что позволяет
прогнозировать уровни воды озера с данной заблаговременностью. В работе
рассматриваются три модели прогнозирования. Первая модель основана на
принципе сезонной декомпозиции, вторая — на методе АРПСС, третья —
на методе обучения искусственных нейронных сетей. Отмечается близость
результатов, полученных двумя последними методами, при этом отношение
стандартной ошибки прогнозирования к стандартному отклонению прогнозируемой величины для обеих моделей является приемлемым, что свидетельствует о возможности применения данных методов на практике для стратегического прогнозирования.
Контрольные вопросы
1.
2.
3.
Что такое случайный процесс?
Что такое временной ряд и каковы его отличия от случайной величины?
Что такое и как рассчитывается математическое ожидание и стандартное отклонение случайного процесса?
4. Что такое автокорреляционная и частная автокорреляционная функция?
5. Что такое и как определяется сезонность и цикличность?
6. Каковы принципы сезонной декомпозиции, как использовать данный метод для
прогнозирования?
7. Что такое марковский случайный процесс?
8. Применение метода авторегрессии проинтегрированного скользящего среднего
для прогнозирования периодически скоррелированных случайных процессов.
9. Каковы принципы определения параметров модели авторегрессии проинтегрированного скользящего среднего?
10. Искусственные нейронные сети для прогнозирования периодически скоррелированных случайных процессов и временных рядов.
11. Принципы определения параметров искусственной нейронной сети и их оптимизации.
12. Какие критерии применяются для оценки качества выпускаемых прогнозов?
Список литературы
Бокс Дж., Дженкинс Г. Анализ временных рядов. Прогноз и управление. Кн. 1. / пер. с англ.,
под ред. В. Ф. Писаренко. М.: Мир, 1974.
Бродская Н. А., Мякишева Н. В., Александрова К. В. Оценка разномасштабного взаимодействия поверхностных и подземных вод // Учёные записки Российского государственного гидрометеорологического университета. 2015. № 38. С. 36.
Бузин В. А. Зажоры и заторы льда на реках России. СПб.: Гос. гидролог. ин-т, 2015.
Бузин В. А. Метод прогноза максимальных уровней воды при заторах льда на средних реках
// Метеорология и гидрология. 2001. № 9. С. 84–89.
Бузин В. А., Горошкова Н. И., Стриженок А. В., Палкина Д. А. Зависимости для прогнозов
максимальных заторных уровней воды Сухоны, Юга и Малой Северной Двины и влияние на них климатических и антропогенных факторов // Учёные записки Российского государственного гидрометеорологического университета. 2014. № 36. С. 12–21.
Вентцель Е. С., Овчаров Л. А. Теория вероятностей. М.: Наука, 1969.
История математики. Т. 1. С древнейших времён до начала Нового времени / под ред.
А. П. Юшкевича. М.: Наука, 1970.
Майстров Л. Е. Теория вероятностей: исторический очерк. М.: Наука, 1967.
Мак-Каллок У. С., Питтс В. Логическое исчисление идей, относящихся к нервной активности. Архивная копия от 27 ноября 2007 на Wayback Machine // Автоматы / пер. с англ.,
под ред. К. Э. Шеннона, Дж. Маккарти. М.: Изд-во иностр. лит-ры, 1956. С. 363–384.
Кузичев А. С. Диаграммы Венна. История и применения. М.: Наука, 1968.
Малинин В. Н. Статистические методы анализа гидрометеорологической информации:
учебник. СПб.: Рос. гос. гидметеоролог. ун-т, 2008.
Паскаль Б. Мысли. М.: АСТ, 2020.
Письменный Д. Т. Конспект лекций по теории вероятностей и математической статистике.
М.: Айрис-пресс, 2004.
Попов Е. Г. Основы гидрологических прогнозов. Л.: Гидрометеоиздат, 1968.
Реньи А. Трилогия о математике. М.: Мир, 1980.
Рождественский А. В., Лобанов А. Г. Методические рекомендации по определению расчётных гидрологических характеристик при наличии данных гидрометрических наблюдений. СПб.: Гос. гидролог. ин-т, 2009.
99
Рожков В. А. Теория и методы статистического оценивания вероятностных характеристик
случайных величин и функций (с гидрометеорологическими примерами). Кн. 1. СПб.:
Гидрометеоиздат, 2001.
Рожков В. А. Теория и методы статистического оценивания вероятностных характеристик
случайных величин и функций (с гидрометеорологическими примерами). Кн. 2. СПб.:
Гидрометеоиздат, 2002.
Сикан А. В. Вероятностные распределения в гидрологии. Специальные главы теории
и практики гидрологических расчётов: учебник. СПб.: Рос. гос. гидметеоролог. ун-т,
2020.
Сикан А. В. Методы статистической обработки гидрометеорологической информации:
учебник. СПб.: Рос. гос. гидметеоролог. ун-т, 2007.
Сикан А. В. Оптимизация параметров распределения при построении кривых обеспеченностей экстремальных расходов воды // Учёные записки Российского государственного гидрометеорологического университета. 2012. № 24. С. 26–32.
Стройк Д. Я. Краткий очерк истории математики. М.: Наука, 1969.
Сумачёв А. Э., Банщикова Л. С. Прогнозирование гидрологических характеристик с использованием нейронных сетей: труды III Всерос. конф. «Гидрометеорология и экология:
достижения и перспективы развития». 2019. С. 812–815.
Сумачёв А. Э., Банщикова Л. С. Ледовый режим реки Печоры в современных климатических
условиях и принципы прогнозирования высшего уровня воды за период весеннего
ледохода // Успехи современного естествознания. 2021. № 10. С. 75–80.
Сумачёв А. Э., Мякишева Н. В., Маргарян В. Г., Мисакян А. Э. Долгосрочное прогнозирование уровней воды озера Ильмень с использованием вероятностных подходов // Естественные и технические науки. 2021. № 6 (157). С. 96–102.
Hochreiter S., Schmidhuber J. Long Short-Term Memory // Neural Computation. 1997. Vol. 9,
no. 8. P. 1735–1780.
Jeffreys H. Scientific Inference, Third Edition. Cambridge: Cambridge University Press, 1973.
Myakisheva N. V., Gaiducova E. V., Shanochkin S. V., Batmazova A. A. Seasonal and Annual Forecasting of Water Levels in Large Lakes (Case Study of the Ladoga Lake) // International
Letters of Natural Sciences. 2021. Vol. 82. Р. 13–18.
Sumachev A. E., Kuzmin V. A., Borodin E. S. River flow forecasting using artificial neural networks
// International Journal of Mechanical Engineering and Technology. 2018. Vol. 9, no. 10.
Р. 706–714.
101
Число
степеней
свободы v2
(для меньшей
дисперсии)
2α = 0,10
4,84
4,75
4,67
4,60
11
12
13
14
4,54
4,96
10
15
5,12
5,99
6
9
6,61
5
5,32
7,71
4
8
10,10
3
5,59
18,5
2
7
161
1
1
3,68
3,74
3,81
3,89
3,98
4,10
4,26
4,46
4,74
5,14
5,79
6,94
9,55
19,0
200
2
3,29
3,34
3,41
3,49
3,59
3,71
3,86
4,07
4,35
4,76
5,41
6,59
9,28
19,2
216
3
3,06
3,11
3,18
3,26
3,36
3,48
3,63
3,84
4,12
4,53
5,19
6,39
9,12
19,2
225
4
2,90
2,96
3,03
3,11
3,20
3,33
3,48
3,69
3,97
4,39
5,05
6,26
9,01
19,3
230
5
2,79
2,85
2,92
3,00
3,09
3,22
3,37
3,58
3,87
4,28
4,95
6,16
8,94
19,3
234
6
2,71
2,76
2,83
2,91
3,01
3,14
3,29
3,50
3,79
4,21
4,88
6,09
8,89
19,4
237
7
2,64
2,70
2,77
2,85
2,95
3,07
3,23
3,44
3,73
4,15
4,82
6,04
8,85
19,4
239
8
2,59
2,65
2,71
2,80
2,90
3,02
3,18
3,39
3,68
4,10
4,77
6,00
8,81
19,4
271
9
2,54
2,60
2,67
2,75
2,85
2,98
3,14
3,35
3,64
4,06
4,74
5,96
8,79
19,4
242
10
2,51
2,57
2,63
2,72
2,82
2,94
3,10
3,31
3,60
4,03
4,71
5,94
8,76
19,4
243
11
2,48
2,53
2,60
2,69
2,79
2,91
3,07
3,28
3,57
4,00
4,68
5,91
8,74
19,4
244
12
3,52
2,46
2,53
2,62
2,72
2,85
3,01
3,22
3,51
3,94
4,62
5,86
8,70
19,4
246
15
Число степеней свободы v1 (для большей дисперсии)
3,37
2,39
2,46
2,54
2,65
2,77
2,94
3,15
3,44
3,87
4,56
5,80
8,66
19,4
248
20
3,29
2,35
2,42
2,51
2,61
2,74
2,90
3,12
3,41
3,84
4,53
5,77
8,64
19,5
249
24
3,21
2,31
2,38
2,47
2,57
2,70
2,86
3,08
3,38
3,81
4,50
5,75
8,62
19,5
250
30
3,13
2,27
2,34
2,43
2,53
2,66
2,83
3,04
3,34
3,77
4,46
5,72
8,59
19,5
251
40
Приложение 1. Значения статистики Фишера для различных уровней значимости и степеней свободы [Сикан, 2020]
Приложения
3,05
2,22
2,30
2,38
2,49
2,62
2,79
3,01
3,30
3,74
4,43
5,69
8,57
19,5
252
60
102
Число
степеней
свободы v2
(для меньшей
дисперсии)
2α = 0,20
Число
степеней
свободы v2
(для меньшей
дисперсии)
2α = 0,10
4,45
4,41
4,38
4,35
4,30
4,26
4,23
4,20
4,17
4,08
4,00
17
18
19
20
22
24
26
28
30
40
60
2,17
2,25
2,33
2,36
2,39
2,42
2,46
2,51
2,54
2,58
2,61
2,66
7
2,10
2,18
2,27
2,29
2,32
2,36
2,40
2,45
2,48
2,51
2,55
2,59
8
2,04
2,12
2,21
2,24
2,27
2,30
2,34
2,39
2,42
2,46
2,49
2,54
9
1,99
2,08
2,16
2,19
2,22
2,25
2,30
2,35
2,38
2,41
2,45
2,49
10
1,95
2,04
2,13
2,15
2,18
2,21
2,26
2,31
2,34
2,37
2,41
2,46
11
1,92
2,00
2,09
2,12
2,15
2,18
2,23
2,28
2,31
2,34
2,38
2,42
12
1,84
1,92
2,01
2,04
2,07
2,11
2,15
2,20
2,23
2,27
2,31
2,35
15
24
30
40
60
3,26
3,46
3,78
4,32
5,46
9,00
3,07
3,29
3,62
4,19
5,39
9,16
2,96
3,18
3,52
4,11
5,34
9,24
2,88
3,11
3,45
4,05
5,31
9,29
2,83
3,05
3,40
4,01
5,28
9,33
2,78
3,01
3,37
3,98
5,27
9,35
2,72
2,96
2,98
2,75
3,32
3,94
5,24
9,38
3,34
3,95
5,25
9,37
2,70
2,94
3,30
3,92
5,23
9,39
2,68
2,92
3,28
3,91
5,22
9,40
2,67
2,90
3,27
3,90
5,22
9,41
2,63
2,87
3,24
3,87
5,20
9,42
2,59
2,84
3,21
3,84
5,18
9,44
2,58
2,82
3,19
3,83
5,18
9,45
2,56
2,80
3,17
3,82
5,17
9,46
2,54
2,78
3,16
3,80
5,16
9,47
2,51
2,76
3,14
3,79
5,15
9,47
3,59
20
7
15
3,78
12
6
11
4,06
10
1,53
1,64
1,74
1,77
1,80
1,84
1,89
1,95
1,98
2,02
2,06
2,11
60
4,54
9
1,59
1,69
1,79
1,82
1,85
1,89
1,94
1,99
2,03
2,06
2,10
2,15
40
5
8
1,65
1,74
1,84
1,87
1,90
1,94
1,98
2,04
2,07
2,11
2,15
2,19
30
4
7
1,70
1,79
1,89
1,91
1,95
1,98
2,03
2,08
2,11
2,15
2,19
2,24
24
5,54
6
1,75
1,84
1,93
1,96
1,99
2,03
2,07
2,12
2,16
2,19
2,23
2,28
20
3
5
2,25
2,34
2,42
2,45
2,47
2,51
2,55
2,60
2,63
2,66
2,70
2,74
6
Число степеней свободы v1 (для большей дисперсии)
2,37
2,45
2,53
2,56
2,59
2,62
2,66
2,71
2,74
2,77
2,81
2,85
5
8,53
4
2,53
2,61
2,69
2,71
2,74
2,78
2,82
2,87
2,90
2,93
2,96
3,01
4
2
3
2,76
2,84
2,92
2,95
2,98
3,01
3,05
3,10
3,13
3,16
3,20
3,24
3
39,86 49,50 53,59 55,83 57,24 58,20 58,91 59,44 59,86 60,19 60,50 60,71 61,22 61,74 62,00 62,26 62,53 62,79
2
3,15
3,23
3,32
3,34
3,37
3,40
3,44
3,49
3,52
3,55
3,59
3,63
2
1
1
4,49
16
1
Число степеней свободы v1 (для большей дисперсии)
Продолжение приложения 1
103
Число
степеней
свободы v2
(для меньшей
дисперсии)
3,46
3,36
3,29
3,23
3,18
3,14
3,10
3,07
3,05
3,03
3,01
2,99
2,97
2,95
2,93
2,91
2,89
2,88
2,84
2,79
8
9
10
11
12
13
14
15
16
17
18
19
20
22
24
26
28
30
40
60
2,39
2,44
2,49
2,50
2,52
2,54
2,56
2,59
2,61
2,62
2,64
2,67
2,70
2,73
2,76
2,81
2,86
2,92
3,01
3,11
2,18
2,23
2,28
2,29
2,31
2,33
2,35
2,38
2,40
2,42
2,44
2,46
2,49
2,52
2,56
2,61
2,66
2,73
2,81
2,92
2,04
2,09
2,14
2,16
2,17
2,19
2,22
2,25
2,27
2,29
2,31
2,33
2,36
2,39
2,43
2,48
2,54
2,61
2,69
2,81
1,95
2,00
2,05
2,06
2,08
2,10
2,13
2,16
2,18
2,20
2,22
2,24
2,27
2,31
2,35
2,39
2,45
2,52
2,61
2,73
1,87
1,93
1,98
2,00
2,01
2,04
2,06
2,09
2,11
2,13
2,15
2,18
2,21
2,24
2,28
2,33
2,39
2,46
2,55
2,67
1,82
1,87
1,93
1,94
1,96
1,98
2,01
2,04
2,06
2,08
2,10
2,13
2,16
2,19
2,23
2,28
2,34
2,41
2,51
2,62
1,77
1,83
1,88
1,90
1,92
1,94
1,97
2,00
2,02
2,04
2,06
2,09
2,12
2,15
2,20
2,24
2,30
2,38
2,47
2,59
1,74
1,79
1,85
1,87
1,88
1,91
1,93
1,96
1,98
2,00
2,03
2,06
2,09
2,12
2,16
2,21
2,27
2,35
2,44
2,56
1,71
1,76
1,82
1,84
1,86
1,88
1,90
1,94
1,96
1,98
2,00
2,03
2,06
2,10
2,14
2,19
2,25
2,32
2,42
2,54
1,68
1,73
1,79
1,81
1,84
1,85
1,88
1,92
1,94
1,96
1,98
2,01
2,04
2,08
2,12
2,17
2,23
2,30
2,40
2,52
1,66
1,71
1,77
1,79
1,81
1,83
1,86
1,89
1,91
1,93
1,96
1,99
2,02
2,05
2,10
2,15
2,21
2,28
2,38
2,50
1,60
1,66
1,72
1,74
1,76
1,78
1,81
1,84
1,86
1,89
1,91
1,94
1,97
2,01
2,05
2,10
2,17
2,24
2,34
2,46
1,54
1,61
1,67
1,69
1,71
1,73
1,76
1,79
1,81
1,84
1,86
1,89
1,92
1,96
2,01
2,06
2,12
2,20
2,30
2,42
1,51
1,57
1,64
1,66
1,68
1,70
1,73
1,77
1,79
1,81
1,84
1,87
1,90
1,94
1,98
2,04
2,10
2,18
2,28
2,40
1,48
1,54
1,61
1,63
1,65
1,67
1,70
1,74
1,76
1,78
1,81
1,84
1,87
1,91
1,96
2,01
2,08
2,16
2,25
2,38
1,44
1,51
1,57
1,59
1,61
1,64
1,67
1,71
1,73
1,75
1,78
1,81
1,85
1,89
1,93
1,99
2,05
2,13
2,23
2,36
1,40
1,47
1,54
1,56
1,58
1,61
1,64
1,68
1,70
1,72
1,75
1,78
1,82
1,86
1,90
1,96
2,03
2,11
2,21
2,34
104
1,06
0,98
0,94
0,92
0,91
0,90
0,89
0,88
0,88
0,88
0,87
0,87
0,87
0,87
0,87
0,86
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
1,33
1,34
1,34
1,34
1,35
1,36
1,36
1,37
1,38
1,40
1,41
1,44
1,48
1,53
1,64
1,89
3,08
0,2
0,4
1,38
0,1
0,2
1
v
0,025
0,01
1,74
1,75
1,75
1,76
1,77
1,78
1,80
1,81
1,83
1,86
1,89
1,94,
2,02
2,13
2,35
2,92
6,31
0,1
2,11
2,12
2,13
2,14
2,16
2,18
2,20
2,23
2,26
2,31
2,36
2,45
2,57
2,78
3,18
4,30
12,71
0,05
2,57
2,58
2,60
2,62
2,65
2,68
2,72
2,76
2,82
2,90
3,00
3,14
3,36
3,75
4,54
6,96
31,82
0,02
Уровни значимости для двухстороннего критерия (2α)
0,05
Уровни значимости для одностороннего критерия (α)
2,90
2,92
2,95
2,98
3,01
3,05
3,11
3,17
3,25
3,36
3,50
3,71
4,03
4,60
5,84
9,92
63,66
0,01
0,005
Приложение 2. Значения статистики Стьюдента для разных уровней значимости и чисел степеней свободы [Сикан, 2020]
105
0,86
0,86
0,86
0,86
0,86
0,86
0,86
0,86
0,86
0,86
0,86
0,85
0,85
0,85
0,85
0,84
0,84
18
19
20
21
22
23
24
25
26
27
28
29
30
40
60
120
∞
1,29
1,29
1,30
1,30
1,31
1,31
1,31
1,31
1,32
1,32
1,32
1,32
1,32
1,32
1,33
1,33
1,33
1,67
1,67
1,67
1,68
1,70
1,70
1,70
1,70
1,71
1,71
1,71
1,71
1,72
1,72
1,72
1,73
1,73
1,98
1,98
2,00
2,02
2,04
2,05
2,05
2,05
2,06
2,06
2,06
2,07
2,07
2,08
2,09
2,09
2,10
2,36
2,36
2,39
2,42
2,46
2,46
2,47
2,47
2,48
2,49
2,49
2,50
2,51
2,52
2,53
2,54
2,55
2,58
2,62
2,66
2,70
2,75
2,76
2,76
2,77
2,78
2,79
2,80
2,81
2,82
2,83
2,85
2,86
2.88
106
1,44
1,40
1,36
1,34
1,32
1,29
1,27
1,24
1,19
1,17
1,13
1,08
1,06
1,05
1,02
1,00
0,01
0,03
0,05
0,1
0,3
0,5
1
3
5
10
20
25
30
40
50
0,1
0,001
Р, %
0,99
1,04
1,10
1,13
1,17
1,26
1,34
1,39
1,49
1,55
1,59
1,67
1,71
1,74
1,81
1,94
0,2
0,99
1,06
1,15
1,19
1,25
1,39
1,52
1,59
1,75
1,84
1,90
2,03
2,11
2,15
2,25
2,46
0,3
0,97
1,08
1,20
1,26
1,34
1,53
1,70
1,81
2,03
2,15
2,23
2,39
2,49
2,56
2,70
2,97
0,4
0,96
1,09
1,24
1,33
1,42
1,68
1,90
2,03
2,31
2,45
2,55
2,77
2,89
2,97
3,15
3,47
Cs/Cv = 1,0
0,5
Сv
0,93
1,10
1,29
1,41
1,51
1,83
2,10
2,27
2,59
2,76
2,89
3,14
3,27
3,37
3,57
3,95
0,6
0,89
1,10
1,34
1,47
1,59
1,99
2,31
2,51
2,87
3,06
3,21
3,48
3,62
3,74
3,91
4,35
0,7
0,83
1,10
1,38
1,52
1,69
2,16
2,52
2,75
3,15
3,37
3,53
3,82
3,98
4,11
4,31
4,72
0,8
0,76
1,05
1,40
1,58
1,78
2,35
2,76
3,02
3,45
3,68
3,85
4,13
4,30
4,44
4,63
5,02
0,9
0,67
0,99
1,39
1,62
1,88
2,57
3,04
3,32
3,78
4,00
4,17
4,44
4,60
4,72
4,91
5,30
1,0
Приложение 3. Ординаты кривых обеспеченности Крицкого — Менкеля (трёхпараметрического гамма-распределения)
в модульных коэффициентах Kp = f(Cv, Cs/Cv, P) [Сикан, 2020]
107
0,93
0,91
0,88
0,84
0,82
0,78
0,76
0,74
0,70
75
80
90
95
97
99
99,5
99,7
99,9
4,44
4,29
4,06
3,59
0,3
0,5
1
3
3,31
4,69
0,1
5
5,16
0,01
1,1
0,95
70
Р, %
0,97
60
3,63
3,92
4,36
4,58
4,74
4,92
5,34
1,2
0,45
0,50
0,53
0,57
0,64
0,68
0,75
0,83
0,86
0,89
0,94
3,84
4,14
4,55
4,75
4,92
5,06
5,46
1,3
0,25
0,31
0,31
0,38
0,48
0,53
0,63
0,74
0,78
0,83
0,90
4,02
4,33
4,72
4,91
5,06
5,18
5,58
1,4
0,11
0,15
0,18
0,23
0,33
0,38
0,50
0,65
0,71
0,77
0,87
4,16
4,46
4,84
5,02
5,16
5,29
5,68
C s/Cv = 1,0
1,5
0,04
0,07
0,09
0,12
0,21
0,26
0,38
0,55
0,62
0,70
0,83
Сv
4,28
4,58
4,94
5,11
5,24
5,37
5,76
1,6
0,01
0,02
0,03
0,05
0,11
0,15
0,26
0,45
0,53
0,62
0,79
4,40
4,68
5,00
5,18
5,31
5,44
5,82
1,7
0,00
0,00
0,00
0,01
0,05
0,08
0,17
0,35
0,42
0,51
0,71
4,50
4,76
5,07
5,24
5,36
5,49
5,88
1,8
0,00
0,00
0,00
0,00
0,02
0,01
0,09
0,24
0,31
0,41
0,61
4,60
4,84
5,12
5,28
5,42
5,54
5,92
1,9
0,00
0,00
0,00
0,00
0,00
0,01
0,04
0,15
0,21
0,30
0,51
4,69
4,92
5,16
5,32
5,46
5,58
5,96
2,0
0,00
0,00
0,00
0,00
0,00
0,00
0,02
0,09
0,14
0,21
0,40
108
2,78
2,00
1,68
1,39
0,916
0,559
0,306
0,141
0,086
0,047
0,007
0,001
0,000
0,000
0,000
0,000
0,000
20
25
30
40
50
60
70
75
80
90
95
97
99
99,5
99,7
99,9
1,1
10
Р, %
0,000
0,000
0,000
0,000
0,000
0,000
0,002
0,023
0,046
0,085
0,216
0,446
0,808
1,34
1,69
2,10
3,03
1,2
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,015
0,025
0,06
0,19
0,34
0,72
1,26
1,70
2,20
3,26
1,3
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,005
0,020
0,045
0,13
0,26
0,60
1,17
1,70
2,32
3,46
1,4
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,010
0,035
0,10
0,20
0,50
1,07
1,68
2,44
3,64
Cs/Cv = 1,0
1,5
Сv
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,005
0,025
0,075
0,15
0,38
0,96
1,66
2,56
3,81
1,6
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,015
0,055
0,105
0,28
0,84
1,61
2,67
3,94
1,7
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,010
0,035
0,07
0,20
0,72
1,56
2,80
4,05
1,8
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,015
0,04
0,11
0,60
1,51
2,92
4,15
1,9
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,000
0,01
0,04
0,45
1,46
3,03
4,25
2,0
Продолжение приложения 3
109
1,39
1,36
1,35
1,31
1,29
1,25
1,21
1,17
1,14
1,09
1,07
1,05
1,02
0,99
0,97
0,03
0,05
0,1
0,3
0,5
1
3
5
10
20
25
30
40
50
60
0,94
1,42
0,01
70
1,50
0,1
0,001
Р, %
0,88
0,93
0,98
1,03
1,09
1,12
1,16
1,26
1,36
1,42
1,55
1,63
1,69
1,80
1,88
1,99
2,06
2,28
0,2
0,82
0,89
0,96
1,03
1,12
1,17
1,23
1,39
1,54
1,67
1,88
2,02
2,12
2,36
2,50
2,62
2,86
3,35
0,3
0,77
0,84
0,93
1,03
1,14
1,21
1,29
1,52
1,75
1,91
2,25
2,48
2,64
3,00
3,23
3,41
3,78
4,69
0,4
0,71
0,79
0,90
1,01
1,15
1,23
1,33
1,63
1,94
2,17
2,66
3,00
3,22
3,75
4,10
4,34
5,00
6,30
0,5
0,66
0,74
0,86
1,00
1,15
1,26
1,38
1,76
2,14
2,42
3,07
3,50
3,82
4,58
5,06
5,48
6,28
8,21
Cs/Cv = 3,0
0,6
Сv
0,61
0,69
0,82
0,97
1,16
1,27
1,42
1,87
2,35
2,70
3,49
4,00
4,44
5,43
6,07
6,59
7,70
10,4
0,7
0,56
0,65
0,78
0,95
1,15
1,29
1,45
1,97
2,51
2,44
3,92
4,58
5,11
6,31
7,11
7,74
9,21
12,9
0,8
0,52
0,60
0,74
0,91
1,14
1,28
1,47
2,09
2,70
3,22
4,40
5,21
5,84
7,33
8,32
9,14
11,0
15,5
0,9
0,48
0,55
0,70
0,88
1,13
1,28
1,49
2,15
2,89
3,47
4.88
5,85
6,62
8,43
9,66
10,6
12,9
18,3
1,0
0,41
0,50
0,66
0,85
1,11
1,27
1,49
2,24
3,05
3,74
5,37
6,50
7,40
9,54
11,0
12,2
14,8
21,3
1,1
0,41
0,46
0,61
0,81
1,08
1,27
1,59
2,31
3,23
3,99
5,85
7,16
8,21
10,7
12,4
13,8
16,9
24,6
1,2
110
0,91
0,87
0,84
0,83
0,79
0,77
0,76
0,73
80
90
95
97
99
99,5
99,7
99,9
19,0
11,8
8,94
7,75
6,26
0,1
0,3
0,5
1
1,3
0,53
0,57
0,59
0,62
0,68
0,71
0,76
0,83
0,86
0,2
0,01
Р, %
0,93
0,1
75
Р, %
0,38
0,43
0,45
0,48
0,55
0,59
0,66
0,75
0,79
0,3
6,74
8,41
13,0
9,75
21,2
1,4
0,27
0,31
0,34
0,37
0,45
0,49
0,57
0,67
0.72
0,4
7,21
9,07
14,2
10,6
23,5
1,5
0,19
0,23
0,25
0,29
0,36
0,41
0,48
0,60
0,65
0,5
7,68
9,74
15,4
11,4
25,9
Cs/Cv = 3,0
1,6
0,13
0,16
0,18
0,21
0,28
0,33
0,41
0,53
0,58
Cs/Cv = 3,0
0,6
Сv
Сv
0,09
0,12
0,12
0,16
0,22
0,26
0,34
0,47
0,52
0,7
8,14
10,4
16,7
12,3
28,4
1,7
0.06
0,08
0,09
0,12
0,17
0,21
0,29
0,41
0,47
0,8
8,61
11,1
18,0
13,1
31,0
1,8
0,03
0,05
0,06
0,08
0,13
0,17
0,24
0,36
0,41
0,9
9,07
11,8
19,4
14,0
33,7
1,9
0,02
0,03
0,04
0,06
0,10
0,13
0,19
0,31
0,36
1,0
0,01
0,02
0,03
0,04
0,07
0,10
0,16
0,26
0,31
1,1
9,53
12,4
20,8
14,8
36,5
2,0
0,01
0,01
0,01
0,03
0,05
0,07
0,12
0,22
0,27
1,2
Продолжение приложения 3
111
2,36
1,50
1,25
1,06
0,775
0,572
0,417
0,293
0,239
0,190
0,100
0,057
0,038
0,017
0,011
0,008
10
20
25
30
40
50
60
70
75
80
90
95
97
99
99,5
99,7
0,004
3,37
5
99,9
4,20
3
0,002
0,004
0,006
0,011
0,027
0,042
0,078
0,160
0,206
0,257
0,337
0,531
0,736
1,03
1,23
1,49
2,42
3,52
4,44
0,001
0,002
0,004
0,007
0,018
0,030
0,061
0,133
0,176
0,224
0,339
0,491
0,697
0,997
1,20
1,48
2,47
3,66
4,67
0,000
0,001
0,002
0,004
0,012
0,022
0,047
0,110
0,149
0,194
0,304
0,452
0,659
0,964
1,18
1,46
2,51
3,80
4,89
0,000
0,000
0,001
0,002
0,008
0,015
0,035
0,090
0,125
0,166
0,271
0,415
0,620
0,929
1,15
1,45
2,55
3,92
5,10
0,000
0,000
0,000
0,001
0,005
0,010
0,026
0,073
0,105
0,142
0,240
0,379
0,581
0,892
1,12
1,42
2,58
4,04
5,31
0,000
0,000
0,000
0,001
0,003
0,007
0,019
0,059
0,087
0,121
0,212
0,345
0,544
0,855
1,08
1,40
2,60
4,15
5,51
0,000
0,000
0,000
0,000
0,002
0,004
0,014
0,047
0,071
0,102
0,186
0,313
0,507
0,818
1,05
1,37
2,62
4,26
5,70
112
0,94
0,93
0,91
70
75
80
1,05
30
0,97
1,06
25
60
1,08
20
1,02
1,11
10
0,99
1,17
5
40
1,19
3
50
1,30
1,25
1,34
0,3
1
1,38
0,1
0,5
1,45
1,40
0,03
1,51
0,01
0,05
1,58
0,1
0,001
Р, %
0,83
0,86
0,88
0,93
0,98
0,03
1,08
1,11
1,15
1,26
1,36
1,43
1,58
1,67
1,73
1,87
1,97
2,05
2,20
2,50
0,2
0,75
0,79
0,82
0,89
0,95
1,02
1,10
1,15
1,21
1,38
1,55
1,67
1,94
2,10
2,23
2,53
2,72
2,87
3,15
3,82
0,3
0,68
0,72
0,76
0,84
0,92
1,01
1,12
1,19
1,26
1,51
1,75
1,92
2,34
2,60
2,81
3,29
3,60
3,85
4,35
5,60
0,4
0,61
0,66
0,71
0,79
0,89
0,99
1,13
1,21
1.31
1,61
1,93
2,18
2,77
3,13
3,45
4,20
4,70
5,05
5,90
8,10
0,5
0,6
0,55
0,60
0,65
0,75
0,85
0,97
1,13
1,23
1,34
1,72
2,11
2,44
3,17
3,69
4,09
5,07
5.75
6,35
7,70
11,0
Cs/Cv = 4,0
Сv
0,50
0,55
0,60
0,70
0,82
0,95
1,12
1,23
1,37
1,82
2,28
2,67
3,59
4,25
4,76
6,05
7,00
7,81
9,57
14,2
0,7
0,45
0,50
0,55
0,66
0,78
0,93
1,12
1,24
1,40
1,90
2,45
2,90
4,01
4,81
5,46
7,02
8,20
9,15
11,4
17,5
0,8
0,40
0,45
0,60
0,62
0,75
0,90
1,10
1,25
1,41
2,00
2,60
3,12
4,43
5,38
6,18
8,12
9,46
10,7
13,6
20,6
0,9
0,36
0,40
0,46
0,57
0,71
0,87
1,09
1,21
1,42
2,05
2,77
3,35
4,90
6,02
6,94
9,25
10,9
12,2
15,6
24,0
1,0
0,31
0,37
0,42
0,53
0,67
0,85
1,07
1,24
1,43
2,12
2,92
3,60
5,35
6,65
7,71
10,4
12,10
13,7
17,6
27,5
1,1
0,27
0,32
0,38
0,49
0,63
0,81
1,06
1,22
1,43
2,18
3,07
3,84
5,82
7,31
8,53
11,6
14,0
16,0
20,7
32,9
1,2
Продолжение приложения 3
113
0,457
0,341
60
70
1,43
20
0,598
2,24
10
50
3,21
5
0,781
4,04
40
6,22
1
3
1,21
7,91
0,5
1,04
9,31
0,3
30
12,8
25
22,8
0,1
1,3
0,56
0,60
0,61
0,01
Р, %
0,77
0,75
99,7
99.9
0,64
0,80
0,78
99
99,5
0,69
0,83
97
0,77
0,72
0,88
0,85
90
95
0,67
0,308
0,421
0,562
0,748
1,01
1,19
1,43
2,28
3,34
4,25
6,66
8,53
10,1
14,0
25,4
1,4
0,43
0,47
0,49
0,52
0,58
0,61
0,59
0,33
0,37
0,39
0,42
0,48
0,52
0,25
0,29
0,30
0,34
0,40
0,227
0,388
0,529
0,716
0,985
1,17
1,42
2,32
3,46
4,45
7,09
9,16
10,9
15,3
28,0
1,5
0,51
0,44
0,44
0,248
0,356
0,495
0,684
0,958
1,15
1,41
2,36
3,57
4,64
7,52
9,79
11,7
16,6
30,8
1,6
Cs/Cv = 4,0
0,19
0,22
0,24
0,27
0,33
0,37
0,38
Сv
0,11
0,17
0,19
0,22
0,27
0,32
0,223
0,327
0,464
0,652
0,929
1,13
1,39
2,39
3,68
4,83
7,95
10,4
12,5
17,9
33,6
1,7
0,33
0,10
0,13
0,15
0,17
0,23
0,26
0,29
0,199
0,299
0,433
0,62
0,90
1,10
1,38
2,42
3,78
5,01
8,73
11,0
13,3
19,2
36,5
1,8
0,08
0,10
0,11
0,14
0,18
0,22
0,25
1,08
1,36
2,4
3,87
5,18
8,78
11,7
14,2
20,6
39,4
1,9
0,177
0,273
0,403
0,588
0,871
0,05
0,07
0,08
0,11
0,15
0,18
0,21
0,04
0,05
0,06
0,08
0,12
0,15
0,18
0,157
0,249
0,375
0,558
0,841
1,05
1,33
2,45
3,96
5,34
9,19
12,3
15,0
21,9
42,4
2,0
0,03
0,04
0,05
0,06
0,10
0,12
114
0,098
0,075
0,045
0,034
0,027
0,018
95
97
99
99,5
99,7
99.9
1,67
1,54
1,47
1,43
1,40
0,001
0,01
0,03
0,05
0,1
1,95
2,06
2,15
2,34
2,75
0,2
0,148
90
0,1
0,242
80
Р, %
0,290
1,3
75
Р, %
2,66
2,87
3,07
3,43
4,38
0,3
0,012
0,019
0,024
0,034
0,059
0,080
0,125
0,212
0,258
1,4
3,51
3,90
4,23
4,91
6,87
0,4
0,008
0,013
0,017
0,025
0,046
0,064
0,104
0,185
0,230
1,5
4,44
5,05
5,50
6,65
9,90
0,5
Cv
5,40
6,24
6,95
8,70
13,4
Cs/Cv = 5,0
0,6
0,005
0,009
0,012
0,018
0,036
0,051
0,087
0,162
0,203
Cs/Cv = 4,0
1,6
0,7
6,43
7,51
8,43
10,7
17,0
Сv
0,003
0,006
0,008
0,013
0,028
0,041
0,072
0,140
0,179
1,7
7,54
8,82
9,96
12,7
21,2
0,8
8,64
10,2
11,6
15,0
25,3
0,9
0,002
0,004
0,006
0,009
0,021
0,032
0,060
0,122
0,158
1,8
9,83
11,7
13,3
17,4
28,5
1,0
0,001
0,003
0,004
0,006
0,016
0,025
0,049
0,105
0,139
1,9
11,0
13,2
15,2
20,0
33,8
1,1
12,1
14,8
17,2
22,7
38,2
1,2
0,001
0,002
0,003
0,004
0,012
0,019
0,040
0,090
0,121
2,0
Продоложение приложения 3
115
1,34
1,31
1,27
1,20
1,17
1,13
1,08
1,06
1,05
1,02
0,99
0,97
0,94
0,93
0,91
0,88
0,84
0,82
0,78
0,76
0,75
0,73
0,3
0,5
1
3
5
10
20
25
30
40
50
60
70
75
80
90
95
97
99
99,5
99,7
99,9
0,59
0,62
0,63
0,66
0,70
0,73
0,77
0,73
0,86
0,88
0,93
0,97
1,02
1,08
1,11
1,15
1,26
1,36
1,44
1,61
1,70
1,78
0,47
0,51
0,52
0,55
0,60
0,63
0,68
0,85
0,79
0,82
0,88
0,94
1,01
1,09
1,15
1,21
1,37
1,55
1,67
1,98
2,16
2,31
0,37
0,41
0,42
0,45
0,51
0,55
0,61
0,69
0,73
0,77
0,84
0,92
1,00
1,10
1,17
1,25
1,49
1,74
1,93
2,38
2,69
2,92
0,29
0,32
0,34
0,37
0,43
0,47
0,53
0,63
0,67
0,71
0,79
0,88
0,98
1,10
1,20
1,30
1,60
1,90
2,17
2,79
3,21
3,52
0,23
0,26
0,28
0,31
0,36
0,40
0,47
0,57
0,62
0,66
0,75
0,85
0,97
1,11
1,20
1,32
1,70
2,08
2,42
3,21
3,77
4,22
0,18
0,21
0,23
0,25
0,31
0,34
0,41
0,52
0,56
0,61
0,71
0,82
0,94
1,10
1,20
1,34
1,79
2,22
2,62
3,65
4,34
4,91
0,14
0,16
0,18
0,20
0,26
0,29
0,36
0,47
0,51
0,56
0,67
0,78
0,92
1,10
1,22
1,36
1,86
2,42
2,88
4,06
4,93
5,69
0,10
0,12
0,14
0,16
0,22
0,25
0,32
0,42
0,47
0,52
0,63
0,75
0,90
1,09
1,22
1,36
1,94
2,54
3,10
4,50
5,52
6,41
0,08
0,10
0,11
0,13
0,18
0,21
0,27
0,37
0,42
0,48
0,58
0,71
0,87
1,08
1,22
1,39
2,00
2,71
3,33
4,94
6,17
7,15
0,06
0,08
0,09
0,10
0,15
0,18
0,24
0,34
0,39
0,41
0,55
0,68
0,84
1,06
1,20
1,40
2,05
2,85
3,52
5,33
6,85
7,90
0,04
0,06
0,07
0,08
0,12
0,15
0,21
0,31
0,36
0,41
0,51
0,65
0,81
1,04
1,20
1,41
2,11
2,98
3,75
5,75
7,35
8,63
116
1,80
1,60
1,52
1,47
1,41
1,35
1,32
1,29
1,21
1,18
1,14
1,08
1,07
1,04
1,02
0,99
0,96
0,01
0,03
0,05
0,1
0,3
0,5
1
3
5
10
20
25
30
40
50
60
0,1
0,001
Р, %
0,92
0,97
1,02
1,07
1,10
1,14
1,26
1,37
1,45
1,63
1,74
1,83
2,02
2,15
2,25
2,48
3,02
0,2
0,88
0,94
1,01
1,08
1,13
1,19
1,37
1,55
1,68
2,01
2,22
2,38
2,80
3,05
3,25
3,75
5,20
0,3
0,84
0,91
0,99
1,10
1,16
1,23
1,47
1,73
1,92
2,40
2,73
2,98
3,68
4,15
4,54
5,48
8,10
0,4
0,80
0,88
0,98
1,10
1,18
1,27
1,56
1,89
2,14
2,81
3,26
3,64
4,58
5,25
5,90
7,30
11,50
0,5
0,76
0,85
0,96
1,10
1,19
1,30
1,66
2,05
2,38
3,22
3,82
4,31
5,54
6,57
7,37
9,39
15,30
Cs/Cv = 6,0
0,6
Cv
0,72
0,82
0,94
1,10
1,20
1,32
1,73
2,20
2,60
3,63
4,38
5,00
6,57
7,85
8,90
11,50
19,30
0,7
0,68
0,79
0,92
1,09
1,21
1,34
1,82
2,36
2,82
4,03
4,93
5,66
7,63
9,24
10,53
13,80
23,80
0,8
0,64
0,75
0,89
1,08
1,20
1,36
1,90
2,81
3,04
4,44
5,51
6,38
8,79
10,70
12,30
16,40
28,00
0,9
0,60
0,72
0,87
1,07
1,20
1,37
1,96
2,66
3,26
4,86
6,11
7,16
10,00
12,10
14,10
18,90
32,20
1,0
0,56
0,68
0,85
1,05
1,20
1,37
2,03
2,80
3,46
5,27
6,71
7,90
11,18
13,70
16,00
21,50
36,70
1,1
0,53
0,66
0,82
1,04
1,19
1,38
2,08
2,90
3,67
5,69
7,31
8,67
12,39
15,40
17,90
24,00
41,50
1,2
Окончание приложения 3
117
0,94
0,93
0,91
0,88
0,85
0,83
0,80
0,78
0,76
0,75
70
75
80
90
95
97
99
99,5
99,7
99,9
0,61
0,64
0,65
0,67
0,72
0,74
0,78
0,84
0,86
0,88
0,50
0,53
0,55
0,57
0,62
0,65
0,70
0,77
0,80
0,83
0,40
0,43
0,45
0,48
0,53
0,56
0,62
0,70
0,74
0,77
0,33
0,36
0,37
0,40
0,46
0,49
0,55
0,64
0,68
0,72
0,26
0,29
0,31
0,33
0,39
0,43
0,49
0,58
0,63
0,67
0,21
0,24
0,25
0,28
0,33
0,37
0,43
0,53
0,58
0,63
0,16
0,19
0,20
0,23
0,28
0,32
0,38
0,48
0,53
0,58
0,12
0,15
0,17
0,19
0,24
0,27
0,33
0,44
0,49
0,54
0,09
0,12
0,13
0,15
0,20
0,23
0,29
0,39
0,44
0,49
0,08
0,09
0,10
0,12
0,17
0,20
0,26
0,35
0,40
0,45
0,06
0,07
0,08
0,10
0,14
0,17
0,22
0,32
0,37
0,42
118
Приложение 4. Нормированные ординаты распределения Пирсона III типа TP %=(XP % – ХСР )/σ (биномиальная кривая
распределения) [Сикан, 2020]
Cs
P, %
0,01
0,1
1
3
5
10
20
25
30
40
50
60
70
90
95
97
99
99,9
0,5
0,5
0,5
0,5
0,5
0,5
0,5
0,49
0,49
0,46
0,41
0,31
–0,12 –0,01 –0,21 –0,96
–1,9
–2,65 –4,34
–8,17
–3,8 0,527 0,527 0,526 0,526 0,526 0,526
0,52
0,52
0,51
0,48
0,42
0,3
–0,095 –0,032 –0,24
–1,9
–2,65 –4,29
–7,97
–3,6 0,556 0,556 0,556 0,556 0,556 0,555
0,55
0,54
0,54
0,49
0,42
0,28 –0,072 –0,064 –0,28 –1,03 –1,93 –2,66 –4,24
–7,72
–3,4 0,588 0,588 0,588 0,588 0,587 0,586
0,58
0,57
0,55
0,5
0,41
0,27 –0,036 –0,11 –0,31 –1,06 –1,94 –2,66 –4,18
–7,54
–3,2 0,625 0,625 0,625 0,625 0,625 0,621
0,61
0,59
0,57
0,51
0,41
0,25 –0,006 –0,15 –0,35 –1,09 –1,96 –2,66 –4,11
–7,35
0,667 0,667 0,666 0,666 0,665 0,661
0,64
0,62
0,59
0,51
0,4
0,22 –0,027 –0,19 –0,39 –1,13 –1,97 –2,66 –4,05
–7,1
–2,8 0,715 0,715 0,715 0,714 0,711 0,703
0,67
0,64
0,6
0,51
0,39
0,2
–0,057 –0,22 –0,44 –1,18
–2
–2,65 –3,86
–6,86
–2,6 0,77
–4
–3
75
80
–1
0,77
0,77
0,766 0,764 0,746
0,7
0,66
0,61
0,51
0,37
0,17 –0,085 –0,25 –0,48 –1,21
–2
–2,63 –3,86
–6,54
–2,4 0,835 0,833
0,83
0,826
0,792
0,72
0,67
0,62
0,51
0,35
0,17
–0,12 –0,29 –0,52 –1,25
–2
–2,6
–3,78
–6,37
–2,2 0,914
0,91
0,905 0,895 0,882 0,842
0,75
0,69
0,64
0,5
0,33
0,12
–0,16 –0,35 –0,57 –1,27 –2,02 –2,54 –3,68
–6,14
–2
1,01
1
0,99
0,97
0,95
0,9
0,78
0,71
0,64
0,49
0,31
0,09
–0,2
–2,51
–3,6
–5,91
–1,8
1,11
1,11
1,09
1,06
1,02
0,94
0,8
0,72
0,64
0,48
0,28
0,05
–0,24 –0,42 –0,64 –1,32 –1,99 –2,46
–3,5
–5,64
–1,6
1,26
1,24
1,2
1,14
1,1
0,99
0,81
0,73
0,64
0,46
0,25
0,02
–0,28 –0,46 –0,68 –1,33 –1,97 –2,42 –3,39
–5,37
–1,4
1,41
1,39
1,32
1,23
1,17
1,04
0,83
0,73
0,64
0,44
0,22
0,2
–0,31 –0,49 –0,71 –1,34 –1,95 –2,37 –3,27
–5,09
–1,2
1,68
1,58
1,45
1,33
1,24
1,08
0,84
0,74
0,63
0,42
0,19
–0,05 –0,35 –0,52 –0,73 –1,34
–2,31 –3,15
–4,81
–1
1,92
1,79
1,59
1,42
1,32
1,13
0,85
0,73
0,62
0,39
0,16
–0,09 –0,38 –0,55 –0,76 –1,34 –1,88 –2,25 –3,02
–4,53
–0,8
2,23
2,02
1,74
1,52
1,38
1,17
0,86
0,73
0,6
0,37
0,13
–0,12 –0,41 –0,58 –0,79 –1,34 –1,84 –2,18 –2,89
–4,24
0,82
–0,39 –0,61
–1,3
–2
1,92
119
–0,6
2,57
2,27
1,88
1,61
1,45
1,2
0,85
0,72
0,59
0,34
0,1
–0,16 –0,44 –0,61
–0,4
2,98
2,54
2,03
1,7
1,52
1,23
0,85
0,71
0,57
0,31
0,07
–0,19 –0,47 –0,63 –0,82 –1,32 –1,75 –2,04 –2,61 –0,366
–0,2
3,37
2,81
2,18
1,79
1,58
1,26
0,85
0,69
0,55
0,28
0,03
–0,22
–1,96 –2,47
–3,38
0
3,72
3,09
2,33
1,88
1,64
1,28
0,84
0,67
0,52
0,25
0
–0,25 –0,52 –0,67 –0,84 –1,28 –1,64 –1,88 –2,33
–3,09
0,2
4,16
3,38
2,47
1,96
1,7
1,3
0,83
0,65
0,5
0,22
–0,03 –0,28 –0,55 –0,69 –0,85 –1,26 –1,58 –1,79 –2,18
–2,81
0,4
4,61
3,66
2,61
2,04
1,75
1,32
0,82
0,63
0,47
0,19
–0,07 –0,31 –0,57 –0,71 –0,85 –1,23 –1,52
–2,03
–2,54
0,6
5,05
3,96
2,75
2,12
1,8
1,33
0,8
0,61
0,44
0,16
–0,1
–1,45 –1,61 –1,88
–2,27
0,8
5,5
4,24
2,89
2,18
1,84
1,34
0,78
0,58
0,41
0,12
–0,13 –0,37
–0,73 –0,86 –1,17 –1,38 –1,52 –1,74
–2,02
1
5,96
4,53
3,02
2,25
1,88
1,34
0,76
0,55
0,38
0,09
–0,16 –0,39 –0,62 –0,73 –0,85 –1,13 –1,32 –1,42 –1,59
–1,79
1,2
6,41
4,81
3,15
2,31
1,92
1,34
0,73
0,52
0,35
0,05
–0,19 –0,42 –0,63 –0,74 –0,84 –1,08 –1,24 –1,33 –1,45
–1,58
1,4
6,87
5,09
3,27
2,37
1,95
1,34
0,71
0,49
0,31
0,02
–0,22 –0,44 –0,64 –0,73 –0,83 –1,04 –1,17 –1,23 –1,32
–1,39
1,6
7,31
5,37
3,39
2,42
1,97
1,33
0,68
0,46
0,28
-0,02
–0,25 –0,46 –0,64 –0,73 –0,81 –0,99
–1,2
–1,24
1,8
7,76
5,64
3,5
2,46
1,99
1,32
0,64
0,42
0,24
-0,05
–0,28 –0,48 –0,64 –0,72
–0,94 –1,02 –1,06 –1,09
–1,11
2
8,21
5,91
3,6
2,51
2
1,3
0,61
0,39
0,2
–0,08 –0,31 –0,49 –0,64 –0,71 –0,78
–0,9
–1
2,2
8,63
6,14
3,68
2,54
2,02
1,27
0,57
0,35
0,16
–0,12 –0,33
2,4
9
6,37
3,78
2,6
2
1,25
0,52
0,29
0,12
–0,14 –0,35 –0,51 –0,62 –0,67 –0,72 –0,792 –0,82 –0,826 –0,83 –0,833
2,6
9,39
6,54
3,86
2,63
2
1,21
0,48
0,25
0,085 –0,17 –0,37 –0,51 –0,61 –0,66
2,8
9,77
6,86
3,96
2,65
2
1,18
0,44
0,22
0,057
3
10,16
7,1
4,05
2,66
1,97
1,13
0,39
0,19
0,027 –0,22
3,2
10,55
7,35
4,11
2,66
1,96
1,09
0,35
0,15 –0,006 –0,25 –0,41 –0,51 –0,57 –0,59 –0,61 –0,621 –0,625 –0,625 –0,625 –0,625
–0,2
–0,65 –0,83
–0,34 –0,59 –0,72 –0,85
–0,5
–0,39 –0,51
–0,4
–0,5
–0,8
–0,6
–0,8
–1,33
–1,3
–1,2
–1,8
–1,7
–1,1
–2,12 –2,75
–1,7
–1,14
–0,95 –0,97 –0,99
–3,96
–0,64 –0,69 –0,75 –0,842 –0,882 –0,895 –0,905 –0,91
–0,6
–0,7 –0,746 –0,764 –0,766 –0,77
–0,77
–0,64 –0,67 –0,703 –0,711 –0,714 –0,715 –0,715
–0,51 –0,59 –0,62 –0,64 –0,661 –0,665 –0,666 –0,666 –0,667
120
7,97
8,17
8,38
8,6
8,79
8,96
9,12
9,27
9,42
9,59
9,7
9,84
9,95
10,05
3,8 11,67
12,02
12,4
4,6 13,12
4,8 13,51
5,4
5,6 14,95
5,8 15,32
15,67
5
5,2 14,25
14,6
4,2
4,4 12,76
13,87
4
6
6,2 16,04
6,4
16,4
7,72
11,3
3,6
7,54
0,1
10,9
0,01
3,4
Cs
4,71
4,71
4,7
4,7
4,65
4,62
4,59
4,54
4,5
4,46
4,42
4,39
4,34
4,29
4,24
4,18
1
2,6
2,6
2,6
2,6
2,6
2,6
2,6
2,6
2,6
2,62
2,63
2,64
2,65
2,65
2,66
2,66
3
1,52
1,56
1,6
1,64
1,67
1,7
1,74
1,78
1,81
1,84
1,86
1,88
1,9
1,9
1,93
1,94
5
0,42
0,47
0,51
0,57
0,62
0,67
0,73
0,78
0,82
0,87
0,91
0,93
0,96
1
1,03
1,06
10
30
40
–0,42 –0,48 –0,51
–0,12 –0,31 –0,41 –0,46 –0,49
80
90
95
97
99
99,9
–0,49
–0,5
–0,5
–0,5
–0,5
–0,5
–0,5
–0,52 –0,52 –0,526 –0,526 –0,526 –0,526 –0,527
–0,54 –0,55 –0,555 –0,556 –0,556 –0,556 –0,556
–0,57 –0,58 –0,586 –0,587 –0,588 –0,588 –0,588
75
–0,4
–0,4
–0,42 –0,432 –0,454 –0,435 –0,435 –0,435 –0,435 –0,435 –0,435
–0,44 –0,451 –0,454 –0,455 –0,455 –0,455 –0,455 –0,455 –0,455
–0,21
–0,05 –0,15 –0,21
–0,05 –0,15 –0,21
–0,05 –0,15 –0,21
–0,02 –0,14 –0,21
–0,12 –0,21
–0,1
–0,3
–0,3
–0,3
–0,3
–0,3
–0,3
–0,3
–0,4 –0,399
–0,4
–0,4
–0,4
–0,4
–0,4
–0,4
–0,4
–0,33 –0,39 –0,33
–0,34 –0,34 –0,34
–0,34 –0,34 –0,34
–0,35 –0,35 –0,35
–0,36 –0,36 –0,36
–0,37 –0,37 –0,37
–0,33 –0,33
–0,34 –0,34
–0,34 –0,34
–0,35 –0,35
–0,36 –0,36
–0,37 –0,37
–0,33
–0,34
–0,34
–0,35
–0,36
–0,37
–0,33
–0,34
–0,34
–0,35
–0,36
–0,37
–0,33
–0,34
–0,34
–0,35
–0,36
–0,37
–0,33
–0,34
–0,34
–0,35
–0,36
–0,37
–0,33
–0,34
–0,34
–0,35
–0,36
–0,37
–0,37 –0,38 –0,384 –0,385 –0,385 –0,385 –0,385 –0,385 –0,385 –0,385
–0,33 –0,38
–0,075 –0,19 –0,32 –0,39 –0,41 –0,416 –0,416 –0,416 –0,416 –0,416 –0,416 –0,417 –0,417
0,035 –0,12 –0,21
0
–0,55
70
–0,01 –0,13 –0,31 –0,41 –0,45 –0,47 –0,473 –0,475 –0,476 –0,476 –0,476 –0,477 –0,477
0,01
0,032 –0,095 –0,3
0,068 –0,099 –0,2
0,02
–0,5
60
0,064 –0,072 –0,28 –0,42 –0,49 –0,54
0,13 –0,052 –0,17 –0,32
0,1
50
0,11 –0,036 –0,27 –0,41
25
0,15 –0,032 –0,15 –0,32
0,19
0,21
0,24
0,28
0,31
20
P, %
Окончание приложения 4
121
0,0002
0,02
0,12
0,30
0,55
0,87
1,24
1,65
2,09
2,56
3,05
3,57
4,11
4,66
5,23
5,81
6,41
7,01
7,63
8,26
15,0
22,2
2
3
4
5
б
7
8
9
10
11
12
13
14
15
16
17
18
19
20
30
40
0,99
1
v
26,5
18,5
10,9
10,1
9,39
8,67
7,96
7,26
6,57
5,89
5,23
4,57
3,94
3,33
2,73
2,17
1,64
1,15
0,71
0,35
0,10
0,04
0,95
29,1
20,6
12,4
11,7
10,9
10,1
9,31
8,55
7,79
7,04
6,30
5,58
4,87
4,17
3,49
2,83
2,20
1,61
1,06
0,58
0,21
0,02
0,90
39,3,
29,3
19,3
18,3
17,3
16,3
15,3
14,3
13,3
12,3
11,3
10,3
9,34
8,34
7,34
6,35
5,35
4,35
3,36
2,37
1,39
0,46
0,50
45,8
34,8
23,8
22,7
21,6
20,5
19,4
18,2
17,1
16,0
14,8
13,7
12,5
11 4
10,2
9,04
7,84
6,63
5,39
4,11
2,77
1,32
0,25
51,8
40,3
28,4
27,2
26,0
24,8
23,5
22,3
21,1
19,8
18,5
17,3
16,0
14,7
13,4
12,0
10,6
9,24
7,78
6,25
4,61
2,71
0,10
а
55,8
43,8
31,4
30,1
28,9
27,6
26,3
25,0
23,7
22,4
21,0
19,7
18,4
16,9
15,5
14,1
12,6
11,1
9,49
7,81
5,99
3,84
0,05
59,3
47,0
34,2
32,9
31,5
30,2
28,8
27,5
26,1
24,7
23,3
21,9
20,5
19,0
17,5
16,0
14,4
12,8
11,1
9,35
7,38
5,02
0,025
63,7
50,9
37,6
36,2
34,8
33,4
32,0
30,6
29,1
27,7
26,2
24,7
23,2
21,7
20,1
18,5
16,8
15,1
13,3
11,3
9,21
6,63
0,01
66,8
53,7
40,0
38,6
37,2
35,7
34,3
32,8
31,3
29,8
28,3
26,8
25,2
23,6
22,0
20,3
18,5
16,7
14,9
12,8
10,6
7,88
0,005
73,4
59,7
45,3
43,8
42,3
40,8
39,3
37,7
36,1
34,5
32,9
31,3
29,6
27,9
26,1
24,3
22,5
20,5
18,5
16,3
13,8
10,8
0,001
Приложение 5. χ2-распределение (ординаты даны в зависимости от числа степеней свободы и уровня значимости)
[Сикан, 2020]
Приложение 6. Номограммы для определения параметров
распределения Крицкого — Менкеля методом
приближённого наибольшего правдоподобия [Сикан,
2020]
Рис. 1. Определение параметров распределения Крицкого — Менкеля
при Cv = 0,20–0,25
122
Рис. 2. Определение параметров распределения Крицкого — Менкеля
при Cv = 0,25–0,30
123
Рис. 3. Определение параметров распределения Крицкого — Менкеля
при Cv = 0,30–0,35
124
Рис. 4. Определение параметров распределения Крицкого — Менкеля
при Cv = 0,35–0,40
125
Рис. 5. Определение параметров распределения Крицкого — Менкеля при
Cv = 0,40–0,50
126
Рис. 6. Определение параметров распределения Крицкого — Менкеля при
Cv = 0,50–0,60
127
Рис. 7. Определение параметров распределения Крицкого — Менкеля
при Cv = 0,60–0,70
128
Рис. 8. Определение параметров распределения Крицкого — Менкеля
при Cv = 0,70–0,85
129
Рис. 9. Определение параметров распределения Крицкого — Менкеля
при Cv = 0,85–1,00
130
Рис. 10. Определение параметров распределения Крицкого — Менкеля
при Cv = 0,95–1,1
131
Книги и журналы СПбГУ можно приобрести:
по издательской цене
в интернет-магазине: publishing.spbu.ru
и
в сети магазинов «Дом университетской книги», Санкт-Петербург:
Менделеевская линия, д. 5
6-я линия, д. 15
Университетская наб., д. 11
Справки: +7(812)328-44-22, publishing.spbu.ru
Книги СПбГУ продаются в центральных книжных магазинах РФ,
интернет-магазинах amazon.com, ozon.ru, bookvoed.ru,
biblio-globus.ru, books.ru, URSS.ru
В электронном формате: litres.ru
Учебное издание
СУМАЧЁВ Александр Эдуардович, ПОПОВ Сергей Викторович
СТАТИСТИЧЕСКАЯ ОБРАБОТКА
ГИДРОМЕТЕОРОЛОГИЧЕСКИХ ДАННЫХ
Учебно-методическое пособие
Редактор Н. И. Сочивко
Корректоры Т. В. Иванкова, И. П. Журова
Компьютерная верстка Е. М. Воронковой
Обложка И. А. Колтушиной
Подписано в печать 21.08.2024. Формат 70×100 1/16.
Усл. печ. л. 10,7. Тираж 1000 экз. Print-on-Demand. Заказ № 0000.
Издательство Санкт-Петербургского университета.
199004, С.-Петербург, В. О., 6-я линия, 11.
Тел./факс +7(812)328-44-22
[email protected]
publishing.spbu.ru
Типография Издательства СПбГУ. 199034, С.-Петербург, Менделеевская линия, д. 5.