Главная Обратная связь

Дисциплины:






Задание 5. Регрессионный анализ линейный по параметрам нелинейной модели.



В этом задании в качестве модели для аппроксимации эксперимента будем использовать квадратичную функцию вида: .

Для выполнения этого задания рекомендуется использовать какую – либо программу для ПК, которая содержит модуль «Множественная регрессия», например, EXCEL, STATISNICA, STADIA, SPSS, STATGRAPHICS и др. Модули (подпрограммы) типа «Multiple Regression» (множественная регрессия) работают в среде Windows имеют схожий интерфейс, включающий Стартовую панель и панель Выдачи результатов с большим числом опций для всестороннего анализа регрессионной модели.

В стартовой панели следует лишь задать входные переменные (матрица Х), обозначенные как independent variables (независимые переменные), и одну выходную переменную (вектор У), обозначенный как dependent variable (зависимая переменная). После чего все расчеты выполняются автоматически и по желанию пользователя можно воспроизвести нужные таблицы и графики, отражающие в полной мере вычисленные результаты регрессионного анализа в соответствии с условием и назначенным режимом доступным для используемой программы.

Особо следует обратить внимание, что для построения и регрессионного анализа модели вида входными переменными являются (матрица Х должна содержать два столбца ), т.е. столбец линейный по параметрам модели используется как новая независимая переменная (новый регрессор).

Отметим также, что единичный столбец , предусмотренный алгоритмом для вычисления параметра , в матрицу данных Х не вносится, но учитывается в программах для линейной по параметрам регрессии автоматически.

В отчет по заданию 5 необходимо включить следующие материалы:

1. Корреляционную матрицу признаков, используемых при разработке линейной по параметрам нелинейной регрессии.

2. Итоговую таблицу вычисленных параметров с оценкой их статистической значимости.

3. Таблицу результатов дисперсионного анализа нелинейной регрессионной модели.

4. График нелинейного уравнения регрессии в пространстве экспериментальных точек.

5. Гистограмму распределения остатков с оценкой качественных характеристик (асимметрия, эксцесс) отклонение распределения от нормального.

Примечание. Задание 5 можно также выполнить (по желанию студента) в «ручном» режиме, например, с использованием калькулятора. Для этого следует получить (исходя из МНК), соответствующую систему нормальных уравнений и решить её относительно искомых параметров .

Согласно МНК:

Приравнивая к нулю частные производные по искомым параметрам получим нормальную систему уравнений:

Для выполнения этого задания «вручную» следует дополнить исходную таблицу данных (см. табл. 3) новыми столбцами , и в завершении нелинейного моделирования вновь понадобятся столбцы предсказанных результатов , новых остатков и их квадратов .



Все последующие расчеты выполняются по схеме подробно изложенной в заданиях 3 и 4 для линейной модели.

Формат представления отчета по нелинейной регрессии, включая комментарии и выводы по каждому пункту регрессионного анализа, следующий.

1. Корреляционная матрица использованных признаков при моделировании нелинейной регрессии.

Таблица 4.

Матрица корреляций.

  x XX Y
x 1,000000 0,976187 -0,721111
XX 0,976187 1,000000 -0,571609
Y -0,721111 -0,571609 1,000000

Выводы:

1) Все наблюдаемые в таблице коэффициенты корреляции r – статистически значимы на уровне значимости , так как .

2) Связь отклика с признаками отрицательная.

3) Связь входных переменных , т.е. намного сильнее, чем связь каждого регрессора с откликом (по модулю), что отражается на изменении алгебраического знака, как правило, менее сильного регрессора. (см. таблицу 4)

  1. Итоговая таблица вычисленных параметров с оценкой их статистической значимости.

Таблица 5.

Параметры нелинейной регрессии.

  Beta Std.Err. B Std.Err. t(37) p-level
Intercept     11,24 0,45201 24,867 0,000000
Х -3,46617 0,248918 -3,209 0,23045 -13,92 0,000000
XX 2,81202 0,248918 0,282 0,025 11,297 0,000000

Общий вид модели:

Вывод: линия регрессии в полной мере аппроксимирует зависимость «выхода» от «входов». Все параметры модели статистически значимы:

.

  1. Таблицу результатов дисперсионного анализа нелинейной регрессионной модели.

 

Таблица 6.

Дисперсионный анализ нелинейной дисперсии

  Sums of SS df Mean F p-level
Regress. 160,5810 80,29048 152,9811 0,000000
Residual 19,4190 0,52484    
Total 180,0000        

Вывод: Коэффициент детерминации модели, вычисляемый как корреляционное отношение , т.е. эффекты линейный и квадратичный объясняют дисперсию результативного признака У на 89,34%, что очень близко к предельному значению 89,79% детерминируемости данного объекта исследования (см. п. 2.2).

4. График нелинейного уравнения регрессии в пространстве экспериментальных точек.

Рис. 2. График нелинейной регрессии в пространстве.

Вывод: График зависимости отражает алгебраические знаки поведения регрессора (линейный параметр отрицательный и положительный параметр квадратичного эффекта).

5. Гистограмма распределения остатков с оценкой качественных характеристик (асимметрия, эксцесс) отклонения распределения от нормального.

 

Рис.3.Гистограмма распределения остатков.

Числовые характеристики данных рис.3 приведены ниже:

Параметры Mean Median Mode Minimum Maximum Variance Skewness Std.Err. Kurtosis Std.Err.
значения -0,00 -0,076667 ,6485715 -1,24000 1,245714 0,497924 0,069279 0,373783 -1,12555 0,732600

Очевидно, что распределение остатков имеет некоторое отклонение от нормального закона в части эксцесса и в меньшей степени в части асимметрии (недостаточный объем выборки, малая плотность данных в центре распределения). На практике гипотезу об отсутствии As (асимметрия) и Ек (эксцесс) отвергают если и . В нашем случае соответственно 853<3 и , т.е. достаточных оснований для отклонения гипотезы нет.

Обратим внимание, что качество аппроксимации нелинейного варианта по отношению к линейному оказалась значительно выше, так как коэффициент детерминации нелинейного варианта .

2.6. Задание 6. Определение числа наблюдений в подгруппах для их различимости с учетом ошибок .

Данная задача возникает при утверждении, что средние результаты (оценки математических ожиданий ) в обозначенных двух подгруппах статистически различимы. Это можно проверить при условии их однородности данных (см. п. 2.1.) и, если объемы этих подвыборок определены с учетом ошибки второго рода при заданной ошибке первого рода (уровне значимости). В противном случае, если объемы подвыборок будут недостаточными, то вывод, полученный на доверительных интервалах средних при заданном уровне значимости , может быть ошибочным.

Определяемая величина зависит не только от «расстояния» между гипотезами , но также и от величины (чем меньше , тем больше , при заданном ).

Примечание: В дальнейшем, для удобства интерпретаций и наглядности пусть , также будем предполагать нормальность распределения средних.

Для решения данной задачи нужно обозначить – нормированное расстояние между средними, где – дисперсия для средних (согласно центральной предельной теоремы), и задать допускаемую ошибку первого рода , или , или другие значения , что соответствует доверительной вероятности Р=1- . Затем нужно определить соответствующий квантиль U, используя функцию Лапласа , табулированные значения которой, отвечают уровням и . При этом не стоит забывать, что зависит от , n и . Поэтому квантиль можно вычислить только в случае, если перечисленные выше, величины известны.

Квантиль определился бы (с учетом допущения, что ) как , так как очевидно, что , .

В частном случае (когда

при известных допущениях, упомянутых выше), имеются все данные для вычисления необходимого объема подвыборок:

, определяемые по таблице Лапласа при известных ошибках

соответственно; дисперсия (постоянная величина) ; математические ожидания (или их оценки) соответственно в группах 1 и 0 (правой и левой соответственно), которые необходимо различить.

В предположении нормальности распределения выборочных данных искомая величина ,

где -оценка дисперсии воспроизводимости для любой точки факторного пространства, оценки соответствующих математических ожиданий в первой и нулевой группах.

В нашем примере (в силу однородности дисперсии во всех точках факторного пространства) усреднённая оценка воспроизводимости равна S= .

Пусть рассматривается задача , тогда по таблице функции Лапласа соответствующие квантили =1,65 . Требуется проверить при каком объеме подвыборок n можно различить параметры , не выходя за пределы ошибки второго рода.

Целесообразно рассматривать данную задачу в тех подгруппах, где полученные результаты близко расположены в числовом пространстве, т.е. слабо различимы, по сравнению с результатами в других подгруппах.

В качестве примера, выделим любые 2 подвыборки на нелинейном участке исследуемой функции. Пусть это будут 6, 7 подвыборки (см. таблицу 1). Вычислим необходимые объемы этих подвыборок, исходя из имеющихся данных для рассматриваемой задачи: или

, т.е. для различимости результатов в этих подвыборках необходимо выполнить не менее 9 замеров, при допускаемой ошибке второго рода (в условиях нормальности распределений оценок математических ожиданий ).

В другом случае, выделим любые 2 группы на линейном участке исследуемой функции. Пусть это будут средние значения в группах 1 и 2 (см. таблицу 1), где . Тогда . Достоверность различия этих средних не вызывает сомнения, в условиях ошибке второго рода , тем более, что исходный объем выборки в этих подгруппах n=5.

В задании №6 необходимо, решить предлагаемую задачу (определение числа наблюдений в подгруппах для их различимости с учетом ошибок ) решить в двух вариантах: для нелинейного и линейного участка исследуемой зависимости исходя из конкретного варианта индивидуального задания.

Варианты заданий к контрольной работе.

Вариант 1.

4,3 7,2 6,9 5,5 4,8 0,5
7,5 7,6 7,1 5,5
5,5 8,2 8,4 8,3 7,6 6,4 4,
6,1 8,5 8,8 8,5 5,1 2,7
7,6 9,3 9,6 9,7 8,9 6,2

 

Вариант 2.

7,6 5, 2,6
7,5 9,6 10,6 9,5 6,5 3,1 0,5
8,3 10,1 10,9 10,3 8,8 6,7 3,8 0,8
8,9 10, 4 11,4 10,7 9,5 4,4 1,3
10,4 10,9 11,7 10,5 7,9 1,7

 

Вариант 3.

0,4 2,7 7,6 7,4 6,5
0,7 3,6 5,7 8,1 8,6 8,9 7,1
1,2 4,1 6,4 7,6 8,7 9,4 9,2 7,5
1,8 4,6 6,9 8,4 9,3 9,6 7,8
5,2 7,7 9,2 9,9 10,5 10,4 8,4

 

Вариант 4.

0,5 4,8 5,5 6,9 7,2 4,3
5,5 7,1 7,6 7,5
4, 6,4 7,6 8,3 8,4 8,2 5,5
2,7 5,1 8,5 8,8 8,5 6,1
6,2 8,9 9,7 9,6 9,3 7,6

 

Вариант 5.

2,6 5, 7,6
0,5 3,1 6,5 9,5 10,6 9,6 7,5
0,8 3,8 6,7 8,8 10,3 10,9 10,1 8,3
1,3 4,4 9,5 10,7 11,4 10, 4 8,9
1,7 7,9 10,5 11,7 10,9 10,4

 

Вариант 6.

6,5 7,4 7,6 2,7 0,4
7,1 8,9 8,6 8,1 5,7 3,6 0,7
7,5 9,2 9,4 8,7 7,6 6,4 4,1 1,2
7,8 9,6 9,3 8,4 6,9 4,6 1,8
8,4 10,4 10,5 9,9 9,2 7,7 5,2

 

Вариант 7.

5,5 3,8 1,1 0,2 0,4 0,5 2,5
4,9 3,1 1,5 1,2 1,5
7,4 5,5 3,7 2,4 1,7 1,6 4,5
4,5 2,9 2,5 2,5
9,1 6,9 5,2 5,5 2,8 2,9 3,5 5,8

 

Вариант 8.

2,7 0,7 1,2 1,9 3,3 5,8 9,2
3,2 1,4 1,8 1,8 2,6 4,1 6,4 9,7
3,5 2,1 2,3 2,3 3,4 4,6 10,3
2,8 3,3 2,9 5,3 7,4 10,7
,6 3,6 3,8 8,3

 

Вариант 9.

2,5 0,5 0,4 0,2 1,1 3,8 5,5
1,5 1,2 1,5 3,1 4,9
4,5 1,6 1,7 2,4 3,7 5,5 7,4
2,5 2,5 2,9 4,5
5,8 3,5 2,9 2,8 5,5 5,2 6,9 9,1

 

Вариант 10.

0,9 1,2 0,3 0,9 4,1 10,3
1,7 1,7 0,7 1,1 1,6 7,6 10,8
2,1 1,9 1,4 2,5 5,3 8,2 11,2
2,7 2,4 1,4 1,7 3,2 5,6 8,9 11,5
3.5 2,6 3,9 6,4 9,5

 

Вопросы для самоподготовки.

  1. Дедуктивное и индуктивное построение изучаемого курса «Вероятность и статистика»
  2. Классическое и статистическое определение вероятностей.
  3. Представление сложных событий с помощью операций над простыми событиями.
  4. Аксиомы сложения вероятностей. Совместные и несовместные события.
  5. Условная и безусловная вероятность события.
  6. Аксиомы умножения вероятностей. Зависимые и независимые события.
  7. Полная группа несовместных событий. Полная вероятность события и формула Бейеса.
  8. Вероятность повторных зависимых испытаний (гипергеометрическая схема).
  9. Вероятность повторных независимых испытаний (схема Бернулли).
  10. Двойное неравенство для определения наивероятнейшего числа событий.
  11. Локальная и интегральная теоремы Лапласа для независимых испытаний.
  12. Асимптотическая формула Пуассона для редких событий.
  13. Формула Пуассона в задачах статистического контроля качества. Приемочные числа.
  14. Оперативная характеристика выборочного контроля. Риски поставщиков и потребителей.
  15. Понятие случайной величины. Свойства функции распределения.
  16. Дискретные распределения случайных величин: биномиальное, гипергеометрическое.
  17. Непрерывные распределения случайных величин: равномерное, экспоненциальное.
  18. Свойства функции плотности нормального распределения (кривой Гаусса).
  19. Числовые характеристики центра распределения: мат. ожидание, среднее, мода, медиана.
  20. Числовые характеристики рассеяния: размах, дисперсия, среднеквадратичное отклонение.
  21. Числовые характеристики формы кривой распределения: асимметрия и эксцесс.
  22. Табулирование нормальной функции Гаусса и интегральной функции Лапласа.
  23. Двумерная случайная величина, нормальная функция плотности вероятности.
  24. Ковариационный момент и корреляция случайных величин.
  25. Определение функциональной, статистической и корреляционной зависимостей.
  26. Свойства линейного коэффициента парной корреляции. Коэффициент детерминации.
  27. Уравнение линейной регрессии в нормированном и натуральном масштабах.
  28. Отыскание коэффициентов регрессии методом наименьших квадратов (МНК)
  29. Многомерное распределение величин, ковариационная и корреляционная матрицы.
  30. Определение и смысл коэффициентов корреляции: парных линейного и нелинейного, частного, множественного и канонического.
  31. Точечные оценкам параметров выборки: состоятельность, несмещенность, эффективность.
  32. Закон больших чисел в формулировках Бернулли и Чебышева.
  33. Понятие о Центральной предельной теореме и ее следствие.
  34. Доверительная оценка надежности и точности выборочных результатов.
  35. Определение объема выборки для обеспечения заданной надежности и точности.
  36. Статистические гипотезы – основная (нулевая) и альтернативные. Критическая точка.
  37. Число степеней свободы.
  38. Ошибка первого рода и доверительная вероятность принятия нулевой гипотезы.
  39. Ошибка второго рода и мощность критерия отклонения проверяемой гипотезы.
  40. Взаимное влияние ошибок первого и второго родов и их зависимость от объема выборки.
  41. Проверка статистических гипотез соответствия по c2 -критерию Пирсона.
  42. Проверка статистических гипотез значимости по t-критерию Стьюдента.
  43. Проверка статистических гипотез однородности по F-критерию Фишера.
  44. Нелинейная корреляция и регрессия. Корреляционное отношение.
  45. Уравнение множественной регрессии. Проверка значимости коэффициентов регрессии.
  46. Уравнение множественной регрессии. Проверка адекватности модели.
  47. Ортогонализация планов эксперимента. Планирование регрессионных экспериментов.
  48. Поиск экстремума функции отклика методом движения по градиенту.
  49. Цель дисперсионного анализа.
  50. Однофакторный дисперсионный комплекс.

 

Список литературы.

  1. Учебники и монографии.

Краснов М.Л., Киселев А. И., Макаренко Г.И. и др. Вся высшая математика: учебник. Т.5 [Теория вероятностей, математическая статистика]. Изд. 2-е. исправл.-М.: Эдиториал УРСС, 2002.-296 с.

Бронщтейн И.Н., Семендяев К.А. Справочник для инженеров и учащихся ВУЗов. [гл.5 Теория вероятностей, математическая статистика] 13-е. изд., исправленное. - М.: Наука. Гл. ред. физ-мат. лит.1986.-544 с.

Шеффе Г. Дисперсионный анализ. М.: Наука. 1980. - 612 с.

Дрейпер Н., Смит Г. Прикладной регрессионный анализ: В 2-х кн. Кн. 1.- 1986.- 366 с.; Кн. 2.- 1987.-351 с.

Большев Л.Н., Смирнов Н.В. Таблицы математической статистики. М.: Наука. 1983.-416 с.

  1. Учебные пособия.

2.1 Венцель Е.С., Овчаров Л.А. Задачи и упражнения по теории вероятностей: учеб. пособие для студ. высших техн. учеб. заведений. 5-е изд. М.: ACADEMIA. 2004.- 440 с.

2.2 Гмурман В.Е. Руководство к решению задач по теории вероятностей и математической статистике: учеб. пособие. М.: Высшая школа. 2001.- 400 с.: ил

2.3 Горелова Г.В., Кацко И.А. Теория вероятностей, математическая статистика в примерах и задачах с применением Excel: учеб. пособие для ВУЗов. Изд. 3-е доп. и перераб.- Ростов н/д: Феникс, 2005.- 408 с.: ил.

2.4 Девятченко Л.Д. Модели фиксированных эффектов. Введение в дисперсионный анализ: учеб. Пособие.- Магнитогорск: Изд-во МГТУ им. Г.И. Носова, 2011.-127 с.

2.5 Девятченко Л.Д. Линейная корреляция. Введение в канонический анализ: учеб. пособие.- Магнитогорск: Изд-во МГТУ им. Г.И. Носова, 2002.-87 с.

2.6 Девятченко Л.Д. Линейная модель. Введение в классический регрессионный анализ: учеб. пособие.- Магнитогорск: Изд-во МГТУ им. Г.И. Носова, 2004.-128 с.

  1. Программы по статистике.

1

2

3

3.1 Боровиков В.П. STATISTICA. Искусство анализа данных на компьютере: для профессионалов. 2-е изд. Питер. 2003.-688 с.: ил.

3.2 Алексахин С.В., Балдин А.В., Криницин В.В. и др. Прикладной статистический анализ данных. Теория. Компьютерная обработка. Области применения: Учебно- практическое пособие для ВУЗов под ред. Криницина В.В. М.: Изд-во «ПРИОР». Кн.1 1998.-332 с. Кн. 2 1998.-352 с.

3.3 Наследов А.Д. SPSS 15: Профессиональный статистический анализ данных.- СПб.: Питер. 2008.-416 с.:ил.

 

Содержание.

Введение…………………………………………………3

1. Демонстрационный вариант данных ...........................6

2. Задание 1. Определение ошибки воспроизводимости эксперимента……………………………………………6

3. Задание 2 Дисперсионный анализ результатов эксперимента…………………………………………..….….6

4. Задание 3. Оценка линейной корреляции экспериментальных данных……………………………………………...……..12

5. Задание 4. Выполнение регрессионного анализа линейной по параметрам модели………………………………………………………17

6. Задание 5. Регрессионный анализ линейный по параметрам нелинейной модели……………………………………………………….20

7. Задание 6. Определение числа наблюдений в подгруппах для их различимости с учетом ошибок α и β………………………………………………………...26

8. Варианты заданий к контрольной работе……………29

9. Вопросы для самоподготовки………………………...31

10. Список литературы……………………………………34

 





sdamzavas.net - 2018 год. Все права принадлежат их авторам! В случае нарушение авторского права, обращайтесь по форме обратной связи...