Главная Обратная связь

Дисциплины:






Регрессионный анализ. Регрессионный анализ проводится после того, как определен вид уравнения регрессии и найдены значения параметров модели



Регрессионный анализ проводится после того, как определен вид уравнения регрессии и найдены значения параметров модели. Этот анализ состоит в проверке значимости всех параметров модели и устанавливается адекватность уравнения.

Проверка адекватности математической модели.Проверка гипотезы об адекватности регрессионной модели осуществляется путем сравнения разброса опытных данных относительно уравнения регрессии с величиной случайной ошибки эксперимента. Если разброс того же порядка, что и ошибка опыта, то его можно объяснить случайными ошибками: уравнение адекватно. Если разброс значительно больше, то он, очевидно, не сводится к ошибке опыта, а связан с неадекватностью уравнения. Уравнение нужно усложнить.

Для количественной оценки вводится мера разброса данных – дисперсия. Мерой разброса опытных данных относительно модели является остаточная дисперсия , равная отношению минимальной суммы квадратов отклонений Sк числу степеней свободы.Числом степеней свободы называют разность между числом экспериментов и числом неизвестных параметров, оцениваемых на основании этих экспериментов. Окончательно, выражение для остаточной дисперсии

, (14)

где – число степеней свободы для расчета остаточной дисперсии; n – число экспериментов; – число оцениваемых параметров.

Для оценки величины случайной ошибки эксперимента рассчитывают дисперсию воспроизводимости . Для этого проводят одну или несколько серий параллельных опытов; в каждой такой серии значения входных переменных от опыта к опыту не меняются. В этом случае отклонения относят к среднему значению измеряемой величины. А число степеней свободы будет на единицу меньше числа параллельных опытов , т.е. .Итак

, (15)

где - среднее значение у всех результатов параллельных опытов

. (16)

Для проверки адекватности рассчитывают дисперсионное отношение F

. (17)

Если F больше некоторого критического значения, то уравнение неадекватно, если меньше, то адекватно. Критическое значение зависит от двух чисел степеней свободы: и . определяется по таблице F – распределения для заданных и .

Проверим на адекватность полученную модель . Сведем в табл. 2 значения опытных значений , расчетных по модели значений , отклонения опытных значений от расчетных.

 

Таблица 2

Опытные, расчетные значенияy и их отклонения

12,32 13,43 14,45 15,65 16,87 17,45 17,56 18,32 17,34 12,36 12,73 13,47 13,70 15,52 16,29 17,77 17,85 18,03 17,66 12,73 -0,41 -0,04 0,75 0,13 0,58 0,32 -0,29 0,29 -0,32 -0,37 0,169 0,001 0,558 0,018 0,331 0,103 0,085 0,085 0,101 0,138 17,32 17,21 16,43 17,50 14,23 11,65 11,24 10,57 9,80 8,54      

 



Сумма квадратов отклонений расчетных значений от опытных составила значение 1,59. В соответствии с формулой (14), =0,265.

В представленных опытных данных имеются два параллельных опыта под номерами 1 и 10. Из параллельных опытов находим среднее значение 12,34, а далее по формуле (15) находим =0,0008. Отсюда

F= =331,7.

Числа степеней свободы: , . По таблице , (при a=0.05). Уравнение неадекватно.

Существует иные способы проверки адекватности регрессионной модели. Одним из способов проверки адекватности модели является визуальный анализ разброса опытных данных относительно значений , рассчитанных по модели. Эти отклонения или остатки , в случае, если исследователь подобрал «близкую» к опытным данным кривую, имеют нормальное распределение, как и случайная ошибка или помехи, с математическим ожиданием равным нулю и постоянной дисперсией. Если указанные допущения выполняются, то на графике не будет наблюдаться заметной зависимости между остаточными и регрессионными значениями. Геометрически это означает, что остатки будут представлять собой симметричное относительно нулевого математического ожидания, случайное и равномерное распределение точек, независящее от изменения переменных и (рис. 1а).

а Б
в г

Рис. Графики остатков

 

Появление заметной закономерности в распределении остатков является индикатором определенной неадекватности модели опытным данным. Если разброс увеличивается с ростом или (рис.1.б), то это указывает на отсутствие постоянства дисперсии. В этом случае уравнение модели следует изменить. Так, например, график, показывающий линейный рост математического ожидания (рис.1в), дает основание для введения в модель дополнительной переменной. В модель следует добавить линейный или квадратичный член, а график вида рис.1.г указывает на необходимость добавления тригонометрической (периодической) функции.

Об адекватности математической модели можно судить по коэффициенту детерминации , где R – множественный коэффициент корреляции. Коэффициент детерминации показывает долю дисперсии, объясняемую полученной моделью. Более точно - это единица минус доля необъясненной дисперсии (дисперсии случайной ошибки модели). Чем ближе значение коэффициента к 1, тем более модель соответствует опытным данным. Если , то от модели следует отказаться. Если , то модель может использоваться для прогнозов.

Очевидно, что из двух моделей лучше та, у которой коэффициент детерминации больше.

При этом следует учитывать, что высокие значения коэффициента детерминации не гарантируют высокого качества модели, поэтому этот коэффициент может рассматриваться скорее как дополнительный аргумент в пользу качества модели, а не как основной.

Поскольку коэффициент детерминации является выборочным, так как определен для выборки опытных данных, существует ошибка коэффициента детерминации. В этом случае выдвигаются две гипотезы: первая нулевая гипотеза о том, что значение коэффициента детерминации равно нулю, т.е. модель неадекватна опытным данным, альтернативной является гипотеза о том, что не равен нулю. Проверка гипотез осуществляется на основания F-критерия. Если , то гипотезу о том, что следует отклонить и считать, что .

Замечание. Об адекватности математической модели нельзя судить только, опираясь на анализ коэффициента детерминации. Важно сравнить разброс опытных данных и значений, получаемых по модели с ошибкой эксперимента, проведя параллельные опыты.

Упрощение модели. Так как параметры модели вычисляются по выборочным опытным данным, то они являются только оценками истинных (но неизвестных) параметров. Проверка значимости параметров уравнения регрессии производится по критерию Стьюдента: , где - среднеквадратичное отклонение j-го параметра.

Если больше критического значения для выбранного уровня значимости , то параметр значимо отличается от нуля.

Незначимые параметры исключаются из уравнения регрессии. Оставшиеся параметры пересчитываются заново.

В программном пакете MS Excel для проведения процедуры проверки гипотез вместо нахождения критических значений и используется р-значение. Если р-значение меньше выбранного уровня значимости , то нулевую гипотезу следует отклонить, в противном случае нет оснований отклонять гипотезу .





sdamzavas.net - 2018 год. Все права принадлежат их авторам! В случае нарушение авторского права, обращайтесь по форме обратной связи...