Кластерный анализ
Задание
1. По нижеприведенным данным выполнить кластерный анализ
предприятий, объединив их в два кластера.
2. Для каждого кластера построить линейное уравнение регрессии,
устанавливающее зависимость объема реализации от указанных факторов.
. Рассчитать коэффициенты эластичности по разработанным
регрессионным моделям и определить влияние факторов на объем реализации по двум
группам предприятий.
где: Y - объем реализации (млн. руб.);- время (годы);- расходы на рекламу
(тыс. руб.);- цена товара (руб.);- средняя цена товара у конкурентов (руб.);-
индекс потребительских расходов (%).
Решение
. Проводим кластерный анализ строк 1-16 заданной таблицы с помощью пакета
программ Statgraphics Plus согласно методике.
По табличным данным строится дендрограмма, объединяющая предприятия в два
кластера, где по оси абсцисс отмечены цифрами номера объектов (компаний): 1-16,
а по оси ординат расстояние между факторами в Евклидовом пространстве.
Таким образом, получены два кластера, которые скомпонованы по критерию
"ближайшего соседа":
кластер №1: 1-4 предприятия;
кластер №2: 5-16 предприятия.
Матрица расстояний между классифицируемыми объектами:
. Строим линейные уравнения регрессии, описывающие зависимость Y- объем реализации от факторов: Х1,
Х2, Х3, Х4, Х5 для каждого кластера в отдельности.
а). В 1-ом кластере исходные данные и матрица корреляций по 4 входящим в
него предприятиям:
Так как между факторами Х2, Х3, X4 и Х5 присутствует мультиколлинеарность, то для построения регрессионной
модели выбираем фактор Х5, наиболее тесно связанный с результативным признаком Y.
Уравнение
регрессии для 1-го кластера: .
Значения
случайных ошибок параметров уравнения регрессии записаны в колонке Standard
Error: mb0=458,14;
mb1=4,54539.
Они
показывают, какое значение данной характеристики сформировалось под влиянием
случайных факторов. Эти значения использованы при расчетном определении t-критерия Стьюдента,
приведенные в колонке T Statistic:
tb0=-2,21864;
tb1=2,54757.
Табличное
значение t-критерия
Стьюдента для уровня значимости α=0,05 и числа степеней свободы f=4-1-1=2 равно
tт=4,3027.
Так
как в рассматриваемом примере расчетные значения t-критерия Стьюдента (по модулю) меньше табличного
значения tт=4,3027,
то полученные коэффициенты не являются статистически значимыми.
Оценку
надежности уравнения регрессии в целом и коэффициента детерминации дает расчетное
значение F - критерия Фишера, равное Fр=6,49.
Сравнение расчетного значения критерия с табличным позволяет проверить гипотезу
об адекватности модели и значимости коэффициента детерминации. Табличное
значение F - критерия Фишера для уровня значимости α=0,05 и числа степеней свободы f1=1,
f2=2
равно Fт=18,51.
Расчетное значение F - критерия Фишера меньше табличного значения Fр=6,49<Fт=18,51.
Это указывает на то, что уравнение и коэффициент детерминации R-squared
не являются статистически значимыми.
Направление
связи между фактором и результатом прямое (по знаку коэффициента). Коэффициент
детерминации показывает, что изменение результата на 76,44%
зависит от рассматриваемого фактора, на другие причины приходится 23,56%.
3. а) Найдем коэффициент эластичности для уравнения регрессии 1-го
кластера.
.
При
увеличении фактора Х5 на 1% результат Y увеличивается на 7,754%.
2б). Во 2-ом кластере исходные данные и матрица корреляций по 12 входящим
в него предприятиям:
Так как между факторами Х1 и Х5 присутствует мультиколлинеарность, то для
построения регрессионной модели выбираем фактор: Х1, наиболее тесно связанный с
результативным признаком Y.
Так как между факторами Х2 и Х3 присутствует мультиколлинеарность, то для
построения регрессионной модели выбираем фактор: Х3, наиболее тесно связанный с
результативным признаком Y.
Последовательно исключая незначимые фактор Х1 и Х3 с помощью пакета
программ Statgraphics Plus, строим линейную регрессионную
модель Y=f(X4) с
единственным фактором Х4.
Уравнение
регрессии для 2-го кластера: .
Они
показывают, какое значение данной характеристики сформировалось под влиянием
случайных факторов. Эти значения использованы при расчетном определении t-критерия Стьюдента,
приведенные в колонке T Statistic:
tb0=0,926896;
tb1=0,953664.
Табличное
значение t-критерия
Стьюдента для уровня значимости α=0,05 и числа степеней свободы f=12-1-1=10 равно
tт=3,1825.
Так
как в рассматриваемом примере расчетные значения t-критерия Стьюдента (по модулю) меньше табличного
значения tт=2,2281,
то полученные коэффициенты не являются статистически значимыми.
Оценку
надежности уравнения регрессии в целом и коэффициента детерминации дает
расчетное значение F - критерия Фишера, равное Fр=0,91.
Сравнение расчетного значения критерия с табличным позволяет проверить гипотезу
об адекватности модели и значимости коэффициента детерминации. Табличное
значение F - критерия Фишера для уровня значимости α=0,05 и числа степеней свободы f1=1,
f2=10
равно Fт=4,96.
Расчетное значение F - критерия Фишера меньше табличного значения Fр=0,91<Fт=4,96.
Это указывает на то, что уравнение и коэффициент детерминации R-squared
не являются статистически значимыми.
Направление
связи между фактором и результатом прямое (по знаку коэффициента). Коэффициент
детерминации показывает, что изменение результата на 8,34% зависит
от рассматриваемого фактора, на другие причины приходится 91,66%.
3б) Найдем частные коэффициенты эластичности для уравнения регрессии 2-го
кластера.
кластерный регрессия эластичность детерминация
.
При
увеличении фактора Х4 на 1% результат Y увеличивается на 0,506%.