Критерий согласия Пирсона

Вид работы:

Тип работы
Предмет:

Математика
Язык:

Русский
,
Формат файла:
MS Word

28,38 kb
Опубликовано:

2008-12-09

Все учебные материалы по математике

Скачать тип работы не определен Читать текст online Посмотреть все учебные материалы

Вы можете узнать стоимость помощи в написании студенческой работы.

Критерий согласия Пирсона

Федеральное агентство Российской Федерации по образованию

МОСКОВСКИЙ АВИАЦИОННЫЙ ИНСТИТУТ

(ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ)

Курсовая работа по ТВ и МС

Критерий согласия Пирсона

Выполнил:

Проверил:

Москва, 20 г
Оглавление

Теоретическая часть

стр

Исходные данные

1.Основные непрерывные распределения

2. Распределений хи-квадрат

3.Выборка

4.Понятие о точечном и интервальном оценивании. Свойства точечных оценок: несмещенность и состоятельность

5.Метод моментов. Метод максимального правдоподобия

6. Выборочные моменты

7.Проверка гипотезы о законе распределения выборки по критерию согласия К. Пирсона (χ² - хи-квадрат)

Практическая часть

Список использованной литературы

Вариант № 13

Проверка статистической гипотезы о законе распределения

Исходные данные:

набор наблюдений

-11,963

-19,197

-8,653

1,416

-16,534

0,409

-2,982

-12,845

-19,371

-16,969

-9,076

-2,590

0,527

-20,332

-5,936

-12,820

-7,841

-6,679

-20,562

-16,534

0,525

-21,010

-7,953

-10,732

-1,374

-12,326

-19,110

-16,415

-16,538

-1,626

-9,033

-6,583

0,031

-9,910

-4,721

-2,234

-2,665

-10,179

-9,175

-0,370

-3,627

0,568

-1,1395

-21,990

-5,854

1,330

-8,380

-16,095

-12,347

-4,892

-9,130

-3,684

-2,105

-15,098

-6,647

-5,758

Теоретическая часть

1.Основные непрерывные распределения

1). Равномерное распределение

СВ Х распределена равномерно на отрезке [a; b] (X~R(a; b)) , если плотность вероятности имеет вид:

m_x= (a+b)/2

D_x = (b-a)²/12 =σ_x²

σ_x=(b-a)/2· √3

2) Экспоненциальное распределение

λe^-λe, x ≥ 0

f_x(x)=

0, x < 0

1-e^-λx , x ≥ 0

F_x (x)=

0, x < 0

M[X]= ∫x f_x(x) dx = ∫x λe^-λxdx = 1/x∫te^-tdt = 1/x

m_x=1/λ

D[X]= M[X²] – (m_x)²= ∫x² λe^-λxdx- (1/x)²

D_x= 1/λ²

σ_x= √D_x= 1/x

Этим распределением описываются многие важные величины: время безотказной работы изделия, длина промежутка времени между звонками на телефонной станции, время обслуживания клиента в системе массового обслуживания. При этом параметр λ имеет следующий смысл: если х- время обслуживания клиента (x ≥ 0), то m_x=M[X] среднее время обслуживания клиента

m_x=1/λ; λ=1/m_x – ожидаемое количество обслуживания клиентов в единицу времени.

T~E(λ)

P(T₁≤ T ≤ T₂) = F_T(T₂)– F_T(T₁) = (1-exp{-λ ·T₂}) – (1-exp{-λ ·T₁}) =

= exp{-λ ·T₁} – exp{-λ ·T₂}

0 ≤ T₁ < T₂

3).Нормальное (гауссовское) распределение.

CВ Х имеет нормальное распределение с параметрами а и D>0, если ее плотность вероятности имеет следующий вид

f_x(x)=(1/√2π·D) exp{-(x-a)²/ D}

X~N(a; D)

M[X]= m_x= a

D[X]= D_x= σ_x²=D

X~N(m_x; σ_x²) σ₁σ₂

σ₂> σ₁

m₂> m₁

Функция распределения нормальной СВ имеет следующий вид:

F_x(x)= Ф((x- m_x)/ σ_x), где

Ф(z)= (1/√2π)∫exp{-x²/2}dx – интеграл вероятности или функция Лапласа

Замечание: часто вместо функции Ф(z) используется функция

Ф₀(z)= (1/√2π)∫exp{-x²/2}dx

Связь между функциями следующая:

0,5+ Ф₀(z), если z > 0

Ф(z)=

0,5– Ф₀(z), если z < 0

Функция Лапласа обладает следующими свойствами:

1) 0 ≤ Ф(z) ≤ 1

2) Ф(z) возрастает

3) Ф(z)=1, если z > 5

4) Ф(z)=0, если z < -5

Вычисление вероятности попадания гауссовской величины в отрезок

X~N(m_x; σ_x²)

F_x(x) = Ф((x- m_x)/ σ_x) = F_x(x)= Ф((x- m_x)/ √D_x)

P(α ≤ X ≤ β) = F_x(β) – F_x(α) = Ф((β - m_x)/ σ_x) – Ф((α - m_x)/ σ_x)

Замечание: пусть m_x=0, σ_x²=1, тогда Х имеет распределение

X~N(0; 1) – стандартное нормальное распределение

F_x(x) = Ф(x)

Следовательно функция Лапласа есть распределение стандартной нормальной СВ

P(α ≤ X ≤ β) = Ф(β) – Ф(α) – для X~N(0; 1)

2. Распределений хи-квадрат.

Пусть U_k, k= 1,n, - набор из n независимых нормально распределенных СВ, U_k~N(0; 1). Тогда СВ

Х_n=∑U_k² имеет распределение хи-квадрат с n степенями свободы, что обозначается как Х_n~χ²(n).

Число χ²(n) находится по таблице распределения χ². Это число зависит от степеней свободы n и от уровней значимости α.

Стандартный α=0,05

3.Выборка

Х₁, Х₂, …, Х_n независимые одинаково распределенные СВ.

Такая последовательность называется выборкой объема n.

Пусть в результате конкретного опыта СВ Х приняла какое-то значение

Х₁→х₁, Х₂→х₂, …, Х_n→х_n

Х_k – реализация СВ Х_k в k-м опыте k=1+n

{ x₁, x₂, …, x_n} – реализация выборки объема n

По условию СВ Х₁, Х₂, …, Х_n, которые называются элементами выборки одинаково распределены, т.е. функция распределения F_x(x) = F_x(x) для всех k, i = 1,…,n

F_x(x) = F₁(x) = F(x) – функция распределения любого элемента выборки

Выборка соответствует закону распределения F(x)

f(x)= dF(x)/dx – плотность вероятности, которой соответствует выборка.

M[X_k] = M[X₁] =∫x f(x)dx = a =const

D[X_k] = D[X₁] =∫x² f(x)dx - a² = σ² = const

(a; σ² ) – параметры выборки

Оценивание математического ожидания и дисперсии по выборке

{ x₁, x₂, …, x_n} – реализация выборки.

Оценкой мат. ожидания а по этой выборке называется величина:

X_n = 1/n ∑x_k – выборочное среднее

Реализацией выборки называется неслучайный вектор z_n = col(x₁,…, x_n), компоненты которого являются реализации соответствующих элементов выборки X_i, i=1,n.

Реализацию выборки можно так же рассматривать как последовательность

x₁,…, x_n из n реализаций одной и той же СВ Х, полученных в серии из n независимых одинаковых опытов, проводимых в одинаковых условиях.

Оценкой параметра называется его приближенное значение, построенное по выборке наблюдений.

Т.о. Х_n= а_n – оценка для а

Замечание: можно показать, что оценка Х_n обладает следующим свойством:

1) Х_n→a при n → ∞ (состоятельность оценки Х_n)

2) M[X_n]=a (несмещенность оценки)

Выборочной дисперсией называется величина

S_n²= (1/(n-1)) ∑(x_k – X_n)²

Выборочная дисперсия является оценкой для дисперсии

S_n²=σ²

σ_n = √ S_n² = S_n – оценка среднего квадратичного отклонения.

Выборочная (эмпирическая) функция распределения.

Упорядочить элементы выборки по возрастанию

М_n(A) – случайное число появлений события A в серии из n испытаний

W_n(A) = М_n(A)/n – частота события А в серии из n испытаний

Рассмотрим выборку Z_n, порожденную СВ Х с функцией распределения F_x(x). Определим для каждого х Є R¹ событие A_х= {X ≤ x}, для каждого P(A_х) = F_x(x). Тогда М_n(A_х) – случайное число элементов выборки Z_n, не превосходящих х

Определение. Частота М_n(A_х) события A_х как функция х Є R¹ , называется выборочной (эмпирической) функцией распределения СВ Х и обозначается

F_n(x) = М_n(A_х).

Для каждого фиксированного х Є R¹ СВ F_n(x) является статистикой, реализациями которой являются числа 0, 1/n, 2/n,…,n/n, и при этом

P{F_n(x) = k/n}= P{М_n(A_х)=k}, k= 1,n.

Любая реализация F_n(x) выборочной функции F_n(x) является ступенчатой функцией. В точках х⁽¹⁾<…< х⁽ⁿ⁾, где х⁽^k⁾ – реализация порядковой статистики X⁽^k⁾, функция F_n(x) имеет скачки величиной 1/n и является непрерывной справа.

Свойства.

1) M [F_n(x)]= F(x), для любого х Є R¹ и любого n ≥ 1

2) Sup| F_n(x)- F(x)| → 0 при n → ∞

3) d_n(x) = M[(F_n(x)- F(x))²] = F(x)(1-F(x))/n ≤ 1/4n

4) (F_n(x)- F(x))/√d_n(x) →U при n → ∞, где СВ U имеет распределение

N(0; 1)

Гистограмма

1) Построить вариационный ряд выборки, т.е. элементы выборки упорядочить по возрастанию {x₁,…, x_n} → {x₁,…, x_n}

х⁽¹⁾<…< х⁽ⁿ⁾

Промежуток Δ= [x₁, x_n] называется размахом выборки.

Все наблюдения принадлежат этому промежутку.

2)Группировки выборки.

Для этого размах выборки делится на k промежутков одинаковой длины.

|Δ_i| - длина промежутка Δ_i

|Δ₁|=|Δ₂|=…=|Δ_n|=|Δ|/k

n_m – число наблюдений попавших в интервал

Группировкой выборки называется набор следующего вида.

(Δ_m; n_m) , m=1,…,k – статистический ряд

2) Построение гистограммы

Для каждого промежутка Δ_m находится частота

P_m*= n_m/n

Над каждым промежутком Δ_m строится прямоугольник, основанием которого является этот промежуток, а высота равна

h_m= P_m*/ |Δ_m|

Гистограммой называется кусочно-постоянная функция, образованная верхними основаниями построенных прямоугольников.

Гистограмма является оценкой плотности вероятности, построенной по выборке.

4.Понятие о точечном и интервальном оценивании. Свойства точечных оценок: несмещенность и состоятельность.

Оценкой параметра называется его приближенное значение, построенное по выборке наблюдений (θ)

Точечной (выборкой) оценкой неизвестного параметра распределения

θ Є Θ называется произвольная статистика Θ(Z_n), построенная по выборке Z_n и принимающая значение в множестве Θ.

Свойства:

1) Оценка θ(Z_n) параметра θ называется состоятельной, если она сходится по вероятности к θ, т.е. θ(Z_n) → θ при n → ∞ для любого θ Є Θ.

2) Оценка θ(Z_n) параметра θ называется несмещенной, если ее МО равно θ, т.е. M[θ(Z_n)] = θ для любого θ Є Θ.

5.Метод моментов. Метод максимального правдоподобия.

Оценкой максимального правдоподобия (МП-оценкой) параметра θ Є Θ называется статистика θ(z_n), максимизирующая для каждой реализации Z_n

функцию правдоподобия, т.е.

θ(z_n) = arg max L(z_n, θ)

Способ построения МП-оценки называется методом максимального правдоподобия.

Пусть v_i, i=1,s, - выборочные начальные моменты. Рассмотрим систему уравнений

v_i (θ)= v_i, i=1,s

и предположим, что ее можно решить относительно параметров θ₁,…, θ_s, т.е. найти функции θ_i=φ_i(v₁,…, v_s), i=1,s

Решением полученной системы уравнений θ_i=φ_i(v₁,…, v_s), i=1,s, называется оценкой параметра θ, найденной по методу моментов, или ММ-оценкой.

6. Выборочные моменты

Пусть имеется выборка Z_n=col(x₁,.., x_n) которая порождена СВ Х с функцией распределения F_x(x).

Для выборки Z_n объема n выборочными начальными и центральными моментами порядка r СВ Х называются следующие СВ:

v_r(n) = 1/n∑(x_k)^r, r =1,2,….;

μ_r(n) = 1/n∑(x_k- v_r(n))^r, r =2,3,….;

Выборочным средним и выборочной дисперсией СВ Х называются соответственно:

m_X(n)= v₁(n) = 1/n∑x_k

d_X(n)= μ₂(n) = 1/n∑(x_k- m_X(n))²

7.Проверка гипотезы о законе распределения выборки по критерию согласия К. Пирсона (χ² - хи-квадрат)

СВ Х имеет распределение χ² с r степенями свободы. Если ее можно представить в следующем виде Х = ∑Х_i² , где Х_i~ N(0; 1)

Х= χ²(r)

Плотность вероятности этой СВ имеет следующий график:

Критическая и доверительная область

Х= χ²(r)

Критической областью значений СВ Х называется промежуток на вещественной оси, в которой СВ Х попадает с некоторой малой вероятностью α.

Это число α называется уровнем значимости критической области.

S – критическая область

P(XЄS) = α<<1

S=R’- S – доверительная область

P(XЄS) = 1-α – близка к 1

Для задания критической области S распределения Пирсона поступают следующим образом:

P(X ≥ χ_кр²(r)) = α

S = [χ_кр²(r); +∞)

P(XЄS) = α – по построению

S = [0, χ_кр²(r)) – доверительная область

Замечание: число χ²(r) находится по таблице распределения χ². Это число зависит от степеней свободы r и от уровней значимости α.

Стандартный α=0,05

Алгоритм критерия Пирсона

1) Формулировка гипотезы

Н₀: имеющаяся выборка соответствует закону распределения F(x)

2) Производится группировка выборки и вычисление частот {P_m*}, m=1÷k

3) Для каждого подынтервала Δ_m вычисляется вероятность попадания реализации выборки в этот промежуток на основе принятой гипотезы

Δ_m=[z_m; z_m₊₁]

P_m= F(z_m₊₁) – F(z_m); m=1÷k

4) Вычисляется статистика критерия Пирсона

g_n=(n∑(P_m+ P_m*)²/ P_m)+n(P₀+ P_m+1),

где P₀+ P_m₊₁=1-∑ P_m, n-объем выборки

Теорема. Если проверяемая гипотеза Н₀- верна, то СВ g_n – называемая статистикой критерия Пирсона имеет распределение

g_n ~ χ²(r)

r=k+n₁- n₂-1

k – число интервалов

n₁ – число дополнительных интервалов

n₂ – число неизвестных параметров распределения F(x), которые были заменены их оценкой.

5) Принятие решения.

Строится критическая область S

S = [χ_кр²(r); +∞)

Если g_n Є S, то гипотеза отвергается

Если g_n Є S, то гипотеза принимается, как не противоречащая данным

Практическая часть

Вариант № 13

Исходные данные:

набор наблюдений

-11,963

-19,197

-8,653

1,416

-16,534

0,409

-2,982

-12,845

-19,371

-16,969

-9,076

-2,590

0,527

-20,332

-5,936

-12,820

-7,841

-6,679

-16,534

0,525

-21,010

-7,953

-10,732

-1,374

-12,326

-19,110

-16,415

-16,538

-1,626

-9,033

-6,583

0,031

-9,910

-4,721

-2,234

-2,665

-10,179

-9,175

-0,370

-3,627

0,568

-1,1395

-21,990

-5,854

1,330

-8,380

-16,095

-12,347

-4,892

-9,130

-3,684

-2,105

-15,098

-6,647

-5,758

1.Найдем оценку математического ожидания и выборочную дисперсию.

M[X]= X= 1/n · ΣX_k= 1/56 · [-11,963+(-19,371) +…+ (-5,758)]= -8,661

D[X]= S²= 1/n · Σ(X_k– X)²= 1/56 · [(-11,963 – (-8,661))²+ (-19,371 – (-8,661))² +…+

+ (-5,758 – (-8,661))²= 46,075

M[X]= -8,661

D[X]= 46,075

2. Построение графика выборочной функции распределения и гистограммы.

1). Построим вариационный ряд выборки

-21,990

-16,969

-12,845

-9,910

-7,953

-5,758

-2,590

0,031

-21,010

-16,538

-12,820

-9,175

-7,841

-4,892

-2,234

0,409

-20,562

-16,534

-12,347

-9,130

-6,679

-4,721

-2,105

0,525

-20,332

-16,534

-12,326

-9,076

-6,647

-3,684

-1,626

0,527

-19,371

-16,415

-11,963

-9,033

-6,582

-3,627

-1,395

0,568

-19,197

-16,095

-10,732

-8,653

-5,936

-2,982

-1,374

1,330

-19,110

-15,098

-10,179

-8,380

-5,854

-2,665

-0,370

1,416

2). Вычислим выборочные функции распределения

F(x) = m_x/n,

m_x – количество наблюдений меньших или равных числа x

F(-21,99)=1/56=0,02

F(-21,01)=2/50=0,04

……………………….

F(1,33)=49/50=0,98

F(1,416)=50/50=1

3.Построение гистограммы.

1).m – номер интервала , m=1,…,k

k – число интервалов

n_m – число наблюдений попавших в каждый интервал

P_m* = n_m/n – частота

|∆_m| - длина каждого интервала

h_m = P_m*/|∆_m| - высота столбца

2). Группировка выборки

K=8

|∆₁|=|∆₂|=…=|∆_k|=2,926

Статистический ряд (∆_m; n_m), m=1,…,k

([-21,99; -19,065]; 7), m= 1

((-19,065; -16,139]; 5), m= 2

((-16,139; -13,213]; 2), m= 3

((-13,213; -10,287]; 6), m= 4

((-10,287; -7,361]; 10), m= 5

((-7,361; -4,436]; 8), m= 6

((-4,436; -1,51]; 8), m= 7

((-1,51; 1,416];10), m= 8

3).Найдем частоты для каждого интервала

P₁*= 0,125

P₂*= 0,09

P₃*= 0,036

P₄*= 0,107

P₅*= 0,179

P₆*= 0,143

P₇*= 0,143

P₈*= 0,179

4).Найдем высоты столбцов гистограммы

h₁= 0,043

h₂= 0,03

h₃= 0,012

h₄= 0,037

h₅= 0,061

h₆= 0,049

h₇= 0,049

h₈= 0,061

5). H₀ : имеющаяся выборка соответствует закону распределения R[a; b].

4. 1). Находим

a= -21,99

b= 1,416

2). Найдем вероятности попадания СВ в интервалы

P(XЄ∆₁)= P(XЄ∆₂)= ...= P(XЄ∆_k)= 0,125

P(XЄ∆₀)= (X Є (-_∞; -21,99))= 0

P(XЄ∆_k₊₁)= (X Є (1,416; +_∞))= 0

3). Статистика критерия Пирсона

g_n=(nΣ(P_m- P_m*)²/ P_m) + n(P₀+ P_k₊₁)

g₅₆= 7,143

5. Принятие решения

χ_α²(r) – квантиль распределение хи-квадрат уровня α с числом степеней свободы r.

r = k+ n₁– n₂– 1

k – количество интервалов

n₁ – число дополнительных интервалов

n₂ – число неизвестных параметров закона распределения, для которых были сделаны оценки

r = 5

χ_0,95²(5)= 11,07 (по таблице)

Доверительная область [0; 11,07]

7,143 Є [0; 11,07] – гипотеза H₀ принимается с вероятностью 0,95

χ_0,9²(5)= 9,24 (по таблице)

Доверительная область [0; 9,24]

7,143 Є [0; 9,24] – гипотеза H₀ принимается с вероятностью 0,9

6. Найдем интервал, в который СВ X попадает с вероятностью 0,99

P(∆₁≤ X ≤ ∆₂)= 0,99

∆₁и ∆₂ Є [-21,99; 1,416]

(∆₁- (-21,99))/(1,416-(-21,99)) – (∆₂- (-21,99))/(1,416-(-21,99))=0,99

∆₁- ∆₂=23,172

если ∆₁= -21,99, тогда ∆₂= 1,182

СВ Х попадает в [-21,99; 1,182] с вероятностью 0,99

Список использованной литературы

1. Конспект лекций по курсу ТВиМС

2. Теория вероятностей и математическая статистика. А.И. Кибзун и др. М. Физматлит 2005

Критерий согласия Пирсона

Критерий согласия Пирсона

Похожие работы на - Критерий согласия Пирсона