THE BELL

Есть те, кто прочитали эту новость раньше вас.
Подпишитесь, чтобы получать статьи свежими.
Email
Имя
Фамилия
Как вы хотите читать The Bell
Без спама

Выборочные характеристики. Состоятельные,

В начале курса были рассмотрены такие понятия как классическая и статистическая вероятности.

Если классическая вероятность - это теоретическая характеристика, которую можно определить, не прибегая к опыту, то статистическая вероятность может быть определена только по результатам эксперимента. При большем числе опытов величина W(A) может служить оценкой для вероятности P(A). Достаточно вспомнить классические опыты Бюффона и Пирсона. Подобные аналогии можно продолжить и далее. Например, для теоретической характеристики М(x) таковой аналогией будет - среднее арифметическое:

= i f i / n ,

для дисперсии D(x) эмпирическим аналогом будет статистическая дисперсия:

S 2 (x) = (x i - ) 2 f i / n .

Эмпирические характеристики , S 2 (x) , W(A) являются оценками параметров М(x) , D(x) , P(A) . В тех случаях, когда эмпирические характеристики определяются на основе большого числа опытов, использование их в качестве теоретических параметров не приведет к существенным ошибкам в исследовании, однако в тех случаях, когда число опытов ограничено, ошибка при замене будет существенна. Поэтому к эмпирическим характеристикам, являющимися оценками теоретических параметров предъявляются 3 требования:

оценки должны быть состоятельными, несмещенными и эффективными.

Оценка называется состоятельной, если вероятность отклонения ее от оцениваемого параметра на величину меньшую как угодно малого положительного числа стремится к единице при неограниченном увеличении числа наблюдений n , т.е.

P(| - | < ) = 1

где - некоторый параметр генеральной совокупности,

/ - оценка этого параметра. Большинство оценок различных чис­ловых параметров отвечают этим требованиям. Однако одного этого требования бывает недостаточно. Необходимо, чтобы они еще были и несмещенными.

Оценка называется несмещенной, если математическое ожидание этой оценки равно оцениваемому параметру:

М ( / ) = .

Примером состоятельной и несмещенной оценки систематического ожидания является средняя арифметическая:

М () = .

Примером состоятельной и смещенной оценки является

дисперсия:

М (S 2 (x) ) = [ (n – 1)/ n] D(x).

Поэтому, чтобы получить несмещенную оценку теоретической дисперсии D(x) надо эмпирическую дисперсию S 2 (x) умножить на n/(n – 1) , т.е.

S 2 (x) = (x i - ) 2 f i / n n /(n – 1) = (x i - ) 2 f i /(n – 1) .

Практически эту поправку вносят при вычислении оценки дисперсии в тех случаях, когда n < 30 .

Состоятельных несмещенных оценок может быть несколько. Например, для оценки центра рассеивания нормального распределения наряду со средней арифметической , может быть взята медиана . Медиана так же, как и является несмещенной состоятельной оценкой центра группирования. Из двух состоятельных несмещенных оценок для одного и того же параметра естественно отдать пред­почтение той, у которой дисперсия меньше.


Такая оценка, у которой дисперсия будет наименьшей относительно оцениваемого параметра, называется эффективной . Например, из двух оценок центра рассеивания нормального распределения М(x) эффективной оценкой является , а не , так как дисперсия меньше дисперсии . Сравнительная эффективность этих оценок при большой выборке приближенно равна: D() / D= 2/ = 0,6366.

Практически это означает, что центр распределения генеральной совокупности (назовем его 0) определяется по с той же точностью при n наблюдениях, как и при 0,6366 n наблюдениях по средней арифметической .

4.4. Свойства выборочных средних и дисперсий.

1. Если объем выборки достаточно велик, то на основе закона больших чисел с вероятностью близкой к единице, можно утверждать, что средняя арифметическая и дисперсия S 2 будут как угодно мало отличаться от М(x) и D(x ), т.е.

М(x) , S 2 (x) D(x ), и дисперсией D() , каков бы не был объем выборок n, лишь бы число выборок было достаточно велико.

4. Когда дисперсия D(x ), генеральной совокупности неизвестна, тогда для больших значений n с большей вероятностью малой ошибки можно дисперсию выборочных средних вычислить приближенно по равенству:

D() = S 2 (x) / n,

где S 2 (x) = (x i - ) 2 f i / n - дисперсия большой выборки.

Какая оценка параметра называется состоятельной, несмещенной, эффективной?

1) Состоятельная оценка

Состоятельная оценка в математической статистике -- это точечная оценка, сходящаяся по вероятности к оцениваемому параметру.

Определения

· Пусть -- выборка из распределения, зависящего от параметра. Тогда оценка называется состоятельной, если

по вероятности при.

В противном случае оценка называется несостоятельной.

· Оценка называется сильно состоятельной, если

почти наверное при.

Свойства

· Из свойств сходимостей случайных величин имеем, что сильно состоятельная оценка всегда состоятельна. Обратное, вообще говоря, неверно.

  • · Выборочное среднее является состоятельной оценкой математического ожидания X i .
  • · Периодограмма является несмещённой, но несостоятельной оценкой спектральной плотности.
  • 2) Несмещённая оценка

Несмещённая оценка в математической статистике -- это точечная оценка, математическое ожидание которой равно оцениваемому параметру.

Определение

Пусть -- выборка из распределения, зависящего от параметра. Тогда оценка называется несмещённой, если

В противном случае оценка называется смещённой, и случайная величина называется её смещением.

· Выборочное среднее

является несмещённой оценкой математического ожидания X i , так как если

· Пусть случайные величины X i имеют конечную дисперсию DX i = ? 2 . Построим оценки

Выборочная дисперсия,

Исправленная выборочная дисперсия.

Тогда является смещённой, а S 2 несмещённой оценками параметра? 2 .

3) Эффективная оценка

Текущая версия (не проверялась)

Определение

Оценка параметра называется эффективной оценкой в классе, если для любой другой оценки выполняется неравенство для любого.

Особую роль в математической статистике играют несмещенные оценки. Если несмещенная оценка является эффективной оценкой в классе несмещенных, то такую статистику принято называть просто эффективной.

Эффективная оценка в классе, где -- некоторая функция, существует и единственна с точностью до значений на множестве, вероятность попасть в которое равна нулю ().

Оценка параметра называется эффективной, если для неё неравенство Крамера -- Рао обращается в равенство. Таким образом, неравенство может быть использовано для доказательства того, что дисперсия данной оценки наименьшая из возможных, то есть что данная оценка в некотором смысле лучше всех остальных.

В математической статистике неравенством Крамемра -- Рамо (в честь Гаральда Крамера и К.Р. Рао) называется неравенство, которое при некоторых условиях на статистическую модель даёт нижнюю границу для дисперсии оценки неизвестного параметра, выражая её через информацию Фишера.

Несмещенность оценок

Состоятельность оценок

Это свойство хороших оценок сближаться с оцениваемыми величинами в каком-то смысле и тем самым увеличивать точность с ростом объема выборки.

Определение 3. Оценка называется состоятельной оценкой, если она стремится по вероятности к с ростом n: . Это означает, что для любого выполняется соотношение.

Пример 2. Выборочное среднее является состоятельной оценкой математического ожидания m. Это непосредственно следует из теоремы Чебышева теории вероятностей (см 5-й вопрос J)

Имеет место следующий критерий состоятельности оценок:

Теорема 1. Пусть и, где. Тогда - состоятельная оценка.

Свойство состоятельности характеризует асимптотическое поведение оценки при неограниченном увеличении объема выборки и не налагает никаких ограничений на поведение оценки при конечных размерах выборки. Можно сузить класс возможных оценок, если потребовать, чтобы математическое ожидание оценки равнялось бы оцениваемому параметру для всех n.

Определение 4. Оценка называется несмещенной оценкой параметра, если. В противном случае оценка называется смещенной, а разность называется смещением оценки.

Пример 3. Выборочное среднее является состоятельной оценкой математического ожидания m=Mx всегда, когда последнее существует:

Пример 4. Выборочная дисперсия является смещенной оценкой генеральной дисперсии с отрицательным смещением.

Покажем это:

и, так как, то. Далее вспоминаем, что выборочное среднее – несмещенная оценка (т.е.) расписываем выражение для дисперсии. И в итоге получаем: . Отсюда следует, что несмещенной оценкой генеральной дисперсии является статистика (данный пример – самый любимый дополнительный вопрос по этой теме)

Хотя требования состоятельности и несмещенности значительно сужают множество возможных оценок, могут существовать несколько состоятельных и несмещенных оценок одного параметра. Нужно как-то осуществить выбор среди этих оценок. Если определить класс оценок и выбрать меру (критерий) близости оценки к оцениваемому параметру, то оценка, минимизирующая заданную меру близости, называется оптимальной в этом классе. Естественной мерой близости оценки является её дисперсия. В этом случае лучше несмещенная и состоятельная оценка с меньшей дисперсией, так как она в среднем будет меньше отклоняться от оцениваемого параметра, чем оценка с большей дисперсией. Будем предполагать, что дисперсии всех рассматриваемых оценок конечны.

Определение 5. Эффективной оценкой параметра для рассматриваемого распределения называется оценка класса Т состоятельных и несмещенных оценок, имеющих минимальную дисперсию.

Определение 6. Из двух оценок и одного параметра, одного распределения, одного класса Т состоятельных и несмещенных оценок более эффективной считается та, дисперсия которой меньше. Пусть, например, . Тогда отношение называется относительной эффективностью, а отношение - эффективностью оценки.

Определение 7. Оценка параметра для рассматриваемого распределения называется асимптотически эффективной в классе Т состоятельных оценок, если существует предел.

) задач математической статистики .

Предположим, что имеется параметрическое семейство распределений вероятностей (для простоты будем рассматривать распределение случайных величин и случай одного параметра). Здесь - числовой параметр, значение которого неизвестно. Требуется оценить его по имеющейся выборке значений, порожденной данным распределением.

Различают два основных типа оценок: точечные оценки и доверительные интервалы .

Точечное оценивание

Точечное оценивание - это вид статистического оценивания, при котором значение неизвестного параметра приближается отдельным числом. То есть необходимо указать функцию от выборки (статистику)

,

значение которой будет рассматриваться в качестве приближения к неизвестному истинному значению .

К общим методам построения точечных оценок параметров относятся: метод максимального правдоподобия , метод моментов , метод квантилей .

Ниже приводятся некоторые свойства, которыми могут обладать или не обладать точечные оценки.

Состоятельность

Одно из самых очевидных требований к точечной оценке заключается в том, чтобы можно было ожидать достаточно хорошего приближения к истинному значению параметра при достаточно больших значениях объема выборки . Это означает, что оценка должна сходиться к истинному значению при . Это свойство оценки и называется состоятельностью . Поскольку речь идет о случайных величинах, для которых имеются разные виды сходимости, то и данное свойство может быть точно сформулировано по-разному:

Когда употребляют просто термин состоятельность , то обычно имеется в виду слабая состоятельность, т.е. сходимость по вероятности.

Условие состоятельности является практически обязательным для всех используемых на практике оценок. Несостоятельные оценки используются крайне редко.

Несмещенность и асимптотическая несмещенность

Оценка параметра называется несмещенной , если ее математическое ожидание равно истинному значению оцениваемого параметра:

.

Более слабым условием является асимптотическая несмещенность , которая означает, что математическое ожидание оценки сходится к истинному значению параметра с ростом объема выборки:

.

Несмещенность является рекомендуемым свойством оценок. Однако не следует слишком переоценивать его значимость. Чаще всего несмещенные оценки параметров существуют и тогда стараются рассматривать только их. Однако могут быть такие статистические задачи, в которых несмещенных оценок не существует. Наиболее известным примером является следующий: рассмотрим распределение Пуассона с параметром и поставим задачу оценки параметра . Можно доказать, что для этой задачи не существует несмещенной оценки.

Сравнение оценок и эффективность

Для сравнения между собой различных оценок одного и того же параметра применяют следующий метод: выбирают некоторую функцию риска , которая измеряет отклонение оценки от истинного значения параметра, и лучшей считают ту, для которой эта функция принимает меньшее значение.

Чаще всего в качестве функции риска рассматривают математическое ожидание квадрата отклонения оценки от истинного значения

Для несмещенных оценок это есть просто дисперсия .

Существует нижняя граница на данную функцию риска, называемая неравенство Крамера-Рао .

(Несмещенные) оценки, для которых достигается эта нижняя граница (т.е. имеющие минимально возможную дисперсию), называются эффективными . Однако существование эффективной оценки есть довольно сильное требование на задачу, которое имеет место далеко не всегда.

Более слабым является условие асимптотической эффективности , которое означает, что отношение дисперсии несмещенной оценки к нижней границе Крамера-Рао стремится к единице при .

Заметим, что при достаточно широких предположениях относительно исследуемого распределения, метод максимального правдоподобия дает асимптотически эффективную оценку параметра, а если существует эффективная оценка - тогда он дает эффективную оценку.

Достаточные статистики

Статистика назвается достаточной для параметра , если условное распределение выборки при условии того, что , не зависит от параметра для всех .

Важность понятия достаточной статистики обуславливается следующим утверждением . Если - достаточная статистика, а - несмещенная оценка параметра , тогда условное математическое ожидание является также несмещенной оценкой параметра , причем ее дисперсия меньше или равна дисперсии исходной оценки .

Напомним, что условное математическое ожидание есть случайная величина, являющаяся функцией от . Таким образом, в классе несмещенных оценок достаточно рассматривать только такие, которые являются функциями от достаточной статистики (при условии, что такая существует для данной задачи).

(Несмещенная) эффективная оценка параметра всегда является достаточной статистикой.

Можно сказать, что достаточная статистика содержит в себе всю информацию об оцениваемом параметре, которая содержится в выборке .

  • Зависимые и независимые события. Произведение событий. Понятие условной вероятности. Теорема умножения вероятнос­тей (с доказательством).
  • Формулы полной вероятности и Байеса (с доказательством). Примеры.
  • Повторные независимые испытания. Формула Бернулли (с выводом). Примеры.
  • Локальная теорема Муавра-Лапласа, условия ее примени­мости. Свойства функции Дх). Пример.
  • Асимптотическая формула Пуассона и условия ее примени­мости. Пример.
  • Интегральная теорема Муавра-Лапласа и условия ее применимости. Функция Лапласа ф(х) и ее свойства. Пример.
  • Следствия из интегральной теоремы Муавра-Лапласа (с вы­водом). Примеры.
  • Математическое ожидание дискретной случайной величины и его свойства (с выводом). Примеры.
  • Дисперсия дискретной случайной величины и ее свойства (с вы­водом). Примеры.
  • Функция распределения случайной величины, ее определе­ние, свойства и график.
  • Непрерывная случайная величина (нов). Вероятность отдельно взятого значения нсв. Математическое ожидание и дис­персия нсв.
  • Плотность вероятности непрерывной случайной величины, ее определение, свойства и график.
  • Случайная величина, распределенная по биномиальному закону, ее математическое ожидание и дисперсия. Закон распреде­ления Пуассона.
  • Математическое ожидание и дисперсия числа и частости на­ступлений события в п повторных независимых испытаниях (с выводом).
  • Определение нормального закона распределения. Теоретико-вероятностный смысл его параметров. Нормальная кривая и зависимость ее положения и формы от параметров.
  • Функция распределения нормально распределенной случай­ной величины и ее выражение через функцию Лапласа.
  • Формулы для определения вероятности: а) попадания нормально распределенной случайной величины в заданный интер­вал; б) ее отклонения от математического ожидания. Правило «трехсигм».
  • Понятие двумерной (/7-мерной) случайной величины. При­меры. Таблица ее распределения. Одномерные распределения ее составляющих. Условные распределения и их нахождение по таб­лице распределения.
  • Ковариация и коэффициент корреляции случайных величин. Связь между екоррелированностью и независимостью случай­ных величин.
  • Понятие о двумерном нормальном законе распределения. Условные математические ожидания и дисперсии.
  • Неравенство Маркова (лемма Чебышева) (с выводом). При­мер.
  • Неравенство Чебышева (с выводом) и его частные случаидля случайной величины, распределенной по биномиальному за­кону, и для частости события.
  • Теорема Чебышева (с доказательством), ее значение и след­ствие. Пример.
  • Закон больших чисел. Теорема Бернулли (с доказательством) и ее значение. Пример.
  • Неравенство Чебышева для средней арифметической случай­ных величин (с выводом).
  • Центральная предельная теорема. Понятие о теореме Ляпу­нова и ее значение. Пример.
  • Вариационный ряд, его разновидности. Средняя арифмети­ческая и дисперсия ряда. Упрощенный способ их расчета.
  • Понятие об оценке параметров генеральной совокупности. Свойства оценок: несмещенность, состоятельность, эффективность.
  • Оценка генеральной доли по собственно-случайной выбор­ке. Несмещенность и состоятельность выборочной доли.
  • Оценка генеральной средней по собственно-случайной вы­борке. Несмещенность и состоятельность выборочной средней.
  • Оценка генеральной дисперсии по собственно-случайной выборке. Смещенность и состоятельность выборочной дисперсии (без вывода). Исправленная выборочная дисперсия.
  • Понятие об интервальном оценивании. Доверительная ве­роятность и доверительный интервал. Предельная ошибка выбор­ки. Ошибки репрезентативности выборки (случайные и систематические).
  • Формула доверительной вероятности при оценке генеральной средней. Средняя квадратическая ошибка повторной и бес­повторной выборок и построение доверительного интервала для генеральной средней.
  • Определение необходимого объема повторной и бесповтор­ной выборок при оценке генеральной средней и доли.
  • Статистическая гипотеза и статистический критерий. Ошибки 1-го и 2-го рода. Уровень значимости и мощность критерия. Принцип практической уверенности.
  • Построение теоретического закона распределения по опыт­ным данным. Понятие о критериях согласия.
  • Критерий согласия х2-Пирсона и схема его применения.
  • Функциональная, статистическая и корреляционная зависимости. Различия между ними. Основные задачи теории корреляции.
  • Линейная парная регрессия. Система нормальных уравне­ний для определения параметров прямых регрессии. Выборочная ковариация. Формулы для расчета коэффициентов регрессии.
  • Упрощенный способ:
  • Оценка тесноты связи. Коэффициент корреляции (выбороч­ный), его свойства и оценка достоверности.
    1. Понятие об оценке параметров генеральной совокупности. Свойства оценок: несмещенность, состоятельность, эффективность.

    Сформулируем задачу оценки параметров в общем виде . Пусть распределение признака Х - генеральной совокупности - задается функцией вер-тей (для дискретной СВ Х) или плотностью вер-ти
    (для непрерывной СВ Х), к-ая содержит неизвестный параметр. Напр, это параметр λ в распределении Пуассона или параметры а и
    для нормального закона распределения и т.д.

    Для вычисления параметра исследовать все элементы генеральной совокупности не представляется возможным. Поэтому о параметрепытаются судить по выборке, состоящей из значений (вариантов)
    . Эти значения можно рассматривать как частные значения (реализации) n независимых случайных величин
    каждая из к-ых имеет тот же закон распределения, что и сама СВ Х.

    Определение . Оценкой параметраназывают всякую функцию результатов наблюдений над СВ Х (иначе - статистику), с помощью к-ой судят о значении параметра:

    .

    Поскольку
    - случайные величины, то и оценка(в отличие от оцениваемого параметра- величины неслучайной, детерминированной) является случайной величиной, зависящей от закона распределения СВ Х и числа n.

    О качестве оценки следует судить не по индивидуальным ее значениям, а лишь по распределению ее значений в большой сети испытаний, т.е. по выборочному распределению оценки.

    Если значения оценки концентрируются около истинного значения параметра, т.е. основная часть массы выборочного распределения оценки сосредоточена в малой окрестности оцениваемого параметра, то с большой вер-тью можно считать, что оценкаотличается от параметралишь на малую величину. Поэтому, чтобы значениебыло близко к, надо, очевидно, потребовать, чтобы рассеяние случайной величиныотносительно, выражаемое, например, матем-ким ожиданием квадрата отклонения оценки от оцениваемого параметра
    , было по возможности меньшим. Таково основное условие, к-му должна удовлетворять «наилучшая» оценка.

    Свойства оценок.

    Определение . Оценка параметраназываетсянесмещенной , если ее мат-кое ожидание равно оцениваемому параметру, т.е.
    .

    в противном случае оценка называется смещенной .

    Если это равенство не выполняется, то оценка , полученная по разным выборкам, будет в среднем либо завышать значение(если
    , либо занижать его (если
    ). Требование несмещенности гарантирует отсутствие систематических ошибок при оценивании.

    Если при конечном объеме выборки n
    , т.е. смещение оценки
    , но
    , то такая оценканазываетсяасимптотически несмещенной .

    Определение . Оценка параметраназываетсясостоятельной , если она удовлетворяет закону больших чисел, т.е. сходится по вер-ти к оцениваемому параметру:

    , или .

    В случае использования состоятельных оценок оправдывается увеличение объема выборки, т.к. при этом становятся маловероятными значительные ошибки при оценивании. Поэтому практический смысл имеют только состоятельные оценки. Если оценка состоятельна, то практически достоверно, что при достаточно большом n
    .

    Если оценка параметраявляется несмещенной, а ее дисперсия
    при n → ∞, то оценкаявляется и состоятельной. Это непосредственно вытекает из неравенства Чебышева:

    .

    Определение . Несмещенная оценка параметра сназываетсяэффективной , если она имеет наименьшую дисперсию среди всех возможных несмещенных оценок параметра , вычисленных по выборкам одного и того же объема n.

    Т.к. для не смещенной оценки
    есть ее дисперсия, то эф-ть являетсярешающим свойством , определяющим качество оценки.

    Эффективность оценки определяют отношением: .

    где и - соот-но дисперсии эффективной и данной оценок. Чем ближе е к 1, тем эффективнее оценка. Если е → 1 при n → ∞, то такая оценка называется асuмптотически эффективной.

    "

    THE BELL

    Есть те, кто прочитали эту новость раньше вас.
    Подпишитесь, чтобы получать статьи свежими.
    Email
    Имя
    Фамилия
    Как вы хотите читать The Bell
    Без спама