Ряд распределения частот относительных частот. Дискретный статистический ряд

Важнейшим этапом исследования социально-экономических явлений и процессов является систематизация первичных данных и получение на этой основе сводной характеристики всего объекта при помощи обобщающих показателей, что достигается путем сводки и группировки первичного статистического материала.

Статистическая сводка - это комплекс последовательных операций по обобщению конкретных единичных фактов, образующих совокупность, для выявления типичных черт и закономерностей, присущих изучаемому явлению в целом. Проведение статистической сводки включает следующие этапы :

  • выбор группировочного признака;
  • определение порядка формирования групп;
  • разработка системы статистических показателей для характеристики групп и объекта в целом;
  • разработка макетов статистических таблиц для представления результатов сводки.

Статистической группировкой называется расчленение единиц изучаемой совокупности на однородные группы по определенным существенным для них признакам. Группировки являются важнейшим статистическим методом обобщения статистических данных, основой для правильного исчисления статистических показателей.

Различают следующие виды группировок: типологические, структурные, аналитические. Все эти группировки объединяет то, что единицы объекта разделены на группы по какому-либо признаку.

Группировочным признаком называется признак, по которому проводится разбиение единиц совокупности на отдельные группы. От правильного выбора группировочного признака зависят выводы статистического исследования. В качестве основания группировки необходимо использовать существенные, теоретически обоснованные признаки (количественные или качественные).

Количественные признаки группировки имеют числовое выражение (объем торгов, возраст человека, доход семьи и т. д.), а качественные признаки группировки отражают состояние единицы совокупности (пол, семейное положение, отраслевая принадлежность предприятия, его форма собственности и т. д.).

После того, как определено основание группировки следует решить вопрос о количестве групп, на которые надо разбить исследуемую совокупность. Число групп зависит от задач исследования и вида показателя, положенного в основание группировки, объема совокупности, степени вариации признака.

Например, группировка предприятий по формам собственности учитывает муниципальную, федеральную и собственность субъектов федерации. Если группировка производится по количественному признаку, то тогда необходимо обратить особое внимание на число единиц исследуемого объекта и степень колеблемости группировочного признака.

Когда определено число групп, то следует определить интервалы группировки. Интервал - это значения варьирующего признака, лежащие в определенных границах. Каждый интервал имеет свою величину, верхнюю и нижнюю границы или хотя бы одну из них.

Нижней границей интервала называется наименьшее значение признака в интервале, а верхней границей - наибольшее значение признака в интервале. Величина интервала представляет собой разность между верхней и нижней границами.

Интервалы группировки в зависимости от их величины бывают: равные и неравные. Если вариация признака проявляется в сравнительно узких границах и распределение носит равномерный характер, то строят группировку с равными интервалами. Величина равного интервала определяется по следующей формуле :

где Хmax, Хmin - максимальное и минимальное значения признака в совокупности; n - число групп.

Простейшая группировка, в которой каждая выделенная группа характеризуется одним показателем представляет собой ряд распределения.

Статистический ряд распределения - это упорядоченное распределение единиц совокупности на группы по определенному признаку. В зависимости от признака, положенного в основу образования ряда распределения, различают атрибутивные и вариационные ряды распределения.

Атрибутивными называют ряды распределения, построенные по качественным признакам, то есть признакам, не имеющим числового выражения (распределение по видам труда, по полу, по профессии и т.д.). Атрибутивные ряды распределения характеризуют состав совокупности по тем или иным существенным признакам. Взятые за несколько периодов, эти данные позволяют исследовать изменение структуры.

Вариационными рядами называют ряды распределения, построенные по количественному признаку. Любой вариационный ряд состоит из двух элементов: вариантов и частот. Вариантами называются отдельные значения признака, которые он принимает в вариационном ряду, то есть конкретное значение варьирующего признака.

Частотами называются численности отдельных вариант или каждой группы вариационного ряда, то есть это числа, которые показывают, как часто встречаются те или иные варианты в ряду распределения. Сумма всех частот определяет численность всей совокупности, ее объем. Частостями называются частоты, выраженные в долях единицы или в процентах к итогу. Соответственно сумма частостей равна 1 или 100%.

В зависимости от характера вариации признака различают три формы вариационного ряда: ранжированный ряд, дискретный ряд и интервальный ряд.

Ранжированный вариационный ряд - это распределение отдельных единиц совокупности в порядке возрастания или убывания исследуемого признака. Ранжирование позволяет легко разделить количественные данные по группам, сразу обнаружить наименьшее и наибольшее значения признака, выделить значения, которые чаще всего повторяются.

Дискретный вариационный ряд характеризует распределение единиц совокупности по дискретному признаку, принимающему только целые значения. Например, тарифный разряд, количество детей в семье, число работников на предприятии и др.

Если признак имеет непрерывное изменение, которые в определенных границах могут принимать любые значения («от - до»), то для этого признака нужно строить интервальный вариационный ряд . Например, размер дохода, стаж работы, стоимость основных фондов предприятия и др.

Примеры решения задач по теме «Статистическая сводка и группировка»

Задача 1 . Имеется информация о количестве книг, полученных студентами по абонементу за прошедший учебный год.

Построить ранжированный и дискретный вариационные ряды распределения, обозначив элементы ряда.

Решение

Данная совокупность представляет собой множество вариантов количества получаемых студентами книг. Подсчитаем число таких вариантов и упорядочим в виде вариационного ранжированного и вариационного дискретного рядов распределения.

Задача 2 . Имеются данные о стоимости основных фондов у 50 предприятий, тыс. руб.

Построить ряд распределения, выделив 5 групп предприятий (с равными интервалами).

Решение

Для решения выберем наибольшее и наименьшее значения стоимости основных фондов предприятий. Это 30,0 и 10,2 тыс. руб.

Найдем размер интервала: h = (30,0-10,2):5= 3,96 тыс. руб.

Тогда в первую группу будут входить предприятия, размер основных фондов которых составляет от 10,2 тыс. руб. до 10,2+3,96=14,16 тыс. руб. Таких предприятий будет 9. Во вторую группу войдут предприятия, размер основных фондов которых составит от 14,16 тыс. руб. до 14,16+3,96=18,12 тыс. руб. Таких предприятий будет 16. Аналогично найдем число предприятий, входящих в третью, четвертую и пятую группы.

Полученный ряд распределения поместим в таблицу.

Задача 3 . По ряду предприятий легкой промышленности получены следующие данные:

Произведите группировку предприятий по числу рабочих, образуя 6 групп с равными интервалами. Подсчитайте по каждой группе:

1. число предприятий
2. число рабочих
3. объем произведенной продукции за год
4. среднюю фактическую выработку одного рабочего
5. объем основных средств
6. средний размер основных средств одного предприятия
7. среднюю величину произведенной продукции одним предприятием

Результаты расчета оформите в таблицы. Сделайте выводы.

Решение

Для решения выберем наибольшее и наименьшее значения среднесписочного числа рабочих на предприятии. Это 43 и 256.

Найдем размер интервала: h = (256-43):6 = 35,5

Тогда в первую группу будут входить предприятия, среднесписочное число рабочих на которых составляет от 43 до 43+35,5=78,5 человек. Таких предприятий будет 5. Во вторую группу войдут предприятия, среднесписочное число рабочих на которых составит от 78,5 до 78,5+35,5=114 человек. Таких предприятий будет 12. Аналогично найдем число предприятий, входящих в третью, четвертую, пятую и шестую группы.

Полученный ряд распределения поместим в таблицу и вычислим необходимые показатели по каждой группе:

Вывод : Как видно из таблицы, вторая группа предприятий является самой многочисленной. В нее входят 12 предприятий. Самыми малочисленными являются пятая и шестая группы (по два предприятия). Это самые крупные предприятия (по числу рабочих).

Поскольку вторая группа самая многочисленная, объем произведенной продукции за год предприятиями этой группы и объем основных средств значительно выше других. Вместе с тем средняя фактическая выработка одного рабочего на предприятиях этой группы наибольшей не является. Здесь лидируют предприятия четвертой группы. На эту группу приходится и довольно большой объем основных средств.

В заключении отметим, что средний размер основных средств и средняя величина произведенной продукции одного предприятия прямо пропорциональны размерам предприятия (по числу рабочих).

Цель: научиться составлять статистические распределения выборок, строить полигоны, гистограммы, строить эмпирические функции распределения.

Математическая статистика – это раздел прикладной математики, посвящённый методам сбора, группировки и анализа статистических сведений, полученных в результате наблюдений или экспериментов.

Генеральной совокупностью называют множество объектов, однородных относительно некоторого признака.

Выборочной совокупностью (выборкой) называется совокупность случайно отобранных объектов.

Повторной называют выборку, при которой отобранный объект (перед отбором следующего) возвращается в генеральную совокупность.

Бесповторной называют выборку, при которой отобранный объект в генеральную совокупность не возвращается.

Число объектов совокупности называется её объёмом.

Выборка называется репрезентативной , если каждый объект выборки отобран случайно из генеральной совокупности, и если все объекты имеют одинаковую вероятность попасть в выборку.

Численное значение количественного признака называется вариантой .

Статистическим распределением выборки называют перечень вариант и соответствующих им частот или относительных частот .

Вариационным рядом называется ранжированный в порядке возрастания (или убывания) ряд вариант с соответствующими им частотами.

Вариационный ряд называется дискретным , если любые его варианты отличаются на постоянную величину, и – интервальным , если варианты могут отличаться одна от другой на сколь угодно малую величину.

Дискретный статистический ряд задается таблицей, в которой указываются варианты, частоты или относительные частоты их встречаемости. Графическое изображение дискретного статистического ряда называетсяполигоном частот (относительных частот). Это ломаная, в которой концы отрезков имеют координаты или , .

Пример . Закон распределения дискретного статистического рядя и полигон частот.

Интервальный статистический ряд для случайных непрерывных величин и для случайных дискретных величин при больших объемах выборок. Интервальный ряд представляет собой таблицу, в которой указаны частичные интервалы, плотности частот или плотности относительных частот. Графическое изображение интервального статистического ряда называетсягистограммой. Представляет собой ступенчатую фигуру из прямоугольников с основаниями, равными интервалам значений признака, и высотами, равными частотам интервалов.

Пример . Закон распределения интервального статистического ряда и гистограмма.

(55;60) (60;65) (65;70) (70;75) (75;80) (80;85) (85;90)

Алгоритм построения интервального ряда:

Пусть дана выборка с объёмом .

1) находим размах выборки ,

2) определяем число классов разбиения по формулам:

(формула Стерджесса для )

(формула Брукса для ),

3) находим величину классового интервала ,

4) границы частичных интервалов находим по формулам:

, , , .



5) подсчитываем частоты попадания вариант в каждый интервал.

Кумулятивная кривая (кумулята) – кривая накопленных частот. Для дискретного ряда кумулята представляет собой ломаную, соединяющую точки или , . Для интервального вариационного ряда ломаная начинается с точки, абсцисса которой равна началу первого интервала, а ордината накопленной частоте, равной 0. Другие точки соответствуют концам интервалов.

Эмпирической функцией распределения называется относительная частота того, что признак примет значение, меньшее заданного , то есть .

Для дискретного вариационного ряда эмпирическая функция представляет собой разрывную ступенчатую функцию, для интервального – совпадает с кумулятой.

Основные числовые характеристики вариационного ряда :

Среднее арифметическое вариационного ряда , где - варианты дискретного ряда или середины интервалов интервального, - соответствующие им частоты.

Основные свойства средней арифметической :

6) , где - общая средняя, - групповая средняя -той группы с объёмом , - число групп.

Дисперсия вариационного ряда .

Основные свойства дисперсии :

2) ,

3) ,

4) ,

5) , где - общая дисперсия, - групповая дисперсия, - средняя арифметическая групповых дисперсий, - межгрупповая дисперсия.

6) - дисперсия среднего значения.

Среднее квадратическое отклонение .

Коэффициент вариации .

Медиана вариационного ряда , где - начало медианного интервала, - его длина, - объём выборки, - сумма частот интервалов, предшествующих медианному, - частота медианного интервала. Для дискретного ряда медиана - значение признака, приходящееся на середину ранжированного ряда наблюдений.

Мода , где - начало модального интервала, - его длина, - частота модального интервала, и - частоты соответственно предшествующего и последующего за модальным интервалов. Для дискретного ряда мода - варианта, которой соответствует наибольшая частота.

Начальный момент -го порядка .

Центральный момент -го порядка .

Коэффициент асимметрии .

Эксцесс .

Контрольные вопросы:

1. Генеральная и выборочная совокупности, их объём.

2. Статистическое распределение выборки. Вариационный ряд.

3. Дискретный статистический ряд. Полигон частот.

4. Интервальный статистический ряд. Гистограмма.

5. Алгоритм построения интервального статистического ряда.

6. Эмпирическая функция распределения. Кумулятивная кривая.

7. Среднее арифметическое вариационного ряда и его свойства.

8. Дисперсия и её свойства. СКО.

Контрольные задания:

1.Как известно, почерк человека, в том числе наклон букв, тесно связан с его характером. Низкий наклон (30 – 40 град.) свидетельствует о вспыльчивости и возбудимости человека, излишней прямоте и торопливости в поступках; наклон 40 – 50 град. характеризует гармоническое развитие натуры; наклон 50 – 90 град. свидетельствует о самообладании, узком диапазоне увлечений.

Среди студентов института выборочно был исследован почерк 50 человек. Оказалось, что почерк у 30% присутствующих имеет низкий наклон, у 50% - наклон 40 – 50 и у 20% - наклон 50 – 90 град.

Найти распределение частот, относительных частот, построить полигон и гистограмму.

2. Дано распределение признака , полученное по наблюдениям. Необходимо:

4. Изучался рост (см) мужчин возраста 25 лет. По случайной выборке объема 35: 175, 167, 168, 169, 168, 170, 174, 173, 177, 172, 174, 167, 173, 172, 171, 171, 170, 167, 174, 177, 171, 172, 173, 169, 171, 173, 173, 168, 173, 172, 166, 164, 168, 172, 174, найти статистический интервальный ряд распределения и построить гистограмму частот.

Задания для домашней работы:

Дано распределение признака , полученное по наблюдениям. Необходимо:

1) построить (полигон) гистограмму, кумуляту и эмпирическую функцию распределения;

2) найти: среднюю арифметическую, моду и медиану, дисперсию, СКО и коэффициент вариации, начальные и центральные моменты -го порядка.

5-10 10-15 15-20 20-25 25-30 30-35 35-40

Тема №12 «Нахождение точечных и интервальных оценок параметров распределения»

Цель: научиться определять точечные и интервальные статистические оценки генеральных параметров нормального распределения по выборочным данным генеральной совокупности.

Краткие теоретические сведения:

Статистической оценкой (статистикой) неизвестного параметра q распределения генеральной совокупности называют функцию результатов наблюдений q* .

Статистическая оценка q* является случайной величиной.

Оценка, определяемая одним числом, зависящим от выборочных данных, называется точечной .

Требования, предъявляемые к точечным статистическим оценкам:

1) состоятельность (стремление по вероятности к оцениваемому параметру при ),

2) несмещённость (отсутствие систематических ошибок при любом объёме выборки (q*) = q ),

3) эффективность (среди всех возможных оценок эффективная оценка обладает наименьшей дисперсией).

Точечные оценки генеральных параметров нормально распределённой совокупности:

Интервальной оценкой называют оценку, которая определяется двумя числами – концами интервала.

Интервальные оценки позволяют установить точность и надёжность точечной оценки.

Точностью оценки называется отклонение по модулю q* от q.

Предельной ошибкой выборки называется максимально допустимое по модулю отклонение q* от q .

Надёжностью (доверительной вероятностью) оценки q* называют вероятность , с которой осуществляется неравенство |q - q*|< . Обычно = 0,95; 0,99; 0,999…

Вероятность того, что неизвестный параметр не попадёт в интервал |q - q*|< , равна - уровню значимости .

Доверительным называется интервал (q*- ;q*+ ), который покрывает неизвестный параметр с заданной надёжностью .

Интервальные оценки параметров нормального распределения:

1) Доверительный интервал для математического ожидания при известной дисперсии .

, где находят из таблицы функции Лапласа, учитывая .

2) Доверительный интервал для математического ожидания при неизвестной дисперсии .

Рис.:
, где находят из таблицы коэффициентов Стьюдента.

3) Доверительный интервал для дисперсии при известном .

< < , где , - находят при с числом степеней свободы .

4) Доверительный интервал для дисперсии при неизвестном .

, где - находят из таблицы распределения при 1- , - находят при с числом степеней свободы .

Пример 1 . Вычислить несмещённые оценки параметров генеральной совокупности по выборочным данным: 64 63 71 68 73 71 74 73 70 75 68 67 73.

,

,

.

Пример 2 . Найти доверительные интервалы для математического ожидания, дисперсии и стандартного отклонения при уровне значимости 0,05, если из генеральной совокупности сделана выборка, используемая в примере 1.

Решение. Используем данные из примера 1 для нахождения доверительного интервала для математического ожидания при неизвестной дисперсии:

,

.

Используем данные из примера 1 для нахождения доверительного интервала для дисперсии при неизвестном математическом ожидании:

,

где = ()= =4,4 и =

,

Контрольные вопросы:

1. Статистическая оценка неизвестного параметра теоретического распределения.

2. Точечная оценка.

3. Требования к точечным оценкам: несмещённость, состоятельность, эффективность.

4. Генеральная и выборочная средняя.

5. Генеральная и выборочная дисперсии.

6. Поправочный коэффициент. Исправленная выборочная дисперсия.

7. Генеральное среднеквадратическое отклонение и его точечная оценка.

8. Оценка дисперсии и СКО выборочной средней.

9. Интервальная оценка неизвестного параметра генеральной совокупности.

10. Доверительная вероятность и уровень значимости.

11. Доверительный интервал.

12. Правило нахождения доверительного интервала.

13. Доверительный интервал для математического ожидания при известной дисперсии .

14. Доверительный интервал для математического ожидания при неизвестной дисперсии .

15. Доверительный интервал для дисперсии при известном .

16. Доверительный интервал для дисперсии при неизвестном .

Контрольные задания:

1. При проверке успеваемости факультета были выборочно протестированы 50 обучаемых, распределившихся по результатам тестирования следующим образом ( - балл, - количество обучаемых с данным баллом):

Найти выборочную среднюю дистанции общения.

3. Найти разброс среднего балла в задании 1 тестирования 50 студентов.

4. Найти оценку разброса скорости чтения, распределение, которой представлено в таблице, предварительно определив относительную частоту средней скорости чтения.

5. Найти несмещённые оценки генеральной средней, дисперсии и среднеквадратического отклонения генеральной совокупности по выборке объема 12, описывающей продолжительность в секундах физической нагрузки до развития приступа стенокардии: 289, 208, 259, 243, 232, 210, 251, 246, 224, 239, 220, 211.

6. Имеется выборка объема – это значения систолического давления у мужчин в начальной стадии шока: 127, 124, 155, 129, 77, 147, 65, 109, 145, 141. Определить дисперсию и среднеквадратическое отклонение выборочной средней.

7. По схеме бесповторной выборки из 400 испытуемых в опытах Францена и Оффенлоха с применением вызванных потенциалов отобраны 100 человек и проведены замеры латентных периодов. Результаты испытаний приведены в таблице:

Задано среднее квадратическое отклонение . Найти:

а) вероятность того, что средний латентный период всех 400 человек отличается от среднего периода в выборке не более чем на 0,31 мс (по абсолютной величине),

б) границы, в которых с вероятностью заключено среднее значение латентного периода,

в) объём выборки, для которой доверительные границы с предельной ошибкой имели бы место с доверительной вероятностью .

8. Распределение ежедневных визитов Карлсона к Малышу в течение месяца показано в таблице:

Определить границы, в которых с вероятностью заключено среднее количество визитов.

9. Случайная величина имеет нормальное распределение с известным средним квадратическим отклонением =3. Найти доверительные интервалы для оценки неизвестного математического ожидания а по выборочным средним =24,5, если объём выборки и задана надёжность оценки .

10. Количественный признак генеральной совокупности распределён нормально. По выборке объёма найдены выборочная средняя =20,2 и исправленное среднее квадратическое отклонение . Оценить неизвестное математическое ожидание при помощи доверительного интервала с надёжностью 0,95.

11. Для 9 претендентов на должность руководителя была проведена оценка профессионального показателя , характеризующего способность руководить людьми. Считая показатель распределённым по нормальному закону со средним квадратическим отклонением усл. ед., определить с надёжностью доверительный интервал для истинного среднего квадратического отклонения показателя .

Задания для домашней работы:

1. Найти оценки генеральных средней, дисперсии и среднего квадратического отклонения, если совокупность задана таблицей распределения:

Оценить с надежностью 0,95 математическое ожидание нормально распределённого признака генеральной совокупности с помощью доверительного интервала.

4. Найти доверительные интервалы для математического ожидания, дисперсии и среднего квадратического отклонения при доверительной вероятности 0,95, если из генеральной совокупности сделана выборка:

67 70 69 68 74 72 66 66 74 69 72 78 67

Тема №13 «Проверка статистических гипотез о равенстве дисперсий и математических ожиданий»

Цель: научиться проверять статистические гипотезы о равенстве дисперсий и математических ожиданий нормальных генеральных совокупностей.

Краткие теоретические сведения:

Статистической называют гипотезу о виде неизвестного распределения, или о параметрах известных распределений.

Нулевой (основной) называют выдвинутую гипотезу .

Конкурирующей (альтернативной) называют гипотезу , которая противоречит нулевой.

Ошибка первого рода состоит в том, что будет отвергнута правильная гипотеза.

Ошибка второго рода состоит в том, что будет принята неправильная гипотеза.

Вероятность совершить ошибку второго рода – уровень значимости .

Статистическим критерием называют случайную величину , которая служит для проверки нулевой гипотезы.

Наблюдаемым значением называют значение критерия, вычисленное по выборкам.

Критической областью называют совокупность значений критерия, при которой нулевую гипотезу отвергают.

Область принятия гипотезы – совокупность значений критерия, при котором гипотезу принимают.

Если принадлежит критической области – гипотезу отвергают, если принадлежит области принятия гипотезы – гипотезу принимают.

Критическими точками называют точки, отделяющие критическую область от области принятия гипотезы.

Критические точки ищут, исходя из требования, что при условии справедливости нулевой гипотезы, вероятность того, что критерий попадет в критическую область, была равна принятому уровню значимости.

Для каждого критерия имеются соответствующие таблицы, по которым находят критическую точку, удовлетворяющую этому требованию.

Когда найдена, вычисляют по данным выборок и, если > (правосторонняя критическая область), < (левосторонняя), < < , < (двусторонняя), то отвергается.

Сравнение двух дисперсий нормальных генеральных совокупностей:

Пусть и распространены нормально. По независимым выборкам с объемами, соответственно равными и , извлеченным из этих совокупностей, найдены исправленные выборочные дисперсии и . Требуется по исправленным дисперсиям при заданном уровне значимости проверить нулевую гипотезу .

1) выдвигаем конкурирующую гипотезу (),

2) находим ,

3) по таблице критических точек Фишера –Снедекора находим (), где , и - объём выборки, которой соответствует , - ,

4) если , то принимаем нулевую гипотезу, в противном случае – альтернативную.

Что такое группировка статистических данных, и как она связана с рядами распределения, было рассмотрено этой лекции, там же можно узнать, о том что такое дискретный и вариационный ряд распределения.

Ряды распределения одна из разновидностей статистических рядов (кроме них в статистике используются ряды динамики), используются для анализа данных о явлениях общественной жизни. Построение вариационных рядов вполне посильная задача для каждого. Однако есть правила, которые необходимо помнить.

Как построить дискретный вариационный ряд распределения

Пример 1. Имеются данные о количестве детей в 20 обследованных семьях. Построить дискретный вариационный ряд распределения семей по числу детей .

0 1 2 3 1
2 1 2 1 0
4 3 2 1 1
1 0 1 0 2

Решение:

  1. Начнем с макета таблицы, в которую затем мы внесем данные. Так как ряды распределения имеют два элемента, то таблица состоять будет из двух колонок. Первая колонка это всегда варианта – то, что мы изучаем – ее название берем из задания (конец предложения с заданием в условиях) — по числу детей – значит наша варианта это число детей.

Вторая колонка это частота – как часто встречается наша варианта в исследуемом явление – название колонки так же берем из задания — распределения семей – значит наша частота это число семей с соответствующим количеством детей.

  1. Теперь из исходных данных выберем те значения, которые встречаются хотя бы один раз. В нашем случае это

И расставим эти данные в первой колонке нашей таблицы в логическом порядке, в данном случае возрастающем от 0 до 4. Получаем

И в заключение подсчитаем, сколько же раз встречается каждое значение варианты.

0 1 2 3 1

2 1 2 1 0

4 3 2 1 1

1 0 1 0 2

В результате получаем законченную табличку или требуемый ряд распределения семей по количеству детей.

Задание . Имеются данные о тарифных разрядах 30 рабочих предприятия. Построить дискретный вариационный ряд распределения рабочих по тарифному разряду. 2 3 2 4 4 5 5 4 6 3

1 4 4 5 5 6 4 3 2 3

4 5 4 5 5 6 6 3 3 4

Как построить интервальный вариационный ряд распределения

Построим интервальный ряд распределения, и посмотрим чем же его построение отличается от дискретного ряда.

Пример 2. Имеются данные о величине полученной прибыли 16 предприятий, млн. руб. — 23 48 57 12 118 9 16 22 27 48 56 87 45 98 88 63. Построить интервальный вариационный ряд распределения предприятий по объему прибыли, выделив 3 группы с равными интервалами.

Общий принцип построения ряда, конечно же, сохраниться, те же две колонки, те же варианта и частота, но в здесь варианта будет располагаться в интервале и подсчет частот будет вестись иначе.

Решение:

  1. Начнем аналогично предыдущей задачи с построения макета таблицы, в которую затем мы внесем данные. Так как ряды распределения имеют два элемента, то таблица состоять будет из двух колонок. Первая колонка это всегда варианта – то, что мы изучаем – ее название берем из задания (конец предложения с заданием в условиях) — по объему прибыли – значит, наша варианта это объем полученной прибыли.

Вторая колонка это частота – как часто встречается наша варианта в исследуемом явление – название колонки так же берем из задания — распределения предприятий – значит наша частота это число предприятий с соответствующей прибылью, в данном случае попадающие в интервал.

В итоге макет нашей таблицы будет выглядеть так:

где i – величина или длинна интервала,

Хmax и Xmin – максимальное и минимальное значение признака,

n – требуемое число групп по условию задачи.

Рассчитаем величину интервала для нашего примера. Для этого среди исходных данных найдем самое большое и самое маленькое

23 48 57 12 118 9 16 22 27 48 56 87 45 98 88 63 – максимальное значение 118 млн. руб., и минимальное 9 млн. руб. Проведем расчет по формуле.

В расчете получили число 36,(3) три в периоде, в таких ситуациях величину интервала нужно округлить до большего, чтобы после подсчетов не потерялось максимальное данное, именно поэтому в расчете величина интервала 36,4 млн. руб.

  1. Теперь построим интервалы – наши варианты в данной задаче. Первый интервал начинают строить от минимального значения к нему добавляется величина интервала и получается верхняя граница первого интервала. Затем верхняя граница первого интервала становится нижней границей второго интервала, к ней добавляется величина интервала и получается второй интервал. И так далее столько раз сколько требуется построить интервалов по условию.

Обратим внимание если бы мы не округлили величину интервала до 36,4, а оставили бы ее 36,3, то последнее значение у нас бы получилось 117,9. Именно для того чтобы не было потери данных необходимо округлять величину интервала до большего значения.

  1. Проведем подсчет количества предприятий попавших в каждый конкретный интервал. При обработке данных необходимо помнить, что верхнее значение интервала в данном интервале не учитывается (не включается в этот интервал), а учитывается в следующем интервале (нижняя граница интервала включается в данный интервал, а верхняя не включается), за исключением последнего интервала.

При проведении обработки данных лучше всего отобранные данные обозначить условными значками или цветом, для упрощения обработки.

23 48 57 12 118 9 16 22

27 48 56 87 45 98 88 63

Первый интервал обозначим желтым цветом – и определим сколько данных попадает в интервал от 9 до 45,4, при этом данное 45,4 будет учитываться во втором интервале (при условии что оно есть в данных) – в итоге получаем 7 предприятий в первом интервале. И так дальше по всем интервалам.

  1. (дополнительное действие ) Проведем подсчет общего объема прибыли полученного предприятиями по каждому интервалу и в целом. Для этого сложим данные отмеченные разными цветами и получим суммарное значение прибыли.

По первому интервалу — 23 + 12 + 9 + 16 + 22 + 27 + 45 = 154 млн. руб.

По второму интервалу — 48 + 57 + 48 + 56 + 63 = 272 млн. руб.

По третьему интервалу — 118 + 87 + 98 + 88 = 391 млн. руб.

Задание . Имеются данные о величине вклада в банке 30 вкладчиков, тыс. руб. 150, 120, 300, 650, 1500, 900, 450, 500, 380, 440,

600, 80, 150, 180, 250, 350, 90, 470, 1100, 800,

500, 520, 480, 630, 650, 670, 220, 140, 680, 320

Построить интервальный вариационный ряд распределения вкладчиков, по размеру вклада выделив 4 группы с равными интервалами. По каждой группе подсчитать общий размер вкладов.

Введение…………………………………………………………………………. 3

    Понятие статистических рядов распределения, их виды………………….. 5

    1. Атрибутивные ряды распределения…………………………………….. 6

      Вариационные ряды распределения…………………………………….. 7

      Расчет средних величин…………………………………………………. 9

      Расчет моды и медианы………………………………………………….10

      Графическое изображение статистических данных…………………...12

      Расчет показателей вариации……………………………………………16

    Расчетная часть……………………………………………………………….18

    Аналитическая часть…………………………………………………………35

Заключение……………………………………………………………………….41

Список литературы………………………………………………………………43

ВВЕДЕНИЕ

Статистические ряды распределения являются одним из наиболее важных элементов статистики. Они представляют собой составную часть метода статистических сводок и группировок, но, по сути, ни одно из статистических исследований невозможно произвести, не представив первоначально полученную в результате статистического наблюдения информацию в виде статистических рядов распределения.

Первичные данные обрабатываются в целях получения обобщенных характеристик изучаемого явления по роду существенных признаков для дальнейшего осуществления анализа и прогнозирования; производится сводка и группировка; статистические данные оформляются с помощью рядов распределения в таблицы, в результате чего информация представляется в наглядном рационально изложенном виде, удобном для использования и дальнейшего исследования; строятся различного рода графики для наиболее наглядного восприятия и анализ информации. На основе статистических рядов распределения вычисляются основные величины статистических исследований: индексы, коэффициенты; абсолютные, относительные, средние величины и т.д., с помощью которых можно проводить прогнозирование, как конечный итог статистических исследований.

Актуальность данной темы обусловлена тем, что статистические ряды распределения являются базисным методом для любого статистического анализа. Понимание данного метода и навыки его использования необходимы для проведения статистических исследований.

В теоретической части курсовой работы рассмотрены следующие аспекты:

    Понятие статистических рядов распределения, их виды;

    Атрибутивные и вариационные ряды распределения;

    Расчет средних величин, моды и медианы;

    Графическое представление рядов распределения;

Расчетная часть курсовой работы включает решение задачи по теме из варианта расчетного задания.

Аналитическая часть работы включает в себя расчет средних величин, моды и медианы на основе данных, представленных в таблице «Результаты выборочного бюджетного обследования населения РФ», отображающей распределение населения РФ по среднедушевому доходу. В качестве источника статистических данных использован «Российский статистический ежегодник. Статистический сборник 2001».

При написании курсовой работе были использованы учебник базового курса, дополнительная литература, а также Интернет-ресурсы.

1.ПОНЯТИЕ СТАТИСТИЧЕСКИХ РЯДОВ РАСПРЕДЕЛЕНИЯ И ИХ ВИДЫ

Результаты сводки и группировки материалов статистического наблюдения оформляются в виде статистических рядов распределения. Статистические ряды распределения представляют собой упорядоченное распределение единиц изучаемой совокупности на группы по группировочному (варьирующему) признаку. Они характеризуют состав (структуру) изучаемого явления, позволяют судить об однородности совокупности, границах ее изменения, закономерностях развития наблюдаемого объекта. В зависимости от признака статистические ряды распределения делятся на:

Атрибутивные (качественные);

Вариационные (количественные)

а) дискретные;

б) интервальные.

      Атрибутивные ряды распределения

Атрибутивные ряды образуются по качественным признакам, которыми могут выступать занимаемая должность работников торговли, профессия, пол, образование и т.д.

Таблица 1.

Распределение работников предприятия по образованию .

В данном примере группировочным признаком выступает образование работников предприятия (высшее, среднее). Данные ряды распределения являются атрибутивными, поскольку варьирующий признак представлен не количественными, а качественными показателями. Наибольшее число составляют работники со средним образованием (порядка 40%); остальные работники распределяются на группы по данному качественному признаку: со средним специальным образованием - 25%; с неполным высшим - 20%; с высшим - 15%.

1.2. Вариационные ряды распределения

Вариационные ряды строятся на основе количественного группировочного признака. Вариационные ряды состоят из двух элементов: вариант и частот.

Варианта - это отдельное значение варьируемого признака, которое он принимает в ряду распределения. Они могут быть положительными и отрицательными, абсолютными и относительными.

Частота - это численность отдельных вариант или каждой группы вариационного ряда. Частоты, выраженные в долях единицы или в процентах к итогу, называются частостями. Сумма частот называется объемом совокупности и определяет число элементов всей совокупности.

Частости – это частоты, выраженные в виде относительных величин (долях единиц или процентах). Сумма частостей равна единице или 100 %. Замена частот частостями позволяет сопоставлять вариационные ряды с разным числом наблюдений.

Вариационные ряды в зависимости от характера вариации подразделяются на дискретные (прерывные) и интервальные (непрерывные).

Дискретные ряды распределения основаны на дискретных (прерывных) признаках, имеющих только целые значения (например, тарифный разряд рабочих, число детей в семье).

Интервальные ряды распределения базируются на непрерывно изменяющемся значении признака, принимающем любые (в том числе и дробные) количественные выражения, т.е. значение признаков таких рядах задается в виде интервала.

При наличии достаточно большого количества вариантов значений признака первичный ряд является труднообозримым, и непосредственное рассмотрение его не дает представления о распределении единиц по значению признака в совокупности. Поэтому первым шагом в упорядочении первичного ряда является его ранжирование – расположение всех вариантов в возрастающем (убывающем) порядке.

Для построения дискретного ряда с небольшим числом вариантов выписываются все встречающиеся варианты значений признака X i , а затем подсчитывается частота повторения варианта f i . Ряд распределения принято оформлять в виде таблицы, состоящей из двух колонок (или строк), в одной из которых представлены варианты, а в другой - частоты.

Для построения ряда распределения непрерывно изменяющихся признаков, либо дискретных, представленных в виде интервалов, необходимо установить оптимальное число групп (интервалов), на которые следует разбить все единицы изучаемой совокупности.

      Расчет средних величин

Как правило, средние величины рассчитываются для получения обобщенных количественных характеристик уровня какого либо варьирующего признака по совокупности однородных по основным свойствам единиц конкретного явления или процесса. В статистике все средние величины обозначаются как X. Существует несколько видов средних величин.

Основной средней величиной является средняя степенная . Она имеет следующий вид:

(1) ,

где Х - средняя величина;

X - меняющаяся величина признака варианты;

n - число признаков или вариант;

m - показатель степени средней.

В зависимости от величины показателя степени средней она принимает следующие виды:

а). Средняя арифметическая невзвешенная , где m = 1.

Она имеет вид:

(2)

б). Средняя арифметическая взвешенная .

Она имеет вид:

(3)

где f - частоты или веса

Дипломная работа >> Ботаника и сельское хоз-во

Скоростные процессы в виде статических рядов распределения и удовлетворяющей ряду специфических требований работы лесотранспортных машин... трактором, следующие параметры: 1. статические ряды распределения крутящего момента и частоту вращения коленчатого...

  • Классификация временных рядов

    Контрольная работа >> Экономика

    Можно изучать в двух разрезах: в статическом и динамическом. Ряды распределения , которые получают в результате сводки и... систему, находящуюся в статическом состоянии. Следовательно, динамические ряды – понятие, относящееся к тем рядам уровней, в которых...

  • Практическое применение законов распределения при изучении уровня жизни населения

    Реферат >> Маркетинг

    Используемой литературы. 1. Понятие о закономерностях статического распределения 1.1.Закон распределения и его виды Случайное событие - событие... – 82,1. Строим график полученного ряда распределения . Рис. 12. График ряда распределения по полученным 5 группам...

  • Математическая статистика - раздел математики, посвященный математическим методам обработки, систематизации и использования статистических данных для научных и практических выводов.

    3.1. ОСНОВНЫЕ ПОНЯТИЯ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ

    В медико-биологических задачах часто приходится исследовать распределение того или иного признака для очень большого числа индивидуумов. У разных индивидуумов этот признак имеет различное значение, поэтому он является случайной величиной. Например, любой лечебный препарата имеет различную эффективность при его применении к разным пациентам. Однако для того чтобы составить представление об эффективности данного препарата, нет необходимости применять его ко всем больным. Можно проследить результаты применения препарата к сравнительно небольшой группе больных и на основании полученных данных выявить существенные черты (эффективность, противопоказания) процесса лечения.

    Генеральная совокупность - подлежащая изучению совокупность однородных элементов, характеризуемых некоторым признаком. Этот признак является непрерывной случайной величиной с плотностью распределения f(x).

    Например, если нас интересует распространенность какого-либо заболевания в некотором регионе, то генеральная совокупность - все население региона. Если же мы хотим выяснить подверженность этому заболеванию мужчин и женщин по отдельности, то следует рассматривать две генеральные совокупности.

    Для изучения свойств генеральной совокупности отбирают некоторую часть ее элементов.

    Выборка - часть генеральной совокупности, выбираемая для обследования (лечения).

    Если это не вызывает недоразумений, то выборкой называют как совокупность объектов, отобранных для обследования, так и совокупность

    значений исследуемого признака, полученных при обследовании. Эти значения могут быть представлены несколькими способами.

    Простой статистический ряд - значения исследуемого признака, записанные в том порядке, в котором они были получены.

    Пример простого статистического ряда, полученного при измерении скорости поверхностной волны (м/с) в коже лба у 20 пациентов приведен в табл. 3.1.

    Таблица 3.1. Простой статистический ряд

    Простой статистический ряд - основной и самый полный способ записи результатов обследования. Он может содержать сотни элементов. Окинуть такую совокупность одним взглядом весьма затруднительно. Поэтому большие выборки обычно подвергают разбиению на группы. Для этого область изменения признака разбивают на несколько (N) интервалов равной ширины и подсчитывают относительные частоты (n/n) попадания признака в эти интервалы. Ширина каждого интервала равна:

    Границы интервалов имеют следующие значения:

    Если какой-то элемент выборки является границей между двумя соседними интервалами, то его относят к левому интервалу. Сгруппированные таким образом данные называют интервальным статистическим рядом.

    - это таблица, в которой приведены интервалы значений признака и относительные частоты попадания признака в эти интервалы.

    В нашем случае можно образовать, например, такой интервальный статистический ряд (N = 5, d = 4), табл. 3.2.

    Таблица 3.2. Интервальный статистический ряд

    Здесь к интервалу 28-32 отнесены два значения равные 28 (табл. 3.1), а к интервалу 32-36 - значения 32, 33, 34 и 35.

    Интервальный статистический ряд можно изобразить графически. Для этого по оси абсцисс откладывают интервалы значений признака и на каждом из них, как на основании, строят прямоугольник с высотой, равной относительной частоте. Полученная столбцовая диаграмма называется гистограммой.

    Рис. 3.1. Гистограмма

    На гистограмме статистические закономерности распределения признака просматриваются достаточно отчетливо.

    При большом объеме выборки (несколько тысяч) и малой ширине столбцов форма гистограммы близка к форме графика плотности распределения признака.

    Число столбцов гистограммы можно выбрать по следующей формуле:

    Построение гистограммы вручную - процесс долгий. Поэтому разработаны компьютерные программы для их автоматического построения.

    3.2. ЧИСЛОВЫЕ ХАРАКТЕРИСТИКИ СТАТИСТИЧЕСКОГО РЯДА

    Многие статистические процедуры используют выборочные оценки для математического ожидания и дисперсии (или СКО) генеральной совокупности.

    Выборочное среднее (Х) - это среднее арифметическое всех элементов простого статистического ряда:

    Для нашего примера Х = 37,05 (м/с).

    Выборочное среднее - это наилучшая оценка генерального среднего М.

    Выборочная дисперсия s 2 равна сумме квадратов отклонений элементов от выборочного среднего, поделенной на n - 1:

    В нашем примере s 2 = 25,2 (м/с) 2 .

    Обратите внимание, что при вычислении выборочной дисперсии в знаменателе формулы стоит не объем выборки n, а n-1. Это связано с тем, что при вычислении отклонений в формуле (3.3) вместо неизвестного математического ожидания используется его оценка - выборочное среднее.

    Выборочная дисперсия - это наилучшая оценка генеральной дисперсии (σ 2).

    Выборочное среднеквадратическое отклонение (s) - это квадратный корень из выборочной дисперсии:

    Для нашего примера s = 5,02 (м/с).

    Выборочное среднеквадратическое отклонение - это наилучшая оценка генерального СКО (σ).

    При неограниченном увеличении объема выборки все выборочные характеристики стремятся к соответствующим характеристикам генеральной совокупности.

    Для вычисления выборочных характеристик используют компьютерные формулы. В приложении Excel эти вычисления выполняют статистические функции СРЗНАЧ, ДИСП. СТАНДОТКЛОН.

    3.3. ИНТЕРВАЛЬНАЯ ОЦЕНКА

    Все выборочные характеристики являются случайными величинами. Это означает, что для другой выборки того же объема значения выборочных характеристик получатся другими. Таким образом, выборочные

    характеристики являются лишь оценками соответствующих характеристик генеральной совокупности.

    Недостатки выборочного оценивания компенсирует интервальная оценка, представляющая числовой интервал, внутри которого с заданной вероятностью Р д находится истинное значение оцениваемого параметра.

    Пусть U r - некоторый параметр генеральной совокупности (генеральное среднее, генеральная дисперсия и т.д.).

    Интервальной оценкой параметра U r называется интервал (U 1 , U 2), удовлетворяющий условию:

    P(U < Ur < U2) = Рд. (3.5)

    Вероятность Р д называется доверительной вероятностью.

    Доверительная вероятность Р д - вероятность того, что истинное значение оцениваемой величины находится внутри указанного интервала.

    При этом интервал (U 1 , U 2) называется доверительным интервалом для оцениваемого параметра.

    Часто вместо доверительной вероятности используют связанную с ней величину α = 1 - Р д, которая называется уровнем значимости.

    Уровень значимости - это вероятность того, что истинное значение оцениваемого параметра находится за пределами доверительного интервала.

    Иногда α и Р д выражают в процентах, например, 5% вместо 0,05 и 95% вместо 0,95.

    При интервальном оценивании сначала выбирают соответствующую доверительную вероятность (обычно 0,95 или 0,99), а затем находят соответствующий интервал значений оцениваемого параметра.

    Отметим некоторые общие свойства интервальных оценок.

    1. Чем ниже уровень значимости (чем больше Р д), тем шире интервальная оценка. Так, если при уровне значимости 0,05 интервальная оценка генерального среднего есть 34,7 < М < 39,4, то для уровня 0,01 она будет гораздо шире: 33,85 < М < 40,25.

    2. Чем больше объем выборки n, тем уже интервальная оценка с выбранным уровнем значимости. Пусть, например, 5 - процентная оценка генеральной средней (β=0,05), полученная по выборке из 20 элементов, тогда 34,7 < М < 39,4.

    Увеличив объем выборки до 80, мы при том же уровне значимости получим более точную оценку: 35,5 < М < 38,6.

    В общем случае построение надежных доверительных оценок требует знания закона, по которому оцениваемый случайный признак распределен в генеральной совокупности. Рассмотрим, как строится интервальная оценка генерального среднего признака, который распределен в генеральной совокупности по нормальному закону.

    3.4. ИНТЕРВАЛЬНАЯ ОЦЕНКА ГЕНЕРАЛЬНОГО СРЕДНЕГО ДЛЯ НОРМАЛЬНОГО ЗАКОНА РАСПРЕДЕЛЕНИЯ

    Построение интервальной оценки генерального среднего М для генеральной совокупности с нормальным законом распределения основано на следующем свойстве. Для выборки объема n отношение

    подчиняется распределению Стьюдента с числом степеней свободы ν = n - 1.

    Здесь Х - выборочное среднее, а s - выборочное СКО.

    Используя таблицы распределения Стьюдента или их компьютерный аналог, можно найти такое граничное значение что c заданной доверительной вероятностью выполняется неравенство:

    Этому неравенству соответствует неравенство для М:

    где ε - полуширина доверительного интервала.

    Таким образом, построение доверительного интервала для М проводится в следующей последовательности.

    1. Выбирают доверительную вероятность Р д (обычно 0,95 или 0,99) и для нее по таблице распределения Стьюдента находят параметр t

    2. Рассчитывают полуширину доверительного интервала ε:

    3. Получают интервальную оценку генерального среднего с выбранной доверительной вероятностью:

    Кратко это записывается так:

    Для нахождения интервальных оценок разработаны компьютерные процедуры.

    Поясним, как пользоваться таблицей распределения Стьюдента. Эта таблица имеет два «входа»: левый столбец, называемый числом степеней свободы ν = n - 1, и верхняя строка - уровень значимости α. На пересечении соответствующей строки и столбца находят коэффициент Стьюдента t.

    Применим этот метод к нашей выборке. Фрагмент таблицы распределения Стьюдента представлен ниже.

    Таблица 3.3. Фрагмент таблицы распределения Стьюдента

    Простой статистический ряд для выборки из 20 человек (n = 20, ν =19) представлен в табл. 3.1. Для этого ряда расчеты по формулам (3.1-3.3) дают: Х = 37,05; s = 5,02.

    Выберем α = 0,05 (Р д = 0,95). На пересечении строки «19» и столбца «0,05» найдем t = 2,09.

    Вычислим точность оценки по формуле (3.6): ε = 2,09?5,02/λ /20 = 2,34.

    Построим интервальную оценку: с вероятностью 95% неизвестное генеральное среднее удовлетворяет неравенству:

    37,05 - 2,34 < М < 37,05 + 2,34, или М = 37,05 ± 2,34 (м/с), Р д = 0,95.

    3.5. МЕТОДЫ ПРОВЕРКИ СТАТИСТИЧЕСКИХ ГИПОТЕЗ

    Статистические гипотезы

    Прежде чем сформулировать, что такое статистическая гипотеза, рассмотрим следующий пример.

    Для сравнения двух методик лечения некоторого заболевания были отобраны две группы пациентов по 20 человек, лечение которых проводилось по этим методикам. Для каждого пациента фиксировалось количество процедур, после которого достигался положительный эффект. По этим данным для каждой группы находились выборочные средние (Х), выборочные дисперсии (s 2) и выборочные СКО (s).

    Результаты представлены в табл. 3.4.

    Таблица 3.4

    Количество процедур, необходимое для получения положительного эффекта, - случайная величина, вся информация о которой на данный момент содержится в приведенной выборке.

    Из табл. 3.4 видно, что выборочное среднее в первой группе меньше, чем во второй. Означает ли это, что и для генеральных средних имеет место такое же соотношение: М 1 < М 2 ? Достаточно ли статистических данных для такого вывода? Ответы на эти вопросы и дает статистическая проверка гипотез.

    Статистическая гипотеза - это предположение относительно свойств генеральных совокупностей.

    Мы будем рассматривать гипотезы о свойствах двух генеральных совокупностей.

    Если генеральные совокупности имеют известные, одинаковые распределения оцениваемой величины, а предположения касаются величин некоторого параметра этого распределения, то гипотезы называются параметрическими. Например, выборки извлечены из генеральных совокупностей с нормальным законом распределения и одинаковой дисперсией. Требуется выяснить, одинаковы ли генеральные средние этих совокупностей.

    Если о законах распределения генеральных совокупностей ничего не известно, то гипотезы об их свойствах называют непараметрическими. Например, одинаковы ли законы распределения генеральных совокупностей, из которых извлечены выборки.

    Нулевая и альтернативная гипотезы.

    Задача проверки гипотез. Уровень значимости

    Познакомимся с терминологией, применяемой при проверке гипотез.

    Н 0 - нулевая гипотеза (гипотеза скептика) - это гипотеза об отсутствии различий между сравниваемыми выборками. Скептик считает, что различия между выборочными оценками, полученными по результатам исследований, - случайны;

    Н 1 - альтернативная гипотеза (гипотеза оптимиста) - это гипотеза о наличии различий между сравниваемыми выборками. Оптимист считает, что различия между выборочными оценками вызваны объективными причинами и соответствуют различиям генеральных совокупностей.

    Проверка статистических гипотез осуществима только тогда, когда из элементов сравниваемых выборок можно составить некоторую величину (критерий), закон распределения которой в случае справедливости Н 0 известен. Тогда для этой величины можно указать доверительный интервал, в который с заданной вероятностью Р д попадает ее значение. Этот интервал называют критической областью. Если значение критерия попадает в критическую область, то принимается гипотеза Н 0 . В противном случае принимается гипотеза Н 1 .

    В медицинских исследованиях используют Р д = 0,95 или Р д = 0,99. Этим значениям соответствуют уровни значимости α = 0,05 или α = 0,01.

    При проверке статистических гипотез уровнем значимости (α) называется вероятность отклонения нулевой гипотезы, когда она верна.

    Обратите внимание на то, что по своей сути процедура проверки гипотез направлена на обнаружение различий, а не на подтверждение их отсутствия. При выходе значения критерия за пределы критической области мы можем с чистым сердцем сказать «скептику» - ну что, Вы еще хотите?! Если бы различия отсутствовали, то с вероятностью 95% (или 99%) расчетное значение было бы в указанных пределах. Так ведь нет!..

    Ну а если значение критерия попадает в критическую область, то нет никаких оснований считать что гипотеза Н 0 верна. Это, скорее всего, указывает на одну из двух возможных причин.

    1. Объемы выборок недостаточно велики, чтобы обнаружить имеющиеся различия. Вполне вероятно, что продолжение экспериментов принесет успех.

    2. Различия есть. Но они настолько малы, что не имеют практического значения. В этом случае продолжение экспериментов не имеет смысла.

    Перейдем к рассмотрению некоторых статистических гипотез, используемых в медицинских исследованиях.

    3.6. ПРОВЕРКА ГИПОТЕЗ О РАВЕНСТВЕ ДИСПЕРСИЙ, F-КРИТЕРИЙ ФИШЕРА

    В некоторых клинических исследованиях о положительном эффекте свидетельствует не столько величина исследуемого параметра, сколько его стабилизация, уменьшение его колебаний. В этом случае возникает вопрос о сравнении двух генеральных дисперсий по результатам выборочного обследования. Эта задача может быть решена с помощью критерия Фишера.

    Постановка задачи

    нормальным законом распределения. Объемы выборок -

    n 1 и n 2 , а выборочные дисперсии равны s 1 и s 2 2 генеральные дисперсии.

    Проверяемые гипотезы:

    Н 0 - генеральные дисперсии одинаковы;

    Н 1 - генеральные дисперсии различны.

    Показано, если выборки извлечены из генеральных совокупностей с нормальным законом распределения, то при справедливости гипотезы Н 0 отношение выборочных дисперсий подчиняется распределению Фишера. Поэтому в качестве критерия для проверки справедливости Н 0 берется величина F, вычисляемая по формуле:

    где s 1 и s 2 - выборочные дисперсии.

    Это отношение подчиняется распределению Фишера с числом степеней свободы числителя ν 1 = n 1 - 1 и числом степеней свободы знаменателя ν 2 = n 2 - 1. Границы критической области находятся по таблицам распределения Фишера или с помощью компьютерной функции БРАСПОБР.

    Для примера, представленного в табл. 3.4, получим: ν 1 = ν 2 = 20 - 1 = 19; F = 2,16/4,05 = 0,53. При α = 0,05 границы критической области равны соответственно: = 0,40, = 2,53.

    Значение критерия попало в критическую область, поэтому принимается гипотеза Н 0: генеральные дисперсии выборок одинаковы.

    3.7. ПРОВЕРКА ГИПОТЕЗ ОТНОСИТЕЛЬНО РАВЕНСТВА СРЕДНИХ, t-КРИТЕРИЙ СТЬЮДЕНТА

    Задача сравнения средних двух генеральных совокупностей возникает, когда практическое значение имеет именно величина исследуемого признака. Например, когда сравниваются сроки лечения двумя различными методами или количества осложнений, возникающих при их применении. В этом случае можно использовать t-критерий Стьюдента.

    Постановка задачи

    Получены две выборки {Х 1 } и {Х 2 }, извлеченные из генеральных совокупностей с нормальным законом распределения и одинаковыми дисперсиями. Объемы выборок - n 1 и n 2 , выборочные средние равны Х 1 и Х 2, а выборочные дисперсии - s 1 2 и s 2 2 соответственно. Требуется сравнить между собой генеральные средние.

    Проверяемые гипотезы:

    Н 0 - генеральные средние одинаковы;

    Н 1 - генеральные средние различны.

    Показано, что в случае справедливости гипотезы Н 0 величина t, вычисляемая по формуле:

    распределена по закону Стьюдента с числом степеней свободы ν = ν 1 + + ν2 - 2.

    Здесь где ν 1 = n 1 - 1 - число степеней свободы для первой выборки; ν 2 = n 2 - 1 - число степеней свободы для второй выборки.

    Границы критической области находят по таблицам t-распределения или с помощью компьютерной функции СТЬЮДРАСПОБР. Распределение Стьюдента симметрично относительно нуля, поэтому левая и правая границы критической области одинаковы по модулю и противоположны по знаку: -и

    Для примера, представленного в табл. 3.4, получим:

    ν 1 = ν 2 = 20 - 1 = 19; ν = 38, t = -2,51. При α = 0,05 = 2,02.

    Значения критерия выходит за левую границу критической области, поэтому принимаем гипотезу Н 1: генеральные средние различны. При этом среднее генеральной совокупности первой выборки МЕНЬШЕ.

    Применимость t-критерия Стьюдента

    Критерий Стьюдента применим только к выборкам из нормальных совокупностей с одинаковыми генеральными дисперсиями. Если хотя бы одно из условий нарушено, то применимость критерия сомнительна. Требование нормальности генеральной совокупности обычно игнорируют, ссылаясь на центральную предельную теорему. Действительно, разность выборочных средних, стоящая в числителе (3.10), может считаться нормально распределенной при ν > 30. Но вопрос о равенстве дисперсий проверке не подлежит, и ссылки на то, что критерий Фишера не обнаружил различий, принимать во внимание нельзя. Тем не менее t-критерий достаточно широко применяется для обнаружения различий в средних значениях генеральных совокупностей, хотя и без достаточных оснований.

    Ниже рассматривается непараметрический критерий, который с успехом используют для этих же целей и который не требует ни нормальности, ни равенства дисперсий.

    3.8. НЕПАРАМЕТРИЧЕСКОЕ СРАВНЕНИЕ ДВУХ ВЫБОРОК: КРИТЕРИЙ МАННА-УИТНИ

    Непараметрические критерии предназначены для обнаружения различий в законах распределения двух генеральных совокупностей. Критерии, которые чувствительны к различиям генеральных средних, называют критериями сдвига. Критерии, которые чувствительны к различиям генеральных дисперсий, называют критериями масштаба. Критерий Манна-Уитни относится к критериям сдвига и используется для обнаружения различий в средних значениях двух генеральных совокупностей, выборки из которых представлены в ранговой шкале. Измеренные признаки распологаются на этой шкале в порядке возрастания, а затем нумеруются целыми числами 1, 2... Эти числа и называются рангами. Равным величинам присваивают одинаковые ранги. Значение имеет не сама величина признака, а лишь порядковое место, который она занимает среди других величин.

    В табл. 3.5. первая группа из таблицы 3.4 представлена в развернутом виде (строка 1), подвергнута ранжированию (стока 2), а затем ранги одинаковых величин заменены среднеарифметическими значениями. Например, элементы 4 и 4, стоящие в первой строке, получили ранги 2 и 3, которые затем заменены на одинаковые значения 2,5.

    Таблица 3.5

    Постановка задачи

    Независимые выборки {Х 1 } и {Х 2 } извлечены из генеральных совокупностей с неизвестными законами распределения. Объемы выборок n 1 и n 2 соответственно. Значения элементов выборок представлены в ранговой шкале. Требуется проверить, различаются ли эти генеральные совокупности между собой?

    Проверяемые гипотезы:

    Н 0 - выборки принадлежат к одной генеральной совокупности; Н 1 - выборки принадлежат к различным генеральным совокупностям.

    Для проверки таких гипотез применяется {/-критерий Манна-Уитни.

    Сначала из двух выборок составляется объединенная выборка {X}, элементы которой ранжируются. Затем находится сумма рангов, соответствующих элементам первой выборки. Эта сумма и является критерием для проверки гипотез.

    U = Сумме рангов первой выборки. (3.11)

    Для независимых выборок, объемы которых больше 20, величина U подчиняется нормальному распределению, математическое ожидание и СКО которого равны:

    Поэтому границы критической области находятся по таблицам нормального распределения.

    Для примера, представленного в табл. 3.4, получим: ν 1 = ν 2 = 20 - 1 = 19, U = 339, μ = 410, σ = 37. Для α = 0,05 получим: и лев = 338, и прав = 482.

    Значение критерия выходит за левую границу критической области, поэтому принимается гипотеза Н 1: генеральные совокупности имеют различные законы распределения. При этом среднее генеральной совокупности первой выборки МЕНЬШЕ.