Статистика для консультантов - 2. Случайная величина, стандартное отклонение, процентиль.

Продолжение цикла статей по статистике для консультантов по ГВ. Начало - тут (среднее, медиана, мода).

В прошлый раз у нас была достаточно простая тема, мы изучили среднее (сложить все значения и поделить на их количество), медиану (вспоминаем, что медиана, как в треугольнике, находится четко посередине, если все значения выписать в возрастающий ряд) и моду (какой цвет самый модный?).  
  
Сегодня придется изучить уже более сложные понятия. Допустим, у нас есть некоторая переменная величина, за которой мы наблюдаем (в статистике ее называют "случайная величина"). Такой величиной может быть увеличение количества молока после приема чая для лактации, или прибавка в весе новорожденных за первый месяц. 
 
Мы уже видели, что можно, пронаблюдав за переменной величиной, например, опросив некоторое количество матерей, регулярно пивших чай, и записав количество молока, получить несколько ее значений (т.н. "реализаций случайной величины" - в результате имеем "выборку значений случайной величины"). Такой же переменной величиной может быть оценка вашего доклада слушателями - они могли поставить 3, 4, 4, 5, 2 - это выборка значений оценки вашего доклада
 
Из этих значений выборки можно вычислить такие простейшие показатели, как среднее (среднее арифметическое - для вашего доклада это будет 3.6), мода (наиболее часто встречающееся значение - например, в случае оценки доклада это 4), и медиана (значение посередине тут опять 4). Но эти показатели не всегда имеют смысл, и не всегда достаточно полно характеризуют переменную величину. 
 
Поэтому для ее описания в статистике вводятся такие понятия, как дисперсия (среднеквадратичное отклонение), а также "распределение случайной величины", которое харатеризуется с помощью т.н. процентилей (наверное, многие консультанты слышали о процентилях, с помощью которых построены графики ВОЗ прибавки веса - сегодня мы узнаем, что это такое). 
 
Итак, сегодня мы впервые употребили термин "случайная величина", а также "Дисперсия", "Распределение" и "Процентиль". Думаю, для одной статьи этих новых терминов вполне достаточно, поэтому расскажем о них попродробнее. 
 
Как уже указано выше, на практике зачастую случайная величина - это некоторая переменная величина, за которой наблюдают, значения которой можно записать и как-то анализировать. Набор значений называют выборкой значений этой величины
Если у нас есть набор значений, мы можем посчитать среднее. Но можно легко привести примеры двух выборок, у которых будет одинаковое среднее, но совершенно разный разброс 
значений. Например, оценки доклада могут быть 
4 4 4 4 4
и 
2 3 5 5 5 
 
у обоих наборов значений одинаковое среднее = 4, но оно совсем не дает представления о том, каков разброс оценок среди слушателей. Поэтому для описания разброса считают так  называемую дисперсию, которая равна среднему среди квадратов разностей значений случайной величины и ее среднего значения. Итак, нужно из каждого значения выборки вычесть среднее значение (получим, так сказать, набор отклонений от среднего), затем возвести каждое в квадрат, сложить и поделить на число значений. Это будет дисперсия, а стандартное отклонение (или среднеквадратичное отклонение) равно корню квадратному из дисперсии. Стандартное отклонение, или сигма, обычно используется для оценки разброса значений величины. 
 
имелась выборка 4 4 4 4 4. Среднее = 4
вычитаем среднее
(4-4) (4-4) (4-4) (4-4) (4-4)
получились значения 
0 0 0 0 0 
 
затем берем сумму квадратов нулей, делим на 5 (это дисперсия) и берем корень из этого (это стандартное отклонение). Ну, с нулями что ни делай, получишь ноль :)
корень квадратный ((0*0+0*0+0*0+0*0+0*0) / 5) = 0
 
Итак, для первой выборки сигма (стандартное отклонение) равна нулю. Это значит, что никаких отклонений от оценки 4 не было. Чем больше сигма, тем больше были отклонения от среднего. 
 
Интереснее ситуация во второй выборке. 
2 3 5 5 5. Среднее 4. 
(2-4) (3-4) (5-4) (5-4) (5-4) 
-2 -1 1 1 1
 
эти величины надо просуммировать в квадратах, поделить на 5 и взять корень. 
корень квадратный (((-2)*(-2)+(-1)*(-1)+1*1+1*1+1*1)/5)=корень((4+1+1+1+1)/5) = корень (8/5) = корень (1.6) = около 1.3
итак, в первой выборке среднее равно 4, дисперсия 0. Значит, все оценки были 4 и отклонений не было. 
 
во второй выборке дисперсия равна примерно 1.3. Это значит, что в среднем отклонение от 4 составило 1.3, то есть оценки довольно сильно отличались от 4. И действительно, в реальности оценки были очень разными. 
 
На самом деле, вовсе не обязательно знать наизусть метод расчета сигмы, но необходимо помнить, что она описывает разброс случайной величины. Чем больше сигма, тем больше разброс, отклонение от среднего.  
 
Допустим, нам рассказали, что появилось новое средство, после приема которого у сцеживающихся матерей недоношенных детей увеличилось количество молока на 300 г, сигма равна 400 г. 
 
Это значит, что у кого-то сильно увеличилось количество молока, у кого-то уменьшилось, и разброс очень велик. Даже не зная конкретных цифр, мы уже можем сделать вывод о том, что давать его всем обязательно нет никакого смысла (хотя кто-то может получить реальную пользу, ведь среднее увеличение количества молока не так мало). 
 
Если же мы узнали, что, когда матери недоношенных детей увеличили контакт с детьми кожа-к-коже, количество сцеженного молока увеличилось на 350 г, причем сигма была равна, например, 50г, это значит, что у всех примерно одинаково увеличилось количество молока, и контакт кожа-к-коже имеет смысл рекомендовать всем. 
 
Конечно, самое надежное - когда исследования проводились на большой выборке (участвовало много женщин), в разных условиях (например, в разных клиниках), и мы знаем не только сигму, но и процентили
 
Что такое процентИль (ударение на "и")? Это показатель, похожий на медиану, но только более гибкий. Фактически медиана - это 50-я процентиль случайной величины. Объясним подробнее. 
 
N-ая процентиль - это то значение случайной величины, ниже которого расположено N% значений данной переменной. Действительно, вспомним, что такое медиана. Это значение, ниже которого находится половина выборки, и выше которого - тоже половина. Медиана делит выборку пополам, значит, ниже нее расположено ровно 50% значений выборки, и, по определению, медиана является 50-й процентилью. Например, пусть оценки доклада составили 2, 2, 3, 5. Медиана находится посередине и равна, по правилу ее вычисления, (2+3)/2 = 2.5, значит, 50% процентиль равна 2.5. Аналогично, 25% процентиль - оценка, ниже которой лежит ровно четверть (25%) выборки. У нас  эта граница проходит между 2 и 2 - значит, 25% процентиль равна 2. 75% процентиль находится между тройкой и пятеркой, значит, равна 4!
 
Рассмотрим более сложную задачу. Например, мы говорим об увеличении количества молока. Допустим, у женщин оно составило -100 г, -50 г, 50г, 100г, 150г, 200г, 250г, 300г, 400 г, 500 г. 
 
Мы посчитаем 20-ю, 40-ю, 50-ю, 60-ю, 80-ю процентили. 
 
Тогда 20-я процентиль это такое значение, что 20% значений прибавки молока меньше этого числа, а остальные 80% значений - больше. У нас всего 10 значений, значит, 20% это ровно два значения. По правилам расчета процентилей, 20% процентиль будет равна: ((-50)+50)/2=0
 
Значит, ровно 20% прибавок молока меньше 0, и ровно 80% значений прибавок молока больше 0. 
 
Аналогично, 40% процентиль равна (100+150)/2=125г, 50% процентиль равна 175 г (медиана), 60% процентиль равна225 г, 80% процентиль равна 350 г.
 
 
Допустим теперь, что мы считаем массу детей при рождении. Мы записали тысячу значений массы ребенка при рождении и нашли 5% процентиль. Для этого мы расположили всю тысячу значений массы при рождении в ряд и нашли такое значение, что 5% чисел находится от него слева, и 95% находится справа. Допустим, это 2 кг. Это значит, что 5% детей при рождении весят менее 2 кг, и 95% детей весят более 2 кг. Отметим значение 2 кг черной точкой на графике. Точно так же мы можем посчитать 5% процентиль для массы детей в месяц, в два, в три и так далее. Каждый раз ставя черную точку, мы получим черную кривую на графике ВОЗ. Черная кривая показывает, ниже какой массы находятся лишь 5% детей в этом возрасте. Соответственно, зеленая линия - это 50% процентиль, которая показывает, что в этом возрасте ровно половина детей имеет массу ниже этого значения, а половина - выше. 
Лучше, если ребенок более-менее движется по какой-либо кривой, или даже поднимается, и настораживает, если он спускается на соседнюю или даже дальше. 
статистика для чайников

Благодарю от всей души за рисунок консультанта по ГВ АКЕВ Марину Парадиз, редакция рисунка моя

 
Автор - Мария Сорокина, IBCLC, создатель сайта "Грудное вскармливание".
Оригинал статьи