Статистика для консультантов - 1. Мода, Медиана, Среднее

В статистике есть несколько понятий, знать которые необходимо, чтобы понимать научные статьи по своей тематике. Я решила сделать небольшой цикл статей об основах статистики, которые будут полезны консультантам и участницам групп поддержки ГВ, а также всем, кто хочет быть в курсе современных исследований, а особенно - сдавать экзамен на IBCLC (консультант по лактации, сертифицированный международным экзаменационным комитетом). 
 
Самые базовые понятия статистики - это среднее, медиана и мода. Если у нас есть набор некоторых чисел (например, количество молока, сцеженное разными женщинами, прибавка веса у разных детей, частота заболеваний у разных детей), для этого набора чисел можно посчитать среднее, моду и медиану. Про среднее многие из нас догадываются, что это такое, а вот "мода" и "медиана" для большинства - новые понятия, поэтому с них и начнем. 
 
Чтобы было легче запомнить, немного подробнее расскажем о смысле этих чисел. 
 
Мода (mode) - очень "женское" слово ))) И правда, в статистике моду часто используют для не-числовых величин. Например, людей спрашивают, какого цвета они хотели бы купить автомобиль. Люди выбирают из ответов - черный, синий, зеленый, красный, серебристый, белый. Какой цвет чаще встречается, тот и "мода" - "модный" )) 
 
Задание 1 - ответы опрошенных о любимом цвете автомобиля были следующими: 
черный зеленый зеленый синий синий синий серебристый серебристый красный белый
 
Какая мода? 
 
 
Медиана (median). Наверное, многие из нас помнят, что медиана в треугольнике делит его пополам. 
Так и тут, медиана делит ровно пополам числа, среди которых мы ищем медиану, если их выписать в ряд в возрастающем порядке. Если количество чисел нечетное, посередине будет число, и ответ вычислить легко (просто берем число, которое посередине). Если число ответов четное, то медиана упадет ровно посередине между двух чисел, значит, чтобы ее найти, надо будет посчитать среднее между этими двумя "соседями". 
 
Среднее (mean, average). Среднее полезно практически всегда. Например, мы хотим ехать в другой город через месяц, как раз в марте. Мы залезаем в интернет и узнаем среднее количество осадков в этом городе в марте, среднюю дневную температуру в марте, и так далее. И вот, мы уже кое-что себе представляем и можем подобрать одежду. 
 
Однако не всегда среднее дает понимание о том, что на самом деле происходит. Например, если нам дадут не среднюю дневную температуру в марте, а среднесуточную температуру, у нас будет уже меньше представления о том, какова погода в этом городе. Может быть, там ночью очень холодно, а днем жарко (-10 и +20) ? А может, днем и ночью примерно одинаково (+6 и +4)? Среднее будет одинаковым. Какое, кстати? 
Ответ: (-10+20)/2=10/2=5. (6+4)/2=10/2=5. Средняя температура  в обоих случаях будет +5. 
(сперва посчитайте самостоятельно, а потом прочтите ответ, выделив текст в строке выше). 
 
А если нам вместо этого дадут среднегодовую температуру в этом городе, мы вообще не узнаем, что же там происходит в марте днем ))) 
 
Поэтому часто шутят, - "да ну, это средняя температура по палате". То есть если в палате больные с высокой и низкой температурой, в среднем у них нормальная температура и их можно выписывать.
 
Задание 2. Температура больных в палате составляла
 
34 34 34 34.4 35 38 39 40 40. 
 
Посчитайте, пожалуйста, среднее, медиану и моду
Ответ. Среднее равно сумме температур больных, деленной на число больных. Здесь указано 9 значений температуры. Значит, в палате лежит 9 человек. (34+34+34+34.4+35+38+39+40+40)/9=328.4/9=36.5 примерно (нормальная температура)
Медиана - посередине, если значения температуры расположены в возрастающем порядке. Значит, это 35
Мода - наиболее частое значение температуры, 34. 
 
Пример задачи, похожей на задачи экзамена на IBCLC
 
Задание 3
Вы сделали доклад на встрече консультантов по ГВ, вас слушало 10 коллег. После доклада вы раздали анкету, где задали вопрос, насколько им понравился ваш доклад и насколько полезной оказалась информация. При ответе на вопрос слушателям нужно было выбрать число от 1 до 5 (1, 2, 3, 4, 5). Эти числа были выбраны следующее число раз: 0 2 1 3 4. Чему равны мода ответов, медиана и средний балл?
 
Ответ
Таким образом, ваши коллеги поставили следующие баллы - ни одной единицы, две двойки, одна тройка, три четверки и четыре пятерки. Перечислим эти цифры. 
2 2 3 4 4 4 5 5 5 5 
 
Теперь вычислим то, что спрашивается в вопросе. 
Мода - это наиболее часто встречающееся число. Это, конечно, число 5. 
Медиана - это число, которое находится посередине, если выписать все ответы подряд. В данном случае это 4. Если бы ответы коллег были такими - 4 4 4 4 4 5 5 5 5 5, медиана бы получилась между четверкой и пятеркой, т.е. 4.5 
Среднее. Это самое легкое - нужно сложить все цифры и поделить на число отвечавших (10). 2+2+3+4+4+4+5+5+5+5 = 39
39/10=3.9
 
Мода (mode) = 5
Медиана (median) = 4
Среднее (mean, average) = 3.9
 
каков смысл этих чисел? ваши коллеги чаще других оценок ставили вам пятерку (мода). В среднем вы сделали доклад на 4 с минусом (3.9 это почти 4). Если разделить оценку вашего труда на две равные части, то посередине окажется оценка 4. 
 
Так как среднее не всегда точно характеризует те же ответы ваших коллег, используют и другие показатели, такие как мода и медиана. Медиана полезна, когда много больших или маленьких ответов, например, вам поставили много единиц и несколько пятерок
1 1 1 1 1 1 5 5 5 5 . в среднем вы сделали доклад на 1+1+1+1+1+1+5+5+5+5=26, 26/10=2.6, то есть на 3 с минусом. Но настолько многим не понравился ваш доклад, что медиана оценки его эффективности равна 1. То есть большинство оценило вас в 1!  Ясно, что и мода в данном случае равна 1. Значит, доклад совсем не удался. :) А может быть, вы просто неверно оценили целевую аудиторию, ведь нескольким людям доклад показался отличным. 
 
Задание 4
Несколько женщин, кормящих детей сцеженным молоком, принимали новый чай для лактации в течение недели. В начале и в конце недели они посчитали количество сцеженного молока. В начале недели это было 670, 810, 1200 и 500 граммов. В конце недели это были 650, 810, 1250 и 690 граммов соответственно. 
Посчитайте, пожалуйста, среднее количество молока и медиану до и после приема нового чая. Насколько увеличилось среднее количество молока? 
 
Ответдля получения среднего нужно сложить все числа и поделить на их количество. Цифр 4, значит на 4. 
670+810+1200+500=3180. 3180/4 = 795
650+810+1250+690=3400. 3400/4 = 850
значит, молока стало в среднем на 55 граммов больше
 
медиана
 
Для получения медианы расположим объем сцеженного молока в возрастающем порядке и найдем число, которое стоит посередине. Т.к. у нас четыре ответа, посередине нет числа и нужно будет найти среднее между двумя средними числами. 
 
670, 810, 1200 и 500 
расположим в возрастающем порядке
500 670 810 1200 
значит, медиана равна (670+810)/2 = 740
 
650, 810, 1250 и 690
расположим в возрастающем порядке
650 690 810 1250
значит, медиана равна (690+810)/2 = 750
 
И медиана выросла (на 10 г), и среднее (на 55 г)
при этом лишь у двух женщин количество молока выросло, у одной не изменилось, и у одной даже уменьшилось. 
 
Итак, вам уже, наверное, понятно, что, кроме самых простых случаев, среднее и медиана (не говоря уже о моде) не очень-то точно характеризуют ту величину, для которой их считают (например, средняя температура по палате не очень-то характеризует температуру каждого из больных, а средний прирост молока после применения чая не дает нам информацию, что количество молока могло уменьшиться). Именно поэтому ввели дополнительные характеристики для меняющейся (т.н. "случайной") величины - дисперсия, а также более полное и подробное описание - "распределение случайной величины". Об этом - в следующей статье. 
 
Автор - Мария Сорокина, IBCLC, создатель сайта "Грудное вскармливание".
Оригинал статьи