Двенадцать правил для понимания и использования статистических данных. Правила 1-4
Продолжаем разговор о статистике и ее анализе.
Правило первое. Понимайте, что именно вы хотите измерить, когда собираете цифры
Простой счет измеряет только одну вещь или параметр, поэтому нам действительно важно понять, что именно мы измеряем, когда считаем. Например, дверной счетчик говорит, сколько людей прошло мимо устройства в течение определенного времени. И все. Он не скажет нам, зачем эти люди пришли, как долго они у нас пробыли, как часто они к нам приходят, нашли ли то, что искали за время визита. Эта цифра также включает людей, которые приходили несколько раз, сотрудников библиотеки, просто любопытствующих и тех, кто хотел спрятаться от непогоды.
Статистика книговыдачи показывает, сколько документов было выдано или продлено. Она не говорит нам, была ли книга полезна или вообще прочитана. Она не говорит о причине продления книги — действительно ли ее не успели прочитать, или читателю просто было неудобно идти в этот день в библиотеку, чтобы ее сдать. А с перспективой автопродлений (как я поняла, в время карантина, книги продлялись автоматически… по крайней мере мы так делали) эти цифры скажут нам еще меньше, так как в этом случае смешиваются потенциальные задолженности с фактическими продлениями.
Цифры, которые мы собираем — всего лишь кусочки информации, которые в комбинации с другими кусочками могут помочь нам принять информированное решение. Сами по себе они не являются показателями того, выполняем ли мы свою миссию или оказываем влияние на наше сообщество. Сами по себе они говорят нам очень мало. Но если их собирать и анализировать в течение долгого времени, они могут помочь отследить определенные тренды.
Когда вы пишете статистический отчет, лучше всего оперировать только теми данными, которые были посчитаны. Точное указание, какие данные были собраны, поможет вам избежать необоснованных выводов. Это также поможет вам пересмотреть параметры и методы сбора информации.
Правило второе. Чем точнее собранные данные, тем более правильные выводы можно будет делать.
Математика — точная наука. Когда вы проводите вычисления с приблизительными данными, то точность снижается с каждой операцией. Это затрагивает суммы и разности, средние значения и проценты, количество услуг на душу населения и скорость книгооборота. Чем больше допущений вы делаете, тем менее полезной эта информация будет для анализа реального положения дел.
Если есть возможность, считайте, а не делайте предположений. Если предположений не избежать, то включайте в процесс как можно больше фактических подсчетов. На большом мероприятии посчитайте количество зрителей на половине или четверти зала, а потом умножьте на два (или четыре). Считайте выполненные запросы в течение недели раз в квартал, а потом экстраполируйте на 52 недели. (Тут мне не совсем понятно, зачем именно так, можно же считать выполненные справки каждый день — так точнее получается).
Будьте последовательны в своих подсчетах. Если вы используете специальное программное обеспечение для сбора и анализа статистики, убедитесь, что каждый раз в отчет попадают одни и те же параметры.
Правило третье. Опасайтесь делать выводы на основе маленьких или пересекающихся данных.
Если сегодня к вам на мероприятие пришло три человека, а через неделю — четыре, то вы спокойно можете заявить 33% рост посещаемости этого мероприятия (Обратное тоже верно, кстати). Хотя, с точки зрения статистики, это слишком маленькие величины, чтобы получить достоверные данные. Вероятность того, что этот рост будет сохранятся в течение продолжительного времени, мала, поэтому использовать эти данные для прогнозирования было бы неправильным.
Если в понедельник на сторитайм (или любой другое занятие) пришли 30 человек, а во вторник — 45, вы можете сказать, что на сторитайм всего пришло 75 человек. Хотя, на самом деле некоторые могли прийти на обе встречи. Поэтому, решения, которые вы будете принимать относительно расписания или проведения встреч на самом деле затронут меньше людей, чем вам кажется.
Увеличивайте массив данных за счет разных источников. Сравнивайте количество посещений за текущий и прошлый год, вместо того чтобы сравнивать их ежемесячно. Сравнивайте посещаемость и делайте выводы на основе данных обо всех ваших мероприятиях целиком, а не по одной программе и время от времени.
Если у вас есть пересекающиеся данные, важно использовать правильные формулировки, в зависимости от целей анализа. Если вам необходимо проанализировать количество участников клуба, то не нужно учитывать количество посещений отдела (или библиотеки).
Правило четвертое. Среднее арифметическое может быть обманчивым.
Если, предположить, что численность обслуживаемого библиотекой населения 25 000 человек, а ежегодный объем книговыдачи — 500 000, то очень хочется сказать, что в среднем каждый член вашего сообщества читает 20 книг в год. Можно красочно представить себе эту толпу людей, у каждого из которых в руках большая стопка книг. Но вероятность того, что этот образ не подойдет ни одному из этих 25 000, очень велика. Почему? Потому что книговыдача включает и продление срока пользования книгой, потому что выданная книга — не значит обязательно прочитанная, потому что большинство брали одну-две книги в год, а то и вовсе не одной. В то время как несколько жадных до чтения индивидов берут по 10 книг в неделю.
Те же самые данные о книговыдаче могут показать, что в среднем, в библиотеке берут 4 книги в год (среднее арифметическое от наибольшего и наименьшего количества выданных книг). Это больше похоже на типичное поведение ваших читателей, но все равно не раскрывает картину полностью, выпуская из виду, что каждый член вашего книжного сообщества уникален.
Если вы планируете услуги или мероприятия для разнородной аудитории, то ориентация на усреднённого пользователя значительно снизит ваши представления о потребностях сообщества целиком.
22/50. Еще раз обращаю ваше внимание, что это перевод текста нашей американской коллеги. Там все по-другому. Поэтому не надо воспринимать его буквально, а попробовать подумать и адаптировать (если нужно) под реалии вашей библиотеки (или отдела).