Искусство статистики. Как находить ответы в данных
Дэвид Шпигельхалтер
МИФ Научпоп
Статистика играла ключевую роль в научном познании мира на протяжении веков, а в эпоху больших данных базовое понимание этой дисциплины и статистическая грамотность становятся критически важными. Дэвид Шпигельхалтер приглашает вас в не обремененное техническими деталями увлекательное знакомство с теорией и практикой статистики.
Эта книга предназначена как для студентов, которые хотят ознакомиться со статистикой, не углубляясь в технические детали, так и для широкого круга читателей, интересующихся статистикой, с которой они сталкиваются на работе и в повседневной жизни. Но даже опытные аналитики найдут в книге интересные примеры и новые знания для своей практики.
На русском языке публикуется впервые.
Дэвид Шпигельхалтер
Искусство статистики. Как находить ответы в данных
Издано с разрешения Penguin Books Ltd и Andrew Nurnberg Literary Agency
Все права защищены.
Никакая часть данной книги не может быть воспроизведена в какой бы то ни было форме без письменного разрешения владельцев авторских прав.
Original English language edition first published by Penguin Books Ltd, London
Text copyright © David Spiegelhalter 2019
The author has asserted his moral rights.
All rights reserved.
© Перевод на русский язык, издание на русском языке, оформление. ООО «Манн, Иванов и Фербер», 2021
?
Статистикам всего мира – педантичным, отзывчивым, добросовестным людям, стремящимся использовать данные наилучшим образом
Введение
Цифры сами по себе не умеют говорить. Именно мы говорим за них. Мы наполняем их смыслом.
Нейт Сильвер, «Сигнал и шум»[1 - Издана на русском языке: Сильвер Н. Сигнал и шум. Почему одни прогнозы сбываются, а другие – нет. М.: КоЛибри, 2015. Прим. пер.],[2 - Эта книга Нейта Сильвера – превосходное введение в сферу применения статистики для прогнозов в спорте и других областях.]
Зачем нужна статистика?
Психологический портрет Гарольда Шипмана, более известного как Доктор Смерть, не похож на серийного убийцу, тем не менее этот человек поставил рекорд по убийствам. Тихий семейный врач, работавший в пригороде Манчестера, в период с 1975 по 1998 год ввел как минимум 215 пожилым пациентам смертельную дозу опиатов. Но в конце концов он «прокололся», подделав завещание одной из своих жертв, которая якобы оставила ему часть наследства, что весьма насторожило ее дочь-адвоката. Проверка компьютера врача показала, что он задним числом изменял информацию в медицинских картах пациентов, чтобы состояние их здоровья казалось хуже, чем было на самом деле. Он считался увлеченным поборником технологий, но не был достаточно технически подкован, чтобы понимать, что время каждого внесенного изменения фиксируется (кстати, хороший пример метаданных, раскрывающих скрытый смысл данных).
В результате эксгумации пятнадцати тел его пациентов (из тех, которых не кремировали) в них были обнаружены смертельные дозы диаморфина, медицинской формы героина. В 1999 году Шипмана судили за пятнадцать убийств и приговорили к пожизненному заключению. Он не защищался и не произнес на суде ни слова. Впоследствии было инициировано публичное расследование, чтобы определить, какие еще преступления он мог совершить, помимо рассмотренных в суде, и можно ли было разоблачить его раньше. Я был одним из нескольких статистиков, которых тогда привлекали к расследованию. Оно пришло к выводу, что он определенно убил 215 пациентов, а, возможно, и еще 45[3 - Подробно данные о Шипмане обсуждаются в работе: D. Spiegelhalter and N. Best, ‘Shipman’s Statistical Legacy’, Significance 1:1 (2004), 10–12. Все документы по этому общественному расследованию находятся на сайте http://www.the-shipman-inquiry.org.uk/reports.asp (http://www.the-shipman-inquiry.org.uk/reports.asp).].
Эта книга посвящена применению статистики[4 - Термины, выделенные полужирным шрифтом, включены в глоссарий в конце книги.] для поиска ответов на вопросы (некоторые из них выделены), которые возникают, когда мы пытаемся лучше понять мир. Чтобы получить представление о мотивах поведения Шипмана, вполне законом