Вы читаете книгу
Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать бу
Эйден Эрец
Выбрать книгу по жанру
Фантастика и фэнтези
- Боевая фантастика
- Героическая фантастика
- Городское фэнтези
- Готический роман
- Детективная фантастика
- Ироническая фантастика
- Ироническое фэнтези
- Историческое фэнтези
- Киберпанк
- Космическая фантастика
- Космоопера
- ЛитРПГ
- Мистика
- Научная фантастика
- Ненаучная фантастика
- Попаданцы
- Постапокалипсис
- Сказочная фантастика
- Социально-философская фантастика
- Стимпанк
- Технофэнтези
- Ужасы и мистика
- Фантастика: прочее
- Фэнтези
- Эпическая фантастика
- Юмористическая фантастика
- Юмористическое фэнтези
- Альтернативная история
Детективы и триллеры
- Боевики
- Дамский детективный роман
- Иронические детективы
- Исторические детективы
- Классические детективы
- Криминальные детективы
- Крутой детектив
- Маньяки
- Медицинский триллер
- Политические детективы
- Полицейские детективы
- Прочие Детективы
- Триллеры
- Шпионские детективы
Проза
- Афоризмы
- Военная проза
- Историческая проза
- Классическая проза
- Контркультура
- Магический реализм
- Новелла
- Повесть
- Проза прочее
- Рассказ
- Роман
- Русская классическая проза
- Семейный роман/Семейная сага
- Сентиментальная проза
- Советская классическая проза
- Современная проза
- Эпистолярная проза
- Эссе, очерк, этюд, набросок
- Феерия
Любовные романы
- Исторические любовные романы
- Короткие любовные романы
- Любовно-фантастические романы
- Остросюжетные любовные романы
- Порно
- Прочие любовные романы
- Слеш
- Современные любовные романы
- Эротика
- Фемслеш
Приключения
- Вестерны
- Исторические приключения
- Морские приключения
- Приключения про индейцев
- Природа и животные
- Прочие приключения
- Путешествия и география
Детские
- Детская образовательная литература
- Детская проза
- Детская фантастика
- Детские остросюжетные
- Детские приключения
- Детские стихи
- Детский фольклор
- Книга-игра
- Прочая детская литература
- Сказки
Поэзия и драматургия
- Басни
- Верлибры
- Визуальная поэзия
- В стихах
- Драматургия
- Лирика
- Палиндромы
- Песенная поэзия
- Поэзия
- Экспериментальная поэзия
- Эпическая поэзия
Старинная литература
- Античная литература
- Древневосточная литература
- Древнерусская литература
- Европейская старинная литература
- Мифы. Легенды. Эпос
- Прочая старинная литература
Научно-образовательная
- Альтернативная медицина
- Астрономия и космос
- Биология
- Биофизика
- Биохимия
- Ботаника
- Ветеринария
- Военная история
- Геология и география
- Государство и право
- Детская психология
- Зоология
- Иностранные языки
- История
- Культурология
- Литературоведение
- Математика
- Медицина
- Обществознание
- Органическая химия
- Педагогика
- Политика
- Прочая научная литература
- Психология
- Психотерапия и консультирование
- Религиоведение
- Рефераты
- Секс и семейная психология
- Технические науки
- Учебники
- Физика
- Физическая химия
- Философия
- Химия
- Шпаргалки
- Экология
- Юриспруденция
- Языкознание
- Аналитическая химия
Компьютеры и интернет
- Базы данных
- Интернет
- Компьютерное «железо»
- ОС и сети
- Программирование
- Программное обеспечение
- Прочая компьютерная литература
Справочная литература
Документальная литература
- Биографии и мемуары
- Военная документалистика
- Искусство и Дизайн
- Критика
- Научпоп
- Прочая документальная литература
- Публицистика
Религия и духовность
- Астрология
- Индуизм
- Православие
- Протестантизм
- Прочая религиозная литература
- Религия
- Самосовершенствование
- Христианство
- Эзотерика
- Язычество
- Хиромантия
Юмор
Дом и семья
- Домашние животные
- Здоровье и красота
- Кулинария
- Прочее домоводство
- Развлечения
- Сад и огород
- Сделай сам
- Спорт
- Хобби и ремесла
- Эротика и секс
Деловая литература
- Банковское дело
- Внешнеэкономическая деятельность
- Деловая литература
- Делопроизводство
- Корпоративная культура
- Личные финансы
- Малый бизнес
- Маркетинг, PR, реклама
- О бизнесе популярно
- Поиск работы, карьера
- Торговля
- Управление, подбор персонала
- Ценные бумаги, инвестиции
- Экономика
Жанр не определен
Техника
Прочее
Драматургия
Фольклор
Военное дело
Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать бу - Эйден Эрец - Страница 4
Группа исследователей во главе с Джеймсом Фаулером из Калифорнийского университета в Сан-Диего договорилась с Facebook о проведении эксперимента, в котором должен был участвовать 61 миллион его пользователей[19]. Эксперимент показал, что человек охотнее участвует в голосовании, если знает, что это уже сделал его близкий друг. Чем теснее люди общаются, тем большее влияние они могут оказывать друг на друга. Данный эксперимент – рассказ о котором был вынесен на обложку престижного научного журнала Nature – не просто привел к поразительным выводам; благодаря ему в 2010 году на выборы явилось на 300 тысяч людей больше. Этого хватило для того, чтобы повлиять на их итоги.
Альберт-Ласло Барабаши, физик из Северо-Западного университета, вместе с несколькими крупными телефонными компаниями работал над проектом по отслеживанию перемещения миллионов людей с помощью анализа цифрового следа, оставленного их мобильными телефонами[20]. В результате возник совершенно новый метод математического анализа обычного человеческого движения, оцененного в масштабе целых городов. Барабаши и его команда смогли настолько хорошо проанализировать историю движения, что со временем даже стали предсказывать, куда человек направится в будущем.
Сотрудники компании Google под руководством программиста Джереми Гинсбурга обратили внимание, что люди значительно чаще ищут информацию о симптомах гриппа, его осложнениях и методах лечения во время эпидемии[21]. Они воспользовались этим вполне очевидным фактом для решения более важной задачи – создания системы, изучающей в режиме реального времени, что ищут через Google жители определенного региона, и позволяющей предсказать возникновение эпидемии гриппа. Эта система раннего предупреждения смогла выявлять новые эпидемии значительно быстрее, чем Центры по контролю и профилактике заболеваний США (несмотря на тот факт, что у этих центров имеется разветвленная и дорогостоящая инфраструктура для решения именно этой задачи).
Радж Четти, экономист из Гарварда, обратился к налоговой службе США[22]. Он убедил их поделиться информацией о миллионах учащихся, посещавших учебное заведение в определенном городском районе. Вместе со своими соратниками он сопоставил эту информацию с данными из базы школьного совета (в которой фиксировалась информация о школьных заданиях). Таким образом, команда Четти знала, кто учится у тех или иных учителей. На основании всей полученной информации был проведен ряд интереснейших исследований долгосрочного влияния со стороны хороших учителей, а также политических нововведений. Они обнаружили, что работа хорошего учителя сказывается на желании учащихся продолжить учебу в колледже, на величине их дохода через много лет после окончания школы и даже на том, какова вероятность, что они поселятся в том или ином престижном районе. Затем на основании полученных выводов исследователи сформулировали рекомендации по повышению эффективности работы педагогов. В 2013 году Четти также получил медаль Джона Бейтса Кларка.
А один из основателей знаменитого блога Five Thirty Eight, бывший бейсбольный аналитик по имени Нейт Сильвер, решил выяснить, можно ли применить подход на основе больших данных для предсказания победителей национальных выборов[23]. Сильвер собрал данные, связанные с голосованием, из множества источников: Gallup, Rasmussen, RAND, Mellman, CNN и других. Используя эти данные, он совершенно точно предсказал, что Обама выиграет выборы 2008 года, а также точно спрогнозировал результаты голосования в коллегиях выборщиков 49 штатов и округа Колумбия. Единственным штатом, с которым он ошибся, была Индиана. Улучшать в системе было особенно нечего, однако ему все равно удалось это сделать. Утром в день голосования в 2012 году Сильвер объявил, что Обама с вероятностью 90,9% выиграет у Ромни, и точно предсказал победителя выборов в округе Колумбия и каждом из штатов (включая, конечно же, Индиану).
Этот список можно продолжать до бесконечности. Используя большие данные, исследователи в наши дни проводят эксперименты, о которых их предшественники не могли и мечтать.
Библиотека всего
В настоящей книге описывается история одного из таких экспериментов.
Объектом наших наблюдений были не люди, лягушки, молекулы или атомы. Эксперимент был связан с одним из самых потрясающих массивов данных в истории самой истории – цифровой библиотекой, цель которой (если верить ее создателям) состоит в том, чтобы включить все когда-либо написанные книги[24].
Как же возникла эта замечательная библиотека?
В 1996 году два старшекурсника из Стэнфорда, изучавших компьютерные технологии, работали над приостановленным ныне проектом, известным как Stanford Digital Library Technologies Project[25]. Цель проекта состояла в разработке прототипа библиотеки будущего, способной интегрировать мир книг с миром глобальной Сети. Студенты работали над инструментом, дающим пользователям возможность изучать библиотечные коллекции, перемещаясь от книги к книге в киберпространстве. Однако сделать это на практике было практически невозможно, поскольку в цифровом виде имелось довольно мало книг. Поэтому двое студентов применили свои идеи и навыки для перехода от одного текста к другому (по следу больших данных во Всемирной паутине), а затем превратили свою работу в небольшую поисковую машину, которую назвали Google.
К 2004 году проект, о котором заявляла компания Google – по «упорядочиванию всей имеющейся в мире информации», – уже реализовывался вполне успешно, благодаря чему у основателя компании Ларри Пейджа нашлось достаточно свободного времени, чтобы вернуться к своей первой любви – библиотекам. Как ни печально, но и к тому моменту количество книг, доступных в цифровой форме, оставалось незначительным. Однако изменилось другое – теперь Пейдж стал миллиардером. Поэтому он решил, что Google стоит заняться бизнесом по сканированию и оцифровке книг. И Пейдж подумал, что Google вполне по силам оцифровать все книги в мире.
Слишком смело? Несомненно. Однако компания Google лихо принялась за дело. Через девять лет после публичного заявления о начале проекта Google оцифровала более 30 миллионов книг[26]. Это примерно каждая четвертая когда-либо опубликованная книга. Коллекция Google превышает по своему размеру коллекцию Гарвардского университета (17 миллионов томов), Стэнфорда (9 миллионов), оксфордской Бодлианской библиотеки (11 миллионов) или любой другой университетской библиотеки. В ней больше книг, чем в Российской государственной библиотеке (15 миллионов), Национальной библиотеке Китая (26 миллионов) и Национальной библиотеке Германии (25 миллионов). На момент написания этой книги единственной библиотекой, в которой хранилось еще больше книг, была Библиотека Конгресса США (33 миллиона). Не исключено, что к тому моменту, как вы прочтете эти строки, Google удастся обогнать и ее.
Длинные данные
О начале работы проекта Google Books мы, как и все остальные, узнали из новостей. Однако лишь через два года, в 2006 году, влияние Google стало ощущаться в реальной жизни. В то время мы завершали научное исследование по английской грамматике. Для нее мы оцифровали вручную несколько учебников по грамматике староанглийского.
Самые нужные нам книги таились в дальних углах гарвардской Вайднеровской библиотеки. Вот как их можно найти. Сначала вам нужно подняться на второй этаж восточного крыла библиотеки. Затем пройти мимо «Рузвельтовской коллекции» и раздела, посвященного языкам американских индейцев. Там вы увидите проход с номерами каталога от 8900 и далее. Наши книги располагались на второй полке сверху.
- Предыдущая
- 4/15
- Следующая