Вы читаете книгу
Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать бу
Эйден Эрец
Выбрать книгу по жанру
Фантастика и фэнтези
- Боевая фантастика
- Героическая фантастика
- Городское фэнтези
- Готический роман
- Детективная фантастика
- Ироническая фантастика
- Ироническое фэнтези
- Историческое фэнтези
- Киберпанк
- Космическая фантастика
- Космоопера
- ЛитРПГ
- Мистика
- Научная фантастика
- Ненаучная фантастика
- Попаданцы
- Постапокалипсис
- Сказочная фантастика
- Социально-философская фантастика
- Стимпанк
- Технофэнтези
- Ужасы и мистика
- Фантастика: прочее
- Фэнтези
- Эпическая фантастика
- Юмористическая фантастика
- Юмористическое фэнтези
- Альтернативная история
Детективы и триллеры
- Боевики
- Дамский детективный роман
- Иронические детективы
- Исторические детективы
- Классические детективы
- Криминальные детективы
- Крутой детектив
- Маньяки
- Медицинский триллер
- Политические детективы
- Полицейские детективы
- Прочие Детективы
- Триллеры
- Шпионские детективы
Проза
- Афоризмы
- Военная проза
- Историческая проза
- Классическая проза
- Контркультура
- Магический реализм
- Новелла
- Повесть
- Проза прочее
- Рассказ
- Роман
- Русская классическая проза
- Семейный роман/Семейная сага
- Сентиментальная проза
- Советская классическая проза
- Современная проза
- Эпистолярная проза
- Эссе, очерк, этюд, набросок
- Феерия
Любовные романы
- Исторические любовные романы
- Короткие любовные романы
- Любовно-фантастические романы
- Остросюжетные любовные романы
- Порно
- Прочие любовные романы
- Слеш
- Современные любовные романы
- Эротика
- Фемслеш
Приключения
- Вестерны
- Исторические приключения
- Морские приключения
- Приключения про индейцев
- Природа и животные
- Прочие приключения
- Путешествия и география
Детские
- Детская образовательная литература
- Детская проза
- Детская фантастика
- Детские остросюжетные
- Детские приключения
- Детские стихи
- Детский фольклор
- Книга-игра
- Прочая детская литература
- Сказки
Поэзия и драматургия
- Басни
- Верлибры
- Визуальная поэзия
- В стихах
- Драматургия
- Лирика
- Палиндромы
- Песенная поэзия
- Поэзия
- Экспериментальная поэзия
- Эпическая поэзия
Старинная литература
- Античная литература
- Древневосточная литература
- Древнерусская литература
- Европейская старинная литература
- Мифы. Легенды. Эпос
- Прочая старинная литература
Научно-образовательная
- Альтернативная медицина
- Астрономия и космос
- Биология
- Биофизика
- Биохимия
- Ботаника
- Ветеринария
- Военная история
- Геология и география
- Государство и право
- Детская психология
- Зоология
- Иностранные языки
- История
- Культурология
- Литературоведение
- Математика
- Медицина
- Обществознание
- Органическая химия
- Педагогика
- Политика
- Прочая научная литература
- Психология
- Психотерапия и консультирование
- Религиоведение
- Рефераты
- Секс и семейная психология
- Технические науки
- Учебники
- Физика
- Физическая химия
- Философия
- Химия
- Шпаргалки
- Экология
- Юриспруденция
- Языкознание
- Аналитическая химия
Компьютеры и интернет
- Базы данных
- Интернет
- Компьютерное «железо»
- ОС и сети
- Программирование
- Программное обеспечение
- Прочая компьютерная литература
Справочная литература
Документальная литература
- Биографии и мемуары
- Военная документалистика
- Искусство и Дизайн
- Критика
- Научпоп
- Прочая документальная литература
- Публицистика
Религия и духовность
- Астрология
- Индуизм
- Православие
- Протестантизм
- Прочая религиозная литература
- Религия
- Самосовершенствование
- Христианство
- Эзотерика
- Язычество
- Хиромантия
Юмор
Дом и семья
- Домашние животные
- Здоровье и красота
- Кулинария
- Прочее домоводство
- Развлечения
- Сад и огород
- Сделай сам
- Спорт
- Хобби и ремесла
- Эротика и секс
Деловая литература
- Банковское дело
- Внешнеэкономическая деятельность
- Деловая литература
- Делопроизводство
- Корпоративная культура
- Личные финансы
- Малый бизнес
- Маркетинг, PR, реклама
- О бизнесе популярно
- Поиск работы, карьера
- Торговля
- Управление, подбор персонала
- Ценные бумаги, инвестиции
- Экономика
Жанр не определен
Техника
Прочее
Драматургия
Фольклор
Военное дело
Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать бу - Эйден Эрец - Страница 7
И хотя эта книга мало чем примечательна, она тем не менее позволяет нам многое узнать о жанре любовного романа как таковом. Например, очевидно, что эта книга написана для «нее» – слово her («ее») занимает восемь полных страниц (с. 130–138), his («его») – две с половиной (с. 141–144). В книге можно найти полстраницы «глаз» (eyes) и треть страницы «грудей» (breasts), а вот «ягодицы» (buttocks) упоминаются в ней всего лишь один раз. Книгу можно назвать довольно динамичной – на одной лишь с. 62 слово «кульминация» (climax) встречается три раза.
Иногда книга может показаться не слишком интеллектуальной. Например, слово «прекрасный» (beautiful) встречается в ней 29 раз, «умный» (Intelligent) – всего однажды. Однако бывает и так, что мы ощущаем напряжение исходной книги, – взять хотя бы леденящий душу пассаж на с. 187: Murderers murderers, murdering murdering murdering murdering murdering murdering murdering, murderous murderous. murders murders, murky murmur murmured («Убийцы убийцы, убивая убивая убивая убивая убивая убивая убивая убивая, убийственный убийственный, убийства убийства мутный шум пробормотал»).
На протяжении нескольких лет мы обращались к этой книге снова и снова, каждый раз обнаруживая нечто новое и интересное.
Все это кажется поначалу странным. Можно было бы предположить, что, превращая любовный роман в алфавитный список и тем самым уничтожая его изначальный смысл, Реймер могла бы заодно уничтожить все то, что делало текст интересным. И в какой-то степени это правда. Однако в результате алфавитной реорганизации текста нам открывается невидимый прежде мир частотности слов – лексических атомов, из которых состоит текст. Эта частотность – и истории, которые она рассказывает, – как раз и превращает результат работы Реймер в столь увлекательное повествование.
Трудный ребенок
На момент нашего знакомства в 2005 году тема больших данных была еще неактуальной[37]. Идея чтения миллионов книг за долю секунды пока что не приходила нам в голову. Мы были всего лишь молодыми студентами-старшекурсниками, которых интересовала масса вопросов.
Для того чтобы найти, чем заинтересоваться, нужна соответствующая среда. Мы встретились на гарвардской программе Evolutionary Dynamics[38] – в настоящей гавани творчества и науки, организованной харизматичным математиком и биологом Мартином Новаком. Программа «Эволюционная динамика» представляла собой площадку, на которой математики, лингвисты, онкологи, религиоведы, психологи и физики собирались вместе и размышляли о новых способах изучения мира. Новак призывал нас искать решения любых проблем, интересовавших нас, вне зависимости от того, к какой области знания они относились.
Что делает проблему увлекательной? На эту тему можно вести множество споров. Нам казалось, что увлекательный вопрос – это вопрос, который может задать маленький ребенок, ответ на который неизвестен, и при поиске этого ответа (занимающем порой несколько лет научных исследований) можно достичь вполне заметного прогресса. Именно такие вопросы казались интересными и нам. Дети – отличный источник идей для исследований. Их вопросы вроде «Куда уходит солнце по вечерам?» [39] и «Почему небо синее?» [40] заставляют пытливые умы погрузиться в глубины астрономии и физики. А вопросы вроде «Может ли дерево вырасти и стать выше горы?» [41] или «Могли бы мы жить вечно, если бы изо всех сил старались избегать всевозможных опасностей?» заставляют обратиться к изучению некоторых актуальных тем в современной биологии. Привычный для любых родителей вопрос «Но почему я должен идти спать прямо сейчас?» [42] – не дает заснуть множеству неврологов.
Однако из всех этих вопросов нас увлек один: «Почему мы говорим drove, а не drived?» [43]
Вопрос показался нам интересным, поскольку представлял собой простой пример довольно важной для всего человечества темы. Почему мы, как культура, используем одни слова или идеи, а не другие? Почему мы соблюдаем одни правила и игнорируем все прочие?
Для поиска решений таких вопросов возможны два подхода. Первый состоит в том, чтобы сконцентрироваться на нынешних обстоятельствах, которые и приводят к тому, что мы ведем себя определенным образом. Например: «Мой милый сын, ты говоришь drove, потому что все остальные тоже говорят drove, а если бы ты сказал drived, то наши соседи подумали бы, что мы, твои родители, не озаботились тем, чтобы научить тебя правильному английскому языку». Это отличный ответ, заставляющий задуматься о природе социальных норм. Философы занимались осмыслением таких вопросов на протяжении столетий. Однако порой ученый может прийти к гораздо более неожиданным открытиям, изучая явления в исторической перспективе.
Пожалуй, самым впечатляющим примером перспективного подхода во всей истории науки могут считаться работы Чарльза Дарвина. Более 150 лет назад Дарвин отправился в путешествие на корабле и столкнулся со множеством странных живых существ. Особенно сильно его заинтересовали некоторые птицы, которых он увидел на Галапагосах: почему клювы вьюрков имели такую странную форму? И вообще, почему животные выглядят так, как они выглядят?
А затем Дарвин сделал крайне проницательное заключение. Вместо того чтобы сконцентрироваться исключительно на настоящем, он посмотрел в далекое прошлое. Дарвин задался вопросом – как получилось, что со временем те или иные организмы обрели нынешнюю форму? Если мы хотим понять мир в его нынешнем виде, полагал он, мы должны понять и суть процесса изменений, который привел нас в это состояние. И этот процесс изменений – важнейшее открытие Дарвина – представляет собой комбинацию воспроизводства, мутации и естественного отбора, и эта комбинация (или, иными словами, теория эволюции) способна объяснить все примечательное разнообразие живого мира.
Перспективный подход превращает вопрос о том, почему мы говорим drove, а не drived, в научный поиск тех сил, которые определяют эволюцию человеческой культуры. В течение длительного периода времени мы совершенно не представляли себе, как подступиться к этим силам. Все, что у нас было, это «детский» вопрос.
Охотники на динозавров
Мы как ученые должны заниматься сбором данных – холодных, четких фактов и точных результатов измерений. Мы должны формулировать однозначные гипотезы, а затем пытаться изменить или скорректировать их с помощью точных экспериментов и анализа. С этой точки зрения культура – вещь, которую сложно определить и еще сложнее измерить, – может оказаться довольно твердым орешком. Именно это и делает столь непростой научную работу в областях вроде антропологии. Отчасти именно по этой причине в 2010 году Американская антропологическая ассоциация приняла довольно противоречивое решение об исключении слова «наука» из формулировки своей задачи (стоит отметить, что позднее это слово было вновь возвращено в текст) [44].
Мы решили начать с достаточно узкого аспекта культуры, который довольно просто определить и измерить, – языка. Язык представляет собой своеобразный микрокосм для изучения культуры в целом. Это – основное средство распространения человеческой культуры. Он меняется, и это легко заметит любой человек, читающий пьесы Шекспира. И наконец, язык часто имеет письменную форму и именно в этой форме превращается в массив данных, удобный для научного анализа. В конечном счете письменный язык может считаться одним из самых ранних предшественников больших данных.
- Предыдущая
- 7/15
- Следующая