Выбрать книгу по жанру
Фантастика и фэнтези
- Боевая фантастика
- Героическая фантастика
- Городское фэнтези
- Готический роман
- Детективная фантастика
- Ироническая фантастика
- Ироническое фэнтези
- Историческое фэнтези
- Киберпанк
- Космическая фантастика
- Космоопера
- ЛитРПГ
- Мистика
- Научная фантастика
- Ненаучная фантастика
- Попаданцы
- Постапокалипсис
- Сказочная фантастика
- Социально-философская фантастика
- Стимпанк
- Технофэнтези
- Ужасы и мистика
- Фантастика: прочее
- Фэнтези
- Эпическая фантастика
- Юмористическая фантастика
- Юмористическое фэнтези
- Альтернативная история
Детективы и триллеры
- Боевики
- Дамский детективный роман
- Иронические детективы
- Исторические детективы
- Классические детективы
- Криминальные детективы
- Крутой детектив
- Маньяки
- Медицинский триллер
- Политические детективы
- Полицейские детективы
- Прочие Детективы
- Триллеры
- Шпионские детективы
Проза
- Афоризмы
- Военная проза
- Историческая проза
- Классическая проза
- Контркультура
- Магический реализм
- Новелла
- Повесть
- Проза прочее
- Рассказ
- Роман
- Русская классическая проза
- Семейный роман/Семейная сага
- Сентиментальная проза
- Советская классическая проза
- Современная проза
- Эпистолярная проза
- Эссе, очерк, этюд, набросок
- Феерия
Любовные романы
- Исторические любовные романы
- Короткие любовные романы
- Любовно-фантастические романы
- Остросюжетные любовные романы
- Порно
- Прочие любовные романы
- Слеш
- Современные любовные романы
- Эротика
- Фемслеш
Приключения
- Вестерны
- Исторические приключения
- Морские приключения
- Приключения про индейцев
- Природа и животные
- Прочие приключения
- Путешествия и география
Детские
- Детская образовательная литература
- Детская проза
- Детская фантастика
- Детские остросюжетные
- Детские приключения
- Детские стихи
- Детский фольклор
- Книга-игра
- Прочая детская литература
- Сказки
Поэзия и драматургия
- Басни
- Верлибры
- Визуальная поэзия
- В стихах
- Драматургия
- Лирика
- Палиндромы
- Песенная поэзия
- Поэзия
- Экспериментальная поэзия
- Эпическая поэзия
Старинная литература
- Античная литература
- Древневосточная литература
- Древнерусская литература
- Европейская старинная литература
- Мифы. Легенды. Эпос
- Прочая старинная литература
Научно-образовательная
- Альтернативная медицина
- Астрономия и космос
- Биология
- Биофизика
- Биохимия
- Ботаника
- Ветеринария
- Военная история
- Геология и география
- Государство и право
- Детская психология
- Зоология
- Иностранные языки
- История
- Культурология
- Литературоведение
- Математика
- Медицина
- Обществознание
- Органическая химия
- Педагогика
- Политика
- Прочая научная литература
- Психология
- Психотерапия и консультирование
- Религиоведение
- Рефераты
- Секс и семейная психология
- Технические науки
- Учебники
- Физика
- Физическая химия
- Философия
- Химия
- Шпаргалки
- Экология
- Юриспруденция
- Языкознание
- Аналитическая химия
Компьютеры и интернет
- Базы данных
- Интернет
- Компьютерное «железо»
- ОС и сети
- Программирование
- Программное обеспечение
- Прочая компьютерная литература
Справочная литература
Документальная литература
- Биографии и мемуары
- Военная документалистика
- Искусство и Дизайн
- Критика
- Научпоп
- Прочая документальная литература
- Публицистика
Религия и духовность
- Астрология
- Индуизм
- Православие
- Протестантизм
- Прочая религиозная литература
- Религия
- Самосовершенствование
- Христианство
- Эзотерика
- Язычество
- Хиромантия
Юмор
Дом и семья
- Домашние животные
- Здоровье и красота
- Кулинария
- Прочее домоводство
- Развлечения
- Сад и огород
- Сделай сам
- Спорт
- Хобби и ремесла
- Эротика и секс
Деловая литература
- Банковское дело
- Внешнеэкономическая деятельность
- Деловая литература
- Делопроизводство
- Корпоративная культура
- Личные финансы
- Малый бизнес
- Маркетинг, PR, реклама
- О бизнесе популярно
- Поиск работы, карьера
- Торговля
- Управление, подбор персонала
- Ценные бумаги, инвестиции
- Экономика
Жанр не определен
Техника
Прочее
Драматургия
Фольклор
Военное дело
Журнал «Компьютерра» № 24 от 27 июня 2006 года - Компьютерра - Страница 8
Сегодня наши любимые СМИ предстанут перед читателем в препарированном виде, в каком они кладутся на стол руководителям крупных корпораций и высшим государственным чинам.
Извлечение информации из средств массовой информации – дело тонкое, утомительное и крайне дорогое. Есть в этом какая-то нехорошая ирония – но факт остается фактом. До недавнего времени заниматься этим делом всерьез (во всяком случае, в России) могли позволить себе только самые мощные спецслужбы и самые важные из госорганов [Это всего лишь догадка. Откуда нам точно знать, что они там себе позволяют?] (что почти одно и то же). Причина проста: штат аналитиков – это всегда штучный, уникальный инструмент для решения штучных же задач (притом требующих гигантской и непрерывной черновой работы по сбору данных). Несмотря на то что прогресс компьютерных технологий уже много лет идет «муровскими» темпами, только в последние годы появились реальные возможности для демократизации в области массового мониторинга источников – весьма, впрочем, умеренной. Благодаря ей услуги по содержательному и представительному мониторингу СМИ доступны теперь и крупным корпорациям, и даже политическим партиям.
Для чего им это нужно? Деннис Кахилл (Dennis Cahill), вице-президент компании Factiva (www.factiva.com), активно ведущей открытую компьютерную разработку информационных залежей СМИ, считает, что без текст-майнинга бизнес не сможет правильно учитывать значимые изменения в деловой, социальной, правовой сфере. Те самые «тренды» и «паттерны», которые желательно заметить вовремя и успеть среагировать.
Что-то входит в моду, что-то выходит из моды. Над кем-то сгущаются тучи, над кем-то – рассеиваются. Обо всем этом можно узнать, тщательно анализируя общедоступные источники. Люди, занимающиеся фундаментальным анализом рынков – отслеживанием и изучением всех сообщений, имеющих отношение к поведению интересующих их акций или валют, – ведут такой анализ давным-давно, очень успешно и без всякого текст-майнинга. Но можно сказать и иначе – они ведут текст-майнинг собственными подручными средствами; почему бы не (про)дать им (и другим желающим) современный экскаватор? Главное – чтобы он не разнес на куски хрупкие черепки фактов, которые представляют основную ценность для инфоархеолога современности [Термин «история современности» стал популярным после того, как его использовал в названии своей книги Эрнст Генри, замечательный историк, публицист, а главное, разведчик. Текст-майнинг в этом смысле – археология современности, раскопки, ведущиеся одновременно с захоронением в бесчисленных файлах только что полученной информации.].
Кахилл приводит пример с ожирением (obesity) – точнее, со словом «ожирение», которое в конце 2003 года стало все чаще мелькать в печати и блогах. К середине 2004 года проблема obesity стала трендом, а гиганты фастфуда, которых обвиняли в провоцировании этого серьезного недуга, столкнулись с проблемами. А столкновения, утверждает Кахилл, можно было бы избежать, вовремя прибегнув к текст-майнингу. Достаточно было отследить графики упоминаний слова «ожирение» в связке с упоминанием крупнейших сетей быстрой еды. Сделав это, сети бы поняли, на какую из них в ближайшее время обрушится удар общественного мнения – и успели бы перестроиться в духе времени.
Однако такие задачи – лишь первая ступень посвящения для профессионалов истинного текст-майнинга. Уровень серьезных систем сегодня позволяет компаниям браться за решение более деликатных вопросов.
Управление репутацией. Можно отследить, какова тональность упоминаний данной компании в СМИ, как она меняется со временем, и попытаться понять – с чем связаны эти изменения.
Конкурентный анализ. Из сообщений СМИ можно вытрясти более или менее правдоподобную картину расстановки сил в той или иной отрасли. Очень грубая модель такова – о ком больше и лучше говорят, тот и более успешен. Чтобы из этой грубой модели сделать сколько-нибудь рабочую, нужны очень серьезные усилия – ибо упоминания надо уметь классифицировать, рейтинговать по массе параметров, увязывать друг с другом и с целями исследования. Как ни странно, сегодня такой уровень уже достигнут – хотя полностью автоматизировать подобные вещи вряд ли возможно даже в принципе.
Бизнес-разведка. Что тут есть от настоящей разведки – судить не берусь. Очевидно, однако, что – в сочетании с перечисленными выше запросами – разумная технология связывания ключевых упоминаний в цепочки может давать отличный материал для размышлений. Тем более что оригиналы статей и даже записи телепередач доступны мгновенно – но тут я уже перехожу к рассказу о подробностях, замеченных при личных наблюдениях за увлекательным процессом текстовых раскопок в офисе «Медиалогии».
В текущую работу по мониторингу СМИ и поддержанию базы знаний здесь вовлечено около ста человек. Работа ведется круглосуточно, причем ночная смена, как правило, самая загруженная – в это время обрабатываются материалы изданий, которые придут к читателям утром. Обработка и анализ идут в несколько этапов.
В сыром виде на вход системы непрерывно приходят по подписке огромное количество СМИ, а также собранные роботами интернет-ресурсы свободного доступа. Анализируются только российские СМИ (зарубежные, которых около трехсот, просто отправляются в постоянно обновляемый архив), в том числе транскрипты шести основных телеканалов. Самые большие базы отраслевых источников – по финансам и по ИТ. Все это сортируется, из полученных файлов извлекается текст и отправляется на дальнейшую обработку (начиная с этого момента, pdf’ы исходных материалов прессы, а также видеоматериалы привязаны к текстам ссылками).
Обработка, необходимая для включения текстов в структурированную базу знаний, начинается с выделения объектов. Объект – это то, о чем можно спрашивать систему. Чаще всего – персона или компания. Иногда – страна (Украина, например).
Выделение объектов в тексте проводит программа, она же анализирует уровень их упоминаемости. Если обнаруживается активно упоминаемый объект, которого нет в картотеке, он направляется аналитику, который составляет досье и добавляет объект в изучаемую базу. Объекты бывают трех типов – A, B, C. Сейчас в картотеке 25 тысяч объектов. Из них к типу B отнесены 6000, к А – 2000, остальные имеют тип С.
Объекты типа С – это, как считают исследователи, практически всё, что вообще есть в публичной структуре информационного поля России. С учетом того, что крупнейших компаний у нас, согласно известным рейтингам, не более четырехсот, а «активно упоминаемых» и того меньше – звучит правдоподобно. Обработка объектов этого типа в текстах ограничивается их выделением.
Каждое упоминание объекта типа В получает формальное описание – набор из пятнадцати параметров-атрибутов. Примеры атрибутов: роль этого объекта в сообщении; позитивно, негативно или нейтрально упомянут объект в текущем тексте; рубрика, в которой встретился данный текст (например, попадание в рубрику «Право» – вполне определенный сигнал); жанр; наличие прямой речи; наличие фотографии.
Для объектов типа А определяются еще и связи – их 26 видов (скажем, «партнер», «конкурент», «руководитель», «контакт», «упоминает» и т. д.). Эти объекты – публичные политики, крупнейшие компании, политические партии и прочее, что постоянно на слуху и на виду.
Обработка категорий А и В идет в основном вручную, хотя большая часть сопутствующей технической работы автоматизирована (доверить программе оценку контекста по принципу позитив/негатив нельзя, а локализацию прямой речи и сопутствующей фотографии – обычно можно). «Прямая речь в документе бывает очень важна, – говорит Катя Солнцева. – Если хочешь посмотреть, как развивается компания, берешь прямую речь руководителя и сравниваешь: что он обещал год назад и что обещает сегодня. Наличие фотографии полезно для исследований, в которых оценивается качество репутации».
Обработанная таким образом информация заносится в базу знаний (этот драгоценный ресурс хранится на защищенных всеми возможными способами серверах Data Fort) и после этого начинает учитываться в ответах на запросы.
- Предыдущая
- 8/28
- Следующая