На мой взгляд, датамайнинг или умный анализ данных будет играть роль «колеса» в развитии человечества. Он позволит делать привычные процессы эффективнее, быстрее и удобнее.
Как датамайнинг может влиять на развитие общества?
Александр Дьяконов, директор по науке компании «АлгоМост»

Суперприкладные исследования

Анализ данных делается не просто так, а с целью выявить полезные закономерности, которые могут быть использованы человечеством на практике. Ключевой термин здесь — данные. Интересно, что смысл этого понятия со временем меняется.


Если еще в середине прошлого века ученые, работавшие с вычислительными машинами, представляли, что данные — это последовательность из нулей и единиц, файлы на компьютерах, то позднее, столкнувшись с большим числом новых прикладных задач, они поняли, что данные — более сложное понятие, несмотря на то, что в ЭВМ они представляются в виде нулей и единиц.


Один и тот же объект, скажем потенциальное месторождение полезных ископаемых, может описываться как числовыми параметрами (например, показателями сейсмической активности, температурой в этой местности, высотой над уровнем моря) так и изображениями (снимками местности, картами, фотографиями из космоса), а также мнением специалиста, который говорит, что здесь могут быть новые полезные ископаемые.


И каким станет анализ данных в будущем — никто не знает. Потому что никто не знает, какие данные будут в будущем. Вряд ли кто-то мог в 50-х годах прошлого века представить, что такое социальная сеть. Но появилась технология — Интернет — которая дала толчок развитию, в том числе, социальным сетям и, как следствие, анализу данных в них.


Меняются и данные, и задачи. Если мы много знаем о человеке из его профиля, из его действий в социальной сети, то эту информацию можно использовать для рекомендации ему каких-то товаров и услуг. Задач о построении таких рекомендаций раньше не было, а теперь есть и потребность в рекомендациях и данные. Изменяются и устройства, которые снимают данные.


Если раньше при словах «сбор, хранение, обработка данных» представлялся компьютер, который занимает две комнаты, то сейчас у каждого в кармане смартфон, способный собирать информацию с помощью датчиков, и по ней можно много всего узнать о пользователе. Анализ данных — это слишком прикладная область, это не только наука, но и инженерные знания, и искусство решения задач, и умение ставить эти задачи.


Датамайнинг спасает жизни

В докладе по анализу данных, который недавно был сделан в Белом доме, говорится о том, как анализ данных будет полезен правительству США. Ключевых тезиса в нем два: датамайнинг делает экономику более эффективной и спасает жизни. Одна из иллюстраций второго утверждения — выявление эпидемий на ранней стадии.


Если раньше сигналы об эпидемиях поступали из клиник, и в тех же США информация доходила до нужных органов с запозданием в 11 дней, то Google научился определять эпидемии эффективнее и быстрее — путем анализа поисковых запросов.


Бывает, что много людей из одной местности начинают часто вводить в поисковик вопросы: «что делать при высокой температуре?», «что делать, если появилась сыпь?», вводят названия каких-то препаратов и т. д. — все это может говорить о том, что эпидемия уже возникла. Узнается об этом практически мгновенно, что, конечно, помогает спасению жизней.


Другой пример. Актуальная задача для Nokia — это диагностика падения телефона — сам он упал, или вместе с человеком. Это два разных падения. В одном случае падение происходит слишком резко, телефон может еще и подпрыгивать после удара или даже ломаться, во втором случае — более плавно. Есть пожилые люди, которые находятся под строгим медицинским наблюдением. Показания датчиков их телефонов постоянно контролируются. Когда поступает сигнал о падении с человеком, пациенту звонит сотрудник службы здравоохранения, и если никто не отвечает, выезжает скорая помощь.


Более эффективные продажи

Рассмотрим, как действует рекомендательная система интернет-магазина. Когда человек заходит на сайт и смотрит товары, для него всплывают подсказки «посмотрите также этот товар». По анализу его активности на сайте, его предыдущих покупок, его поисковых запросов клиенту предлагаются некие новые варианты. Если, скажем, он кликает на товар — смартфон — ему предлагаются чехольчики к этому смартфону, защитные пленочки. Причем предлагаются не просто так, чтобы просто подходили по размеру, а еще и из тех соображений, что у магазина будет максимальная прибыль с их продажи. Можно при выдаче рекомендаций учитывать популярность товаров, тогда клиент будет скорее откликаться на предложения.


В интернет-магазине с качественной рекомендательной системой будет больше продаж, клиенты будут более лояльны, видя, что о них заботятся. И реклама будет ненавязчивой: рекомендоваться будет именно то, чем они интересуются. Если человек покупает книги, ему не будут рекомендовать памперсы, при выходе же новой книги интересующего его писателя эта книга тут же будет ему рекомендоваться.


Покупатель будет меньше времени тратить на поиск и покупку товаров, нагрузка на сайт уменьшится. Реклама будет эффективнее. Мы сможем проанализировать, кто откликается на рекламные предложения. Клиентов, которые не реагируют на рекламу, можно «не травмировать» спамом.


Можно поступать и хитрее: анализировать, насколько человек лоялен именно к рекламируемым товарам. Мы сегодня сделали скидку, допустим, на какое-то пиво, человек обрадовался и много его закупил. Это новая марка, он раньше никогда этого пива не видел. Мы смотрим — будет ли он потом его употреблять или нет. Аналогично с другими товарами. Например, он купил бритвенные станки и пену по акции, но будет ли он покупать то же самое, когда акция закончится? Если мы видим, что человек в принципе способен притягиваться к товарам, становиться лояльным к новым брендам, тогда клиент более выгоден и мы даем рекламу уже в расчете не него. Например, делаем целевые акции — именно таким лояльным покупателям. Этим клиентам даже необязательно делать слишком большие скидки, потому что наша задача — дать им товар попробовать, привлечь их внимание. Процесс продаж происходит гораздо эффективнее, чем если бы покупатель просто приходил в обычный магазин с тележкой и к нему подбегал бы назойливый консультант с вопросом: «Чем могу вам помочь?». Здесь все можно автоматизировать.


Кто пишет отзывы на книги?

Многие сегодня пользуются электронными книжками. Пока они не слишком хорошо собирают данные, но допустим, что эти гаджеты смогут сохранять логи, как человек читает книгу. Компания, которая готовит цифровые версии книг, будет знать, что читает человек, как он читает. Это важно, поскольку пользователь может купить книгу и бросить ее читать. Еще будет известно, какие страницы человек читал дольше, какие быстрее, на чем он останавливался, где он делал пометки, какие книги он перечитывал несколько раз и т. д.


Такой подход может изменить даже писательский труд. Теперь писатель знает, что в его книге показалось интересным, что менее интересным, какие тексты были сложными для чтения, какие легкими, где читатель делал закладки, какие фрагменты сохранял в цитатник.


Также получится упорядочить оставленные читателями отзывы и выяснить, например, что все плохие отзывы написали люди, которые читали книгу очень быстро, фактически ее пролистали, и им доверять не стоит. Сейчас у нас, скажем есть 30% плохих отзывов, 70% хороших, и мы пытаемся на базе их сформировать свое мнение. А в дальнейшем удастся понимать, какие именно люди какие отзывы оставили, зависят ли отзывы от стиля чтения, вкусов, ранее прочитанных книг и т. п. Мы сможем делить читателей на категории и рассматривать эти категории как целевые.


Простая электронная книжка сможет изменить и работу писателей, и работу издательств, и работу книжных магазинов, потому что появляется целый пласт новой информации, который можно по‑разному использовать.


На Западе во многих издательствах есть автоматические классификаторы, которые делят присланные авторами тексты на стоящие и нестоящие. Раньше творения молодых авторов читали специальные рецензенты. Сейчас этот труд автоматизировали. Взяли выборку текстов, которые прочитали и оценили несколько рецензентов, научили по ней алгоритм повторять логику рецензентов. Теперь, когда приходит очередной труд, сначала алгоритм оценивает его на «хорошесть». Если оценка достаточно высокая, он потом перечитывается специалистами, которые примут решение. Справиться с кипой документов уже не под силу, но можно максимально автоматизировать процесс рецензирования, и этим пользуются.


Подобные разработки считаются очень неплохими по качеству, но опять же нужно понимать, что мы подразумеваем под качеством. Известны случаи, когда великие произведения браковались издательствами. Суждение о качестве текста вещь вообще субъективная. Однако если алгоритм учится на субъективной оценке и потом показывает качество на уровне мнения экспертов, он становится еще одним субъективным способом оценки.


Датамайнинг изменяет индустрии

Анализ данных может изменить взаимоотношения банков и клиентов. Раньше задачи скоринга — определения, вернет ли заемщик долг — решались с помощью данных из анкет клиентов и скоринговых агентств. Теперь можно использовать данные тех же социальных сетей или мобильных операторов. Мы знаем не просто возвращал ли клиент кредиты ранее, какого объема у него были выплаты и т. д., но и перечень его друзей, с кем он чаще общается.


Степень дружбы тоже можно померить, здесь есть свои тонкости. Например, в соцсетях есть люди, с которыми многие дружат и, наоборот, которые френдят всех подряд. Если в соцсети ты дружишь с президентом, это не значит, что ты хороший заемщик. А если у тебя в друзьях есть человек, который сложно идет на контакт и у него вообще мало друзей, но он именно с тобой почему-то дружит, то вот этой связи можно доверять больше. Если на фотографиях ты с кем-то изображен, то значит вы где-то вместе бываете. Здесь потенциал использования данных уже гораздо шире и вопрос, что из них может пригодиться — это уже отдельная тема для исследования.


Еще пример — разработка новых лекарстве6нных препаратов. Раньше все это делалось исключительно с помощью экспериментов. Разрабатывается новый препарат или материал и тестируется, какими свойствами он обладает и где может применяться. Теперь часто проводится предварительный анализ данных: у нас уже есть выборка препаратов с известными химическими формулами и поведением. Вопрос: как будет себя вести препарат с новой формулой? Разрабатывается алгоритм, который прогнозирует свойства. Это позволяет производить новые лекарства и материалы гораздо быстрее и дешевле, чем «по старинке».


Или парфюмерная продукция. У нас уже есть отзывы, что вот эти духи понравились такой категории пользователей, вот эти — другой. Мы создали новые духи, давайте предугадаем, понравятся они обществу или нет. Если да, то как они будут востребованы. Прогноз реакции покупателей на продукт будет получен еще до запуска рекламной кампании.


Конечно, потенциал анализа данных надо грамотно использовать. Здесь тоже нужны технологии. Одну из них мы развиваем: берем у крупных компаний задачи и предлагаем специалистам по анализу данных их решить. Каждая задача имеет свою специфику, которая проявляется и в данных (где-то надо анализировать сигналы, где-то изображения, где-то мнения экспертов) и в требованиях к решениям. Сразу сложно предсказать, у кого получится решить задачу лучше всех. Поэтому мы устраиваем конкурс. Победители получают призы и возможность более тесно сотрудничать с нами. Ведь задачи такого типа они умеют решать лучше всех. А компании получают решения и лучших специалистов для своих задач, новые контракты.


Наконец, датамайнинг оптимизирует научные исследования. У нас на кафедре решалась задача о трекинге мышей. Раньше в лаборатории была ассистентка с блокнотиком, которая записывала: вот эта мышь сегодня два раза подбежала к кормушке, спала столько-то часов. И это была единственная возможность следить за лабораторными животными. Теперь можно просто поставить веб-камеру над ними, которая и будет следить, а специальная программа будет отмечать их активность, число подходов к кормушке и т. п.


Здесь тоже есть технические задачи, например, превратить каждую мышку в координаты и отмечать, что именно она сейчас делает. Если пути двух мышек пересеклись: одна перепрыгнула через другую, то программа все равно должна их отслеживать отдельно. Но все эти задачи решаемы. Теперь можно провести масштабный эксперимент, не надо сто человек, чтобы провести одновременно 100 экспериментов. Достаточно поставить 100 дешевых веб-камер — это будет гораздо эффективнее. Таких примеров масса.


Одним словом, датамайнинг усиливает информатизацию общества в целом и помогает использовать данные эффективно. Если говорить об анализе данных категорично, то я бы не сказал, что он меняет общество. Скорее, он делает процессы, которые уже есть в обществе (экономические, социальные) быстрее, эффективнее в самых разных смыслах.