Наука побеждать | Журнал «Мое дело. Магазин»

22 ноября 2018, 12:11

Данных в мире все больше, а термин Big Data вдруг перестал быть модным. О Business Intelligence, разведке в дебрях больших данных, перестали говорить с былым восторгом. Новый фаворит сезона – Data Science. X5 Retail Group создала отдельное подразделение, которое работает с данными. Оно занимается прогнозированием спроса, оптимизацией промо и ассортимента, созданием персональных предложений для покупателей и многими другими задачами. Рассмотрим детальнее, чем новая наука может помочь ритейлу.

Еще лет пять-семь назад на конференциях в секции проектов по Business Intelligence обещали: «мы не дадим бизнесу утонуть в море данных», «мы поможем найти самые неожиданные закономерности в горах ненужного хлама» и «мы предсказываем будущее». Сейчас то же самое говорят о Data Science. Как такое может быть? Чем вообще различаются эти направления? Объяснения на профильных сайтах только вводят в заблуждения, говоря, что BI – это получение информации из данных, а Data Science – получение знания. Туманно, не правда ли? И я помню, как сейчас: эксперты, рассказывая про свои BI-проекты, говорили: «Мы достанем для вас знания».

Хуже того, ко всем предыдущим терминам добавились новые. Когда читатель видит броские заголовки в духе «как машинное обучение спасет ритейл» или «срочно работаем с биг датой», то у него неминуемо остается ощущение, что технологий становится все больше и что все они совершенно разные, но спасут непременно. Однако потом замечает: кейсы и там, и сям приводятся одни и те же. Получается, речь об одной технологии? Data Science, machine learning, BI – это синонимы, антонимы или все-таки ступеньки в иерархии?

Давайте для начала разберемся, как же компании, занимающиеся проектами в сфере Data Science, определяют для клиентов отличие Data Science от BI-анализа. Фактически это разные ступени одной лестницы, как мы верно предположили выше. Так считает Юрий Бондарь, заместитель генерального директора SAP CIS. По его словам, BI дает статичные структурированные отчеты, далее идет OLAP-анализ (online analytical processing), когда мы можем анализировать, исследовать и строить графики. Но при этом данные находятся в двух- или трехмерном пространстве. А если пространство многомерное, состоящее из различных внешних данных, то к анализу подключается интеллектуальный алгоритм.

«Я много лет занимался именно BI, поэтому могу ответить точно, – говорит Алексей Шовкун, директор по консалтингу компании Datalytica. – Конечно, это вопрос терминологии: что считать BI, где границы этой технологии. Лично для меня Business Intelligence – это частный случай Data Science. У них есть много одинаковых этапов анализа, например, консультанту нужно понять, что требуется заказчику, какие у него процессы и задачи, есть ли показатели, которые требуют улучшения, – это делается и в BI, и в Data Science».

Второй пункт соответствия – это данные, работа с ними. Но в BI-системах используются источники структурированной информации. А в Data Science к таким источникам добавляют еще и поток неструктурированных данных, например, видео, аудио, сигналы датчиков со станков, метаданные. В общем, много того, что раньше нельзя было автоматизированно анализировать. «Далее нужно забрать все данные и консолидировать их, это то, что называется Data Warehousing, – и это тоже общая часть у Business Intelligence и Data Science, – дополняет Алексей Шовкун. – А дальше начинаются различия. В первом случае мы предоставляем консолидированные данные специалистам заказчика для анализа через OLAP-инструменты. Эти специалисты самостоятельно ищут зависимости и другие вещи, чтобы улучшить свой бизнес».

Отсутствие единой терминологии размывает границы. Например, описательная и диагностическая аналитика, ориентированная на то, чтобы разложить по полочкам исторические данные, реализуется в BI-системах. Однако более сложные методы обработки данных, например, поиск шаблонов в цепочках событий, являются прерогативой Data Science. «О прогнозных моделях говорили десятки лет назад, и простейшие модели регрессий реализованы в BI, но использование сложных ансамблевых методов, тем более технологий глубинного обучения, все-таки лежат в сфере Data Science», – уточняет Сергей Громов, руководитель практики Data Science компании Teradata.

Как вспоминает Алексей Шовкун, раньше был еще один термин – Data Mining. Можно сделать простой анализ данных в виде отчетов, разложить понятия по колонкам и столбцам, вывести числовые метрики в середину таблицы и таким образом что-то увидеть и отнести эту табличку руководителю. А в Data Mining человек делал все то же самое, но закапывался глубже и пытался найти зависимости, причины и следствия, пытался понять, что сделать, чтобы продать больше, например. То есть искал знания, а не информацию. Причем делалось это либо вручную, либо с помощью базовых статистических методов. «Сейчас у нас появилась возможность собранные данные отдать на анализ машине. И тут-то и появляется этот термин – машинное обучение. А цель при этом та же: выяснить зависимости, научиться предсказывать. То есть предсказывает машина, а не человек, появилась вот такая альтернатива», – говорит Алексей Шовкун.

Вкалывают роботы, а не человек. Почти все происходит так, как предсказывали фантасты. «Человеку уже не придется руками крутить графики и пытаться строить прогнозы, все сделает за него машина и сделает это намного качественнее, – уверяет Жанна Узалова, начальник отдела анализа данных компании AJ TechFin Group. – Мы не просто даем инсайты, мы решаем задачу «под ключ». Если это задача прогнозирования спроса, то Data Science дает возможность не только выяснить, что такой-то товар продается лучше по вторникам, а построить модель, которая автоматически будет прогнозировать спрос на каждую единицу товара или комбинацию товаров, даже если их тысячи. Прогнозировать в каждый момент времени и с довольно приличным качеством. Если говорить про BI, то десять лет назад просто не существовало тех алгоритмов, которые сейчас использует Data Science в своем арсенале. Они стали более качественными, быстрыми и масштабируемыми».

А что с Big Data? «Data Science может использовать Big Data в проектах, если это нужно, а может и не использовать. Это не взаимозаменяемые понятия. У нас в компании принято считать, что Big Data является частным случаем в Data Science. Когда появились технологии, связанные с Big Data, на рынке раздулся пузырь, который, по сути, лопнул несколько лет назад из-за завышенных ожиданий от технологии. Причем техническим специалистам сразу было ясно, что ожидания завышенные, но политически-стратегические решения принимают ведь не они. В результате термин Big Data стал немодным и даже слегка дискредитированным. Взамен все бросились пользоваться новым словосочетанием Data Science», – поясняет Алексей Шовкун.

При этом сами по себе «большие данные» никуда не делись, скорее, наоборот. Глобальный рынок больших данных и услуг по разработке данных охватывает Северную Америку, Европу, Азиатско-Тихоокеанский регион, Латинскую Америку, Ближний Восток и Африку. По данным аналитической компании Markets and Markets, ожидается, что рынок Big Data и Data Engineering вырастет с $34,47 млрд в 2018 году до $77,37 млрд к 2023 году при совокупном годовом темпе роста (CAGR) 17,6% в течение прогнозируемого периода.

«BI – это о прошлом, Data Science – о будущем, а Big Data – это о том, как переработать за разумное время большие массивы данных», – постулирует Алексей Арустамов, директор компании Loginom Company. «Если анализ проводится вручную и он простой, то это BI, если вручную и углубленный – Data Mining, если с помощью машин – это машинное обучение, machine learning, метод, которым пользуются при построении предсказательных моделей. А все вместе это и есть Data Science», – подводит итог Алексей Шовкун.

Магазин-беспилотник

Итак, что может дать ритейлу Data Science, наука о работе с данными? Amazon в конце октября открыл шестой магазин Amazon Go без кассиров и очередей. Даже кошелек на выходе доставать не нужно. Товары лежат на полках, за ними и покупателями наблюдает машинное зрение, а набор датчиков и машинное обучение делают ненужными штрихкоды и сканирование товаров на кассе при покупке. Берут ли продукты или возвращают их на полки, что в виртуальной корзине – все это отслеживается автоматически. Покупатель просто идет, берет вещи и выходит с ними из магазина через специальный турникет. Все! Amazon пишет, что у них такие же технологии, как у автомобилей-беспилотников.

Занятно, что такой магазин-беспилотник пока предполагает множество консультантов в зале, которые помогают клиентам в случае чего, и при этом может обсчитать! Блогеры, посетившие торговую точку в Сан-Франциско, сняли на видео весь процесс: они взяли два товара, один из них вернули на полку и вышли из магазина. При выходе с карты покупателя автоматически списывается сумма. Но транзакция сразу не прошла. А когда прошла – и случилось это много позже – оказалось, что случайно списалась сумма сразу за два товара. Датчики отметили, что человек взял два товара, но забыли отметить, что один из товаров вернулся обратно. Вместо $4 покупатель заплатил $14. На кассе с обычным кассиром такое невозможно, любой покупатель сразу заметил бы значительное расхождение в цифрах.

Машинное зрение, машинное обучение – все это Data Science, и Amazon применяет технологию на практике. Однако практическая сторона этой науки для ритейла гораздо шире. Алексей Арустамов полагает, что и у западных, и у отечественных клиентов-ритейлеров, которые пытаются решать свои проблемы с помощью Data Science, примерно один и тот же список запросов. Им нужно прогнозировать спрос, делать оптимизацию запасов, цен, повышать доходность, проводить сегментацию клиентов и адресный маркетинг, противодействовать оттоку покупателей.

«Раньше было довольно сложно решать такие задачи, потому что не было культуры сбора данных: в нашей стране крупный ритейл стал собирать и хранить данные относительно недавно, пару лет назад, а пионеры внедрения Data Science-решений в бизнес – чуть раньше, где-то в 2012 году, когда впервые стали говорить о таких технологиях, – рассуждает Жанна Узалова. – Но опять-таки качество этих данных, которое позволило начать решать данные задачи, улучшилось совсем недавно, тогда же, когда компании стали задумываться над качественным хранением и выстраивать у себя Data Lake-системы. Руководство крупных компаний видело, как онлайн-розница или офлайн-ритейл в Америке уже решают такие задачи, и это создало желание попробовать и у нас, а дальше уже остальным компаниям пришлось подтягиваться из-за конкуренции».

Разнообразная информация из раз- ных источников дает понимание того, что хотят потребители, где и как они готовы совершить покупку, а главное, где они фактически ее совершают. С этой точки зрения смысл использования Big Data сводится не столько к точности (которой ритейл еще долго не сможет похвастаться ввиду низкой структурированности информации), сколько к скорости обработки данных. Это становится важным фактором в условиях ускорения ритма жизни, развития омниканальности, когда принятие решения о покупке происходит на основании рекомендаций групп в социальных сетях или предложений агрегаторов скидок. Подробностями делится Юлия Овчинникова, директор Data Science компании Nielsen Россия: «Именно поэтому у нас в компании работают над ускорением процессов получения и анализа данных с фокусом на гранулярность. Новые технологии позволяют предоставлять клиентам свежие данные с недельным интервалом вместо месячного, а наше решение «Nielsen Микрорегионы» дает возможность оперативно получать их на уровне отдельных районов городов и других микрогеографий. На основе этой информации наши клиенты могут делать не только стратегические, но и тактические выводы, быстрее реагировать на потребности покупателей. Упущенное время для принятия решения равняется упущенным бизнес-возможностям и трате ресурсов, и сейчас это ощущается особенно остро».

Для тебя

Основная цель, которую преследуют ритейлеры с помощью Data Science, – строить предсказательные модели. Но сейчас, когда курс идет на индивидуальную работу с каждым клиентом, предсказания тоже становятся личностными. Из конференции в конференцию разработчики пересказывают друг другу курьезный случай, произошедший в сети американских супермаркетов Target. Сеть решила предлагать женщинам скидочные купоны на товары для новорожденных. Предлагала она их тем покупательницам, которые совершают определенные покупки с определенной частотой и последовательностью. И однажды разразился скандал. Купон был прислан несовершеннолетней девушке, ее отец пришел разбираться в магазин, уверяя, что в их семье такие предложения совершенно неуместны. Прошло несколько месяцев, и стало ясно – сеть права, отец неправ.

История была пересказана десятки раз, а затем стали говорить, что это фейк. Однако даже если конкретно такого происшествия не было, на технологии это никак не влияет. Люди часто ведут себя одинаково. Если есть паттерны поведения в группе, то они с большой вероятностью работают и для нового участника группы. Стандартный подход маркетологов: сегментировать покупателей и работать с отдельными сегментами. Иначе смотрит на это Data Science. «Целевая идея подхода в Data Science – это персонализация рекомендаций, – объясняет Сергей Громов. – В классическом подходе целому сегменту абонентов предлагаются одни и те же товары и акции. При использовании Data Science каждому пользователю предлагаются персонализированные товары. Его потребность удовлетворяется вовремя, и он совершает больше покупок».

Задача тут не только в том, чтобы удовлетворить покупателя. Сейчас ритейлеры любят взять случайную выборку клиентов и разослать им случайные предложения. Тогда как рекомендательные сервисы и персонализированные предложения – это золотая жила. Ритейл теряет деньги каждый раз, когда отправляет предложения и делает скидки всем подряд. Что толку предлагать колбасу вегетарианцу? Он ее не купит. Ритейлер потерял деньги, когда отправил ему такую смску. Зачем предлагать купить хлеба семье, которая каждый день и так его покупает? Получается, что расчет должен быть точным: нужно предложить товар именно тому, кто уже задумался о покупке, но колеблется. Кто раньше покупал, а теперь забыл, но снова купит, если ему напомнить. Отделить такого клиента от массы остальных может или телепатия, или Data Science.

«В отличие от привычной сегментации, которая нацелена на работу с группами людей, схожих между собой по каким-то характеристикам, использование технологий Big Data позволяет добиться максимально персонализированного подхода: оптимизировать ассортимент, стоимость, способ получения товара, сократить время на поиск нужных товарных позиций, – замечает Евгений Вербов, руководитель направления ритейл-аналитики компании Nielsen Россия. – Например, на основе исторических данных по картам лояльности можно построить модель оттока потребителей, а затем по ней определить вероятность того, будет ли конкретный человек в дальнейшем делать покупки в этом магазине. Таким образом ритейлер может оценить значимость данного потребителя для своего бизнеса, целесообразность персонализированных коммуникаций и максимальный размер персональной скидки».

Что касается онлайн-магазинов и других сервисов, здесь предсказательные модели работают просто отлично – в виде рекомендательных сервисов. Люди к ним уже настолько привыкли, что журналисты даже стали писать тревожные статьи на тему «не закопается ли пользователь в рекомендациях так, что и реальности не увидит», «останется ли у потребителей собственное мнение», «ребенок, выращенный искусственным интеллектом». Из этого следует вывод – мы слушаемся машину, если она нам что-то подсказывает. Она же помнит, что мы покупали вчера и год назад, что лайкнули, и знает, что нам может понравиться. По данным Amazon, 35% заказов по книгам у них происходит с полок рекомендаций.

Но это все в онлайне. А в офлайн протащить эту же идею не так легко. Что это должно быть? Специальные стенды, которые будут для покупателя островком онлайна, его собственный смартфон, который отслеживается маячками i-beacon? Эксперты предлагают взглянуть на проблему проще. «Процессы в офлайн-рознице во многом схожи с тем, как все происходит онлайн. Ритейлеры активно внедряют карты лояльности, хранящие информацию о профиле покупателя и истории его покупок. На основе этих данных формируется «ДНК покупателя». Затем с помощью специальных алгоритмов можно подобрать товары, которые будут максимально интересны конкретному потребителю, или персонализировать предложения по корзине покупок и их цене. Коммуникация с покупателями по аналогии с онлайн может идти через наиболее эффективный канал: email, sms, чек на кассе или push-уведомление через мобильное приложение», – говорит Евгений Вербов.

Карта лояльности, которая выдается покупателю взамен на его личные данные и номер телефона, пока самое доступное решение для розницы. «Когда такой покупатель расплачивается на кассе, кассовый чек становится именным за счет привязки к карте лояльности. Таким образом офлайн-ритейлер получает информацию о покупках каждого человека, который предъявляет свою карту, – отмечает Сергей Громов. – Если человек будет совершать большинство покупок у одной и той же компании, то о его предпочтениях можно будет составить практически полную картину и дальше успешно делать для него специальные предложения. Продавец пробивает карту на кассе и сообщает: «По вашей карте лояльности вам доступны такие-то специальные предложения». Индивидуальное или персонифицированное предложение, составленное алгоритмом на основе данных о конкретном клиенте, куда эффективнее, чем то, когда кассир предлагает всем одни и те же товары по акции, которые в большинстве случаев никому не нужны».

В исследовании международной консалтинговой компании McKinsey, которое они проводили в 2011 году, было сказано, что ритейлеры, использующие аналитику данных, смогут увеличить прибыль на 60% и на 1% повысить производительность труда. Сегодня ритейлеры с помощью больших данных действительно увеличивают прибыль в самых разных проектах – от процесса выкладки товара на полки и его ценообразования до персонализированного предложения для покупателей. «Например, с помощью технологий больших данных можно реализовать программы лояльности в магазинах. Именно так и поступила сеть гипермаркетов «Виктория», входящая в ГК «Дикси». В торговой сети анализируют спрос и формируют персонализированные предложения, способные привлечь покупателей, увеличить эффективность предлагаемых скидок и обеспечить качественный клиентский сервис. Программа позволила улучшить обслуживание покупателей: расширился канал коммуникаций с клиентами, у операторов контакт-центра появились точные и оперативно обновляемые данные. В результате 80% клиентов поменяли карты лояльности на новые за неделю работы программы «Моя Виктория», а средний чек увеличился на 10%», – описывает Юрий Бондарь.

Для хорошей рекомендательной системы необходимо правильно собирать данные об интересах покупателя, а также данные, что он уже купил. Офлайн-ритейл пытается решить эту задачу, вводя карты лояльности и дальше рассылая скидки на товары, которые вас заинтересуют. Но тут проблема в том, что довольно часто бывает так, что покупатель не захотел заводить карту лояльности, забыл ее или пришел с чужой картой. Решить данную проблему можно различными способами «Некоторые из наших ритейлеров даже пытаются решить ее видеораспознаванием, то есть привязать твое поведение в магазине к твоей карте лояльности, но это работает с довольно сомнительным качеством, – комментирует Жанна Узалова. – Хорошее решение тут – обязать использовать карты магазина, стимулируя это действие какими-то бонусами или скидками. Например, если мы возьмем «Метро Кэш энд Керри», то там в принципе невозможно совершить покупку без карты магазина (хотя там это вызвано юридическими ограничениями, но было бы прекрасным кейсом для хорошей рекомендательной системы). Имея историю покупок конкретного человека, можно было бы сделать рекомендательную систему с хорошим качеством, а дальше уже обогащать данными с камер наблюдения или сведениями о поведении покупателей на сайтах ритейлера». Работа маркетолога в этом случае – это правильное использование рекомендательных механизмов, выбор каналов для взаимодействия пользователей и искусственного интеллекта.

Однако идеи на карте лояльности не заканчиваются. «Вероятнее всего развитие средств видеоаналитики, распознавание не только сущностей, но и конкретных персоналий позволят в будущем отказаться от карт лояльности, – предполагает Сергей Громов. – Идентификация каждого покупателя даст возможность составить для него и лист предпочтений, и реал-тайм рекомендации касательно того, какие именно товары можно приобрести и как пройти до нужного стеллажа в торговой зоне».

По кусочкам

Мы только что сказали, что Data Science предлагает не сегментирование, а персонифицирование. Но сегментировать все-таки придется. «Только сегментируются не покупатели, а сами магазины, прежде всего с географической точки зрения, – замечает Сергей Громов. – Второй критерий для сегментации – размер магазина. Средние продажи играют важнейшую роль в нормировании, и их расчет ведется исходя не только из коэффициента сезонности, но и из размера самого магазина, ведь спрос на один и тот же товар в небольших универсамах и гипермаркетах будет существенно отличаться. Третий критерий – ассортимент товаров. Так образуются кластеры магазинов с похожими характеристиками. Прогнозирование спроса происходит на разных уровнях: «магазин-товар», «кластер-товар», «кластер-категория» и так далее. Чем более ходовой товар, тем больше вероятность получить точный прогноз на более детальном уровне. Отстающие по продаваемости товары вообще не рассматриваются на индивидуальном уровне «магазин-товар». Они собираются в группы и прогнозируются на более агрегированном уровне».

Сегментировать можно потребности. «Для одного из клиентов Nielsen, ориентируясь на транзакционные данные, выделил разные группы потребностей покупателей, – рассказывает Евгений Вербов. – Затем построил на их основе «деревья» принятия решений о покупке и таким образом оптимизировал планограмму размещения продуктов на полке для конкретной категории товаров. Благодаря этому стало возможно управлять оборотом категории с квадратного метра торговой площади – одним из важнейших показателей эффективности розничной торговли».

Частые случаи

Что касается прогнозов на более детальном уровне, то интересный кейс был рассказан представителями X5 Retail Group в ходе организованной SAP конференции Data Halloween. Там рассматривали сметану. На самом деле можно рассмотреть любой товар, но тогда его придется называть «икс», а это не так красиво, как сметана. Сколько нужно поставить на полку брендов сметаны? Вопрос нетривиальный. Слишком мало – магазин сочтут бедным и уйдут к конкурентам. Слишком много – покупателя поймает в капкан проблема выбора. Это пока понятно и согласуется с нашим житейским опытом. А вот на что житейскому опыту сложно дать ответ, так это на вопрос: мало – это сколько? А много? 20 брендов сметаны – вроде бы много. А если 12? Или 9? Может быть, 9 – это уже мало? Именно для того, чтобы не угадывать, а знать точно, используется Data Science. Люди иногда уверены в одном, тогда как аналитика показывает совершенно противоположное.

По мнению Жанны Узаловой, один из наиболее частых кейсов в ритейле – это задача по оптимизации товарных запасов: «Эта задача напрямую связана с прогнозированием спроса. И она с двусторонним ограничением: с одной стороны, мы не хотим замораживать оборотный капитал в запасах, не хотим увеличивать складские помещения, с другой – не хотим иметь пустые полки, потому что потеря покупателя обходится компании довольно дорого. Эту задачу решить классическими эконометрическими методами довольно сложно, так как, во-первых, у крупной компании количество SKU может исчисляться десятками тысяч, и кривая спроса для каждого из них может быть различной, при этом обычно она нелинейна. Во-вторых, классическая эконометрика довольно тяжело оперирует временными данными, обогащенными пространственными переменными. Тут уже подключается панельный анализ, но его точность по сравнению со стандартными алгоритмами Data Science намного хуже».

В ритейле можно работать с абсолютно разными данными и использовать их для создания многочисленных сценариев. Все зависит от той информации, которая у компании уже есть. «Объем данных у российских ритейлеров накоплен колоссальный, размеры их хранилищ уже сопоставимы со многими западными и американскими, – полагает Юрий Бондарь. – Среди основных задач, которые чаще всего обозначают компании, могут быть пересмотр ценовой политики на конкретные товары с помощью анализа цен, прогноз качества товара в коробках, рекомендации для клиентов о покупке определенных товаров, расчет оптимальной корзины, формирование скидочных предложений, прогноз продаж, промоакций и остатков на складе».

С миру по нитке

Мы так обезличенно говорим все время – большие данные. А что это за данные? Есть такой интересный случай. Сеть Tesco использовала локальные данные о прогнозе погоды в своей системе прогнозирования спроса. Это довольно удачное использование неожиданной информации, особенно если учесть, что обычно у ритейлера накапливаются такие сведения, как пол, возраст покупателя, его стандартные предпочтения.

Однако если брать пример с Tesco, то становится очевидно: нужно пользоваться самыми разными источниками. «Источников очень много: курс валюты постоянно колеблется и может существенно влиять на цену товара, загруженность дорог и пробки влияют на прогноз поставок продукции, цены на сырье и фурнитуру – на создание самого товара, – говорит Юрий Бондарь. – При открытии новых магазинов обязательно просчитываются геоданные. В систему можно подгружать данные по ценам конкурентов, даже мировые события и макроэкономика могут оказать влияние. Например, во время чемпионата мира по футболу магазины, кафе, аптеки в центре Москвы прошли «проверку на прочность» с помощью прогноза продаж».

«Мы сейчас делаем систему прогноза трафика для ГИС и планируем в качестве одного из источников данных использовать спутниковые снимки прилегающей к планируемой торговой точке местности, – делится Валерий Бабушкин, руководитель управления развития данных компании X5 Retail Group. – Спутниковые снимки доступны, и у нас есть подозрения, что нам пригодится та информация, которая на них присутствует, например, насколько это озелененные участки, какие вокруг дороги – это же все хорошо видно. Однако я не буду говорить заранее, к каким выводам нас эти данные приведут».

«Данные о локальных праздниках, информация о конкурентах, данные с видеокамер, данные из соцсетей – все это помогает получить более точные персонализированные прогнозы, – добавляет Жанна Узалова. – Очень помогают сторонние данные, например, агрегированные данные банков о платежеспособности населения вокруг магазина».

Идея объединиться с другими владельцами информации хороша. Данные банка вполне могут обогатить данные ритейлера такой информацией, к которой у последнего изначально не было доступа. То же можно сказать и об операторах сотовой связи. «По их данным можно узнать, какие сайты человек посещает в мобильном Интернете, а потом генерировать клиенту рекомендации в реальном времени, – говорит Сергей Громов. – Например, если человек ищет футбольную секцию, можно предложить ему скидку на экипировку (с помощью смс или иного канала связи, предпочтительного для данного абонента). Использование геолокации позволит проходящему мимо магазина человеку сообщить об акции, в которой он может быть заинтересован. Таким образом можно поймать клиента «тепленьким».

Интеграция же с банками, как считает Сергей Громов, позволит использовать уровень дохода в качестве одного из предикторов в моделях сегментации и на рекомендательных движках. «Разумеется, связность данных различных источников – сложная задача, – добавляет он. – Среди проблем, с которыми здесь можно столкнуться, стоит обозначить, во-первых, так называемое «связывание идентификаторов». Как связать покупателя магазина и абонента телеком-оператора? Можно использовать карты лояльности или геоданные. Вторая проблема заключается в законах, в частности, в ФЗ-54. Обмен данными должен проходить без нарушений законодательства».

Теоретически объединение данных банков, ритейла и телекома позволит получить наиболее полный профиль по каждому человеку. Но тут много нюансов. «Есть вопросы, которые решить иногда сложнее, чем трудности с законом. Сейчас каждая из этих трех сторон понимает, что было бы здорово обогатиться чужими данными, а вот свои данные отдавать как-то не хочется, – смеется Алексей Шовкун. – Если ты отдаешь свои данные кому-то, их потом нельзя продать, понимаете? Поэтому сейчас есть такие модели сотрудничества, когда исходные данные не отдают. Отдают посчитанные индексы. Владелец данных сам строит модель по тем параметрам, что его просят, а потом дает пользоваться этой моделью за арендную плату».

У ритейла очень много направлений, в которые они могли бы углубиться для поиска и сбора данных. Их можно получать из соцсетей, например. Можно обратиться к интернет-компаниям вроде «Яндекса» или Mail.Ru, к муниципальным организациям и поменяться данными с ними. Такие компании могут знать о хобби человека, о том, что у него скоро изменится жизненная ситуация, он оставляет в поисковике несвойственные ему ранее запросы. «Но это нужно делать тогда, когда все собственные источники уже исчерпаны. – продолжает мысль Алексей Шовкун. – А наши ритейлеры пока свои источники еще полностью не отработали. Например, как часто человек заходит на их сайт, как он там ходит, как быстро выбирает товар, куда вообще кликает. Единицы торговых сетей собирают и обрабатывают эту информацию».

Рад бы в рай

В теории все всегда звучит очень неплохо. Что у нас с практикой? «Говорят об этом многие, я бы даже сказал, все, но реально использует мало кто, – делится точкой зрения Алексей Арустамов. – Несмотря на победные реляции, в большинстве случаев все только начинается. У подавляющего числа компаний данные надо приводить в порядок, чтобы они были пригодны для продвинутой аналитики».

С данными действительно беда. Если заказчик предоставляет плохие данные, если задачу нельзя решить на их основе – это не проблема математика, который будет решать задачу. «Почему вообще проект, связанный с Data Science, может провалиться? – оценивает перспективы Алексей Шовкун. – Либо есть проблема в данных, когда у заказчика незрелые ИТ-процессы и информация сохраняется неполностью или некорректно, в разрозненном виде (все эти проблемы были и в BI-системах), когда они идут из разных ИТ-систем и их сложно или вообще невозможно сопоставить между собой, потому что нет единых справочников, нет внедренного Master Data Management. Но такой бардак – это проблема заказчика. Второй вариант провала – у заказчика не выстроены бизнес-процессы. То есть система нормальная, а сами процессы настолько несистемны, что статистика, которая остается в результате их исполнения, не позволяет выявить закономерности. Пример: на складе расходуются продукты, а учет расхода идет не минута в минуту, а раз в месяц. Все собираются и списывают то, что было продано. Очевидно, что построенная на таких данных модель ничего хорошего предсказать не сможет».

Вторая проблема – в деньгах. Третья – в специалистах. Быть специалистом в области Data Science сегодня очень модно. Популярность этого направления зашкаливает, судя по количеству упоминаний в СМИ и уровню вступительных баллов на кафедры анализа данных ведущих отечественных вузов. «Однако отрасль испытывает явный дисбаланс между спросом и предложением, обусловленный недостаточным количеством готовых специалистов, стоимость привлечения которых весьма существенна, – сетует Сергей Громов. – Таким образом, создавать целое подразделение внутри ритейл-структуры будет оправданно для гигантов вроде X5. Торговые компании меньшего масштаба, разумеется, сталкиваются с задачами продвинутой аналитики, но в большинстве случаев решают их за счет экспертных навыков предметных менеджеров, например, отвечающих за маркетинг, логистику и товарные запасы. С усложнением аналитических задач и таким компаниям потребуется привлекать DS-специалистов в той или иной форме».

Если у компании уже много накопленных данных, то как минимум стоит задуматься об их монетизации. Дальше возникает вопрос: создать собственную экспертизу или привлечь подрядчика. «Тут все зависит от количества задач, стоящих перед компанией: если вы наберете задач хотя бы на пару лет вперед, то лучше начинать растить свою экспертизу. Если вам нужно решить пару кейсов, то собственная экспертиза обойдется вам намного дороже, – считает Жанна Узалова. – Опять-таки правильный выбор, который делают крупные зрелые компании, это собственный отдел, который решает задачи, решение которых надо пересматривать, например, прогнозирование спроса, и аутсорс-задач, которые решаются разово, например, распознавание с камер наблюдения».

Как полагает Жанна Узалова, на рынке сейчас появилось довольно много специалистов уровня джуниор, и проблема с ними в том, что они не решали реальных задач, а в лучшем случае участвовали в каких-либо соревнованиях, что довольно слабо связано с реальностью. И если ритейлер хочет вырастить собственную экспертизу, то ему нужно нанять саейнтиста, как их сейчас называют, сеньор-уровня, чтобы он не только решал задачи «под ключ», но и обучал джуниоров, а таких специалистов очень мало на рынке. С сеньором тоже можно попасть впросак: бывают такие, которые сами прекрасно решают задачи, но совершенно не могут делиться опытом. Сформировать же команду из сеньоров вообще довольно дорогостоящая затея.

Однако внутреннее подразделение необязательно, есть множество других способов поработать с Data Science. Сегодня к помощи сторонних Data Science-специалистов прибегают крупные игроки офлайн-торговли. Обусловлено это разными причинами, среди которых широта спектра аналитических задач, постоянно меняющиеся условия рынка, влекущие изменения моделей, а также фантастический рост аналитических технологий, за которыми просто невозможно угнаться, рассчитывая лишь на собственные силы. «Полагаю, что чаще будут появляться исследовательские задачи в challenge-формате, для которых есть открытые площадки, такие как Kaggle.com, – продолжает Сергей Громов. – Например, отечественный производитель компьютерных игр «Фирма 1С» разместила на этом ресурсе задачу разработки модели месячного прогнозирования продаж собственной продукции».

Последнее, что мешает, – ментальность отечественных компаний. Сразу несколько экспертов отметили эту проблему, из-за которой рост, развитие и применение Data Science в офлайн-рознице сдерживаются. На Западе крупнейшие ритейлеры типа Amazon идут настолько впереди всех, что формируют саму отрасль Data Science, придумывают новые инструменты. Такие ритейлеры, понимая, что делают что-то прорывное, изобретательское, создают лаборатории и не требуют от этих лабораторий немедленного результата. При этом у них, конечно, есть и подразделения, которые отвечают за внедрение и монетизацию того, что придумали им эти первопроходцы. «Наши ритейлеры помимо того, что в принципе не особенно готовы инвестировать в исследования, еще и не хотят замечать, что в словосочетании Data Science есть вот это слово Science – «наука», – напоминает Алексей Шовкун. – Там есть место исследованиям, поиску знания, когда открытые проблемы рассматриваются с помощью научного подхода, метода проб и ошибок. Там гораздо больше рисков, нет уверенности в том, что, заплатив n-денег, мы получим результат на n в квадрате. Это не торговля, это наука. Ритейл пока на такое не согласен, им нужно знать заранее и наверняка».

Как правило, заказчик почему-либо воодушевляется идеей, затем делает пилот. «Причем пилот часто хотят бесплатно, ритейл вообще довольно жесткий заказчик и любит такой поворот, – иронизирует Алексей Шовкун. – Как только появляются первые положительные результаты, то сразу соответствующий менеджер среднего звена идет наверх и пиарит то, чего удалось достичь, а сам становится менеджером постарше. Далее начинают нанимать десятки Data Scientists, и создается собственное подразделение. При этом это достаточно сложный процесс, нужно уметь его выполнить. А у нас такая ментальность, что мы хотим сделать здесь и сейчас, быстро, а потом, когда это уже свое, родное, в это вложены деньги, – смириться с тем, что получилось не очень эффективно. Я пока не видел ни одного собственного внутреннего подразделения Data Science, которое было бы эффективно».

По его мнению, такие домашние отделы вынуждены расти очень быстро, а любая структура, которая так быстро растет, не может быть эффективной. Чтобы быстро нанять людей в штат, приходится брать всех, кто более-менее похож на то, что нужно, поэтому скапливается много джуниоров, а это плохо для команды. Ожидания от проекта завышены, а менеджер, который все это возглавил, становится заложником собственных лозунгов и вынужден заниматься политикой, а не аналитикой. Затем такому отделу дают полтора-два года на то, чтобы себя проявить, и менеджеры вынуждены рапортовать об успехах, чтобы продержаться хотя бы эти два года. «Я не вижу пока у нас ментальной готовности делать правильно. Поэтому многие из тех Data Scientists, кто хочет работать, часто уезжают на Запад», – заключает он.

Data Science в ритейле

Ритейлер спортивных товаров Under Armour владеет несколькими фитнес-приложениями и имеет доступ к базе из 160 млн людей, занимающихся спортом. Помимо этого ритейлер оснащает датчиками инвентарь. Собирая и анализируя данные на базе решений SAP, Under Armour может совместить данные о клиентах с географическими данными и понять, например, где сейчас в стране люди занимаются регби, и на основе этого планировать свою рекламу. Все это способствует увеличению эффективности продаж.

Американский ритейлер Walmart, магазины которого расположены по всей стране и находятся в шести часовых поясах, регулярно обрабатывает 250 000 000 транзакций с данными о клиентах. При этом 94% запросов формируются меньше чем за две секунды. В период «черной пятницы» загрузка данных не превышает одного часа. Компания оперативно анализирует реакцию потребителей на ту или иную акцию на Восточном побережье и на основании этого корректирует выкладку товаров на Западном, где магазины еще не открылись.

Лаборатория Х5

Специалисты по Big Data трудятся в большом подразделении X5 Retail Group. Мы решили получить информацию из первых рук и разобраться, как там организован процесс.

В компании создали дирекцию по большим данным, то есть выделили все, что касается данных, в отдельную структуру. Отбросили ли там слово science? На вопрос отвечает Валерий Бабушкин, руководитель управления развития данных компании X5 Retail Group: «Мы не входим ни в состав ИТ-дирекции, ни в состав дирекции по стратегии. С большими данными в Х5 работает автономное подразделение. У нас есть группа Research and Development, где ребята пробуют что-то новое. У них нет задач наподобие «Сделай это к завтрашнему дню». Они занимаются тем, что можно считать наукой».

Валерий Бабушкин привел примеры задач, решаемых в департаменте больших данных Х5.

Первая задача – прогнозирование спроса. Хотелось бы, чтобы товара было, с одной стороны, достаточно, с другой стороны – ровно столько, сколько нужно, чтобы он не залеживался, а раскупался. Если товар испортился, ритейлер теряет деньги, если товара слишком мало – покупатели перестают ходить в эту торговую точку. Поэтому спрос нужно прогнозировать, выгода здесь очевидна.

Вторая задача – это промо. Здесь есть место оптимизации. Дано: определенная кривая эластичности спроса. Видно, что с определенного периода скидки будут содействовать не прибыли, а убытку. Поэтому здесь нужно найти оптимум. Кроме того, промо влияет на спрос, и его тоже следует учитывать в прогнозе, о котором мы говорили выше.

Третья задача – матрица ассортимента. «Представьте ситуацию: человек пришел в магазин, взял бутылку пива, – рассказывает Валерий Бабушкин. – Что он будет делать дальше? Можно нарисовать целое «дерево» вариантов его дальнейшего продвижения. При этом возникает понимание того, какие товары нужно располагать рядом, как их группировать. Кроме того, когда покупатель заходит в незнакомый магазин, то довольно быстро понимает, дорогое это место или нет. Даже если он пришел в магазин наподобие «Пятерочки», ему приходится искать нужное среди большого ассортимента, который состоит в среднем из 4500 уникальных товаров. Очевидно, что люди не ходят с блокнотом и не записывают туда все позиции, сравнивая цены и выгоду. Обычно покупатель смотрит только на несколько ключевых товаров и делает выводы – например, тут дешево. Или наоборот. Таким образом, мы можем создать правильную ассортиментную матрицу, понять, какие товары стоит заказать в магазин, а какие нет».

Четвертая задача – это карты лояльности, персональные предложения и более глубокое понимание клиента. Это помогает сделать так, чтобы покупатель возвращался снова и снова, средний чек повышался, трафик рос. «X5 Retail Group открывает в среднем шесть магазинов в день, – объясняет Валерий Бабушкин. – За второй квартал открылось около 500 магазинов. Когда магазин открывается, то первое, что нужно – обеспечить хороший трафик. Мы разработали систему, которая прогнозирует трафик для каждой торговой точки. Это дает более точное понимание желательного и нежелательного расположения конкретных магазинов».

Пятая задача – это интерактивная отчетность, BI, или бизнес-аналитика. Не будем забывать, что это тоже Data Science в смысле «работа с данными». «График – это лучшая форма статистики, но он должен быть максимально удобен и информативен. Этим мы тоже вполне успешно занимаемся», – поясняет Валерий Бабушкин.

Шестая задача – это профиль пользователя, создание его точного портрета. Он сторонник ЗОЖ? Если да, то именно ему нужно рассказать о том, что в сети появились новые протеиновые батончики, а не тому покупателю, который их никогда не купит.

«Наш седьмой продукт решает задачи, связанные с монетизацией за пределами торговых сетей. Мы можем помогать другим компаниям с их данными», – заключает Валерий Бабушкин.

Теги:

Коментарии (0)