От слов к делу | Журнал «Мое дело. Магазин»

06 апреля 2015, 05:04 Наталья Николаева

«О’кей, Google! Зачем ритейлу речевые технологии?» В ответ Google, корректно распознав русскую речь и не среагировав на шум машин за окном и посторонние голоса, выдал несколько страниц ссылок. Итак, речевые технологии, о которых говорят не первый десяток лет, похоже, начинают работать. Постараемся разобраться, как их можно использовать в продуктовой рознице.

АВТОР: Наталья Николаева

Весь XX век фантасты писали о том, как люди говорят с машинами, а те не только понимают сказанное, но и отвечают «человеческим голосом». На практике сложилось так, что с любой, даже самой умной техникой мы общались пальцами: с помощью кнопок, манипуляторов, жестов в конце концов. А она в ответ молчала или в лучшем случае подавала звуковые сигналы. На диалог это если и было похоже, то отдаленно. Речевые технологии выглядели как привлекательное решение, которое вот-вот должно было взорвать рынок. Но не получалось. Сложностей много. Часть из них очевидна. Даже сейчас, когда мы заявили: «Похоже, они начинают работать», то сделали это, нажимая пальцами на кнопки, а не диктуя текстовому редактору свои мысли. А ведь как легко и быстро было бы! И проблема не в том, что таких редакторов нет. Есть, и появились они давно, еще до наступления XXI века. Однако качество их работы оставляло желать лучшего. Даже сейчас проще написать текст, чем надиктовать, а потом потратить несколько часов на исправление ошибок в неправильно распознанных программой предложениях. На этом фоне Google, который после секундной паузы безошибочно понял наш первый запрос, вызывает приятное удивление. И все же даже этот сервис, который появился в прошлом году – стало быть, все еще новинка! – ошибается: часть слов ему непонятна, даже если говорить на хорошем русском языке. А попробуйте сказать ему что-то по-английски! Вам сразу же станет стыдно за свое произношение.

Отсюда вопрос: если речь все еще не распознается максимально эффективно, есть ли смысл во внедрении технологий, связанных с голосом, в бизнес-процессы компании? Зачем вообще ритейлу может понадобиться такого рода решение? На практике оказалось, что голосовые технологии действительно пользуются спросом в корпоративном секторе. «Сфера деятельности одного из направлений нашей компании – автоматизация и оптимизация логистики, – объясняет Илья Иванов, директор направления «логистика» компании «АйАрТи Груп». – Именно в этой области сейчас наблюдается спрос на голосовые решения как дополнительный инструмент повышения эффективности. В общем случае голосовые технологии можно использовать во всех видах деятельности, где управление работой персонала предусматривает получение им команд или заданий, а также необходимость их подтверждения – и все в режиме реального времени».

Кто первый?

Во внедрении нового решения среди торговых компаний есть свои (вполне предсказуемые) пионеры: «Мы активно внедряем системы голосового управления в сфере российского ритейла, например, в X5 Retail Group, – рассказывает Киммо Юли-Кокко, генеральный директор компании «Оптискан», – а также предоставляем наши решения для крупных 3PL-провайдеров, компаний по продаже автозапчастей, фармдистрибьюторов. В числе наших клиентов пивоваренные заводы, сети обувных магазинов, CPG и множество других компаний, специализирующихся на штучном отборе заказов».

X5 Retail Group стал полигоном, на котором успешно прошли испытания речевых технологий. «Наша команда пришла в консалтинг, имея значительный опыт по разработке и вводу в эксплуатацию голосового отбора на всех складах X5 Retail Group, – вспоминает Илья Иванов из «АйАрТи Груп». – Теперь по итогам этого проекта, продолжавшегося в течение полутора лет, на всех складах комплектация товаров для магазинов осуществляется только с использованием Pick-by-Voice, причем на двух языках – русском и узбекском. С помощью Pick-by-Voice подбирается и штучный, и весовой товар, алкоголь, овощи и фрукты – полный ассортимент товаров торговой сети. Процесс проходил не всегда гладко. На наш взгляд, именно при внедрении голосовых технологий на начальном этапе сильно сказывался консерватизм исполнителей и руководителей складов нижнего звена. Однако первые же результаты кардинально изменили отношение к новой технологии, в том числе и в среде комплектовщиков».

Говорит Москва

В России достаточно плотно занимаются речевыми технологиями. У нас даже создана специальная кафедра на одном из факультетов Санкт-Петербургского национального исследовательского университета информационных технологий. В компаниях, занимающихся развитием речевых технологий, над проблемой трудятся ученые самых разных специальностей: математики, акустики, физики и даже лирики в лице филологов и лингвистов, которые пытаются заставить машину быстро и эффективно понимать, что ей сказали, вести осмысленный диалог, преобразовывать текст в речь и наоборот. Существуют даже такие направления, как верификация и идентификация человека по голосу. Разговор по телефону может стать сродни отпечатку пальцев и предъявлению паспорта!

Распознавание речи применяется в разнообразных голосовых сервисах (например, для голосовой навигации по сайту), для речевой аналитики. Программы могут искать ключевые слова в аудиозаписях, проводить автоматический анализ и оценку телефонных разговоров. Интеллектуальный анализ массива неструктурированной речевой информации помогает определить, например, самые значимые темы для клиентов, звонящих на «горячую линию», понять эффективность маркетинговых акций, оценить конверсию.

Все это может быть интересно для колл-центров и бизнеса в сфере электронной коммерции. Для классического ритейла интереснее выглядят предложения, связанные со складскими работами. Так, по словам Ильи Иванова, сотрудники на складе смогут осуществлять отбор товара с учетом атрибутов партий и сроков годности. Голосом можно задействовать калькулятор количества отбираемого товара. Таким образом, комплектовщику не надо держать в голове, сколько именно он уже взял и сколько еще надо отобрать – он просто говорит системе, сколько у него товара в данный момент, и слышит остаток, вычисляемый системой.

«В компании Honeywell считают, что современный склад подразумевает «свободу» оператора на рабочем месте. Это в первую очередь беспроводные технологии, которые позволяют беспрепятственно перемещаться сотруднику склада. Кроме того, оборудование должно иметь ряд функций, расширяющих возможности оператора. Сегодня на рынке все большую популярность обретают голосовые технологии, которые выводят взаимодействие людей и оборудования на новый технологический уровень», – убежден Энзо Капобьянко, менеджер по стратегическому развитию и маркетингу в регионе EMEIA компании Honeywell. По его словам, с помощью таких решений работники складских комплексов могут поддерживать голосовую связь в режиме реального времени с системами управления складом (WMS), а также передавать информацию без оформления ее в электронном или бумажном виде. Система WMS создает файлы с заданиями на работу и направляет их непосредственно на мобильное устройство оператору в виде конкретных голосовых указаний. Оператор слышит команды на выполнение каждой операции и по ее завершении докладывает об этом по головному телефону. Речь оператора распознается голосовым компьютером, который передает оператору следующую команду. Этот процесс продолжается по цепочке в течение всего рабочего дня: команды доводятся до сведения оператора, а он подтверждает их выполнение.

«Ранее работники логистических центров X5 Retail Group осуществляли комплектацию при помощи бумажных листов. Благодаря применению голосовых технологий комплектовщикам больше не нужно использовать бумажные носители, они могут сосредоточиться на сборке заказов и обработке заданий. По результатам пилотного проекта Х5 Retail Group производительность комплектовщиков увеличилась на 10%, а ошибки при комплектации сократились в два раза. Руководство компании решило тиражировать систему управления голосом на все склады X5», – рассказывает о проекте с X5 Retail Group Киммо Юли-Кокко.

Современному бизнесу речевые технологии помогают оптимизировать бизнес-процессы: увеличить производительность труда персонала компании, выполняющего большое количество однотипных операций, снизить количество ошибок, расширить возможности по оценке работы сотрудников, сократить затраты за счет использования менее квалифицированного персонала. «Голосовые технологии позволяют снизить требования к квалификации сотрудников, потому что разговаривать с системой всегда проще, чем нажимать кнопки. Настраиваемый механизм речевых подсказок позволяет ускорить процесс обучения, снизить усталость и, как следствие, улучшить нематериальную мотивацию работников. Кроме того, существует субъективный фактор, увеличивающий производительность труда: система «подталкивает» исполнителя к выполнению следующего действия», – отмечает Илья Иванов.

Галина Житкова, руководитель отдела методов и процессов компании FM Logistic, считает, что преимущества голосовых технологий – в увеличении производительности подготовки заказов, повышении коэффициента успеваемости склада по отгрузкам в магазины ритейлеров.

«Значительный эффект от использования голосовых технологий достигается при работе в специфических условиях, – дополняет Илья Иванов. – Например, на складах с холодильными камерами до -20 °С, мясоперерабатывающем производстве, при работе с большими и тяжелыми коробками, то есть там, где манипуляции с оборудованием для человека затруднены или оборудование в руках оператора работает в агрессивной среде. Если говорить о цифрах, то, по статистике, внедрение голосовых технологий на складах ритейловых компаний позволяет увеличить производительность труда комплектовщиков на 10–30% в зависимости от процессов, ассортимента и используемой технологии отбора до внедрения «голоса». При этом количество ошибок при комплектации заказов можно уменьшить в два с половиной раза».

Упомянем и еще одно решение для торговых сетей, совершенно не связанное со складом и логистикой. Оно ближе к тому, что предлагается для колл-центров и электронной коммерции. Это комплекс регистрации и оценки качества работы специалистов в торговых залах, который призван записывать и помогать анализировать поведение торговых представителей. Все фонограммы можно анализировать автоматически или вручную. Сопроводительная информация регистрируется. Записанные фонограммы, накапливаясь в централизованном хранилище, создают базу знаний, которая впоследствии может использоваться как для обучения новых работников, так и для построения системы мотивации уже имеющихся сотрудников.

Работа над ошибками

И все же как быть с ошибками? В самом начале мы сказали, что до сих пор техника не в состоянии на сто процентов «понять», что ей говорят. В действительности процент точности определения зависит от применяемых алгоритмов работы. В одном случае система обучается голосу каждого пользователя. В другом – система способна понять слова, произнесенные любым человеком без предварительного обучения.

Конечно, когда речь заходит о голосовых технологиях, потребители (да и создатели тоже) хотели бы видеть настоящее общение с компьютером, полноценный диалог. Однако промышленные решения больше нуждаются в точности, нежели в задушевных беседах с роботами. «Google и тому подобные системы распознавания являются speaker-independent – то есть им все равно, какой текст и кто говорит. Такой подход не позволяет эффективно распознавать речь комплектовщика в шумной обстановке, – поясняет Киммо Юли-Кокко. – Наша голосовая система speaker-dependent распознает голос того, кто ее обучал. Поэтому она обеспечивает быстрое и точное распознавание речи. Прежде чем начать использовать нашу голосовую систему, необходимо создать для себя голосовой профиль и проговорить те слова, которые будут использованы в процессе комплектации, провести «тренировку». Как правило, словарь состоит из 20–50 команд, и программа распознает их до 99,99% даже в шумной обстановке. Если система не распознает команду, она просит повторить. Компания-производитель уделила особое внимание адаптации процесса распознавания и синтеза речи применительно к шумному и акустически неоднородному окружению, что характерно для складских помещений. Целый ряд патентованных технологий и решений обеспечивает практически безупречное распознавание человеческой речи в условиях технологического шума, при перемещении оператора между помещениями с различными акустическими или климатическими условиями, фильтрацию паразитных шумов и адаптацию к изменениям тембра или высоты голоса оператора».

Подобный подход используют и в компании Honeywell: «Сегодня на рынке представлены системы, которые распознают любую речь, даже осложненную диалектами и характерным произношением, – делится Энзо Капобьянко. – Для этого служит отдельная система программной подстройки распознавания на основе существующих сигнатур. Используя заранее произведенную запись голоса оператора, система подстраивается под специфику его произношения, вследствие чего процесс взаимодействия этого сотрудника с системой упрощается, а значит, ускоряется».

Если программа не нуждается в предварительном обучении голосу работника, то за точность работы отвечает ее «база знаний» и особенности взаимодействия с оператором. «Мы предлагаем своим клиентам голосовое решение LYDIA Voice Suite от немецкой компании TopSystem – поясняет Илья Иванов. – Ядро системы – модуль распознавания речи – построено на базе модели распознавания с ограниченным словарем. То есть человек, по сути, не «общается» с системой, а произносит команды из списка (впрочем, весьма большого), поэтому для начала работы не требуется обучение системы голосу оператора, используется «честное» распознавание речи. Программе удается достичь очень высокого качества распознавания в условиях промышленных шумов на недорогих устройствах без использования онлайн-алгоритмов и серверных мощностей. Кроме того, LYDIA Voice Suite поддерживает настройку практически под любой язык и диалекты».

Без «зоопарка»

Самое ругательное выражение, которое чаще всего звучит на профильных мероприятиях из уст ИТ-директоров, – «зоопарк систем». Чтобы получать максимальную пользу от внедрения ИТ-решений, желательно интегрировать их с имеющейся корпоративной информационной системой. В этом смысле у продуктов, связанных с речевыми технологиями, весьма недурные перспективы. «Система интегрируется вполне успешно, – заверяет Сергей Ступарь, начальник проектного отдела Itella в России. – Единственное требование: должны быть разработаны «телеграммы» из информационной системы и в информационную систему, которые будут обрабатываться системой голосового подбора. В этом и заключается основной «подводный камень»: если информационная система подобных «телеграмм» не имеет и их разработка представляет проблему, то будут сложности. Для нашей компании этот процесс прошел не столь болезненно, так как мы можем довольно гибко дорабатывать нашу информационную систему».

«Одним из первых вопросов, который мы слышим от наших потенциальных клиентов, является вопрос о сложности и стоимости интеграции голосовых технологий с информационными системами заказчика, – подтверждает Илья Иванов. – Ответом на такой вопрос может быть наличие у нас собственной группы разработки, а также значительного опыта интеграции различных систем между собой, в том числе и голоса. Нашей компанией разработано универсальное программное обеспечение для быстрой интеграции с любой корпоративной системой, будь то WMS или ERP. На текущий момент мы запустили и интегрировали голосовое управление в связке с Infor WM, Infor EXceed, SAP EWM, 1C, in-house WMS (собственная разработка)».

По словам Галины Житковой, если в информационной системе ERP есть полноценный модуль управления складом с набором всех функций WMS, то с такой системой также можно построить голосовые интерфейсы. «Для FM Logistic нет ограничений по внедрению голосовых технологий – в своей WMS или системе клиента. Выбор используемой системы зависит от возможностей ИТ-составляющей на стороне клиента и контрактных договоренностей между нами», – объясняет она.

Даже наладить голосовую связь в рамках технологии Pick-by-Voice с корпоративными информационными системами разного рода вполне реально. «Существуют различные способы организовать голосовой подбор, – объясняет Сергей Ступарь. – Можно использовать систему голосового подбора просто как «ретранслятор» команд WMS. В данном случае будет лидировать WMS, давать те же команды, которые она дает на ручной терминал, а система голосового подбора будет просто «озвучивать» их человеку и воспринимать от него голосовые подтверждения. Можно получать из WMS и ERP просто список мест, а всю остальную логику реализовать уже в самой системе голосового подбора (сортировка маршрута «змейкой» и т.д.)».

Второй вопрос, который неизменно волнует бизнес, – как скоро окупятся ИТ-новинки, внедренные в процессы компании? В случае с речевыми технологиями временной прогноз выглядит оптимистично: «По нашим расчетам ROI и опыту работы с клиентами срок окупаемости голосовой системы составляет от 9 до 15 месяцев», – говорит Киммо Юли-Кокко.

Илья Иванов предполагает, что и этот срок можно сократить. «Стоимость нашего решения зачастую не просто соизмерима со стоимостью привычных технологий (например, с использованием классических сканеров и беспроводных терминалов сбора данных с экранами и кнопками), она даже ниже. При этом под решением в данном случае мы понимаем оборудование, лицензии на программное обеспечение, работы по внедрению (включая анализ требований заказчика, формирование рекомендаций по оптимизации бизнес-процессов «под голос», работы по интеграции с системами заказчика), запуск и техническую поддержку в первые 1–2 недели после запуска – то есть систему голосового управления «под ключ». По статистике окупаемость нашего решения составляет в среднем от 7 до 9 месяцев в зависимости от процессов и отрасли», – объясняет он.

ИТ и кризис: кто кого?

Несмотря на декларируемый кризис, многие предприятия активно внедряют речевые технологии в свой производственный процесс. Так, компания Itella как логистический провайдер, объявляя планы развития на 2015 год, заявила, что развитию информационных технологий в компании будет уделена часть бюджета, при этом одним из направлений станет внедрение на складах технологии Pick-by-Voice.

В целом интерес к технологии растет: «В последнее время мы ощущаем рост спроса, – подтверждает Энзо Капобьянко. – В 2013 году компания Honeywell завершила приобретение Intermec и дополнила свой продуктовый портфель оборудованием с функциями голосового управления. Теперь мы можем предложить заказчику широкий ассортимент голосовых систем, позволяющих работать по различным сценариям: только голос, голос со сканированием, голос с печатью, голос со сканированием и печатью. Однако стоит отметить, что подобные решения внедряют в основном крупные компании».

То, что на Западе распространилось еще 10 лет назад, наконец пришло и в Россию. «В прошлом году мы выполнили проект по внедрению голосового отбора на складах крупнейшей региональной торговой сети. По отзывам заказчика, с первой недели работы резко выросло качество отбора, через месяц в целом по компании отмечен значительный рост производительности труда, – рассказывает Илья Иванов. – В настоящее время голосовые технологии широко распространены во всем развитом мире во многом из-за высокой стоимости человеческих ресурсов».

Pick-by-Voice – система голосового управления, которая применяется для облегчения процесса комплектации товаров и способствует автоматизации склада. С помощью головной гарнитуры и портативных терминалов оператор на складе имеет возможность передавать информацию/команды, которые принимает сервер управления, и получать обратную связь от компьютера в виде синтезированной человеческой речи. Таким образом, оператору отправляются задания по подбору товара и необходимые сведения о количестве, расположении, наименовании комплектуемых предметов.

Проблемы, возникающие при работе с Pick-by-Voice, и способы их устранения

Вероятные проблемы	Методы устранения
Ошибки, связанные с потерей связи с терминалом	Wi-Fi-покрытие склада недостаточно для голосового управления. Ошибка устраняется с добавлением точек доступа на объекте
Некорректное распознавание слов	Если есть слова, которые распознаются неоднозначно в зависимости от интонации или тембра, то делается замена слов, и подбираются однозначно определяемые слова при любых ситуациях. Чтобы исключить такие ситуации, нужно провести запись голоса каждого пользователя плюс обучить пользователей правильному произношению слов. Кроме того, процесс голосового обмена можно разработать на языке, который более понятен конкретному сотруднику
Ошибки, связанные с логикой работы, обработкой аномальных ситуаций, ИТ-ошибки	Эта категория устраняется на этапе операционных тестов до запуска голоса в продуктив

По версии компании FM Logistic

Выпуск журнала:

№ 171, март 2015

Теги:

Коментарии (0)