Голосовое управление это одна из самых быстрорастущих тенденций в области цифровых технологий. Благодаря достижениям в таких областях вычислительной техники, как распознавание речи, машинное обучение и обработка естественного языка, устройства теперь управляются голосом для воспроизведения музыки, отправки сообщений, осуществления платежей с банковских счетов и предоставления персонализированных рекомендаций.
Виртуальные помощники, такие как Siri от Apple и Alexa от Amazon, имеют свои недостатки. Критики отмечают, что они далеки от того, чтобы вести искренние беседы, и что их полезность в настоящее время преувеличена. С другой стороны, и в рамках определенных ограничений, технология голосового управления уже доказал свою эффективность в различных сценариях, где ручной интерфейс был бы неудобен или опасен.
Очевидный пример — вождение: программное обеспечение для распознавания голоса, подобное тому, которое используется Ford для своей информационно-развлекательной системы SYNC, позволяет водителям управлять ее функциями, не отрывая рук от руля или глаз от дороги. В другом месте, автоматическое преобразование произносимого слова в текст это освобождает некоторых специалистов, таких как врачи, от необходимости делать заметки от руки во время работы.
Можно увидеть, как области заводского цеха могли бы извлечь выгоду из подобного мышления. Когда дело доходит до настройки, использования или технического обслуживания оборудования, взаимодействие без помощи рук может сделать работу операторов как более безопасной, так и с меньшим временем простоя более продуктивной.
Хотя и на самых ранних стадиях, технология голосового управления для промышленности сейчас начинает отрываться от земли. Itspeex’s АФИНА это одна из первых операционных систем с голосовой активацией, разработанная специально для использования со станками с ЧПУ, такими как токарные станки, мельницы и шлифовальные машины. С помощью гарнитуры, микрофона и ноутбука пользователь может как инструктировать машины для выполнения определенных операций, так и мгновенно получать доступ к информации из руководств по эксплуатации машин и заводской документации.
Алгоритмы, лежащие в основе этой возможности, прошли долгий путь с момента первых попыток Siri получить результаты поиска в Интернете. И другие аспекты системы были специально разработаны для решения задач промышленной среды, таких как функции шумоподавления гарнитуры в цеху.
С одной стороны, естественно ограниченный набор слов и типов команд, используемых пользователем при взаимодействии с таким устройством, как дрель или резак, делает программирование соответствующего голосового управления относительно простым. Это, конечно, не означает, что пользователям не требуется базовое обучение правильной терминологии. И что другие проблемы, универсальные для программного обеспечения распознавания речи, такие как сильные региональные акценты, также не нуждаются в решении здесь.
Это особенно важно в промышленный контекст, однако, чтобы произносимые команды были не менее четкими, чем те, которые традиционно передаются кнопками и клавиатурами. Отсюда необходимость в активирующем слове, используемом в начале высказываний – чтобы убедиться, что машина знает, что слова адресованы именно ей – и, при необходимости, система запрашивает разъяснение или подтверждение. Отсюда также вытекает необходимость в надлежащие протоколы авторизации.
История о том, как Alexa из Amazon случайно заказала корм для кошек, когда подслушала одну из собственных рекламных объявлений Amazon, достаточно забавна, но не та правдивая история, которую хочется услышать в заводской версии. В некотором смысле задача технологии голосового управления состоит в том, чтобы сделать взаимодействие с устройствами легким, но не слишком легким: достаточно простым, чтобы сделать активацию машины быстрой и естественной, но не настолько простой, чтобы рисковать опасными или дорогостоящими последствиями.
Если новая технология призвана повысить эффективность без ущерба для безопасности на рабочем месте, она также должна делать это, не подрывая безопасность системы. Угроза киберпреступности возрастает по мере того, как бизнес становится все более цифровым, и в нынешнем виде голосовые технологии являются широко признанным основным компонентом риска цифровых систем.
ATHENA подчеркивает, что он функционирует полностью локально, без подключения к Интернету. А недавно разработанный Siemens помощник по техническому обслуживанию с голосовой активацией (с помощью которого техники ветряных турбин могут получать устный доступ к информации, продолжая сложную работу обеими руками) предусматривает ограничение доступа ко всем связанным данным в собственной облачной операционной системе компании.
И все же трудно представить, что машины с голосовым управлением в долгосрочной перспективе будут находиться вдали от общего интернет-пространства. В конце концов, технология чипов находит все более энергоэффективные способы работыпрограммное обеспечение для распознавания речи, значительно расширяя ассортимент устройств, подходящих для голосовой работы, включая устройства IofT, уже известные своей уязвимостью для хакеров.
Есть все шансы, что подобные задачи в конечном итоге будут решены. Как было доказано в сфере домашнего хозяйства и досуга, для многих устный цифровой интерфейс является естественным и предпочтительным. Поисковые системы, такие как Google, уже адаптируются для реагирования не только на введенные ключевые слова, но и на обычные разговорные фразы.
Похоже, что точки трения между людьми и устройствами, с которыми они живут и работают, повсюду сглаживаются. Это своего рода преодоление культурного разрыва. Будь то промышленные роботы, которые выглядят и ведут себя все больше как человеческие руки, или постоянная модернизация ноутбуков и других устройств, чтобы лучше отражать реальное управление, все это направлено на достижение своего рода полной эргономичной подгонки.
То, что естественная речь должна в какой–то момент вытеснить искусственность типизированного кода, является частью той же тенденции — хотя в этом случае до воображаемой промышленной конечной точки остается довольно далеко.