Vocollect Voice Collection
 
 

ヴォコレクト・ヴォイス・コレクション
Vocollect Voice Collection
~現場からのヴォイス~

 
このコラムでは、毎月一回、お客様の現場でお聞きしたエピソードなどを中心に、
音声と物流にまつわる話題をお届けしてまいります。
第一回 音声認識とは --- 「スマホ」と「音声物流」
第二回 音声指示による作業 --- 見ると聞くとは大違い

第一回  音声認識とは --- 「スマホ」と「音声物流」

いよいよ新年度、皆様方も新たな目標を掲げてスタートされたことと思います。通勤電車の中はまだ初々しい新入社員達で混雑していますし、その中でも さらにスーツ姿もぎこちない就活生らが真剣な眼差しでスマートフォンを操っています。
電話はもちろんメールやメッセンジャー、webブラウザー、GPS+地図に乗換案内など、就活生はもちろん、外歩きの仕事ツールとしてすっかり欠くことのできなくなった「スマホ」ですが、その中でもユニークなのが「音声認識」機能。皆さんもお試しになったことがあるのではないでしょうか。

私も自分の携帯で久しぶりに操作してみましたが、五十音はもちろん熟語も結構理解しますし、反応もそれほど待たされること無く結構気が利いた答えを提示してきます。この機能がデビューした当初は、その認識性能の低さとトンチンカンな答えを返してきたことから お酒の場での小ネタぐらいにしか使えなかったものが、随分と進化してきたものです。では、このスマホ上での音声認識機能、どのような仕組みになっているのでしょうか。

携帯電話各社やスマホ用基本ソフト・ベンダーの説明によると、スマホに向かって発せられた言葉は、音声のまま、またはスマホ上のアプリで音声を波形データ化した上で通信ネットワークを経由して各社のクラウド・サーバー群に送られます。この音声データが、強大な演算パワーを持つサーバー上で音声認識処理され、最も適切な反応を返すための巨大な辞書データとインターネット上にあふれる情報を検索して、スマホに回答を送り返すのです。どうりで、あたかもスマホに人工知能が搭載されているように、相棒との会話が成立するわけです。

ところで先日、導入をご検討頂いているお客様の所長さんとお話する機会がありました。所長さんもついに従来型携帯(いわゆるガラケー)からスマホに転向したとのことで、そちらの企業でご提供しているスマホ・アプリなどの話題がひとしきり続きました。すると、突然彼曰く、「ところでスマホの音声認識は結構待たされたり、電波の届かないところだと使えなかったりするんだけど、おたくの音声端末もそうなんだろ?  ウチの施設は、入り組んでいて携帯が繋がりにくい物陰が結構あるのだけれど、そこではやっぱり音声物流は使えないんだよね?」と聞かれました。 実はこれ、最近非常に良くあるご質問です。

音声物流端末は、スクリーン上の入出力画面や音声通話ができるスマホと違って、音声認識以外の入出力手段を持ち合わせていません。(但し、万一に備えて4つだけボダンスイッチは備えていますが…)しかも、業務用途で使用する端末ですから、限りなく高い音声認識性能が必要ですし、作業者のリズムを崩さないために 作業者の発声に即時応答してくるレスポンス速度も重要です。  以下に、ヴォコレクトのご提供する音声物流端末「Talkman」の音声認識の仕組みを、スマホと対比しながら簡単にまとめてみましょう。

 
 
 
 
比較項目 音声物流端末
「Talkman」
スマートフォンの
音声認識アシスタント機能
用途 業務・産業用 一般民生用
端末機器 専用設計 汎用・多用途設計
音声認識ソフトウェアの搭載場所 全て端末上に搭載されて稼働 端末上の入出力部分とクラウドネットワーク上の辞書や推論ソフトウェアが連動
ネットワークからのオフライン運用 端末上で処理できる簡単な入力への
対応以外は不可
音声入力に対する反応 端末上で処理されるため、
ほぼリアルタイム
ネットワークの速度・帯域幅や認識する文章・語彙の難易度に応じて変化
認識できる語彙 あらかじめ設定された、業務に
必要な限定された語彙だけを
高い確率で認識
あらかじめ限定しない自然言語を推論して
判断するので、認識精度はまちまち
認識できる文意 あらかじめ設定された、業務に
必要な限定された文意にのみ対応
クラウド上の膨大な辞書や
推論エンジンを利用した柔軟な対応
話者の発声のくせ、発音の
イントネーション、発話の速度や
音圧への対応、多言語対応
使用する語彙についてあらかじめ話者の音声サンプルを取得する
ので、全てのバリエーションに対応
話者を特定していないため、ゆっくり、
はっきり、標準的な発声でないと
認識精度が下がる。
対応済み言語のみ使用可能
話者の発声に対する
自動学習機能
あり あり
雑音、騒音への対応 専用設計のノイズ・キャンセリング・マイクと高騒音除去ソフトウェアで現場騒音に対応 標準品や汎用品のマイクを使用し、
一般的なソフトウェア上による騒音対策

同じ音声認識を可能にする仕組みでも、業務に特化した専用設計品と、日常の生活で広く利用できる民生汎用品とは、根本的な設計思想が異なっているということが お判りいただけると思います。

加えて言えば、庫内作業中に手で何かを持ちながら商品や台車と扱ったりすると、何かの拍子にどちらかを落としてしまう危険があります。スマホを庫内のコンクリート床に落としてしまえばダメージは避けられませんが、「Talkman」なら 作業者の身体にベルトで装着する上、ハードな落下テストにも耐える堅牢性を備えていますので、万一床に落下しても動作にダメージはありません。

こういった説明を所長にさし上げて、無事 音声物流端末に対する誤解は解けて導入をご検討いただけることになったのですが、「でも、操作が難しいんだろ? ウチの作業者に使いこなせるのかな?」とおっしゃる。 どうやら、まだスマホの操作に手こずっているご様子で、音声物流端末の操作にも不安気なご様子。 そこで、後日 お客様の現場施設での試用テストを行った際に、所長さんにもご参画頂きました。15分程度の音声サンプルを取得したのち、いきなり実際の音声ピッキング作業に取り組んでいただいたところ… 
なんと結果は、現役作業者の方々を差し置いて第一位のピッキング処理速度を記録されたのです。所長さんは「ドヤ顔」でおっしゃいました。

【今月のヴォイス】「なんだ、簡単じゃねぇか! いいか、みんな、こうやるんだよっ!」

音声物流についてご納得いただけたようで、何よりでした。

ページトップへ戻る

第二回 音声指示による作業 --- 見ると聞くとは大違い

音声物流の実態は、作業者が装着する音声端末であるTalkmanと呼ばれるコンピュータが作業者と二人一組となって、Talkmanから「作業指示」を出すと 作業者が「作業結果」を応答することの繰り返しにより、あらかじめ定められた業務フローにそって一連の作業が進んでいきます。 その際のやり取りに必要な言葉はあらかじめ打ち合わせにより定められ、前回のコラムでお伝えしたように それらの言葉を事前に作業者ごとの音声サンプルとして登録することで、過酷な作業現場においても良好な音声認識性能を確保しています。

先日、音声物流を導入していただいたあるお客様では、ピッキング現場の主戦力はベテランの女性パート作業者でした。作業者の皆さん、音声物流を導入するにあたってとても不安そうな様子です。 ある方に尋ねてみたところ、「何か間違った事言って、取り返しがつかなくなっちゃったら困っちゃうわ」とのこと。 それを聞いた物流センター長さんは「これでお喋りも減るんじゃないの? 生産性も上がって一石二鳥だよね!」と混ぜっ返していました。導入初日はみなさんの緊張感もピークに達し、音声端末に対する発話もどこかぎこちなく 所期の目標が達成できるかどうか心配しましたが、1週間もたたずに皆さんすっかり落ち着いて、ハキハキと応答しながら作業を進めていました。

このように立ち上がり時の習熟曲線の差こそありますが、実際に音声物流を導入しているお客様において 音声導入前と音声導入後の作業実績を測定してみると、一行あたりの作業生産性と正確性がいずれも大幅に向上しているとの結果が出ています。 つまり、これまで利用していた紙リストやハンディ端末よりも、耳から指示を聞いているほうが作業は素早く、またピッキング・ミスも減少しているということを表わしているのです。 では、「目からのテキスト指示」に比べて、「耳からの音声指示」にするとなぜ生産性や正確性が向上するのでしょうか?い 「紙リストやハンディ端末」と、「音声物流」との決定的な違いは、「ハンズ・フリー」であること、そして「アイズ・フリー」であることです。 以下にこれらの違いが生産性と正確性にどのように作用するかをまとめてみました。

  紙リスト/ハンディ端末 音声物流
ハンズ・フリー効果 -紙や端末を保持するため片手が塞がってしまう
-チェック印の書き込みや端末への入力に時間をとられる
-両手が自由に使えるため作業生産性と確実性が向上する
-確認や応答は全て音声発話によるため、他の作業行為と並行して行える
アイズ・フリー効果 -紙や端末と、作業対象との間で視線が移動するためミスが起きやすい
-指示を確認してから作業するまでの時間差がミスを発生させる原因となる

-視線は常に目標や作業対象物を注視できるのでミスが起きにくい
-作業指示を聞きながら同時に作業できるためミスが起きにくい

さらに、音声物流では正確性をさらに高める仕組みとして、「指差喚呼」と「二人一組」が自ずと実現され機能しています。 例えとして、車の運転と、電車の運行、そして旅客機の操縦を考えてみましょう。

車を運転している際、前方周囲はもちろん標識や速度計などを目視しています。これら多くの情報を目から取り入れて、指示や参照情報を処理しながら運転操作を同時に行なっているのですから、一瞬注意力が散漫になってしまうと事故発生の危険も増します。それに加えて、カーナビゲーションが進路を表示し音声で指示をしてきます。 運転操作優先でカーナビの指示に即応できず、交差点を一つやり過ごしてしまったという経験はどなたにもあるはずです。この例は、一人で全ての指示と処理を行うことの限界点を示していますし、音声による指示も、聞いているだけでは確実な動作に繋がらない恐れがあることを示しています。

次に電車の運行を見てみましょう。先頭車両から運転台を覗くと、運転士が信号や標識を視認する度ごとに指差喚呼を行って、現在の状態を確認したり指示に従った操作をしたりすることが確認できます。また、信号と対応した速度指示は運転台の速度計にも表示され、それが変化する場合にはベル音で運転士に知らせられます。 この指差喚呼動作は、現在注意しなければならない事象に対して運転士の意識を引き戻し、確実な操作を促します。人間は認知特性上、指で差しながら声を出している時、他のことを考えるのは非常に難しいと言われています。ということは、指差喚呼している瞬間は 注意や意識が目の前の仕事に集中できるということなのです。 ただ、この場合でも運転士が一人の場合は、意識レベルがついてこない一瞬の隙を突いて エラーを起こしてしまう可能性を否定できません。

旅客機の操縦はどうでしょう? 自動車も、電車も、同じく安全でなければいけないわけですが、旅客機の安全に対する備えはより厳重になっています。 機長と副操縦士の二人一組のうち、どちらか一人が操縦桿を担当し、もう一人が計器の監視を行なっています。全ての作業には手順と項目を明示したチェックリストがあり、一人がそのリストを読み上げ、もう一人が確認を応答していきます。また、離陸や着陸など重要操作の局面では、一人が計器を刻々と読み上げてもう一人の操縦士に現時点での状態を音声で伝え、操縦士は自らが行う操作を指差喚呼しながら視線と操縦桿に全神経を集中させます。

つまり、「二人一組」で相互に確認を行い かつ 実際の作業においては「指差喚呼」を実施することが、正確性を担保する上では非常に効果的な手段なのです。 音声物流では、音声端末「Talkman」と作業者が二人一組となって、一方からの「指示や問合せ」に対して他方が「確認や応答」をしていくことで作業フローが進んで行きます。  そして、「ハンズ・フリー」「アイズ・フリー」の状態に「指差喚呼」の標準動作手順を組み合わせることによって、バーコードのスキャンをしない場合でも99.9x%の正確性を実現でき、中には「ミス・ゼロ」の連続記録を更新しているお客様もいらっしゃいます。

さて、冒頭に出てきた物流センターのパート作業員さん、実は「Talkman」と落ち着いて会話できているのには訳がありました。 音声物流では、「もう一度」というコマンドを使うと「Talkmanに再度音声指示を出すよう促して聴き逃しを防ぐことができます。 実はこのコマンドですが、勘違いや言い間違いによって 誤った回答を「Talkman」に返してしまった場合、その入力された音声を一旦クリアにする機能も持っているのです。 この事を知ったパート作業員さん、とてもリラックスして作業ができるようになり、生産性もグンと伸びました。 当初かなり心配していた私がセンターを再訪したのを見つけてパート作業員さんが「Talkman」を装着したまま一言、

【今月のヴォイス】「何しゃべったって大丈夫よ、 もう一度!」

その後、センター長さんからお聞きした話によると、一瞬 激減したお喋りが すぐまた増えてきてしまったそうです。まぁ、生産性は出ているんでいいですけどね…

<了>

ページトップへ戻る
 
 
vocollectのホームページへ戻る

Copyright(c) ヴォコレクトジャパン株式会社 All Rights Reserved.