TDSE株式会社

自動制御

製造業や建設業では働き手不足や技術承継の難しさに大きな課題を抱えています。この課題解決に向けて需要と期待が高まっているのが、ロボット等を用いた運転・操作の自動化です。TDSEでは、実環境をしっかり理解したうえで、「シミュレーション」と「強化学習」によって運転・操作の自動制御を実現し、業界が抱える課題を解決します。

需要が高まっている運転・操作の自動化

製造業や建設業では、人口減少や少子高齢化による働き手不足や、熟練技術者の暗黙知化しているノウハウや技術の伝承の難しさ、という課題があります。また、危険と隣り合わせである建設現場では、安全を最優先にするため、作業の効率化がなかなか進めにくいという課題もあります。
そこで期待されるのがAI技術を搭載したロボット(作業機器の自動運転)の導入です。建築業では、建設用のロボットを積極的に導入して、ロボットによって危険な作業を行ったり、複雑な作業行ったりすることで効率化を実現しています。

シミュレータと制御AIによる検証を実施

作業機器の自動運転をAIによって実現するには、作業環境下に応じて作業機器を適切に動作させるAI(制御AI)が必要になります。すなわち素直には、制御AIを学習(構築・開発)するために、何度も作業を実施して得られる情報・データ(状態と行動・動作)から、制御AIを学習することになります。

しかし、実際の環境では、制御AIの学習データを取得するために作業を何度も実施することがコストや安全面で現実的ではないことがあります。開発初期で学習がまだまだ十分でない制御AIでは、制御対象に対して著しく期待しない動作をさせる可能性があり、そのために例えば、重機のアームを制御しようとするなら、高価な重機を壊してしまうことになりかねません。また、十分多くの学習データを得たいがひとつひとつの作業にどうしても時間が掛ってしまう、例えば、室内温度を快適な温度に制御しようという場合、室温1℃の変化に数十秒も要していてはAIの学習に非常に時間がかかってしまいます。

そこで、シミュレータで仮想的に作業環境を再現し、その仮想環境内である一定の制御水準までAIを学習させてから、実環境において学習をさらに進めて、最終的に求める制御AIを開発するアプローチをとるのが適当です。シミュレータ内の重機であればいくら壊しても重機の修理費は掛りませんし(計算機の電気代はかかるけど)、シミュレータ内の室温であれば1℃の変化にかかる時間も気にならない程度に短くできます。制御AIの学習は、「強化学習」という機械学習のひとつの手法で行います。

制御AIは強化学習によって学習する

「強化学習」では、AIはある「環境」下で、目的として設定した「報酬(スコア)」を最大化するための動作・行動を学習します。この学習手法は、目的を達成するまでに幾つかの行動を繰り返し、その中から最適な行動を獲得するタスクに適しています。例えば、ロボットの歩行制御があります。この場合は「歩けた距離」を報酬とします。歩ける距離を最大化するために、AIは色々な歩き方を試し学習します。その結果、ロボットに長い距離を歩行させることが出来る制御AIを構築することができます。
重機のアーム制御の場合だと、「アームと対象物との距離」を報酬として、作業するのに適切な距離になるようにアーム動作を学習します。また、室内温度を快適な温度に制御する場合だと、「快適な温度と室温の差」を報酬として、その温度差が最小になるような空調稼働を学習します。
強化学習にもいくつか方法(アルゴリズム)があり、代表的なもので「Q-Learning」というものがあります。Q-LearningではQ関数と呼ばれる行動価値関数を学習し、制御を実現します。
行動価値関数Q(a|s)は、状態sの場合に行動aを行ったらどれくらいの報酬が得られるかを出力する関数です。また、Q-Learning に Deep Learning を用いて改良した Deep Q Network (DQN) があります。これは AlphaGo で使われている方法で、Q関数(行動価値関数)にニューラルネットワークを用いることでより良いが学習できます。

「シミュレーション」と「強化学習」で実世界の課題を解決

物理的な運転・操作に対する自動化の需要が高まっているが、先述しましたように、それを実環境で開発するには物理的もしくは時間的コストが非常にかかってしまいますし、時には安全面の問題もあります。TDSEでは、そのような課題を、実環境をしっかり理解したうえで、「シミュレーション」と「強化学習」によって解決いたします。

CONTACTお問合せ

お電話でも承ります。お気軽にご連絡ください。
TEL. 03-6383-3261 平日9:00 〜 18:00

お問合せ

上へ戻る