マルチモーダルDXとは？ビジネスへのインパクトや活用事例を解説

2024.04.30AIトレンド

1 マルチモーダルDXとは
2 ビジネスへのインパクト
3 マルチモーダルAIの活用事例とソリューションマップ
4 まとめ
5 合わせて読みたい

マルチモーダルDXとは

マルチモーダルDX（MMDX）は、マルチモーダルを活用してDX（デジタルトランスフォーメーション）を実現することを指します。マルチモーダルとは異なる種類のモダリティ情報（テキスト、音声、画像、動画、センサー情報など）を統合し、それらを一つのシステムで処理することであり、DXとはデジタル利活用によって企業・社会に大きな変革をもたらすことです。

マルチモーダルDXの核心は、単一のモダリティ情報源に依存するのではなく、複数のモダリティからの情報を組み合わせることにより、より豊かで深い理解を可能にすることにあります。例えば、画像と音声データを組み合わせて、ビデオ内の特定のシーンを理解することができます。また、テキストデータとセンサーデータを組み合わせて、特定の環境下での活動を分析することも可能です。このように、マルチモーダルDXは、単一のデータソースでは得られない洞察を提供できます。

ビジネスへのインパクト

マルチモーダルDXは、ビジネスのあらゆる側面において革新的な変化をもたらします。これまでのシングルモーダル（例：テキストからテキスト、画像から画像等）では対応できなかった課題に対して、マルチモーダル（例：画像＋テキストからテキスト、音声＋画像からテキスト等）を活用することで、企業はビジネスプロセスを変革し、競争上の優位性の確立及び人間が担っていた業務の代替がより高度なレベルで可能になります。

ビジネスプロセスの変革

マルチモーダルDXの影響の一つは、ビジネスプロセスの変革です。従来、ビジネスプロセスの変革へのAI適用において、複数のモーダルデータを総合的に活用することが難しく、シングルモーダルの利用ではプロセスの最適化が限られていました。しかし、マルチモーダルDXによって、これらのプロセスの効率化が可能になります。例えば、人事の採用活動（書類選考・面接）のAI活用において、シングルモーダルAIでは、履歴書のテキストデータをもとに応募者の採点を行う等、1つのモーダル（この例ではテキストデータ）に限定されていました。そのため面接業務は人間が対応せざるを得ませんでした。しかし、マルチモーダルAIを活用すると、例えば、応募者に面接動画と履歴書のテキストデータを送信してもらい、それをAIが分析・総合評価できるため、書類審査・一次面接に相当する業務を省力化できます1。

1. AIによる応募者の評価は、実運用において、合格者の判定はAIの判断を是とし、AIが不合格と判定した応募者については人事担当者も内容を確認して最終判断するという二段構えの運用が多い。

競争上の優位性の確立

マルチモーダルDXは、競争上の優位性を確立するための重要な手段となっています。マルチモーダルDXによって、企業は市場の変化に迅速に対応し、競合他社に先んじてイノベーションを起こすことができます。例えば、マテリアルズ・インフォマティクス2のAI活用において、シングルモーダルAIでは単一のモーダルの分析のみ対応しており、様々なモダリティを統合した分析は対応できませんでした。ところが、マルチモーダルAIを活用することで、画像や分光スペクトルといった異なる複数のデータを統合して分析することで、さまざまな機能を予測することができるようになり、材料開発において競合他社に対して優位に立つことが可能になります。

2.マテリアルズ・インフォマティクスとは、統計分析などを活用したインフォマティクス（情報科学）の手法により、材料開発を高効率化する取り組みのこと。

人間が担っていた業務代替の高度化

シングルモーダルでも人間の業務の代替は一定可能ですが、マルチモーダルDXによって、より高度なレベルでの業務代替を実現できます。例えば、工場への産業用ロボット導入において、シングルモーダルAIでは複数のモーダル（画像、力触覚センサー、音声、構造化データ）の扱いが必要な作業に対応できず、人間が作業せざるを得ないことがありました。ところが複数のモーダルを扱えるマルチモーダルAIを活用したロボットが、人間に代わって作業することで、生産ラインの効率を向上させることができます。

マルチモーダルAIの活用事例とソリューションマップ

HR分野

採用面接の合否判定支援3 4

動画を利用した採用面接の合否判定AIを提供、面接に臨む学生が送ってきた動画像と、応募者に関連したテキストデータを利用し、動画像、音声、テキストを掛け合わせたマルチモーダルによる分析を行っています。
複数のデータを利用することで、人間が面接するのに近い精度の実現を目指しており、ある企業における実際の活用現場では面接AIが合格としたものは通過させ、不合格となった学生の動画を面接官が確認するという運用を実施し、これにより、面接AIによる倫理的問題を回避でき、採用のスクリーニング作業の時間が8割以上削減できていると報告されています。

3 エクサウィザーズ（2022)　4 日経クロステック（2022）

自動車分野

LLMによる周囲状況の把握5

LLMを自動運転技術に応用するため独自の大規模LLMモデルHeronを公開しています。特徴は自然な対話ができることで、複合的な画像・言語のタスクでも、自然な文章生成が可能です。自動運転では周囲の映像や文字、音声などの複数の形式の情報を処理するマルチモーダルAIとして機能させ、例として道路状況を理解した上で運転時の注意点に関する問いに対し、自然な内容で回答できます。

5 PR TIME（2023）

材料工学分野

強化繊維プラスチックの構造分析6

機械学習などの情報技術を用いて、有機材料、無機材料、金属材料など様々な材料開発の効率を高めるマテリアルズ・インフォマティクス（MI）の一環として、「光学顕微鏡で観察した画像」「赤外線吸収スペクトル」「ラマンスペクトル」の特性、性質の異なる３種類の観測結果を統合して扱うマルチモーダルAIにより、ヤング率、強度、破断伸びなど合わせて8項目の特性が予測可能となりました。
この学習したモデルを使うと、1日で10万件程度の特性予測が可能となり、その予測結果を用いて、例えばアクリルモノマー4種類の配合とヤング率、破断伸びの関係が明確に示されるようになりました。これを分析し将来有望な設計案を見出すことが可能となっています。

6 出所：日経クロステック（2022）

セキュリティ分野

顔・虹彩を用いたマルチモーダル生体認証7

顔を向けるだけで誤認証率(他人を本人と誤って受け入れる確率)100億分の1以下の高精度な認証を即時に可能としています。マスクやゴーグル、手袋などを着用していても認証することができ、クリーンルームでの入退管理においても高いセキュリティと利便性を両立する運用の実現が可能で、これにより従来から生体認証が活用されてきた用途に加え、パスワードなどとの併用が求められる厳格な入退場管理や決済など、幅広い利用シーンにおいて適用されています。

7 出所：日本電気

ロボット分野（製造、建設、医療など）

ロボット分野では、マルチモーダルAIの活用は従来から研究されており、生成AIの登場でより柔軟な制御ができるようになると期待されています。ロボット制御への適用では、人間による指示を理解するとともに、カメラ・センサー情報などを処理して周囲の状況を把握し制御に生かす研究が進められています。具体例として２件紹介いたしますが、それ以外にもパナソニックコネクトやオムロン研究開発子会社のオムロンサイニックエックスなどから、言語による指示で簡単にロボットを制御できるシステムなど様々な研究事例が報告されています。

LLM×カメラ画像によるロボット制御技術

グーグルが2022年に発表したロボット用の基盤モデル「PaLM―SayCan」は、人間が曖昧な言葉でロボットに話しかけるだけで、ロボットが取るべき行動をAIが判断し、行動計画を立案できるようになりました。学習済みLLMを用いて人間の指示をロボット向けのコマンドレベルに変換できるシステムを構築することで、LLMの持つ膨大な概念や知識、言葉のゆらぎへの語彙をうまく引き出し、挙動精度の向上や学習時間の短縮を実現しています。
またカメラ画像もLLMへ同時に入力する事が可能となったことで、カメラ画像内のオブジェクトを指示代名詞（これ、それ）で指定するような曖昧な指示が行えることにより、汎用性を向上させています。例えば、人間が「飲み物をこぼしました。助けてくれませんか」とロボットに話しかけると、PaLM―SayCanはロボットの周囲の状況をカメラによって見渡して何ができるか判断したうえで、近くにあったスポンジを人間の所にまで運ぶようロボットに指示する事が可能です。

自律可能なロボット制御技術8

画像や力触覚センサー、音声、構造化データなど複数種のデータをまとめて学習させて1つの学習済みAIモデルを構築する「マルチモーダルAI」を産業用ロボットに適用し、VR空間内で現実のロボットに動きを学習させる「マルチモーダルAIロボット」をベッコフオートメーションやデンソーウェーブと共同開発しています。また、大成建設が開発した力触覚伝達型遠隔操作システムを用いて、同社とともに遠隔でロボットアームの動きを学習させ自律動作させる技術を発表しました9。これらの技術を用いて力触覚伝達デバイスを備えた人協働ロボットに学習モデルを用いることで、ロボットアームが周囲の状況を統合的に判断して自律的に正確にひょう量作業ができるようになったと報告されています。

8 デンソーウェーブ（2018） 9 出所：日経新聞（2019）

ソリューションマップ

上記の事例のほかにも、マルチモーダルDXの適用可能領域は山ほどあります。次の図は、業種・業務別のマルチモーダルDXソリューションの例です。マルチモーダルDXは、シングルモーダルでは対応できなかったような領域であっても、テキスト、画像、動画、音声等を統合した分析・示唆を出すことができ、様々な業界や業務に革命をもたらす可能性を秘めています。

業種	製造	化学	メディア・エンタメ	小売・EC	医療・介護	警備
	LLM×カメラ画像によるロボット制御	マテリアルズ・インフォマティクス	動画投稿サイトの違法コンテンツ監視	ECにおける不適切商品の出品検知	治療計画の最適化、早期発見	ホームロボットの警備、見守り強化
	生産現場におけるヒヤリハット要因の検知	製品品質の自動検査と管理	Web広告画像における掲載可否の審査	人の流れや気象データを活用した商品需要予測	高齢者の健康状態や生活状況の変化を確認	映像・音を統合して判断する防犯カメラ
	画像・音声・振動認識を活用した検品や作業分析	工場のエネルギー消費最適化	スポーツの試合データ分析、選手のパフォーマンス改善	ユーザーの目線や音声、行動履歴から商品を提案	超音波画像と診療情報を統合し、腫瘍の良性・悪性を診断	画像と音声を組み合わせた迷惑行為検出
業務	マーケティング		人事・総務		経営企画
	SNS上のテキスト、画像、ビデオを解析し、市場トレンドを把握	顧客通話記録、チャット履歴を分析し、FAQを自動生成	採用面接の合否判定支援	従業員アンケート、会議中の表情、勤務時間を分析し、従業員エンゲージメントを評価	ニュース、SNS（画像・テキスト）、市場データを分析して、市場トレンドを予測	競合他社のウェブサイトやSNS、動画データを分析し、業界内での自社のポジショニングを評価
	営業担当者のプレゼンビデオ、Eメールを分析・改善フィードバックを行い営業スキルを向上		顔・虹彩を用いたマルチモーダル生体認証		作業プロセスのビデオ、作業手順書、業務フロー図を分析し、オペレーショナルエクセレンスを追求

まとめ

ここまで様々なシーンでのマルチモーダルAIの活用について解説してきました。
ビジネスシーンでのマルチモーダルAI活用の需要はこれからさらに高まっていくでしょう。

TDSEはこれまで画像処理や自然言語処理（NLP）等、多種多様なモダリティを用いたデータ活用プロジェクトのご支援をして参りました。これらの実績を基にした知見は、これからのマルチモーダル時代においてはより一層重要な役割を果たしていくと考えています。
もしご興味をお持ちでしたら、ぜひお気軽にご相談、お問い合わせください！TDSEの専門チームが、お客様の具体的なニーズに合わせたソリューションをご提案いたします。

ご相談・お問合せはこちら