Vision X- マルチモーダルへの応用

マルチモーダルDXとは

マルチモーダルDX（MMDX）は、マルチモーダルを活用してDX（デジタルトランスフォーメーション）を実現することを指します。マルチモーダルとは異なる種類のモダリティ情報（テキスト、音声、画像、動画、センサー情報など）を統合し、それらを一つのシステムで処理することであり、DXとはデジタル利活用によって企業・社会に大きな変革をもたらすことです。
マルチモーダルDXの核心は、単一のモダリティ情報源に依存するのではなく、複数のモダリティからの情報を組み合わせることにより、より豊かで深い理解を可能にすることにあります。例えば、画像と音声データを組み合わせて、ビデオ内の特定のシーンを理解することができます。また、テキストデータとセンサーデータを組み合わせて、特定の環境下での活動を分析することも可能です。このように、マルチモーダルDXは、単一のデータソースでは得られない洞察を提供できます。

ビジネスへのインパクト

マルチモーダルDXは、ビジネスのあらゆる側面において革新的な変化をもたらします。これまでのシングルモーダル（例：テキストからテキスト、画像から画像等）では対応できなかった課題に対して、マルチモーダル（例：画像＋テキストからテキスト、音声＋画像からテキスト等）を活用することで、企業はビジネスプロセスを変革し、競争上の優位性の確立及び人間が担っていた業務の代替がより高度なレベルで可能になります。

ビジネスプロセスの変革

マルチモーダルDXの影響の一つは、ビジネスプロセスの変革です。従来、ビジネスプロセスの変革へのAI適用において、複数のモーダルデータを総合的に活用することが難しく、シングルモーダルの利用ではプロセスの最適化が限られていました。しかし、マルチモーダルDXによって、これらのプロセスの効率化が可能になります。例えば、人事の採用活動（書類選考・面接）のAI活用において、シングルモーダルAIでは、履歴書のテキストデータをもとに応募者の採点を行う等、1つのモーダル（この例ではテキストデータ）に限定されていました。そのため面接業務は人間が対応せざるを得ませんでした。しかし、マルチモーダルAIを活用すると、例えば、応募者に面接動画と履歴書のテキストデータを送信してもらい、それをAIが分析・総合評価できるため、書類審査・一次面接に相当する業務を省力化できます1。

1 AIによる応募者の評価は、実運用において、合格者の判定はAIの判断を是とし、AIが不合格と判定した応募者については人事担当者も内容を確認して最終判断するという二段構えの運用が多い。

競争上の優位性の確立

マルチモーダルDXは、競争上の優位性を確立するための重要な手段となっています。マルチモーダルDXによって、企業は市場の変化に迅速に対応し、競合他社に先んじてイノベーションを起こすことができます。例えば、マテリアルズ・インフォマティクス2のAI活用において、シングルモーダルAIでは単一のモーダルの分析のみ対応しており、様々なモダリティを統合した分析は対応できませんでした。ところが、マルチモーダルAIを活用することで、画像や分光スペクトルといった異なる複数のデータを統合して分析することで、さまざまな機能を予測することができるようになり、材料開発において競合他社に対して優位に立つことが可能になります。

2 マテリアルズ・インフォマティクスとは、統計分析などを活用したインフォマティクス（情報科学）の手法により、材料開発を高効率化する取り組みのこと。

人間が担っていた業務代替の高度化

シングルモーダルでも人間の業務の代替は一定可能ですが、マルチモーダルDXによって、より高度なレベルでの業務代替を実現できます。例えば、工場への産業用ロボット導入において、シングルモーダルAIでは複数のモーダル（画像、力触覚センサー、音声、構造化データ）の扱いが必要な作業に対応できず、人間が作業せざるを得ないことがありました。ところが複数のモーダルを扱えるマルチモーダルAIを活用したロボットが、人間に代わって作業することで、生産ラインの効率を向上させることができます。

活用事例・ソリューションマップ

HR分野：採用面接の合否判定支援

動画を利用した採用面接の合否判定AIを提供、面接に臨む学生が送ってきた動画像と、応募者に関連したテキストデータを利用し、動画像、音声、テキストを掛け合わせたマルチモーダルによる分析を行っています。
複数のデータを利用することで、人間が面接するのに近い精度の実現を目指しており、ある企業における実際の活用現場では面接AIが合格としたものは通過させ、不合格となった学生の動画を面接官が確認するという運用を実施し、これにより、面接AIによる倫理的問題を回避でき、採用のスクリーニング作業の時間が8割以上削減できていると報告されています。

エクサウィザーズ（2022）, https://exawizards.com/archives/20155/
日経クロステック（2022）, https://xtech.nikkei.com/atcl/nxt/mag/nc/18/051600292/051600001/

自動車分野：LLMによる周囲状況の把握

LLMを自動運転技術に応用するため独自の大規模LLMモデルHeronを公開しています。特徴は自然な対話ができることで、複合的な画像・言語のタスクでも、自然な文章生成が可能です。自動運転では周囲の映像や文字、音声などの複数の形式の情報を処理するマルチモーダルAIとして機能させ、例として道路状況を理解した上で運転時の注意点に関する問いに対し、自然な内容で回答できます。

PR TIME（2023）, https://prtimes.jp/main/html/rd/p/000000034.000098132.html

材料工学分野：強化繊維プラスチックの構造分析

機械学習などの情報技術を用いて、有機材料、無機材料、金属材料など様々な材料開発の効率を高めるマテリアルズ・インフォマティクス（MI）の一環として、「光学顕微鏡で観察した画像」「赤外線吸収スペクトル」「ラマンスペクトル」の特性、性質の異なる３種類の観測結果を統合して扱うマルチモーダルAIにより、ヤング率、強度、破断伸びなど合わせて8項目の特性が予測可能となりました。この学習したモデルを使うと、1日で10万件程度の特性予測が可能となり、その予測結果を用いて、例えばアクリルモノマー4種類の配合とヤング率、破断伸びの関係が明確に示されるようになりました。これを分析し将来有望な設計案を見出すことが可能となっています。

日経クロステック（2022）, https://xtech.nikkei.com/atcl/nxt/column/18/02164/00002/

ソリューションマップ

上記の事例のほかにも、マルチモーダルDXの適用可能領域は山ほどあります。次の図は、業種・業務別のマルチモーダルDXソリューションの例です。マルチモーダルDXは、シングルモーダルでは対応できなかったような領域であっても、テキスト、画像、動画、音声等を統合した分析・示唆を出すことができ、様々な業界や業務に革命をもたらす可能性を秘めています。

業種	製造	化学	メディア・エンタメ	小売・EC	医療・介護	警備
	LLM×カメラ画像によるロボット制御	マテリアルズ・インフォマティクス	動画投稿サイトの違法コンテンツ監視	ECにおける不適切商品の出品検知	治療計画の最適化、早期発見	ホームロボットの警備、見守り強化
	生産現場におけるヒヤリハット要因の検知	製品品質の自動検査と管理	Web広告画像における掲載可否の審査	人の流れや気象データを活用した商品需要予測	高齢者の健康状態や生活状況の変化を確認	映像・音を統合して判断する防犯カメラ
	画像・音声・振動認識を活用した検品や作業分析	工場のエネルギー消費最適化	スポーツの試合データ分析、選手のパフォーマンス改善	ユーザーの目線や音声、行動履歴から商品を提案	超音波画像と診療情報を統合し、腫瘍の良性・悪性を診断	画像と音声を組み合わせた迷惑行為検出
業務	マーケティング		人事・総務		経営企画
	SNS上のテキスト、画像、ビデオを解析し、市場トレンドを把握	顧客通話記録、チャット履歴を分析し、FAQを自動生成	採用面接の合否判定支援	従業員アンケート、会議中の表情、勤務時間を分析し、従業員エンゲージメントを評価	ニュース、SNS（画像・テキスト）、市場データを分析して、市場トレンドを予測	競合他社のウェブサイトやSNS、動画データを分析し、業界内での自社のポジショニングを評価
	営業担当者のプレゼンビデオ、Eメールを分析・改善フィードバックを行い営業スキルを向上		顔・虹彩を用いたマルチモーダル生体認証		作業プロセスのビデオ、作業手順書、業務フロー図を分析し、オペレーショナルエクセレンスを追求

まとめ

ここまでマルチモーダルDXとは何か、ビジネス面へのインパクト、ソリューションマップ、活用事例をご紹介しました。その他、ウェブ上でご紹介できていない情報・技術も多くございます。DXソリューションに対してどの技術を用いるのか、データサイエンティストの腕や経験がビジネスの成功に大きく関わってくる部分でもあります。皆さまの抱える課題をお気軽にご相談ください。

資料ダウンロードはこちら

お問合せはこちら