Power Automate for desktop(PAD)でアプリケーションを自動操作する際、UI要素を認識できないケースに遭遇したことはありませんか?本記事では、そんな時の最終手段となる「画像認識」による画面操作方法を詳しく解説します。
すでに画像認識を多用したRPAフローや画像認識型RPAを運用していて、運用に困っている方や「本当は画像認識ではなくて、画面操作できるのではないか?」と考えている方は、無料で診断いたしますので、お問い合わせください。
PADの基本的な画面操作方法
1. UI要素を使った標準的な方法
まず、PADで最も一般的に使用される操作方法をおさらいしましょう。
手順:
- UIオートメーショングループから「Window内のテキストフィールドに入力する」アクションを選択
- UI要素ピッカーを起動
- 対象の要素にカーソルを合わせ、Ctrl + クリックで選択
- UI要素のセレクターが自動的に取得される
- 入力するテキストを設定して保存
この方法は動作が高速で安定しており、画面の変更にも強いため、最優先で使用すべき方法です。
2. レコーダー機能の活用
PADには便利なレコーダー機能も搭載されています。
- 実際の操作を記録して自動的にアクションを生成
- 記録したフローをカスタマイズして使用可能
- 初心者でも簡単に自動化フローを作成できる
UI要素認識できない時の対処法
よくある問題
最近のアプリケーションでは、UI要素ピッカーを使っても以下のような問題が発生することがあります:
- 画面全体が選択されてしまう
- 特定の要素だけを認識できない
- UI要素のセレクターが取得できない
対処法の優先順位
第1段階:キーボード操作のエミュレート
- Tabキーでフォーカスを移動
- Enterキーで決定
- キーボードから直接入力
第2段階:画像認識(本記事のメインテーマ)
- キーボード操作でも対応できない場合の最終手段
- 視覚的に画面を認識して操作
画像認識による操作の実装方法
実際の動作を動画で見た方が早いと思いますので、こちらをご覧ください。
以下の解説は、補助的にお読みいただければ大丈夫です。
準備:必要なアクショングループ
画像認識には「マウスとキーボード」グループのアクションを使用します。
ステップ1:画像のキャプチャと設定
1-1. マウスを画像に移動アクションの追加
アクション:マウスを画像に移動
1-2. 認識する画像の選択
ここで重要なポイントがあります。
❌ 悪い例:
入力欄の白い四角を画像として認識させる
→ 他の入力欄(パスワード欄など)と区別できない
✅ 良い例:
「ユーザー名」というラベルテキストを画像として認識させる
→ 一意に識別できる特徴的な要素を選択
1-3. 詳細設定のポイント
マウス移動後の動作:
- 「移動後にクリックを送信」にチェック
- クリック種類:左クリック
画像に対するマウスの相対位置:
- ラベルを認識した場合は「下」を選択
- 実際の入力欄はラベルの下にあるため
画像の検索先:
画面全体:すべての画面から検索(汎用性が高い)フォアグラウンドウィンドウのみ:最前面のウィンドウのみ検索(高速)
推奨設定:
- 初回は「画面全体」で設定
- 確実にフォアグラウンドにあることが分かっている場合は「フォアグラウンドウィンドウのみ」で高速化
ステップ2:テキストの送信
画像を認識してクリックした後、テキストを入力します。
2-1. キーの送信アクションの追加
アクション:キーの送信
送信先:フォアグラウンドウィンドウ
送信するテキスト:ユーザーネーム(任意のテキスト)
クリック後はウィンドウがフォアグラウンドに来ているため、「フォアグラウンドウィンドウ」の設定で問題ありません。
ステップ3:ボタンのクリック
同じ要領でOKボタンなどもクリックできます。
3-1. ボタン画像の認識
アクション:マウスを画像に移動
画像:OKボタンをキャプチャ
マウスの相対位置:中央(ボタンはそのままクリックすればよい)
移動後にクリックを送信:チェック
画像の検索先:フォアグラウンドウィンドウのみ(既に最前面にある)
実行結果
フローを実行すると、以下の動作が自動で行われます:
- 「ユーザー名」ラベルを画像認識
- その下の入力欄をクリック
- テキスト「ユーザーネーム」を入力
- OKボタンを画像認識してクリック
- 次の画面へ遷移
画像認識のメリットとデメリット
メリット
✅ UI要素が認識できない場合でも操作可能
✅ 視覚的に画面を認識するため、人間の操作に近い
✅ 最終手段として有効
デメリット
❌ 処理速度がUI要素認識より遅い
❌ 画面の解像度や配置が変わると動作しない可能性
❌ 画像検索に時間がかかる
❌ 画面のデザイン変更に弱い
すでにお困りの方は無料で診断いたします。
操作方法の選択基準
PADで画面操作を行う際は、以下の優先順位で方法を選択しましょう。
優先順位
- UI要素による操作(最優先)
- 高速・安定・変更に強い
- レコーダー機能
- 簡単・直感的
- キーボード操作のエミュレート
- UI要素が認識できない場合
- 画像認識(最終手段)
- 他の方法がすべて使えない場合のみ
まとめ
画像認識は原始的なRPA操作方法ですが、UI要素やキーボード操作で対応できない場合の強力な最終手段となります。
重要なポイント:
- 基本はUI要素認識を使用する
- 画像認識は最終手段として覚えておく
- 認識する画像は一意に識別できる特徴的なものを選ぶ
- 画像の相対位置設定に注意する
- 検索範囲を適切に設定してパフォーマンスを最適化
すでに画像認識を多用したRPAフローや画像認識型RPAを運用していて、運用に困っている方や「本当は画像認識ではなくて、画面操作できるのではないか?」と考えている方は、無料で診断いたしますので、お問い合わせください。

コメント ログインすると書き込めます