画像認識で画面コントロールする方法|Power Automate Desktop|Free

Power Automate for desktop(PAD)でアプリケーションを自動操作する際、UI要素を認識できないケースに遭遇したことはありませんか?本記事では、そんな時の最終手段となる「画像認識」による画面操作方法を詳しく解説します。

すでに画像認識を多用したRPAフローや画像認識型RPAを運用していて、運用に困っている方や「本当は画像認識ではなくて、画面操作できるのではないか?」と考えている方は、無料で診断いたしますので、お問い合わせください。

PADの基本的な画面操作方法

1. UI要素を使った標準的な方法

まず、PADで最も一般的に使用される操作方法をおさらいしましょう。

手順:

  1. UIオートメーショングループから「Window内のテキストフィールドに入力する」アクションを選択
  2. UI要素ピッカーを起動
  3. 対象の要素にカーソルを合わせ、Ctrl + クリックで選択
  4. UI要素のセレクターが自動的に取得される
  5. 入力するテキストを設定して保存

この方法は動作が高速で安定しており、画面の変更にも強いため、最優先で使用すべき方法です。

2. レコーダー機能の活用

PADには便利なレコーダー機能も搭載されています。

  • 実際の操作を記録して自動的にアクションを生成
  • 記録したフローをカスタマイズして使用可能
  • 初心者でも簡単に自動化フローを作成できる

UI要素認識できない時の対処法

よくある問題

最近のアプリケーションでは、UI要素ピッカーを使っても以下のような問題が発生することがあります:

  • 画面全体が選択されてしまう
  • 特定の要素だけを認識できない
  • UI要素のセレクターが取得できない

対処法の優先順位

第1段階:キーボード操作のエミュレート

  • Tabキーでフォーカスを移動
  • Enterキーで決定
  • キーボードから直接入力

第2段階:画像認識(本記事のメインテーマ)

  • キーボード操作でも対応できない場合の最終手段
  • 視覚的に画面を認識して操作

画像認識による操作の実装方法

実際の動作を動画で見た方が早いと思いますので、こちらをご覧ください。

画像認識:画面操作の最終手段

以下の解説は、補助的にお読みいただければ大丈夫です。

準備:必要なアクショングループ

画像認識には「マウスとキーボード」グループのアクションを使用します。

ステップ1:画像のキャプチャと設定

1-1. マウスを画像に移動アクションの追加

アクション:マウスを画像に移動

1-2. 認識する画像の選択

ここで重要なポイントがあります。

❌ 悪い例:
入力欄の白い四角を画像として認識させる
→ 他の入力欄(パスワード欄など)と区別できない

✅ 良い例:
「ユーザー名」というラベルテキストを画像として認識させる
→ 一意に識別できる特徴的な要素を選択

1-3. 詳細設定のポイント

マウス移動後の動作:

  • 「移動後にクリックを送信」にチェック
  • クリック種類:左クリック

画像に対するマウスの相対位置:

  • ラベルを認識した場合は「下」を選択
  • 実際の入力欄はラベルの下にあるため

画像の検索先:

  • 画面全体:すべての画面から検索(汎用性が高い)
  • フォアグラウンドウィンドウのみ:最前面のウィンドウのみ検索(高速)

推奨設定:

  • 初回は「画面全体」で設定
  • 確実にフォアグラウンドにあることが分かっている場合は「フォアグラウンドウィンドウのみ」で高速化

ステップ2:テキストの送信

画像を認識してクリックした後、テキストを入力します。

2-1. キーの送信アクションの追加

アクション:キーの送信
送信先:フォアグラウンドウィンドウ
送信するテキスト:ユーザーネーム(任意のテキスト)

クリック後はウィンドウがフォアグラウンドに来ているため、「フォアグラウンドウィンドウ」の設定で問題ありません。

ステップ3:ボタンのクリック

同じ要領でOKボタンなどもクリックできます。

3-1. ボタン画像の認識

アクション:マウスを画像に移動
画像:OKボタンをキャプチャ
マウスの相対位置:中央(ボタンはそのままクリックすればよい)
移動後にクリックを送信:チェック
画像の検索先:フォアグラウンドウィンドウのみ(既に最前面にある)

実行結果

フローを実行すると、以下の動作が自動で行われます:

  1. 「ユーザー名」ラベルを画像認識
  2. その下の入力欄をクリック
  3. テキスト「ユーザーネーム」を入力
  4. OKボタンを画像認識してクリック
  5. 次の画面へ遷移

画像認識のメリットとデメリット

メリット

✅ UI要素が認識できない場合でも操作可能
✅ 視覚的に画面を認識するため、人間の操作に近い
✅ 最終手段として有効

デメリット

❌ 処理速度がUI要素認識より遅い
❌ 画面の解像度や配置が変わると動作しない可能性
❌ 画像検索に時間がかかる
❌ 画面のデザイン変更に弱い

すでにお困りの方は無料で診断いたします。

操作方法の選択基準

PADで画面操作を行う際は、以下の優先順位で方法を選択しましょう。

優先順位

  1. UI要素による操作(最優先)
    • 高速・安定・変更に強い
  2. レコーダー機能
    • 簡単・直感的
  3. キーボード操作のエミュレート
    • UI要素が認識できない場合
  4. 画像認識(最終手段)
    • 他の方法がすべて使えない場合のみ

まとめ

画像認識は原始的なRPA操作方法ですが、UI要素やキーボード操作で対応できない場合の強力な最終手段となります。

重要なポイント:

  • 基本はUI要素認識を使用する
  • 画像認識は最終手段として覚えておく
  • 認識する画像は一意に識別できる特徴的なものを選ぶ
  • 画像の相対位置設定に注意する
  • 検索範囲を適切に設定してパフォーマンスを最適化

すでに画像認識を多用したRPAフローや画像認識型RPAを運用していて、運用に困っている方や「本当は画像認識ではなくて、画面操作できるのではないか?」と考えている方は、無料で診断いたしますので、お問い合わせください。

コメント ログインすると書き込めます