Androidマルウェア「PromptSpy」がGoogleのGeminiを悪用し、画面のUIを分析して攻撃を動的に制御しているという報告は、サイバーセキュリティの潮目が変わりつつあることを示しています。従来の「決められたシナリオ」に基づく攻撃から、AIが状況を判断して自律的に行動する攻撃へのシフトは、日本の金融機関やアプリ提供事業者にとって看過できないリスクです。
AIが「画面を見て」次の行動を決める脅威
これまで多くのマルウェアは、攻撃者が事前に作成した静的なスクリプトや、特定の座標をタップさせるといった単純なロジックに基づいて動作していました。しかし、今回の「PromptSpy」の事例が衝撃を与えている点は、マルウェアがLLM(大規模言語モデル)のマルチモーダル能力を利用していることにあります。
具体的には、感染した端末のユーザーインターフェース(UI)情報をAIモデル(この場合はGemini)に送信し、AIがその内容を解析した上で、「次にどのボタンを押すべきか」「どこに情報を入力すべきか」といった指示を動的に生成しています。これは、AIが人間の目の代わりに画面を理解し、頭脳となって攻撃をナビゲートしていることを意味します。
静的な防御網をすり抜ける「適応型攻撃」
この手法の恐ろしさは、攻撃の汎用性と適応力にあります。従来、銀行アプリや決済アプリのデザインが更新されると、攻撃者はマルウェアのプログラムを書き換える必要がありました。しかし、汎用的なLLMが「ログインボタンを探して」といった抽象的な目的を理解し、画面上のテキストやアイコンから正解を推論できるのであれば、アプリのUI変更は防御策として機能しづらくなります。
また、日本国内で広く普及している「二要素認証(2FA)」や「eKYC(オンライン本人確認)」のプロセスにおいても、AIが画面上の指示を読み取り、SMSで届いたコードを転送したり、特定の操作を誘導したりするプロセスが自動化・高度化される恐れがあります。
日本企業のAI活用への示唆
今回の事例は、攻撃者が最新のAI技術をいち早く取り入れている現実を突きつけています。日本企業がAIを活用したサービス開発やセキュリティ対策を進める上で、以下の視点が重要となります。
1. 脅威モデリングのアップデート
自社アプリやサービスのセキュリティ評価(脆弱性診断など)において、攻撃者が「自律的なAIエージェント」を使用してくるシナリオを想定する必要があります。従来のボット対策や難読化だけでなく、AIによる画面解析を困難にするUI設計や、通常の人間とは異なる操作パターン(AI特有のレイテンシや操作リズム)を検知する振る舞い検知の導入が求められます。
2. 「利便性」と「対AIセキュリティ」のバランス
UX(ユーザー体験)を向上させるために「わかりやすいUI」を作ることは重要ですが、それは同時に「攻撃AIにとっても理解しやすい」ことを意味します。特に金融・決済系アプリでは、重要な操作において、あえて人間特有の認知能力を必要とするステップを設けるなど、AIによる自動操作への対抗策を検討するフェーズに入っています。
3. APIキーとガバナンスの徹底
PromptSpyのような攻撃では、攻撃者自身のAPIキーが使われることもあれば、アプリ内にハードコードされたAPIキーが窃取・悪用されるケースも想定されます。自社で生成AI機能をアプリに組み込む際は、APIキーの管理(モバイルアプリ内に直接埋め込まない、バックエンド経由で呼び出すなど)を徹底し、異常なトークン消費やリクエストパターンを監視する体制を整えることが、コスト管理だけでなくセキュリティの観点からも不可欠です。
