BananaNL Blog

ChatGPT / 4分

ChatGPT 画像入力プロンプト: スクショ・書類・UIを意図どおり読ませる

ChatGPT 画像入力プロンプトで、スクリーンショット、画像内文字、UI、書類を目的どおりに読ませる実用ガイドです。見てほしい範囲、出力形式、推測しない条件まで整理します。

1分で見る BananaNL

NotebookLM や AI Chat で、選んだプロンプトを入力欄へ入れる流れを短く見られます。

YouTubeで見る

画像を送るだけでは、欲しい答えになりません

ChatGPTに画像やスクリーンショットを添付すると、見た目の説明は返ってきても、欲しい判断材料までは出ないことがあります。知りたいのがエラー原因なのか、画像内文字なのか、UI改善点なのかを先に言わないと、答えがぼやけやすいからです。

OpenAIの ChatGPT Image Inputs FAQ では、画像入力は写真、文書、視覚コンテンツの分析に使える一方、曖昧な画像、細かすぎる文字、非ラテン文字、回転した画像、グラフの色違いには弱さがあると案内されています。だからこそ、見てほしい範囲、出力形式、推測しない条件をプロンプトへ入れるのが大事です。

うまくいった画像入力プロンプトは、毎回検索して探すより、用途別に残しておくほうが安定します。

ChatGPTの画像入力プロンプトで見る範囲と出力形式を分ける抽象イメージ

画像入力プロンプトで先に決める5項目

  1. 目的を一行で書きます。画像説明、文字起こし、UIレビュー、競合比較、エラー切り分けでは出力の深さが変わります。
  2. 見てほしい範囲を指定します。画面全体なのか、右上のエラーメッセージなのか、表の3列目なのかを先に絞ります。
  3. 出力形式を固定します。箇条書き、表、要点3つ、修正案、確認項目のどれが欲しいかを書きます。
  4. 推測してほしくないことを明示します。読めない文字、見えない数値、断定できない原因は「要確認」と返すようにします。
  5. 必要なら画像側も整えます。細かい文字は拡大やトリミング、見てほしい場所は注釈を付けると精度が上がりやすくなります。

まず入れる4要素

画像・スクショ見てほしい範囲出力形式要確認

この型が向く場面

スクリーンショット確認エラー画面、設定画面、分析結果画面から、どこを見るべきかを整理したいとき。
文書OCR紙資料、ホワイトボード、PDFのスクショから文字を起こし、要点まで整えたいとき。
UIレビューWebページやLPのスクショを見せ、CTA、余白、視線誘導、読みにくさを点検したいとき。
アップロード不具合切り分け画像が読めない、添付できない、うまく分析されない原因を順番に潰したいとき。

ChatGPTで試せる画像入力プロンプト

エラー画面の原因を切り分ける

このスクリーンショットを見て、表示されているエラーメッセージ、原因候補、次に確認する項目を分けてください。読めない文字や画面外の情報は推測せず「要確認」と書いてください。出力は「見えている事実」「原因候補」「次の確認手順」の3見出しでお願いします。

見えている事実と推測を分離できるので、AIが断定しすぎるのを防ぎやすくなります。

画像内文字を表にする

この画像に写っている文字をできるだけそのまま書き起こしてください。その後、列を「項目」「内容」「読みにくい箇所」にした表へ整理してください。判読できない箇所は空欄補完せず、そのまま不明として残してください。

OCR結果と不確かな箇所を分けて残せるため、後で人が確認しやすくなります。

UI改善点を優先度順に出す

このWebページのスクリーンショットをUI/UXの観点で確認してください。CTAの見つけやすさ、情報の順番、余白、読みにくい箇所を見て、改善点を優先度順に5つ出してください。見えていない画面遷移や数値計測は推測せず、スクリーンショットから判断できる範囲だけで答えてください。

レビュー観点と範囲を固定するので、抽象的な感想より実務で直しやすい指摘が出やすくなります。

よく使う画像入力の型はBananaNLに置いておく

画像入力プロンプトは、スクショ確認用、OCR用、UIレビュー用、競合分析用のように用途ごとに少しずつ違います。毎回同じ型を探して貼るより、よく使う型を保存しておくほうが速くてぶれません。

BananaNLは、選んだプロンプトをChatGPT、Gemini、GrokなどAI Chatの入力欄へ挿入するChrome拡張です。自動送信はしないので、画像を添付した後に文面を確認してから使えます。NotebookLMで使う範囲は無料で始められ、AI Chat連携は有料機能です。

画像入力用の定型プロンプトをBananaNLから呼び出す抽象イメージ

FAQ

ChatGPTの画像入力では、最初に何を書くとよいですか?

まず目的と見てほしい範囲です。何のための画像なのか、どこを重点的に見るべきかを書くと、説明だけで終わりにくくなります。

細かい文字や日本語テキストはそのまま読めますか?

細かい文字や非ラテン文字は精度が落ちることがあります。必要な箇所を拡大・トリミングし、判読できない部分は推測せず残すよう指示すると安全です。

画像をアップロードできないときは何から確認しますか?

形式とサイズ、別チャットでの再試行、シークレットモードや拡張機能、スマホなら写真権限、VPNや回線の影響を順に確認します。

プロンプトを探すのが大変ならBananaNL

学んだプロンプトは、すぐ使える場所に置いておくと続きます。BananaNLで入力欄へ持ち運び、送信前に自分の言葉へ整えてください。