Up Web検索のしくみ 作成: 2025-09-14
更新: 2025-11-07


    ChatGPT は,テクスト生成で,Web検索をすることがある。

    ユーザの入力テクストをパースして,Web検索をどうするかを決める。
    これは高い言語能力を要するので,行うのは LLM ということになる。

    Web検索となった場合,検索結果の処理が必要になる。
    これも高い言語能力を要するので,行うのは LLM ということになる。

    処理された検索テクストをユーザの入力テクストと合わせ,そして Transformer に入力する。

Guangxin He, et al. (2024) の中の図をもとにした概念図:
Input Request ──→ PARSER-LLM
  │           ↓
  │         Keyword
  │           ↓
  │        Internet Search
  │           ↓
  │        Ranking Strategy
  │           ↓
  │       EXTRACTOR=LLM
  │           ↓
  │←────── Processed Text
  ↓
Transformer         
  ↓
Response


    検索フックを誘発する言い回しのパターン
      ChatGPT のことば (2025-09-15) から引用
    外部検索が呼ばれるのは、単なる「曖昧さ」や「未知性」ではなく、特定のシグナルがトリガーになる。 大きく分けて3つある:
    1. 知識要求パターン
    • 「最新の〜」「2025年の〜」「現在の状況」など 時間依存 を含む質問
    • 「〜の公式サイト」「〜のリンク」「〜のニュース」など 外部リソース参照 を含む質問
    • 「〜の価格はいくら」「〜の試合はいつ」など 頻繁に変動する値 を問う質問

    2. 信頼性要求パターン
    • 「出典を示して」「ソースは?」「参考文献」など
      ──この場合、内部記憶では「出典の明示」ができないため、検索に回る

    3. ファクトギャップ検知
    • 内部モデルが「信頼度スコア」を低く出す領域(例:極端に新しい固有名詞)
    • 「信頼度が閾値以下」→ 検索をトリガー


    検索 API /検索ツールラッパー
    検索 API の1つとして, ChatGPT Search が考えられる。
    理由は2つ:
    1. ChatGPT search が出力するテクストなら,Transfomer の応答生成と親和的。
    2. 「Web検索しています」の表示が出てからテクストが生成されるまでが一瞬の場合,「リアルタイム検索・最新情報取得」の線は無い。
      そして ChatGPT Search なら,すでに内部に持っているインデックス(キャッシュ済み+フィルタ済みのウェブデータベース──実質「専用データベース」) からの検索になるので,「一瞬」が可能。




  • 引用文献