ChatGPT は,テクスト生成で,Web検索をすることがある。
ユーザの入力テクストをパースして,Web検索をどうするかを決める。
これは高い言語能力を要するので,行うのは LLM ということになる。
Web検索となった場合,検索結果の処理が必要になる。
これも高い言語能力を要するので,行うのは LLM ということになる。
処理された検索テクストをユーザの入力テクストと合わせ,そして Transformer に入力する。
Guangxin He, et al. (2024) の中の図をもとにした概念図:
Input Request ──→ PARSER-LLM
│ ↓
│ Keyword
│ ↓
│ Internet Search
│ ↓
│ Ranking Strategy
│ ↓
│ EXTRACTOR=LLM
│ ↓
│←────── Processed Text
↓
Transformer
↓
Response
|
○ 検索フックを誘発する言い回しのパターン
| |
ChatGPT のことば (2025-09-15) から引用
外部検索が呼ばれるのは、単なる「曖昧さ」や「未知性」ではなく、特定のシグナルがトリガーになる。
大きく分けて3つある:
1. 知識要求パターン
- 「最新の〜」「2025年の〜」「現在の状況」など 時間依存 を含む質問
- 「〜の公式サイト」「〜のリンク」「〜のニュース」など 外部リソース参照 を含む質問
- 「〜の価格はいくら」「〜の試合はいつ」など 頻繁に変動する値 を問う質問
2. 信頼性要求パターン
- 「出典を示して」「ソースは?」「参考文献」など
──この場合、内部記憶では「出典の明示」ができないため、検索に回る
3. ファクトギャップ検知
- 内部モデルが「信頼度スコア」を低く出す領域(例:極端に新しい固有名詞)
- 「信頼度が閾値以下」→ 検索をトリガー
|
|
○ 検索 API /検索ツールラッパー
検索 API の1つとして, ChatGPT Search が考えられる。
理由は2つ:
- ChatGPT search が出力するテクストなら,Transfomer の応答生成と親和的。
- 「Web検索しています」の表示が出てからテクストが生成されるまでが一瞬の場合,「リアルタイム検索・最新情報取得」の線は無い。
そして ChatGPT Search なら,すでに内部に持っているインデックス(キャッシュ済み+フィルタ済みのウェブデータベース──実質「専用データベース」) からの検索になるので,「一瞬」が可能。
- 引用文献
- Guangxin He, et al. (2024) : Zero-Indexing Internet Search Augmented Generation for Large Language Models
|