https://www.lambdanote.com/products/ir-system
11章の著者
河野晋策 (リクルート)
本章では、検索体験を向上させるために5つの観点を解説している。
検索クエリの意図を読み解く分類
検索前後でのクエリ難易度(パフォーマンス)予測
精度と再現率を両立させるクエリ書き換え
検索者からの明示的/暗黙的フィードバックの活用
探索的検索システムを多面的に評価する方法。
検索ログとドキュメントの構造を活かしつつ、ルールベースから機械学習・統計手法まで段階的に実装し、継続的に改善する姿勢が重要である
紹介するけど、正解はないから自分の目指す方向に沿ってカスタマイズしろとのこと。
A taxonomy of web search (A. Broder, IGIR Forum, 2002.) [Google Scholar], [PDF] の分類を紹介している。
この論文の目的は以下
ウェブ検索意図を3型タクソノミー(分類学、分類法的な意味)で定義・分析すること
実際の検索クエリを調査し、各型の出現比率を定量評価すること
検索エンジン技術の世代的進化を、このタクソノミーの観点から再解釈すること
クラス |
目的 |
典型例 |
割合(定性評価) |
|---|---|---|---|
Navigational(案内型) |
特定ドキュメントへの到達 |
「厚労省」 |
20% |
Informational(情報収集型) |
情報獲得・学習 |
「IRとは」, 「浅草 観光」 |
48% |
Transactional(取引型) |
購入・予約・DL |
「東京 広島 飛行機」、「ドル 円 変換」 |
30% |
検索エンジンの進化の考察
第1世代 (1995–97): ページ内要素のみを用い、Informational 型中心。 クエリの高速・高精度解決はブランドロイヤルティに寄与。
第2世代 (1998–): リンク解析・アンカーテキスト・クリック率を利用し Navigational 型にも対応(Google、DirectHit 等)。
第3世代 (2001–): 意図推定と外部DBブレンディングにより Transactional 型を直接支援(ホテル予約、地図、天気などを統合表示)。直接収益化しやすく、エンジン各社が重点投資。
どう使うかについては11.1節では特に言及なし
さらに細かい分類として、
Understanding user goals in web search (D. E. Rose and D. Levinson, WWW, 2004) [Google Scholar], [PDF] を紹介している。
概要
従来のWeb検索研究は、ユーザが「どのように検索するか」「何を探しているか」に注目されていた。
一方で「なぜ検索するか(検索の背後にある目的=goal)」は十分に扱われていなかった。
この研究は Broder (2002) の三分法(navigational/informational/transactional)を出発点に、検索目標をさらに細分化して扱う枠組みを提案。
目的
ユーザ検索目標を体系化する概念を提示
実際の検索ログに適用して分類可能性と分布傾向を評価
最終的には検索エンジン側で goal-sensitive なランキングや UI を実現する基盤知識を得ることを目指す。
わかりやすい [論文紹介: Understanding User Goals in Web Search 書いた人: @nikezono]
一方でこの論文が明らかにしたのは,キーワード型の検索エンジンにおいて同じクエリが入力されていても,その目的(Goal)は異なる という点である. この問題意識について,インタフェースの側からユーザに寄り添い, たとえばかつてのディレクトリ型検索のような発展を遂げていくのか それともキーワード型の「思いついたものは何でも入力できる」検索ボックスというインタフェースは変えずに 検索エンジン自体の仕組みを考えていくのか,というアプローチの違いが存在するわけである. – https://the-weekly-paper.github.io/jekyll/update/2017/08/20/understanding-user-goals-in-web-search.html
手法
AltaVista(かつて存在したロボット型全文検索エンジン、Googleに淘汰されたひとつ、Yahoo Inc.に買収され運用後サービス終了)のログを使う
人手によってユーザーの行動ログ(クエリそのもの、クリックログ、後続クエリ等)を分析し、ユーザーの目的を100~200に分類
それを上位3カテゴリ→下位9カテゴリに分類
上位カテゴリ |
下位カテゴリ(Leaf Goal) |
比率* |
補足 |
|---|---|---|---|
Informational |
Directed |
3 % |
具体的に「◯◯について知りたい」型 |
Undirected |
31 % |
トピック全般を網羅的に知りたい |
|
Advice |
2 % |
ノウハウ・手順・提案を求める |
|
Locate |
24 % |
商品・サービスの入手先を調べる |
|
List |
3 % |
候補サイト/オプションを一覧取得 |
|
Resource-Seeking |
Download |
4 % |
ファイル・ソフトをダウンロード |
Entertainment |
4 % |
視聴・閲覧そのものが目的 |
|
Interact |
6 % |
天気・株価など Web サービスと対話 |
|
Obtain |
8 % |
レシピ・歌詞などオフライン利用目的 |
|
Navigational |
(単一カテゴリ) |
15% |
既知サイトへのジャンプ |
雑感等
両論文とも「分類結果をどう活かすか」の設計方針は提示するが、モデルの特徴量, 設計学習・推定アルゴリズムといった詳細までは踏み込んでいない。
「Advice ならリンク/利用ログ重視」などランキング要因の優先度切替を具体例で示唆し、 Broder は「外部 DB ブレンド」「アンカーテキスト依存」は言及がある。
ChatGPT先生に実際どうするか聞いてみた結果
クエリ+クリックログで多クラス分類器を訓練(既存研究では SVM/BERT 系が主流)。
推定 Goal をフィーチャに持つ Learning-to-Rank(LambdaMART など)を構築。
Goal ごとに UI コンポーネント(リッチカード、ショッピングタブ等)のトリガールールを設定。
実際どう分類するか?では、Determining the user intent of web search engine queries (B. Jansen et al., WWW, 2007) 次の論文を引用している。
手法
質的分析フェーズ
5百万件超のクエリからランダムサンプルを抽出し、人手で三分類にラベリング。
反復的に「クエリ選択 → 分類 → 特徴再定義」を行い、最終的に各意図に対するヒューリスティック特徴(例:URL断片・社名→案内型、“download” 含む→取引型、疑問語含む→情報要求型…)を確定。
自動分類フェーズ
上記特徴をベースに分類プログラムを実装
400件を人手再分類し、分類精度74%
また、Query Intent Understanding (Z. Dou and J. Guo, Springer, 2020) (本) を引用して 線形回帰、SVM、GBDT など、さまざまな機械学習の手法を検索クエリ分類のタスクに使えると言っている。 特徴量としては、以下。
閲覧の回数や閲覧の時間
クリックデータから得られるクリックの分布やエントロピー
検索クエリと閲覧されたドキュメントから作成したTF-IDF
(あんまり興味なかったので簡単に)
「その検索クエリで十分に高品質な結果を返せるか」を事前・事後に数値で推し量る技術 を体系的に整理しています。具体的には
検索前に文書統計だけで難易度を推定する手法
検索後に得点分布や検索結果の頑健性を調べて精度を高める手法
これらを実務で活かすユースケース (選択的クエリ拡張・UI 提案・検索コスト最適化など)
を解説し、主要指標(Clarity, NQC, WIGなど)の計算式と使い分けを紹介している。 これにより検索エンジンは難しいクエリを早期に検知し、失敗検索を減らしつつ処理資源を賢く配分できる。
クエリパフォーマンス予測(QPP)とは
QPP は関連判定(評価用ジャッジ)が無くても、クエリ単位で期待検索性能を推測する研究分野です。古くは TREC を契機に広まり、現在は Dense Retrieval や Conversational Search でも活発に採用されている。
検索前予測: 文書集合の語統計や IDF 値を使うため高速でオンライン実装に向く。
検索後予測: 実際の得点リストを解析するため精度が高く、難クエリの検知率が向上。
利用局面 |
効果 |
具体例 |
|---|---|---|
選択的クエリ拡張 |
ドリフトを抑えつつ有効なときだけ拡張 |
QPP スコアが高いクエリだけに Pseudo-Relevance Feedback を適用 ([論文]) |
UI/検索ガイダンス |
難クエリと判定したら「単語を増やす/減らす」等のヒントを提示 |
Google検索 |
動的ランカ選択・結果統合 |
クエリごとに最適なランキング関数やソースを選ぶ |
|
インデックス拡充/ログ分析 |
難易度の高いトピックを可視化しコンテンツ不足を補填 |
管理者向けフィードバック |
カテゴリ |
主な尺度 |
イメージ |
|---|---|---|
特異性 |
ICTF, SCS |
単語がレアほどヒット集合は絞れ精度↑ |
類似性 |
SCQ, sumSCQ, maxSCQ |
クエリ語が文書に良く現れれば容易 |
一貫性/曖昧性 |
Coherence, PMI |
クエリ語が共起しやすいとトピックが明確 |
語関係 |
PMI, term correlation 指標 |
関係が強いほど結果品質が安定 |
カテゴリ |
主な尺度 |
イメージ |
|---|---|---|
得点分布系 |
WIG 、NQC |
上位 k 件のスコア散らばりが大きい=“良い回答がある” |
明瞭度系 |
Clarity |
上位結果モデルとコレクションモデルの KL 距離 |
頑健性/凝集性 |
ドキュメントやクエリを摂動し結果順位の安定度を測定 |
難クエリほど順位が揺れやすい |
スコア自己相関 |
Spatial autocorrelation |
似た文書が似たスコアなら良質 |
検索者の意図を 精度(適合率)と 網羅性(再現率)の両面から最適化するために、クエリを書き換える方法論を説明している
適合率を上げる手法
Query Segmentation : 「白 フラワー ベース」 → (白い花に合う花瓶ではなく)「白 “フラワー ベース”」
Query Scoping: 「ナイキ 黒 27cm」→ brand:”nike” AND color: “black” AND size:”27cm” で検索する
再現率を上げる手法
Query Expansion: 「機械学習」→ (機械学習 OR “machine learning”)
Query Relaxation: 「SONY PS5 ソフト」→ 「PS5 ソフト」
ヒューリスティックな手法として引用している論文は3つ。
Hagen, et al., WWW, 2011. [PDF]
Jones, et al., WWW, 2006. (PDF見れない)
Risvik, et al., WWW(poster), 2003. [PDF]
教師あり学習を利用した手法として引用している論文は1つ。
Bergsma and Q. Wang, EMNLP-CoNLL, 2007. [PDF]
教師なし学習を利用した手法として引用している論文は1つ。
Tan and F. Peng, WWW, 2008. [PDF]
Query Segmentationをランキングに利用することで、よりよい検索結果を得られるとして引用している論文は以下の2つ。
Wu, et al., Inf. Retr., Feb. 2015 [PDF]
背景
Web検索のクエリは “let it go mp3 download” のように複数単語が連なるが、そのまま n-gram(連続語列)として扱うと「let it」「it go」など意味の薄い結合が多数生まれ、ランキング精度を下げる要因になる。
Query Segmentationを行い、その結果をランキングに活用する研究が盛んだが、①分割精度がまだ不十分、②分割結果の使い方が限定的、という課題が残っていた
目的
再ランキング型クエリ分割を提案し、既存分割法(Wikipedia-Based Normalization など)より高精度な分割を実現する。
分割結果を“フレーズ n-gram”として BM25・Key n-gram・Term Dependency の3種ランキングモデルで使い、検索精度を検証する
手法
step1. 再ランキング型クエリ分割
WBNを用いて上位k=6の候補分割を生成(k=6で正解含有率 94%)
SVM による判別モデルで候補を再ランキング。特徴はWBN スコア関連(rank, score, segment weight など), 相互情報量, Wikipedia タイトル一致フラグ, 位候補との類似度等々
step2. ランキングへの統合
Wordベースn-gram, Phaseベースn-gram, BM25, などの特徴量でLambdaMartを学習
Roy, et al., Microsoft Research, Tech. Repp, December 2015
難しかったので省略、簡単にいうと
クエリを木構造で表現
イメージ:「ナイキ 黒 27cm」→ brand:”nike” AND color: “black” AND size:”27cm” で検索する
最初からユーザーに指定させてらいいのでは?
ユーザーが検索したいものを明確に把握している必要がある
ユーザーが指定するのは手間がかかる
Query Scopingの流れ
Query Segmentationでクエリを意味単位(セグメント)に分割する。
各セグメントを固有表現 (Named Entity)とコンテキストに分ける。
NER (Named Entity Recognition)を用いて固有表現を属性クラスへマッピングし、クエリを書き換える
固有表現とコンテキストとは
固有表現は人や組織の名前などの固有名詞・日付・数値表現、コンテキストはそれ以外
例「スイッチ ソフト 新作」
固有表現: スイッチ
コンテキスト: ソフト 新作
NER: セグメントの固有表現を識別し 、あらかじめ定義されたクラスに分類する
NERの手法概要
手法 |
特徴 |
留意点 |
|---|---|---|
教師あり学習(SVM, CRF など) |
検索ログや属性付きドキュメントを教師データにできる |
クエリは短く大文字判定などが効かないので特徴設計が難しい |
弱教師あり/トピックモデル(WS‑LDA 等) |
少数のシード固有表現から確率分布をブートストラップ学習 |
ドメイン特化モデルを段階的に拡張できる |
ブートストラッピング |
シード→文抽出→シード拡張を反復 |
初期シードの質と多様性が重要 |
NERの論文たくさんあるとは思うが、ここで引用されているのは以下
最初はNLPの分野で研究されていたとして、以下の3つ。
Bikel, S. Miller, R. Schwartz, and R. Weischedel, “Nymble: A high-performance learning name-finder,” ANLC ’97
Borthwick, “A maximum entropy approach to named entity recognition,” Ph.D. dissertation, 1999.
Kim, I. Kang, and K. Choi, “Unsupervised named entity classi- fication models and their ensembles,” COLING, 2002.
トピックモデルを利用した手法として以下。
Guo, G. Xu, X. Cheng, and H. Li, “Named entity recognition in query,” SIGIR, 2009. [PDF]
CRF を用いた教師あり学習で検索クエリにおける NER を解くこともできるとして以下。
Eiselt and A. Figueroa, “A two-step named entity recognizer for open- domain search queries,” IJCNLP-AACL, 2013. [PDF]
(あんまり興味なかったので省略)
イメージ: 機械学習」→ (機械学習 OR “machine learning”)
クエリ拡張が必要な理由
Web 検索ログでは平均クエリ長は約2語と短く、語彙のずれや同義・多義・表記ゆれで関連文書を取り逃しやすい。
ただし無関係語を足すと意図がそれる「クエリドリフト」が発生するため、拡張語の選定と適用条件が鍵となる
体系的にみると4つの方針があるとして以下のサーベイ論文を引用
- C. Carpineto and G. Romano., A survey of automatic query expansion in information retrieval, 2012.
類型 |
発想 |
主な手法 / 指標 |
|---|---|---|
一対一関連利用 |
単語/フレーズ1つに対して類語を追加 |
形態素正規化、外部辞書(WordNet 等)による同義語、Dice・Jaccard・PMI などのターム共起類似度 |
一対多関連利用 |
追加候補とクエリ全語との総合相関を計算して低相関候補を除外 |
平均相関 x<sub>q,t</sub>、語義曖昧性軽減(WordNet を用いたヒューリスティック) |
検索結果分布利用 |
上位文書から特徴語を抽出 (Feedback) |
①利用者の明示選択=Relevance Feedback(OW 重み)②上位 k 件を擬似適合とみなす PRF(BIM, KLD, PMING など) |
クエリ言語モデル |
統計モデルで「クエリが生成される確率」が高い語を追加 |
Relevance‑Based LM、トピック混合 LM (EM で θ 推定) |
クエリドリフト対策 & 適用条件
性能予測に基づく選択的拡張
クエリのパフォーマンスが高い場合のみ拡張を適用し、低い場合は拡張を抑制して精度低下を防ぐ
ランキング側での重み付け
拡張語だけにマッチした文書のスコアを下げる、あるいは拡張語に信頼度重みを持たせることでドリフトを緩和する
(あんまり興味なかったので省略)
イメージ: 「SONY PS5 ソフト」→ 「PS5 ソフト」
ヒット件数ゼロ(または極端に少ない)状況を救済し、再現率を引き上げるために 検索語を削る・一般化する手法
具体的には (1) 削除する語の選定、(2) 削除後サブクエリの評価、(3) 副作用(精度低下・UX 低下)の抑制
タスク |
説明 |
代表ツール/ヒント |
|---|---|---|
ストップワード除去 |
機能語(日本語の「は/の」、英語の a, the など)を削除 |
Lucene StopFilter を有効化 |
特異性計算 |
一番ピンポイントな語」を落とす (「SONY PS5 ソフト」のPS5を消す) |
11.2 節の ICTF / SCS を再利用 |
語義階層で一般化 |
「キクラゲ きのこ」→「キクラゲ」 |
|
品詞・構文分析 |
品詞解析や構文解析で 修飾句・形容詞 を検出し、削除 |
MeCab / GiNZA で名詞‐非名詞を切り分け |
ログ解析 |
検索セッション内で ユーザが実際に削った語 を統計化し、緩和候補を学習する |
“削除語率は 5%” という実測値をベースラインに設計 |
Selective Relax. |
NQC などでゼロ件リスクが高いときのみ発動 |
(とくに目新しいこともないので省略)
ユーザーフィードバックを使ってシステムの改善できるということを説明している
区分 |
例 |
特徴 |
取得方法 |
|---|---|---|---|
明示的 (explicit) |
「役に立った」ボタン、Good/Bad 評価、検索途中のアンケート |
直接的で粒度は細かいが協力度に依存 |
UI に評価 UI と保存機能を設置 |
暗黙的 (implicit / blind) |
クリック有無、閲覧時間、スクロール量 |
ユーザ負荷ゼロで大量収集可。ノイズを含む |
行動ログを自動収集 |
活用ステップ
step1. 小さく始めて観察する
まずは頻度ベースや単純ルールでクリック・閲覧時間を重み付けしたランキング補正を導入し、効果をログで検証する。
step2. 複数指標のダッシュボード化
CTR/平均閲覧秒数/Good‑Bad 比率などを並行モニタリングし、単一指標依存を避ける。
step3. ユーザセグメントを分けて評価
初回訪問・リピータ・専門ユーザでフィードバック傾向が異なるため、セグメント別に A/B テストを行うと偏りを検知しやすい。
step4. ランキング・クエリ処理の連携
- クエリレベルの補正だけでなく、LtRの特徴量として「クリックされた回数」「平均 dwell time」などのフィードバック統計を渡し、モデルが自動で重み付けを学習できる設計が望ましい。
問題意識
探索的検索においては検索者の学習目標や検索方針がセッション中に変化するため、伝統的な「精度↔再現率」だけでは十分にシステム性能を測れないという問題がある
評価はコンポーネント単体ではなく システム横断で複数指標を並行監視し、その相互作用まで視野に入れる必要がある
評価観点 |
具体的な尺度 |
重点ポイント |
|---|---|---|
没頭と楽しみ |
閲覧・ブックマーク・購入・フィードバックなど行動量をカウント |
相互作用の深さ・満足度を反映 |
情報の新規性 |
新しい情報に遭遇する率 |
“未知との出会い”の有効性を測定 |
検索タスクの成功 |
ゴール到達までに得た情報量・詳細度 |
結果だけでなく経路の充実度を評価 |
タスク完全までの時間 |
知識状態を自覚できるまでの所要時間 |
速さが常に善ではなく、文脈で最適値が変わる |
学習と理解 |
認知負荷・知識獲得・情報空間の広さなど |
指標同士がしばしばトレードオフ |
手法 |
概要 |
長所 / 短所 |
|---|---|---|
ヒューリスティック評価 |
事前に定めたルールで専門家がレビュー |
潜在問題を早期発見できるが評価者依存が大きい |
チェックリストレビュー |
テスト項目に基づく受入テスト型評価 |
初心者でも実施しやすいが網羅性に課題 |
ユーザビリティ調査 |
参加者に実タスクを行ってもらい観察 |
生の声と行動を取得できるがコスト高 |
定量ログ分析 / ABテスト |
クリック率・コンバージョン等をログで比較 |
大規模・継続計測が可能だがデータ基盤が必須 |
ポイント
複数指標を併用する: 指標間の因果関係や矛盾を把握し、単独では見落とす問題を補完する
システム全体で効果を測る: コンポーネント改修時は局所スコアだけでなく全体指標の変動を追跡する
検索者行動の多様性に留意する: 一方向の提案やランキングで探索幅を狭めないよう、多様性と観察を重視する