スポンサーサイト  このエントリーを含むはてなブックマーク はてなブックマーク - スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

「あいまい検索」  このエントリーを含むはてなブックマーク はてなブックマーク - 「あいまい検索」

「あいまい検索」ってどんなのだっけ?

と、ネット徘徊中に「ベンチャー社長で技術者で:ストアドプロシージャにするとワークテーブルが増える?」という記事を読んで思ったのでした。本題じゃない最後の段落に以下の記述がありました。

……SQLでn-Gramを実現する、つまり、LIKE '%検索文字%' とするとインデックスが使えないけれど、インデックスを使ってあいまい検索を高速に行う……

N-gramとSQLのLIKE演算子とでは結果が等価にならないので、そういう意味で書かれていないのは分かるのですが、LIKE演算子を「あいまい検索」に分類するのは違和感があります。「部分一致検索」じゃないかな。

個人的に「あいまい検索」とは、「日本」を検索したら「JAPAN」もヒットするような検索だと思っていました。簡単に実装なんて無理というか、シソーラスが肝心であってロジックで解決するようなものではないという認識です。LIKE演算子でも「あいまい検索もできます!」って言っていいのかな。

で、いろんなところから「あいまい検索」の使用例を拾ってみました。

マイクロソフト。日本語のあいまい検索を実行する

あいまい検索を実行するには以下の手順に従います。
……
InfoPath の場合
・大文字と小文字を区別しない場合は、[大文字と小文字を区別する] チェック ボックスをオフにします。
・全角文字と半角文字を区別しない場合は、[半角と全角を区別する] チェック ボックスをオフにします。
・日本語のあいまい検索を行う場合は、[あいまい検索 (日)] チェック ボックスをオンにします。

Word の場合
・大文字と小文字を区別しない場合は、[大文字/小文字 [A/a]] チェック ボックスをオンにします。 ・全角文字と半角文字を区別しない場合は、[全角文字/半角文字 [A/A]] チェック ボックスをオンにします。 ・ひらがなとカタカナを区別しない場合は、[ひらがな/カタカナ [あ/ア]] チェック ボックスをオンにします。

InfoPathの3番目がなぞですが、「大文字/小文字を区別しない」「全角/半角を区別しない」「ひらがな/カタカナを区別しない」といった検索を「あいまい検索」としています。

続いてオラクル。日本オラクル、テキスト管理ソリューション「Oracle ConText Option Release2.0.4」を出荷開始

◆曖昧検索
日本語において同一でありながら表記形式が異なる語、たとえばバージョンとヴァージョン等を同一キーワードと認知して検索できます。

例がしょぼいので詳しくは分からないんですけど、シソーラスは使ってなさそう。

IBM。サポート情報からあいまい検索で漢字を検索した場合の検索結果が正しくない

あいまい検索は「ひらがな、半角カタカナ、全角カタカナ」「全角・半角英数字、大文字・小文字英字」等を同一視して検索するものです。

これもシソーラス関係なし。

Microsoft Access Club。マイクロソフト社のサイトではなくて、Accessに関する情報を集めたサイトです。LIKE演算子

WHERE句で検索条件を指定するときにLIKE演算子を使用すると、あいまい検索を行うことができます。

ずばり、LIKE演算子は「あいまい検索」だ。

厚生労働省図書館の蔵書検索システム。WebOPACのヘルプ? よく分かりませんが。WebOPAC HELP

あいまい検索とは、以下のものを区別しないで検索する方法です。
  全角/半角  ひらがな/カタカナ 濁音/半濁音/清音 英大文字/英小文字

IBMに近い。

Yahoo!辞書。出典は大辞泉です。あいまい-けんさく

検索するキーワードと完全に一致していなくても、表記の異なりや同義語も含め、柔軟に解釈して検索すること。

シソーラスが出てきた。

日経BP。出典は日経パソコン用語辞典2009です。あいまい検索とは

アルファベットの大文字小文字、全角と半角、「っ」と「つ」などを区別せずに検索するもの、「米国」というキーワードで同時に「アメリカ」「USA」といった同義語も探し出すものなど、いろいろな方式がある。

おぉ。後者は私のイメージにぴったり。でも「いろいろな方式がある」そうです。

IT用語辞典バイナリ。あいまい検索とは

あいまい検索とは、検索条件が完全一致しない対象を、一定のルールのもとで抽出する検索方法のことである。
……
……例えば、データベースの検索言語であるSQLでは、LIKE文を用いて、検索対象文字列が部分一致するようなレコードを抽出することができる。……
高度なあいまい検索には、文書全体の語彙を分解して、ベクトル空間上に多次元表現し、検索対象語との意味的な距離を計測することにより、一致度を見る概念検索といったものがある。また、シソーラス辞書を活用して、語の抽象度の調整や関連語への連想展開などを行うものもある。ウェブの検索エンジンでは、Googleのように、コンテンツ間の参照関係や、重要語の重み付けなどをグラフ構造の中で評価するようなものもある。このように、あいまい検索には、さまざまな方式が存在している。

今回調べた中ではこれが一番情報量多いですね。「あいまい検索には、さまざまな方式が存在している。」だそうです。

他にもググれば大量に見つかりますけど、疲れたのでここまで。

どうやらLIKE演算子による部分一致検索を「あいまい検索」と呼称しても、少なくとも間違いではなさそうですね。

しかし「あいまい検索」の意味自体が相当にあいまいです。ちゃんと具体的に説明しないと齟齬をきたしますね、これは。注意しよう。

コメント

コメントの投稿















管理者にだけ表示を許可する

トラックバック

この記事のトラックバックURL
http://srgia.blog46.fc2.com/tb.php/486-1ca4a4c0

上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。