N-gram方式/検索エンジン

N-gram方式/検索エンジン

N-gram(えぬぐらむ)方式

英名は「Independent Software Vendor」で、入力された文章を「N文字の文字列として区切る」という考え方。

例えば従来の検索エンジンは「形態素解析」という考え方で、あらかじめ辞書登録されている単語で区切っています。「ライブドアの検索」なら「ライブドア」「の」「検索」になります。どういうふうに単語が登録されているかを知るには、各検索エンジンのキャッシュを見るとわかります。^^;シッテタ?

N-gram方式の考え方は、文章をN文字単位で分割します。「ライブドア検索」を2文字ずつ扱うので、「ライ」「イブ」「ブド」「ドア」「アの」「の検」「検索」となります。3文字ずつなら「ライブ」「ブドア」「ア検索」となります。
 単語辞書が必要なので、理論上検索漏れがなくなるというメリットがあるそうです。まあ、単語のデータ量も増えるし高速処理はできないみたいですが。

参考記事>

タイトルとURLをコピーしました