Posts Tagged ‘検索エンジン’

PageRank/検索エンジン

2013-08-14

PageRank/検索エンジン

PageRank(ページランク)

googleの創業者、ラリーページが考えたランキングなので、ページランクと呼ばれる、google検索エンジンのアルゴリズムの基礎になっているようなものです。現在は、単純なページランクのみでのランキングは行なわれていません。

ページランク自体の考え方は、そのサイトの重要度を表す指標で、「より多くの人からリンクをもらっているってことは、それだけ価値のあるページなんだろう」というもので、そのサイトの価値を図っています。

ただし、googleツールバーで見ることができるランクは、娯楽とか、三ヶ月前の実績だとか、今現在順位を決めているPageRankとは別物だという情報があります。たぶんそうなんでしょう。^^; 「PageRank」にかわるアルゴリズムとして一番有力なのは、「TrustRank」という新しく特許を取った技術と言われていますが、ここは常に新しい技術が導入されるものなので、その都度、最新情報を確認してください。

Googleで順位を決めるときも、一番最後の順位整理に登場するのがPageRankなので、あまり気にせず、参照にする程度でいいと思います。無視するにはもったいない情報ですが、躍起になってPageRankをあげる必要もないと思いますので。

ページランクを上昇させるSEO会社には注意を

「PageRank」は数打ちゃ当たる系の指標なのでアルゴリズムとしての精度はあまり高くないと思います。外部リンクを増やすタイプのSEOスパムの標的にされています。昔のように「外部リンク」を増やせば短期間で上位掲載可能ということは現在ありません。かえって、ブラックSEOということで、ペナルティの対象になりますので、外部リンク数百張ってSEOをするような、SEO提案には十分気を付けてください。

Teomaが採用してるアルゴリズムのほうが精度も高く、SEOスパムを容易に受け付けない仕様なのは、SEOを少しかじった私でも何となく理解できましたし。不特定多数のリンクの数より、teomaのような同一テーマのサイトからの外部リンクをカウントする形のほうが、より的確なスコアがはじきだせると思うし。私が「ケーキのおいしいお店」を調べたいときに、そこらへんを歩いてるおばさんの意見より、ケーキを食べ歩いて何でも知ってるカリスマの言葉のほうが、教えてもらう情報としての価値は高いと思うんですよね。^^;

「PageRank」はおばさんが教えてくれて、teomaはケーキカリスマが教えてくれる情報って感じの位置づけです。

そういう精度の面からも、今までの「質」より「量」! のアルゴリズムより、「質」をしっかり重視する考え方にかわっているのは、googleにとっても私たち検索ユーザにとっても、嬉しい方向性だと思います。

参考記事>


TrustRank/検索エンジン

2013-08-14

TrustRank/検索エンジン

TrustRank(ツーリストランク)

PageRank」の弱点を克服するために登場! googleのアルゴリズムの中で中核になってきた新しい技術(スタンフォード大学の特許)。このランクはツールバーを入れても見ることができません。^^;
 

ざっとWeb上の記事を読むと、アンチ・スパムのための技術で「googleからの信用度」のランキングのようです。信用度は手動で見分けるのは大変なので、最初だけ「信用度の高い良質なサイト」を中核に、そこから派生するリンクは信用できるでしょ--という考え方のようです。

参考サイト>


セマンティック/検索エンジン

2013-08-14

セマンティック/検索エンジン

セマンティック

セマンティックWebの考え方は、WWWを作ったティム・バーナーズ・リー氏によって提案されたそうです。それも1998年という、けっこう昔に。^^; 時代が早すぎたのか一時期めっきり話題を聞きませんでしたが、2008年頃からまた聞こえはじました。
情報に意味(セマンティック)を与えて、コンピュータが自動的に処理するための技術というのが一般的な認識です。

今風にいえばちょうど、「Web3.0」がセマンティックWebとなるようで、ちょうど今が、その過渡期に差し掛かっているのではないでしょうか。

Webの歴史で見ると

検索エンジンの歴史でみると

検索エンジン1.0は手動。検索エンジン2.0~は自動。検索エンジン3.0までは、いわゆる「正規表現」としてキーワードを解釈しているので、コンピュータは意味を認識していない。
検索エンジン4.0は、キーワードを単なるコードとして認識するのではなく、意味として捉え始めるというすごいこと。これを実現するのが「Metaデータ」。意味を与えるのは、XMLって感じ?
まだまだ情報を集めている最中なので自分でもよくわかっていないけど、そんな感じみたいです。^^;

参考記事>

検索エンジンでの搭載状況(ニュース)


ストップ語/検索エンジン

2013-08-14

ストップ語/検索エンジン

ストップ語

 英名は「stop word」で、検索エンジンの精度をあげるために、頻繁に使用される「その単語自体には固定の意味がないと思われる単語を検索対象から除外する」という考え方。

 例えば日本語なら助詞や助動詞などの頻繁に現れる単語がそれで、格助詞である「が」「は」とか、助詞の代表格なら「てにをは」だし、「です」「ます」などもですよね! いわゆる、文法的な役割を持つ「機能語」がそれに該当します。英語だと「a」「the」なんかの冠詞など。「IT(アイティ)」は「it(イット)」という文字列で扱われるので、ストップ語になります。
 そのほかにも「http」や「.com」のほか、数字または文字 1文字などもストップ語になっているそうです。ストップ語の検索


N-gram方式/検索エンジン

2013-08-14

N-gram方式/検索エンジン

N-gram(えぬぐらむ)方式

英名は「Independent Software Vendor」で、入力された文章を「N文字の文字列として区切る」という考え方。

例えば従来の検索エンジンは「形態素解析」という考え方で、あらかじめ辞書登録されている単語で区切っています。「ライブドアの検索」なら「ライブドア」「の」「検索」になります。どういうふうに単語が登録されているかを知るには、各検索エンジンのキャッシュを見るとわかります。^^;シッテタ?

N-gram方式の考え方は、文章をN文字単位で分割します。「ライブドア検索」を2文字ずつ扱うので、「ライ」「イブ」「ブド」「ドア」「アの」「の検」「検索」となります。3文字ずつなら「ライブ」「ブドア」「ア検索」となります。
 単語辞書が必要なので、理論上検索漏れがなくなるというメリットがあるそうです。まあ、単語のデータ量も増えるし高速処理はできないみたいですが。

参考記事>


Copyright © 2000-2018 Makiko HOSOKAWA. All rights reserved.