グーグル、ウェブクローリング作業の範囲を公表

Posted on 7 月 30, 2008

グーグル、ウェブクローリング作業の範囲を公表というニュースを発見した。
ちょっと情報がおそいのか?

グーグル、ウェブクローリング作業の範囲を公表
CNETより

米国時間7月25日に投稿されたブログの中で、Googleは、検索結果をユーザーに提供する前に行う必要があるウェブのインデックス作成と処理という検索業務の課題について詳しく説明した。内容を短くまとめると、Googleには大きなことを考える以外に選択肢はないということだ。

最初に行われるのはネットサーフィンだ。ソフトウェアエンジニアであるJesse Alpert氏とNissan Hajaj氏は、「まず、巧妙なリンク構成の初期ページから各リンクをたどって新しいページに移動する。次に、それらの新しいページのリンクからさらに別のページに移動していき、最終的には膨大なリンクのリストが作られる。重複するリンクを削除した後でも、一意のURLが1兆もあり、ウェブページの数は1 日数十億ページ増加している」と述べている。

次に、どのページがどのページにリンクしているかを数学的に表現する「リンクグラフ」を解析する。これがGoogleの「PageRank」アルゴリズムの基礎で、他の重要なページからリンクされるページの重要度を割り当てるのが、Googleの検索エンジンの特徴だ。

Googleでは当初、同社が集めた、たかだが2600万ページのPageRankの計算をワークステーションを使って「2時間」で終え、結果をかなり長い間使っていた。現在では、常にネットサーフィンを行い、「1日数回」リンクグラフを再計算している。

「1兆のURLで構成されるこのグラフは、1兆の交差点で構成される地図に似ている。そのため、1日に何度も、米国内のすべての道路のすべての交差点を十分に探索するような計算を行っている。ただし、Googleが計算している地図には、米国よりも約5万倍大きく、5万倍の数の道路、交差点が含まれている」(同エンジニア)

うん。やっぱりグーグルのロボットははやいんだね。
リンクの計算も1日に数回行うということなので、1日のなかで順位が変動することも当然みたいですね。

ヤフーとはやっぱり全然違うな。
ヤフーはアルゴリズム変動のタイミングで順位を大きく変えるけど、グーグルにはそんなタイミングないもんね。

でも、すでに切れているリンクとかを削除するのはどのタイミングなんだろ?
どのタイミングでリンクの効果がなくなるんだろ?

» Filed Under 気になるニュース

Comments

Leave a Reply




  • RSS登録はこちらから

    はてなRSSに追加
    livedoor Readerに追加
    My Yahoo!に追加
    Googleに追加
    goo RSSリーダーに追加
  • Recent Comments

    • : ん〜微妙。...
    • ちはる: TBありがとうございます。 こちらではじめて「通信簿の見方」を知りました。 (確認せずに使ってました。参考になります...
    • : おにき... 風邪大丈夫か!? アメリカで買ってきたNyQuilっていうめちゃきく薬送ろか? http://en....