|
問題は、site.com/page1.html と site.com/page2.html が存在する場合に、クローラが site.com/page3.html の存在を想定して、それをクロールしに行くかどうか? ということです。
この質問にグーグルのマットカッツ氏が回答しています。
まず、Googlebot が推測するかどうか (use inference) という点については、(広い意味で)推測はするといえます。
例えば、3、4個のパラメターを含む URL の場合、そのうちのひとつ消してみたら、まだ同じ結果を返すかどうか試してみて、
返すのであればそのパラメターいらないだろう、と判断し、最もスッキリした URL をそのコンテンツをあらわす URL として使うようにしています。
そのように、パラメターを消してみて違いが出るかどうか、というテストは実施しますが、質問のようなケースはわかりません。
Google はどんどん賢くクロールするように努力しています。
例えばフォームでシンプルなドロップダウンがあった場合、何か値を選択してみて、その結果もクロールするということは実施しています。
クロールが行き止まりになった時に、もっとクロールできないかいろいろと試し、よりたくさんの結果をユーザーにかえせるようにしています。
もちろん、クロールをブロックしたい時はrobots.txt を使ったら、そのページはクロールしません。
グーグルからの回答は以上です。
ちなみに、私の経験から言えば通し番号的にファイル名を設定したことも過去にありましたが、(正直に言えば今でもそのまま運営していたりしますが)、どこからもリンクされていないファイルがクロールされたことはありません。
やはり、リンクを辿るのが基本だと思うので、URLを予想することは無いし、無意味(そもそもリンクされていないようなページをクロールするほど暇じゃない)だと思うのですが・・・、みなさんはどのように推論しますか?
|