クロール最適化とインデックス最適化

「クロール最適化とインデックス最適化」についてのお話しです。必ずやっておくべきコンテンツSEO(外部SEO)対策とその方法では、

  1. 被リンクを辿ってクローラーは巡回してくる
  2. クローラーが頻繁に巡回するとインデックスが促進される
  3. インデックスが促進されるとページの情報が正確にGoogleデータベース蓄積される
  4. 良質なコンテンツ・内部対策が施されたページであれば、ランキングエンジンに評価される

被リンクが検索順位に影響を与えるには、上記のようなストーリーを辿るからというお話をしました。クローラーの巡回とインデックスが最適化できれば、ランキングエンジンに評価され、検索順位が上がる可能性が高くなると言えます。

クロール最適化

クロールとは、クローラー(サイトの情報を収集するプログラム)がWEBページを巡回することです。クローラーがページを訪れる方法は

  1. 被リンク(外部リンク)・内部リンクを辿って流入する
  2. XMLサイトマップを経由して流入する

になります。
XMLサイトマップはご存知でしょうか?ホームページにもサイトマップがありますが、人の目に見えるサイトマップとは別もので、検索エンジンにサイトの構成や更新頻度等を知らせるものです。このサイトマップにサイト内のURLを記載しておくとで、クローラーは素早くページを見つけることができます。被リンクを辿ってのクロールつまりGoogle の通常のクロール処理では検出できない可能性のある URL を含むサイト上のすべてのページを Google に知らせることができるのです。XMLサイトマップは、サイトを新規に作成したときはもちろん、更新時にも必ずアップしましょう。

XMLサイトマップはこのようにXML形式で作成します。

<?xml version=”1.0″ encoding=”UTF-8″?>
<urlset xmlns=”http://www.sitemaps.org/schemas/sitemap/0.9″>
<url>
<loc>http://www.firstitpro.com/</loc>
<lastmod>2014-01-01</lastmod>
<changefreq>weekly</changefreq>
<priority>0.5</priority>
<loc>http:// www.firstitpro.com /item/</loc>
<lastmod>2014-01-01</lastmod>
<changefreq> daily </changefreq>
<priority>0.5</priority>
</url>
</urlset>

<urlset>(必須)
ファイルの他のタグを囲み、現在のプロトコル標準を参照します。
<url>(必須)
各URL エントリの親タグ。その他のタグは、このタグ内に含めます。
<loc>(必須)
ページの URL です。 オプション設定タグ
<lastmod>(オプション)
ファイルの最終更新日です。
(オプション)
ページの更新頻度。
<priority>(オプション)
サイト内の他の URLと比較したURLの優先度です。0.0 から 1.0 までの値を指定できます。

これらを一つ一つ記載するのは大変ですよね。XMLサイトマップを自動生成するツールを幾つか紹介しておきます。自動生成するときには、上記の説明を参考に必要な設定を行ってください。

sitemap.xml Editor
http://www.sitemapxml.jp/
URLの指定と簡単な設定で、XMLサイトマップを自動生成します。生成したファイルは、FTPツール等でサイトのルートフォルダ(通常はサイトのトップページがある場所)にアップロードしてください。
Google XML Sitemaps (WordPressプラグイン)
WordPressでサイトを構築している場合は、プラグインを導入が便利です。プラグインを導入するとWEBサーバーにXMLサイトマップを自動生成します。常に最新のXMLサイトマップがアップロードされている状態となります。

これで、クローラーが訪れる準備はできました。

Robots.txtでクロールをブロックする

次に、クローラーの性質について少しお話ししたいともいます。クローラーは世界中のWEBサイトをクロールしています。クローラーがクロールできるページ数にはやはり限界があることは想像できますね。大規模なサイトでない限り、あまり気にしなくても良いとの話もありますが、重要なページにクローラーが集中できるようにしておくことは重要なページ・検索結果に表示してほしいページをより正確にクロールすることにつながります。
そこで、サイト内の検索結果には表示する必要がないページをクロールの対象外にする方法をご紹介します。
WEBサーバーには、検索エンジン向けにWEBページへのアクセスを制御するRobots.txtというファイルを置くことができます。このファイルの中に、WEBページへのアクセス制御(許可・許可しない)について記載をしておくと、検索エンジンは記載内容を読み取り、WEBページへのアクセスを行います。

Robots.txtでクロールをブロック

Robots.txtは、GoogleSerchConsoleで記載内容のテストを行うことができます。テストを行い、目的のページのブロックが確認できたら、テストで記載した内容をファイルにコピーしてルートディレクトリにアップすると間違いがありません。記載の間違いでは、目的以外のページをクロールからブロックしてしまう恐れもあります。必ずテストするようにしてください。

また、検索結果に表示されなくても良いページの例としては

  • サイト内検索の結果表示ページ
  • ログインページ以降の会員専用ページ
  • ショッピングカートページ
  • 非公開ページ

のようなものが考えられます。

meta robotsタグでインデックスの最適化

WEBサイト内の各ページが、適切にインデックスされるように、重複するコンテンツページや検索結果に表示される必要がないページを調整することが必要です。
またまたrobotsが出てきましたが、Robots.txtはクローラー自体をブロックする方法でした。meta robotsタグは、単なるクロールの拒否ではなく、「クロールは許可するが検索結果には表示しない」という制御が可能です。クロールしてリンクも辿ってもらいたいけれど検索結果に表示されてもあまり意味がないというようなURLを制御するときに使います。
メタタグなので、ページの<head>~</head>に記述します。

meta robotsタグでインデックスの最適化

実は、FaceBookやブログサービスの一部は、nofollw設定になっており、クローラーがリンクを辿れなくなっているものあります。

また、PDFや画像ファイル等メタタグを記載できない場合は、「X-Robots-Tag」が使用できます。「meta robotsタグ」と同様の機能を実現でき、インデックス制御が可能です。
記載場所は、.htaccess (WEBサーバーがApacheの場合)と言うファイルです。既にサーバーに.htaccessが存在している場合は、追記してください。

X-Robots-Tag

最適化のまとめ

何の制御が必要なのかを考え、それぞれの制御方法を選択しクロールとインデックスの最適化につなげましょう。

robots.txt
クローラーのアクセスを制御したい場合に使います
meta robotsタグ
インデックスを制御したい時に使います
X-Robots-Tag
robots meta タグが埋め込めないファイルのインデックスを制御したい時(PDF等)に使います

インデックスの制御はmeta robotsタグを用いることが推奨されています。