Deepcrawl is now Lumar. Read more.
DeepcrawlはLumarになりました。 詳細はこちら

テストサイトと本番サイトの比較

ステージングまたはテスト環境をクロールし、それを本番サイトと比較することで両者の違いを明確化することができます。
これにより、本番環境へリリースする前にサイトのバージョンまたはサイトの一部をテストすることができ、canonicalタグやsocialタグ、またページネーションの実装といったサイト全体の追加事項を確認することができます。
注意点:テストサイトと本番サイトのデータが異なると、クロールでの比較結果に影響を与える可能性があります。テストサイトに本番サイトのすべての要素が含まれていないか、サイト全体のnoindexタグといったページの分析方法に影響を与える異なるメタデータが含まれている場合があります。
開始方法は以下の通りです:
 

サイトの設定をテストする

1. 新しいプロジェクトを設定し、本番サイトのクロールを実行します。ここではまだテストサイトの詳細を入力しないでください
2.クロールが完了したら、プロジェクト設定のステップ4にある詳細設定に戻り、テストサイトの詳細を入力してください。”このクロールにそのテストサイトを使う”設定を事前に行って確認してください。テストサイトが認証用のユーザー名とパスワードで保護されている場合、これら情報は”テストサイト基本認証設定”に追加することができます。
3.クロールを再度実行して、テストサイトのクロールを開始します。ここでの結果が本番サイトの前回のクロール結果と比較されます。
dc2 crawl setup test site domain
 

ロボットの上書き

テストサイト環境には、望ましくないトラフィックやクロールを停止するため、ロボットの制限が設定されている場合があります。
最も一般的な制限は、robots.txtファイルのRobots Disallowの命令文を使用してテストサイト全体をブロックすることであり、これによりクローラーはサイトをクロールできなくなります。
Lumarには、これらの制限を無効にするため別のロボットルールを入力し、URLが拒否されていると報告されないようにするロボットの上書き機能があります。
これを設定するには、詳細設定のロボットの上書きにて、クロールに使用するrobots.txtを入力してください。これは例えば、本番サイトのrobots.txtのコピー、または”すべてを許可する”などが該当します。
User-agent: *
Disallow: /
 

テストサイトがパブリックアクセスからブロックされている

ステージング環境がパブリックアクセスからブロックされ、Lumarによるクロールを妨げる場合があります。静的IPアドレスを経由でのアクセスを許可できる場合があります。
スパイダー設定で静的IPを選択し、IPアドレスの詳細を提供すると、当IPアドレスのブロックを解除し、テストクロールを有効にできるか確認できます。
ファイアウォール経由で静的IPを許可するには、httpの場合はポート80、httpsの場合は443を介してアクセスするだけでクロールすることができます。
dc2 spider ip small
 

パブリックDNSレコードのないテストサイト

テストサイト環境のドメインは、企業ネットワーク内のDNSレコードのみで設定されており、外部ネットワークで機能しない場合があります。
詳細設定で、カスタムDNS設定にカスタムDNS入力を追加できます。
dc2 crawl setup test site custom dns
Lumarを使ったテストサイトと本番サイトの比較方法について更に詳しく知るには、Glenn Gabe氏のSearch Engine Landにある以下の記事がおすすめです。 「重要なサイトの変更を反映する前に、ステージング環境でクロールする5つの方法」