ナレッジベース
Semrushツールキット
SEO
サイト診断
サイト診断のトラブルシューティング

サイト診断のトラブルシューティング

サイト診断が正しく動作しないのですか?

ウェブサイトの構成や構造により、ページでサイト診断のクローラーがブロックされる理由はいくつかあります。以下のリストをご覧ください。  

  • robots.txtによるクローラーのブロック
  • サイトの特定の領域を除外するクロール範囲
  • 共有ホスティングのため、ウェブサイトが直接オンラインになっていない
  • ランディングページのサイズが2MBを超える
  • ページがゲートウェイ/ログインで保護されている
  • noindexタグによってクローラーがブロックされている
  • DNSによってドメインを解決できない(セットアップで入力されたドメインがオフライン)
  • JavaScriptで構築されたウェブサイトのコンテンツ(サイト診断はJSコードをレンダリングすることができますが、それでもいくつかの問題の原因になることがあります)

トラブルシューティング手順

サポートチームに問い合わせる前に、次のトラブルシューティング手順に従って、自分で調整できるかどうかを確認してください。

robots.txtファイルは、ウェブサイトのページをクロールする(またはクロールしない)方法をボットに指示します。 GooglebotやSemrushbotなどのボットが、サイト全体や特定の領域をクロールすることを許可または禁止するために、次のようなコマンドを使用できます:AllowDisallowCrawl Delay 

robots.txtがSemrushのボットによるサイトのクロールを禁止している場合、サイト診断ツールはサイトをチェックできません。 

robots.txtに、ボットがウェブサイトにアクセスできないようにするDisallowコマンドが含まれているかどうかを調べることができます。 

Semrushのサイト診断ボット(SiteAuditBot)がサイトをクロールできるようにするには、以下をrobots.txtファイルに追加します。

User-agent: SiteAuditBot

Disallow:   

(「Disallow:」の後に空白を残してください)

以下は、robots.txtファイルの例です。

robots.txtのサンプルファイルにおける許可と不許可の指示のリスト。 不許可の指示は赤色で強調表示され、許可の指示は薄緑色で強調表示されています。 スクリーンショットの右側には追加の説明があります。Disallow = ボットがサイトのその領域をクロールしないようにする指示(赤)、Allow = ボットがサイトのその領域をクロールするようにする指示(緑)。

ファイルが対応しているユーザーエージェント(クローラー)に基づく、さまざまなコマンドに注目してください。

これらのファイルは公開され、見つけられるようにサイトのトップレベルにホストされる必要があります。 ウェブサイトのrobots.txtファイルを見つけるには、サイトのルートドメインに続けて/robots.txtをブラウザに入力します。 例えば、Semrush.comのrobots.txtファイルはhttps://semrush.com/robots.txtにあります。

robots.txtファイルに表示される用語には次のようなものがあります。

  • User-Agent = ユーザーが指示を与えるウェブクローラー。 
    • 例:SiteAuditBot、Googlebot
  • Allow = 親ページや親ディレクトリが許可されていない場合でも、サイトの特定のページや領域をクロールできることをボットに指示するコマンド(Googlebot専用)。
  • Disallow = サイトの特定のURLやサブディレクトリをクロールしないようにボットに指示するコマンド。 
    • 例:Disallow: /admin/
  • Crawl Delay = ボットが別のページを読み込み、クロールするまでに待機する秒数を指示するコマンド。 
  • Sitemap = 特定のURLのsitemap.xmlファイルの場所を示します。
  • / = Disallowコマンドの後に「/」記号を使用すると、ボットにサイト全体をクロールしないように指示できます。 
  • * = URLに含まれる可能性のあるあらゆる文字列を表すワイルドカード記号で、サイトの領域またはすべてのユーザーエージェントを示すために使用されます。 
    • 例:Disallow: /blog/*はサイトのblogサブディレクトリ内のすべてのURLを示します。
    • 例:User-agent: *はすべてのボットへの指示を示します。

詳細は、Googleのrobots.txtの指定や、Semrushブログをご確認ください。

ウェブサイトのメインページに次のコードが表示されている場合、そのページをインデックスして、リンク先をたどることをSemrushに許可しないよう指示しているため、Semrushのアクセスがブロックされます。



また、「noindex」、「nofollow」、「none」の1つ以上の要素を含むページは、クロールエラーを引き起こします。

Semrushのボットがそのようなページをクロールできるようにするには、これらの「noindex」タグをページのコードから削除します。 noindexタグに関する詳細情報は、このGoogleのサポート記事を参照してください。

ボットをホワイトリストに登録するには、ウェブマスターまたはホスティングプロバイダーに連絡し、SiteAuditBotをホワイトリストに登録するように依頼してください。

ボットのIPアドレスは85.208.98.128/25(サイト診断のみで使用されるサブネット)です。

ボットは標準の80 HTTPおよび443 HTTPSポートを使用して接続します。

サイトを管理するためにプラグイン(例えばWordpress)やCDN(コンテンツ配信ネットワーク)を使用している場合、そこでもボットのIPをホワイトリストに登録する必要があります。

Wordpressのホワイトリスト登録については、Wordpressサポートにお問い合わせください。

Semrushのクローラーをブロックする一般的なCDNには以下が含まれます。

  • Cloudflare - こちらのホワイトリスト登録の方法をお読みください。
  • Imperva - こちらのホワイトリスト登録の方法をお読みください。
  • ModSecurity - こちらのホワイトリスト登録の方法をお読みください。
  • Sucuri - こちらのホワイトリスト登録の方法をお読みください。

注意:共有ホスティングを使用している場合、ボットのホワイトリスト登録や、robots.txtファイルの編集をホスティングプロバイダーが許可しない可能性があります。

ホスティングプロバイダー

以下は、ウェブ上で最も人気のあるホスティングプロバイダーのリストと、それぞれでボットをホワイトリストに登録する方法、またはサポートチームに連絡して支援を受ける方法です。 

  1. Siteground - ホワイトリスト登録の方法 
  2. 1&1 IONOS - ホワイトリスト登録の方法 
  3. Bluehost* - ホワイトリスト登録の方法 
  4. Hostgator* - ホワイトリスト登録の方法 
  5. Hostinger - ホワイトリスト登録の方法 
  6. GoDaddy - ホワイトリスト登録の方法 
  7. GreenGeeks - ホワイトリスト登録の方法 
  8. Big Commerce - サポートに連絡する必要があります 
  9. Liquid Web - サポートに連絡する必要があります 
  10. iPage - サポートに連絡する必要があります
  11. InMotion - サポートに連絡する必要があります
  12. Glowhost - サポートに連絡する必要があります
  13. Hosting - サポートに連絡する必要があります
  14. DreamHost - サポートに連絡する必要があります

*注意:HostGatorとBluehostについては、VPSまたは専用ホスティングのウェブサイトがある場合に、これらの方法が適用されます。

ランディングページのサイズまたはJavaScript/CSSファイルの合計サイズが2MBを超える場合、Semrushのクローラーは、ツールの技術的制限によりそれらを処理できません。

サイズの増加の原因とその問題の解決方法について詳しく知るには、当社のブログのこの記事をご覧ください。

現在のクロール予算がどれだけ使用されているかを確認するには、[プロフィール] → [サブスクリプションの情報] の順に移動し、[SEOツールキット] で [クロールするページ数] を探してください。

1か月にクロールできるページ数は、サブスクリプションのレベルに応じて制限されています(1か月のクロール予算)。 サブスクリプション内で許可されたページ数を超えた場合は、追加購入で利用可能数を引き上げるか、利用可能数が更新される翌月まで待つ必要があります。

さらに、セットアップ中に「同時に実行できるキャンペーンの限界に達しました」というエラーメッセージが表示された場合、サブスクリプションレベルで許可されている同時に実行できるサイト診断の最大数に達したことを意味します。

上限は、サブスクリプションのプランごとに異なります。

  • 無料アカウント:同時に1つのサイト診断を実行可能
  • Pro SEOツールキット:同時に2つまでのサイト診断を実行可能
  • Guru SEOツールキット:同時に2つまでのサイト診断を実行可能
  • Business SEOツールキット:同時に5つまでのサイト診断を実行可能

DNSによってドメインを解決できない場合、構成中に入力したドメインがオフラインである可能性が高いです。 一般的に、ユーザーがこの問題に遭遇するのは、サイトのルートドメインバージョンが存在せず、代わりにサイトのWWWバージョン(www.example.com)を入力する必要があることに気付かずにルートドメイン(example.com)を入力した場合です。  

この問題を防ぐために、ウェブサイトの所有者は、安全でない「example.com」から、サーバー上に存在する安全な「www.example.com」へのリダイレクトを追加することができます。 この問題は、ルートドメインが安全だが、そのWWWバージョンが安全でない逆のケースでも発生する可能性があります。 その場合、WWWバージョンをルートドメインにリダイレクトするだけで済みます。

貴社のホームページのJavaScript要素に、隠されたサイトのほかの部分へのリンクがある場合、それらを読み取ってそのページをクロールできるように、JSレンダリングを有効にする必要があります。 この機能は、SEOツールキットのGuruサブスクリプションとBusinessサブスクリプションで利用可能です。

サイト診断の設定でJavaScriptレンダリングを有効にする場所についての説明。 ハイライトは正しいタブと設定セクションを示しています。

ウェブサイトの最も重要なページをクロールしないことがないように、クロール元をウェブサイトからサイトマップに変更できます。これにより、診断時にウェブサイト上で自然に見つけるのが難しいページをクローラーが見逃すことがなくなります。

サイト診断のクロール元設定がどこにあるかの説明。 ドロップダウンメニューが強調表示されており、すべての利用可能なクロール元のオプションが表示されています。

Semrushは、いくつかのJS要素を含むページのHTMLをクロールし、パフォーマンスチェックを使用して、JSおよびCSSファイルのパラメータをレビューできます。

ウェブサイトのrobots.txtファイルでSemrushBotをブロックしている場合があります。 ユーザーエージェントをSemrushBotからGoogleBotに変更できます。そうすることで、ウェブサイトはGoogleのユーザーエージェントによるクロールを許可する可能性が高くなります。 この変更を行うには、プロジェクト内の設定用の歯車を探して、ユーザーエージェントを選択します。

サイト診断のユーザーエージェント設定がどこにあるかの説明。 概要レポートでは、ユーザーが歯車アイコンをクリックすると開くドロップダウンメニューを示すために、右上の歯車アイコンが強調表示されています。 設定メニューを下にスクロールして、必要な設定を見つけることができます(この場合は、ユーザーエージェントの設定。メニューでもこの行が強調表示されています)。

このオプションが使用されると、クロールのチェックで内部リソースとページのブロックが無視されます。 これを使用するには、サイトの所有権を確認する必要があることに注意してください。

これは、メンテナンス中のサイトに役立ちます。 サイト所有者がrobots.txtファイルを変更したくない場合にも役立ちます。

パスワードで保護されたウェブサイトの非公開の領域を診断するには、設定用の歯車の [自身の認証情報でクロールする] オプションで認証情報を入力します。

これは、まだ開発中のサイトや、非公開で完全にパスワードで保護されているサイトに強く推奨されます。

サイト診断のトラブルシューティング image 5

前回の診断からクローラーの設定は変更されています。 現在の診断の結果と検出される問題の数に影響する可能性があります。

この通知は、設定を更新し、診断を再実行した後で、サイト診断に表示されます。 これは問題の指標ではなく、クロール結果が予期せず変更された場合、これが原因である可能性が高いことを示す注記です。

Semrushのブログ投稿「一般的なSEOの問題とその修正方法」をご確認ください。