ご使用のブラウザは最新版ではありません。ウェブサイトが正確に表示されないことがあります。ブラウザを更新してください。

Site Auditの構成

Manual

Site Auditを設定するには、最初にプロジェクトを登録する必要があります。新しいプロジェクトができたらプロジェクトインターフェイスのSite Auditブロックにある「設定」ボタンを選択します。

Site Auditが実行できない場合は、Site Auditのトラブルシューティングを参照してください。

クロール範囲
クロールソース
アドバンス設定
クローラー設定
URLの許可/不許可
URLパラメーターの削除
スケジュール
Google Analyticsの接続

ステップ1:ドメインおよびページの制限

セットアップウィザードの冒頭、ドメインおよびページの制限から始まります。ここから、デフォルト設定でサイトの診断を直ちに実行する“Start Site Audit”か、または診断の設定をカスタマイズするかを選択します。しかし、心配しないでください。いつでも設定を変更し診断を再実行して、最初の設定後でもさらに特定の領域をクロールすることができます。

クロール範囲

特定のドメイン、サブドメイン、またはサブフォルダをクロールするには、それを“Crawl scope”フィールドに入力することができます。このフィールドにドメインを入力すると、チェックボックスによりドメインのすべてのサブドメインをクロールすることも可能になります。

Site Auditの構成 image 1

チェック対象ページの制限

次に、診断ごとにクロールしたいページ数を選択します。「カスタム」オプションを使用してカスタムページ数を入力することができます。ページ数は、ご契約のプランおよび想定するウェブサイトの再診断回数に応じて、慎重に検討する必要があるでしょう。

  • Proユーザーは毎月最大100,000ページおよび診断ごとに20,000ページをクロールすることができます。
  • Guruユーザーは毎月最大300,000ページおよび診断ごとに20,000ページをクロールすることができます。
  • Businessユーザーは毎月最大1,000,000ページおよび診断ごとに100,000ページをクロールすることができます。

クロールソース

クロールソースの設定によって、SemrushのSite Auditボットがウェブサイトをクロールして監査するページが決まります。クロールソースの設定に加えて、セットアップウィザードのステップ3および4で診断対象に含める/除外するマスクおよびパラメーターを設定することができます。

診断のクロールソースとして設定する4つのオプション、ウェブサイト、サイトのサイトマップ、URLによるサイトマップ、およびURLのファイルがあります。

1.ウェブサイトからのクロールとは、ホームページから始めて、幅優先検索アルゴリズムを使用したり、またページ上のコードからリンクを検索するなど、GoogleBotのようにお客様のサイトをクロールします。

サイトの最重要ページのみを診断対象にクロールしたい場合は、サイトからではなくサイトマップからクロールすると、ホームページから簡単にアクセスできるページではなく、最重要なページに飛んでクロールできます。

2. サイトのサイトマップからのクロールとは、robots.txtファイルのサイトマップからURLのみをクロールすることです。

3. URLによるサイトマップからのクロールとは、「サイトのサイトマップ」からのクロールと同じですが、このオプションでは、サイトマップのURLを直接入力するものです。

検索エンジンはサイトマップを使用してクロールに必要なページを認識するため、正確な診断には、常時、可能な限りサイトマップを更新し、ツールのクロールソースとして使用する必要があります。

4. URLのファイルからのクロールでは、ウェブサイト内の非常に限定的な一連のページを診断します。ファイルは必ず各ラインの1つのURLが .csvまたは .txtとして適切にフォーマットされていることを確認後、お客様のコンピューターからSemrushに直接アップロードしてください。

これは、特定のページだけチェックしてクロール予算を節約したい場合に有用な方法です。チェックしたいサイトの限定的な一連のページのみに何らかの変更を加える場合、この方法を使用して特定の診断を実行し、クロール予算を浪費しないようにすることができます。

ファイルのアップロード後、ウィザードでは検出されたURLの数を通知するので、診断を実行する前に適切に機能しているかをダブルチェックすることができます。

Site Auditの構成 image 2

Javascriptをクロールする

サイトでJavaScriptを使用している場合、AJAXクローリングスキームを実装することができ、Site AuditではJavaScriptのリンクを見つけて、リンク先のサイトのコンテンツまで追跡します。お客様がしなければならないことはキャンペーンを再実行して、ウェブサイトからサイトマップにクロールソースを変更することだけです。詳細については、弊社のニュースリリースをご覧ください。

AJAXクローリングを使用すると、JavaScript要素があるページを探し出し、それらのページのHTMLをクロールし、パフォーマンスチェックでJSおよびCSS要素のサイズを測定することができます。

AMPを診断する

"Crawl AMP pages first"チェックボックスを使用すると、診断でAMPページをクロールして最も重要なAMP実装に関連した問題を確実にチェックします。今のところ、AMPはBusinessプランのお客様のみ使用可能です。

これらの設定の構成後、Site Auditを実行できるようになります。ただし、マスクを追加したり、パラメーターを削除したり、スケジュールを設定したい場合には、以下のアドバンス設定と構成のインストラクションに従ってください。 

アドバンス設定と構成

※構成の次の4つのステップはアドバンス設定およびオプションです。

Step 2:クローラーの設定

ここでは、サイトをクロールさせたいユーザーエージェントを選択することができます。最初に、SemrushBotまたはGoogleBotのいずれかのモバイルまたはデスクトップバージョンを選択することによって、診断のためのユーザーエージェントを設定します。

Site Auditの構成 image 3ユーザーエージェントを変更すると、変更の下のダイアログにコードも表示されます。これはユーザーエージェントのコードで、ユーザーエージェントをお客様自身でテストした場合に、カールで使用することができます。

クロール遅延オプション

次に、クロール遅延の設定には、最小遅延、リスペクトrobots.txt、および2秒ごとに1つのURLの3つのオプションがあります。

チェックするページ間を最小遅延のままにすると、botは通常レートでウェブサイトをクロールします。デフォルトでは、SemrushBotは1秒程度待機してから別のページのクロールを開始します。

サイトにrobots.txtファイルがあり、クロール遅延を指定している場合には、"respect robots.txt crawl-delay"オプションを選択してSite Auditクローラーが指示された遅延に従うようにすることができます。

以下は、robots.txtファイル内でのクロール遅延がどのように表示されるかを示しています。

Crawl-delay: 20

クローラーがウェブサイトの読み込みを遅くしたり、robots.txtファイルにクロール遅延の指令がない場合、Semrushに2秒ごとに1つのURLをクロールするように通知させることができます。これによって診断の完了までより時間がかかる場合がありますが、ウェブサイトを訪れるユーザーにとって影響が大きい、閲覧速度が遅くなる可能性が診断中でも少なくなります。

Step 3:URLの許可/不許可

このオプションによって、ウェブサイト内で選択したサブフォルダをクロールしたり、またはブロックしたりすることもできます。TLD(トップレベルドメイン)の後、URL内にすべてを含めたいと思うはずです。例えば、 サブフォルダ「http://www.example.com/shoes/mens/」をクロールしたい場合、左の許可ボックスに「/shoes/mens/」と入力したいと思うはずです。

Site Auditの構成 image 4特定のサブフォルダのクロールを回避するには、不許可ボックスにサブフォルダのパスを入力する必要があります。例えば、男性用の靴カテゴリーはクロールするだけですが、男性用の靴カテゴリー内のハイキングブーツサブカテゴリー(「https://example.com/shoes/mens/hiking-boots/」)を回避する場合は、不許可ボックスに「/shoes/mens/hiking-boots/」と入力します。

Site Auditの構成 image 5不許可ボックスの最後で「/」の入力を忘れた場合(例えば、/shoes)は、Semrushでは/shoes/サブフォルダのすべてのページのほか、/shoesで始まるすべてのURL(www.example.com/shoes-menなど)もスキップします。

Step 4:URLパラメーターを削除する

URLパラメーター(クエリストリングとも呼ばれる)は階層パス構造に適合しないURLの要素です。その代わりに、それらはURLの最後に追加されウェブブラウザーに論理的指示を与えます。

URLパラメーターは常に、「?」の後にパラメーター名(page、utm_mediumなど)および「=」から構成されます。

そのため、「?page=3」は単一のURLでスクロールする3番目のページを示す簡単なURLパラメーターです。

Site Audit構成の4番目のステップでは、クローリング中にURLから削除するため、ウェブサイトが使用するすべてのURLパラメーターを指定することができます。これによってSemrushは診断で同じページを2度クロールすることを回避することができます。botが2つのURLを認識し、その一方にはパラメーターがあり、もう一方にはない場合、両方のページをクロールするので結果としてクロール予算を浪費する場合があります。

Site Auditの構成 image 6例えば、「page」をこのボックスに入力した場合、これはURLの拡張子で「page」を含むすべてのURLを削除します。これは、「?page=1」、「?page=2」などの値を持つURLのはずです。そのため、これによりクローリングプロセスで同じページを2度(例えば、「/shoes」と「/shoes/?page=1」の両方を1つのURLとして)クロールすることを回避します。

URLパラメーターを共通して使用する場合は、ページ、言語、およびサブカテゴリーが含まれます。これらのタイプのパラメーターは、製品または情報の大きなカタログのあるウェブサイトでは有用です。別の共通のURLパラメータータイプはUTMで、これはマーケティングキャンペーンからのクリックおよびトラフィックのトラッキングに使用されます。

Google Search Consoleから、ウェブサイトのパラメーターの正確なリストが取得できます。左側のメニューには、「Crawl - URL Parameters」があります。Google Search Consoleにあるお客様のウェブサイトのURLパラメーターリストに誘導するウィンドウの「How it Works」パラグラフの下にリンクもあります。

既にプロジェクトを設定していて設定を変更したい場合には、次の設定ギアを使用します。

Site Auditの構成 image 7「Masks」および「Removed Parameters」オプションを選択する場合も、上のリスト表示されたものと同じ指示に従います。

Step 5: スケジュール

最後に、どのくらいの頻度でウェブサイトの自動診断をしたいかを選択します。オプションは次のとおりです。

  • 週ごと(週の任意の曜日を選択する)
  • 毎日
  • 一度

いつでも、診断を再実行することができます。

Site Auditの構成 image 8目的の設定がすべて完了したあと、「Start Site Audit」を選択します。

ドメインの診断に失敗しました」というダイアログが出た場合、Site Auditクローラーがサーバーでブロックされていないかをチェックしたいと思うはずです。クローラーには、「46.229.173.67」のIPアドレスがあります。次に、失敗したクロールの発生時に生成されるログファイルをダウンロードし、ログファイルをウェブマスターに提供します。それによって、状態が分析され、クローリングがブロックされた理由が明確になります。

Google AnalyticsとSite Auditを接続する

セットアップウィザードの完了後、Google Analyticsに接続して、トップビューページに関係する問題を確認できます。 

Site Auditを実行しても問題が引き続き起こる場合には、弊社のサポートチームにお問い合わせください。サポートが必要な場合は、いつでもご用命ください。