これらの要因を確認し、該当する設定がある場合は適切に変更することで、クローラーが読み込むようになる可能性があります。
robots.txt ファイルの設定
既に確認したように、robots.txt
ファイルが存在し、クローラーに対してアクセスを許可または拒否する指示を含んでいる場合があります。もしディレクトリが Disallow
されている場合、クローラーはそのディレクトリ以下のコンテンツにアクセスしません。
メタタグの使用
HTMLの <meta>
タグを使用して、クローラーに対して特定のページやリソースへのアクセスを制御することがあります。例えば、以下のように meta
タグを使ってクローラーに対してインデックスを禁止することができます。
<meta name="robots" content="noindex, nofollow">
HTTPステータスコード
クローラーは通常、HTTPステータスコードを確認し、一部のコード(例: 404 Not Found)が返されると、そのページをクロールしないことがあります。
JavaScriptの使用
クローラーがJavaScriptを処理できない場合、JavaScriptによって動的に生成されたコンテンツはクロールされません。クローラーがJavaScriptをサポートしていないか、JavaScriptを無視している可能性があります。
リダイレクト
ページがリダイレクトされている場合、クローラーがリダイレクト先のページをクロールできるように設定されているか確認してくだ
さい。
HTTPステータスコードの確認方法
chromeの場合、デベロッパーツールを開き、「Network」タブを選択、開いているサイトをリロード(更新)し、サイトドメインのステータスを確認ステータスが「200 OK」と出力されていれば、HTTPステータスは問題ない。