Robots.txt
robots.txtは、ウェブサイトのルートディレクトリに配置されるテキストファイルで、検索エンジンのクローラーがどのページやファイルをリクエストすることを許可または禁止するかを指示します。これは、ボットがサイトのインフラストラクチャとどのように対話するかを制御するための最初の防御線であり、クロールバジェットの最適化に役立ちます。
ボットを最も重要なコンテンツに誘導する
Googleはあなたのサイトに限定された「クロールバジェット」を割り当てます。これは、ボットが1日にクロールするページ数です。ボットが管理パネル、重複する印刷用ページ、またはカート/チェックアウトURLのクロールに時間を浪費すると、貴重な翻訳された商品ページを見逃す可能性があります。robots.txtはボットに「/admin/に時間を浪費せず、代わりに/en/、/fr/、/de/に集中してください」と指示します。国際的なサイトの場合、言語の自動検出リダイレクトページ、APIエンドポイント、インデックス作成する必要のない技術的なURLのクロールを禁止する必要があります。ただし、言語ディレクトリを誤ってブロックしないでください。これは国際SEOをすべて台無しにする壊滅的な間違いです。
クロールアクセスを許可することと禁止すること
現実世界への影響
サイトにはrobots.txtがなく、ボットが10,000件のカートURLをクロールします
クロール予算の無駄遣い、商品ページが遅くクロールされる
新製品が検索に表示されるまでに数週間かかります
robots.txtを追加:Disallow /cart/, /checkout/, /api/
ボットは製品ページと言語ページに100%集中します
新製品は24時間以内にインデックス登録されます