コンテンツにスキップ

3

ウェブクローラーとは?

ウェブサイトが検索結果に表示されるためには、Google(およびBing、Yandex、Baidu、Naver、Yahoo、DuckDuckGoなどの他の検索エンジン)はウェブクローラーを使用してウェブサイトを巡回し、ウェブサイトとそのウェブページを発見します。

各検索エンジンは、国ごとに異なる市場シェアを持っています。

このガイドでは、ほとんどの国で最大の検索エンジンであるGoogleについて説明します。とはいえ、特にターゲット顧客が中国ロシア日本、または韓国にいる場合は、他の検索エンジンとそのガイドラインも確認することをお勧めします。

ランキングとレンダリングにはいくつかの違いがありますが、クロールとインデックス作成に関しては、ほとんどの検索エンジンは非常に似た方法で機能します。

ウェブクローラーは、ユーザーをエミュレートし、ウェブサイト上のリンクをたどってページをインデックス化するボットの一種です。ウェブクローラーは、カスタムのユーザーエージェントを使用して自身を識別します。Googleにはいくつかのウェブクローラーがありますが、より頻繁に使用されるのは**Googlebotデスクトップ**と**Googlebotスマートフォン**です。

Googlebotはどのように機能しますか?

Googlebot Flow Chart
Googlebotがウェブページをインデックス化する旅

プロセスの一般的な概要は次のとおりです。

  • URLの検索:Googleは、Google Search Console、ウェブサイト間のリンク、またはXMLサイトマップなど、多くの場所からURLを取得します。
  • クロールキューに追加:これらのURLは、Googlebotが処理するためのクロールキューに追加されます。クロールキュー内のURLは通常数秒で処理されますが、特にページをレンダリング、インデックス化する必要がある場合、またはURLが既にインデックス化されている場合は更新が必要な場合、数日かかることもあります。その後、ページはレンダークイューに入ります。
  • HTTPリクエスト:クローラーはHTTPリクエストを行ってヘッダーを取得し、返されたステータスコードに従って処理します。
    • 200:HTMLをクロールして解析します。
    • 30X:リダイレクトを追跡します。
    • 40X:エラーを記録し、HTMLをロードしません。
    • 50X:後でステータスコードが変更されたかどうかを確認するために戻ってくる可能性があります。
  • レンダークイュー:検索システムのさまざまなサービスとコンポーネントがHTMLを処理し、コンテンツを解析します。ページにJavaScriptクライアントサイドベースのコンテンツが含まれている場合、URLはレンダークイューに追加されることがあります。レンダークイューは、JavaScriptのレンダリングにより多くのリソースが必要となるため、Googleにとってコストが高く、レンダリングされるURLはインターネット上の全ページのうちごく一部です。他の検索エンジンでは、Googleと同じレンダリング能力を持っていない場合があり、ここでNext.jsはレンダリング戦略を支援できます。
  • インデックス作成の準備完了:すべての基準が満たされた場合、ページはインデックス化され、検索結果に表示される資格を得ることができます。

次のセクションでは、検索システムのメインコンポーネントであるクロールとインデックス、およびレンダリングとランキングについて詳しく説明します。

さらに読む

チャプターを完了しました。3

次へ

4:クロールとインデックス