ウェブサイト検索

Google 検索から WordPress コンテンツを除外する方法


場合によっては、特定の WordPress コンテンツやファイルを Google 検索結果のインデックスから除外する必要があります。 Google やその他の検索エンジンが登場するまで、インデックスまたは「インデックス作成」という言葉は主に書籍に関連する言葉でした。通常、ほとんどの本の巻末に記載されており、ケンブリッジ辞典がこの文脈で次のように定義しているのはこのためです。

インデックス: 主題や名前などがどのページにあるかを示す本の後ろに印刷されているようなアルファベット順のリスト。

1995 年に遡ると、インターネット ブームの時代には Yahoo 検索エンジンのようなサービスが登場し、1997 年には Google 検索によってインターネット上の情報の検索方法やアクセス方法が劇的に変わりました。

2018 年 1 月に行われた調査によると、インターネット上には 1,805,260,010 (18 億以上) の Web サイトが存在しますが、これらの Web サイトの多くにはまったく訪問者がいません。

Google インデックスとは何ですか?

インデックス作成形式が異なるさまざまな検索エンジンがありますが、人気のある検索エンジンには、Google、Bing、プライバシーを重視する人向けには、duckduckgo などがあります。

Google のインデックス作成とは、一般に、ドキュメント、ビデオ、画像などのデジタル コンテンツを含む新しい Web ページを追加し、それらをデータベースに保存するプロセスを指します。つまり、サイトのコンテンツが Google 検索結果に表示されるためには、まずコンテンツが Google インデックスに保存される必要があります。

Google は、インターネット上のさまざまな Web サイトを繰り返しクロールするスパイダー、クローラー、またはボットを使用して、これらすべてのデジタル ページとコンテンツにインデックスを付けることができます。これらのボットとクローラーは、何をクロールするか、またクロール中に何を無視すべきかについての Web サイト所有者の指示に従います。

Web サイトにインデックスを付ける必要があるのはなぜですか?

デジタル時代のこの時代では、何十億もの Web サイトをナビゲートして特定のトピックやコンテンツを見つけることはほとんど不可能です。どのサイトが信頼できるか、どのコンテンツが有益で私たちにとって関連性があるかを示すツールがあれば、はるかに簡単になります。だからこそ Google は存在し、検索結果でウェブサイトをランク付けします。

インデックス作成は、検索エンジン全般、特に Google の動作に不可欠な部分になります。ページを最もよく表す単語や表現を特定するのに役立ち、全体としてページと Web サイトのランキングに貢献します。 Google の最初のページに Web サイトを表示するには、Web ページやビデオ、画像、ドキュメントなどのデジタル ファイルを含めて、まずインデックスを作成する必要があります。

インデックス作成は、Web サイトが検索エンジン全般、特に Google で上位にランクされるための前提条件です。キーワードを使用すると、検索エンジンによってインデックスが作成されランク付けされた後、サイトがより見やすく、発見されやすくなります。これにより、Web サイトやビジネスにより多くの訪問者、購読者、潜在顧客への扉が開かれます。

死体を隠すのに最適な場所は Google の 2 ページ目です。

インデックスされたページがたくさんあるからといって自動的にサイトのランクが上がるわけではありませんが、それらのページのコンテンツも高品質であれば、SEO の観点から向上する可能性があります。

検索エンジンによるコンテンツのインデックス作成をブロックする理由と方法

インデックス作成は Web サイトやビジネスの所有者にとっては便利ですが、検索結果に表示したくないページもあります。機密ファイルやコンテンツをインターネット上に公開する危険性もあります。パスワードや認証がなければ、ボットが Web サイトのフォルダーやファイルを自由に操作できるようになると、プライベート コンテンツが公開されたり、不正アクセスされたりする危険にさらされます。

2000 年代初頭、ハッカーは Google 検索を使用して、簡単な検索クエリで Web サイトのクレジット カード情報を表示しました。このセキュリティ上の欠陥は、電子商取引 Web サイトからカード情報を盗むために多くのハッカーによって悪用されました。

昨年、人気のクラウド ストレージ システムである box.com で別の最近のセキュリティ上の欠陥が発生しました。このセキュリティ ホールは、Swisscom の脅威インテリジェンス マネージャーである Markus Neis によって暴露されました。同氏は、GoogleやBingなどの検索エンジンの単純な悪用により、多くの企業や個人顧客の機密ファイルや情報が漏洩する可能性があると報告した。

このような事件はオンラインで実際に発生しており、事業主にとって売上や収入の損失を引き起こす可能性があります。企業、電子商取引、および会員制 Web サイトの場合、まず機密コンテンツやプライベート ファイルの検索インデックス作成をブロックし、おそらくそれらを適切なユーザー認証システムの背後に置くことが非常に重要です。

Google やその他の検索エンジンでクロールおよびインデックス登録できるコンテンツとファイルを制御する方法を見てみましょう。

1. 画像に Robots.txt を使用する

Robots.txt は、サイトのルートにあるファイルで、Google、Bing、その他の検索エンジンのボットに、クロールするものとクロールしないものに関する指示を提供します。 robots.txt は通常、クローリング トラフィックと Web (モバイル vs デスクトップ) クローラーを制御するために使用されますが、Google の検索結果に画像が表示されないようにするためにも使用される可能性があります。

通常の WordPress Web サイトの robots.txt ファイルは次のようになります。

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/

標準の robots.txt ファイルは、ユーザー エージェントの命令とアスタリスク記号で始まります。アスタリスクは、Web サイトに到着するすべてのボットに対する、その下に示されているすべての指示に従うようにという指示です。

Robot.txt を使用してボットを特定のデジタル ファイルから遠ざける

Robots.txt は、PDF、JPEG、MP4 などのデジタル ファイルの検索エンジンのクロールを停止するためにも使用できます。 PDF および JPEG ファイルの検索クロールをブロックするには、これを robots.txt ファイルに追加する必要があります。

PDFファイル

User-agent: *
Disallow: /pdfs/ # Block the /pdfs/directory.
Disallow: *.pdf$  # Block pdf files from all bots. Albeit non-standard, it works for major search engines.

画像

User-agent: Googlebot-Image
Disallow: /images/cats.jpg #Block cats.jpg image for Googlebot specifically.

JPEG や PNG などの他の画像形式を許可しながら、すべての .GIF 画像のインデックス作成と Google 画像検索での表示をブロックしたい場合は、次のルールを使用する必要があります。

User-agent: Googlebot-Image
Disallow: /*.gif$

重要: 上記のスニペットは、Google などのサードパーティ サイトによるインデックス作成からコンテンツを除外するだけです。誰かがどこを見るべきかを知っていれば、まだアクセスできます。ファイルを非公開にして誰もアクセスできないようにするには、これらのコンテンツ制限プラグインなどの別の方法を使用する必要があります。

Googlebot-Image を使用すると、画像および特定の画像拡張子が Google 画像検索に表示されるのをブロックできます。すべての Google 検索からそれらを除外したい場合。ウェブ検索や画像を使用する場合は、代わりに Googlebot ユーザー エージェントを使用することをお勧めします。

ウェブサイト上のさまざまな要素用の他の Google ユーザー エージェントには、ウェブ上の Google ビデオ セクションに適用されるビデオ用の Googlebot-Video が含まれます。同様に、Googlebot ユーザー エージェントを使用すると、Google ビデオ、ウェブ検索、モバイル ウェブ検索ですべてのビデオが表示されなくなります。

Robots.txt の使用は、次の制限があるため、機密ファイルや機密ファイルおよびコンテンツをブロックする適切な方法ではないことに注意してください。

  • Robots.txt は行儀の良いクローラーにのみ指示できます。他の非準拠の検索エンジンやボットは、その指示を単に無視する可能性があります。
  • Robots.txt は、サーバーがリクエストに応じてこれらのページやファイルを未承認のユーザーに送信することを阻止しません。
  • 他の Web サイトやソースからリンクされている場合でも、検索エンジンはブロックしたページやコンテンツを検索してインデックスに登録することができます。
  • Robots.txt は、提供されたすべての指示を読み、それらのコンテンツやファイルに直接アクセスできる誰でもアクセスできます。

検索インデックス作成をブロックし、個人情報をより効果的に保護するには、代わりに次の方法を使用してください。

2. ページのインデックスなしメタタグの使用

no-index メタ タグの使用は、Web サイト上の機密コンテンツの検索インデックス作成をブロックする適切かつ効果的な方法です。 robots.txt とは異なり、no-index メタ タグは、非常に単純な HTML タグを使用して Web ページの <head> セクションに配置されます。

<html>
<head>
<title>...</title>
<meta name="robots" content="noindex">
</head>

この指示がヘッダーにあるページは、Google の検索結果に表示されません。 nofollow や notranslate などの他のディレクティブも使用して、Web クローラーにリンクをクロールしないよう指示し、それぞれそのページの翻訳を提供することもできます。

次のように、ページ上で複数のメタ タグを使用して、複数のクローラに指示できます。

<html>
<head>
<title>...</title>
<meta name="googlebot" content="nofollow">
<meta name="googlebot-news" content="nosnippet">
</head>

このコードを Web サイトに追加するには 2 つの方法があります。最初のオプションは、WordPress の子テーマを作成することです。その後、functions.php で WordPress の wp_head アクション フックを使用して、noindex またはその他のメタ タグを挿入できます。以下は、ログイン ページに noindex を設定する方法の例です。

add_action( 'wp_head', function() {
    if ( is_page( 'login' ) ) {
        echo '<meta name="robots" content="noindex">';
    }
} );

2 番目のオプションは、SEO プラグインを使用してページの可視性を制御することです。たとえば、Yoast SEO を使用すると、ページの詳細設定セクションに移動し、検索エンジンによるページの表示を許可するオプションで「いいえ」を選択するだけで済みます。

3. 他のファイルに X-Robots-Tag HTTP ヘッダーを使用する

X-Robots-Tag を使用すると、コンテンツやファイルの検索インデックス作成をより柔軟にブロックできます。特に、インデックスなしメタ タグと比較すると、任意の URL の HTTP ヘッダー応答として使用できます。たとえば、robots メタ タグを使用できない画像、ビデオ、ドキュメント ファイルに X-Robots-Tag を使用できます。

Google の完全なロボット メタ タグ ガイドを読むことができますが、HTTP 応答の X-Robots-Tag を使用して JPEG 画像を追跡したりインデックス付けしたりしないようにクローラーに指示する方法は次のとおりです。

HTTP/1.1 200 OK
Content-type: image/jpeg
Date: Sat, 27 Nov 2018 01:02:09 GMT
(…)
X-Robots-Tag: noindex, nofollow
(…)

robots メタ タグで使用できるディレクティブはすべて、X-Robots-Tag にも適用できます。同様に、複数の検索エンジン ボットに指示することもできます。

HTTP/1.1 200 OK
Date: Tue, 21 Sep 2018 21:09:19 GMT
(…)
X-Robots-Tag: googlebot: nofollow
X-Robots-Tag: bingbot: noindex
X-Robots-Tag: otherbot: noindex, nofollow
(…)

検索エンジンのボットは、クロール プロセス中に Robots メタ タグと X-Robots-Tag HTTP ヘッダーを検出することに注意することが重要です。したがって、これらのボットに、機密コンテンツやドキュメントをフォローしない、またはインデックスを作成しないという指示に従ってもらいたい場合は、これらのページとファイルの URL のクロールを停止してはなりません。

robots.txt ファイルを使用してクロールがブロックされている場合、インデックス作成に関する指示は読み取られないため、無視されます。その結果、他の Web サイトがあなたのコンテンツやドキュメントにリンクしている場合でも、Google や他の検索エンジンによってインデックスが作成されます。

4. Apache サーバーの .htaccess ルールの使用

また、X-Robots-Tag HTTP ヘッダーを .htaccess ファイルに追加して、Apache サーバーでホストされている Web サイトのページやデジタル コンテンツのインデックス作成をクローラーがブロックすることもできます。インデックスなしのメタ タグとは異なり、.htaccess ルールは Web サイト全体または特定のフォルダーに適用できます。正規表現のサポートにより、複数のファイル タイプを一度にターゲットにする柔軟性がさらに高まります。

Googlebot、Bing、Baidu による Web サイトまたは特別なディレクトリのクロールをブロックするには、次のルールを使用します。

RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} (googlebot|bingbot|Baiduspider) [NC]
RewriteRule .* - [R=403,L]

Web サイト全体ですべての .txt、.jpg、.jpeg、.pdf ファイルの検索インデックス作成をブロックするには、次のスニペットを追加します。

<Files ~ "\.(txt|jpg|jpeg|pdf)$">
Header set X-Robots-Tag "noindex, nofollow"
</FilesMatch>

5. ユーザー名とパスワードによるページ認証の使用

上記の方法を使用すると、非公開のコンテンツやドキュメントが Google の検索結果に表示されなくなります。ただし、リンクを知っているユーザーはコンテンツにアクセスし、ファイルに直接アクセスできます。セキュリティのため、ユーザー名とパスワード、およびロールのアクセス許可を使用して適切な認証を設定することを強くお勧めします。

たとえば、スタッフの個人プロフィールや匿名ユーザーがアクセスしてはならない機密文書を含むページは、認証ゲートの後ろに押し込む必要があります。そのため、ユーザーがなんとかページを見つけたとしても、コンテンツをチェックアウトする前に資格情報の入力を求められます。

WordPress でこれを行うには、投稿の公開設定をパスワードで保護するように設定するだけです。これにより、そのページのコンテンツを表示するために必要なパスワードを選択できます。これは投稿/ページごとに行うのが非常に簡単です。サイトのプライバシーをより包括的にするには、これらの WordPress メンバーシップ プラグインのいずれかをウェブサイトに追加してみてください。

パスワードで保護されたページや検索エンジンや訪問者から隠されたページは、そのコンテンツに添付されているドキュメント、ビデオ、画像を必ずしも保護するとは限らないことに注意してください。 WordPress ファイルのアップロードを実際に保護するには、Prevent Direct Access Gold などのプレミアム サービスを強くお勧めします。

結論

Google の 1 ページ目に入る競争において、ビジネス オーナーは検索エンジンが何を認識できるかを考慮していない可能性があります。特定のファイルからのボットをブロックする場合でも、カスタム ログイン ページを非表示にする場合でも、プライベート ユーザー ディレクトリをパスワードで保護する場合でも…検索エンジンに関しては、インデックスを作成しないことを検討すべきページがたくさんあります。

検索結果からコンテンツを除外することについて質問はありますか?それとも、特定のファイルの Bing インデックス作成を妨げていますか?以下にコメントを残してください。

WordPress の脆弱性からプロアクティブに保護する

WooCommerce ストアを詐欺から守る方法

2FA ユーザーエクスペリエンスを向上させる方法

最新のニュース、チュートリアル、ガイド、ヒント、お得な情報が受信箱に届きます。

3 コメント

  1. インドゥ

    ログインに基づいてユーザーへのアクセスを制限しながら、WordPress のナレッジベースを使用しました。

    私のページはすべてクロールされますか? Googleボットはどのようにランク付けされるのでしょうか?

    • カイラ

      ボットは通常のユーザーと同じようにページを使用するため、制限されたページはボットによってクロールされるべきではありません。これは、ログイン ページにはインデックスを付けることができますが、実際の制限されたコンテンツにはインデックスを作成できないことを意味します。これを防ぐには、通常、「noindex」タグでボットをブロックすることをお勧めします。ページごとにこのオプションを含む Yoast Premium などの SEO プラグインを使用することをお勧めします。

  2. ライアン

    とても助かりました、ありがとう。 Yoast SEO で検索エンジンを禁止するように設定する場所が見つかりませんでした。

返信を残す 返信をキャンセル

あなたのメール アドレスは公開されません。 必須フィールドには * マークが付いています。