重複コンテンツとは?チェックする方法や対処法を詳しく紹介
SEO対策において重複コンテンツをチェックし、解消することは利便性や評価の向上のために必要です。しかし、重複によってサイトにどのような影響が出るのか、チェックや対処する方法はあるのかなどがわからない方もいるでしょう。
そこで、この記事では重複コンテンツの概要からサイトに与える影響、チェックや対処法までをご紹介しますので、ぜひご参考にしてください。
重複コンテンツとは
重複コンテンツとは、異なるURLのページで内容がすべて同じ、または非常によく似ているコンテンツのことです。重複コンテンツには、自サイト内のコンテンツ同士が重複する場合と、自サイトのコンテンツが他サイトのものと重複してしまう場合の2種類があります。
特に、後者においてコンテンツの内容が他サイトから複製されたものだった場合、Googleでは「無断複製されたコンテンツ」としてペナルティの対象となります。
重複コンテンツと似た言葉には「コピーコンテンツ」がありますが、それぞれで使われ方が少し異なります。次に、コピーコンテンツとの違いをご紹介します。
コピーコンテンツとの違い
重複コンテンツの類義語としてコピーコンテンツという言葉もよく使われます。これらに明確な定義があるわけではありませんが、日常では以下のような意味合いで使われることが多いです。
- 重複コンテンツ:自サイト内または他サイトとコンテンツ内容が重複したとき
- コピーコンテンツ:自サイトのコンテンツが他サイトに無断転載されたとき
次に、重複コンテンツが発生する例を自サイトと他サイトに分けてご紹介します。o b
自サイト内で発生する例
自サイト内でコンテンツの重複が発生する例としては以下があげられます。
- URLの「www」の有無や「http・https」などが統一されていない
- パラメータやセッションIDといった動的なURLを使用している
- 同じコンテンツでもPC向けとモバイル向けでURLを分けている
これらによって、同じコンテンツが異なるURLで複数存在している状態になるため、自サイト内のコンテンツが重複してしまいます。canonicalや301リダイレクトを適切に設定して、重複が発生しないように対策する必要があるでしょう。
他サイトとの間で発生する例
自サイトと他サイトのコンテンツが重複する例としては以下があげられます。
- 自サイトのコンテンツをそのまま他サイトに寄稿している
- 自サイトのコンテンツが他サイトで無断転載されている
- 引用タグの使用や引用元の記載をせずに他サイトの情報を転載している
- 他サイトのコンテンツに若干の変更のみを行って自サイトに記載している
上記に当てはまる場合は、他サイトとの重複コンテンツと判断される可能性が高くなります。記事作成において他サイトを参考にした際に文章が酷似してしまったり、コピーして作成しようとしたりするケースがありますが、先述したようにGoogleに無断複製と判断されるとペナルティを受ける恐れがあるため避けたほうがよいでしょう。
また、参考サイトと似ないように気をつけていても、意図せず参考サイトとは別のサイトと言い回しや表現が酷似してしまっていることもあるため、記事作成後にコピペチェックを行うことも大切です。
ここまでで、重複コンテンツが発生する例をお伝えしましたが、Googleでは重複コンテンツをどのように定義していて、重複コンテンツと判断される基準はあるのでしょうか。次では、Googleにおける重複コンテンツの定義や判断基準をご紹介します。
Googleにおける重複コンテンツの定義
Googleでは、重複コンテンツを以下のように定義しており、これに当てはまる場合は重複と見なされる可能性があります。
実質的に同じページ コンテンツを表示する複数の URL が同じサイト内で検出された場合、Google はそれらの URL を重複と見なします。たとえば、サイト上の 1 つの URL でサイズ別にグループ化されたドレスのリストが表示され、同じサイトの別の URL で色別にグループ化された同じドレスが表示され、3 つ目の URL がモバイル デバイス向けに最適化された同じリストである場合です。
Googleでも複数のURLでページ内容などが同じである場合は重複コンテンツと見なしているため、自サイト・他サイトとの重複が発生しないように気をつけましょう。
重複コンテンツと判断される基準
Googleでも重複コンテンツが定義されていますが、具体的にコンテンツがどれくらいの割合で重複していると重複コンテンツと見なされるのかといった明確な指標があるわけではありません。
ただし、コピペチェックツールでは、以下の基準で重複コンテンツの可能性が区別されています。
- 60%以上:重複コンテンツと判断される
- 30~60%:重複コンテンツと判断される可能性がある
- 30%未満:重複コンテンツとは判断されにくい
また、実際の上位ページでも商品やサービス紹介で同じ文章を各ページに使用するなどで重複は発生しているため、目安としてページの30%程度までなら重複していても問題ないといえるでしょう。
ここまでで、重複コンテンツの概要をお伝えしました。次に、重複コンテンツがサイトに与える影響をご紹介します。
重複コンテンツがサイトに与える影響
重複コンテンツがあると、評価の分散や低下を招いたり、クローラーに巡回されにくくなったりするなどの影響が出ます。ここでは、それらの影響について詳しくご紹介します。
評価の分散や低下を招く恐れがある
自サイト内に重複したコンテンツがあると、「カニバリゼーション」という現象が起き、同じキーワードで2つ以上の記事が競合してしまう恐れがあります。これにより、Googleはどちらの記事を評価すべきか判断するのが難しくなり、ページの評価の分散や低下を招いて上位を獲得できなくなる可能性があります。
また、被リンクが張られるときにも2つのページで被リンクが分散してしまう恐れがあるため、ページは統一するとよいでしょう。
クローラーに巡回されにくくなる
Googleでは、クローラーがページの情報を取得し、アルゴリズムによって評価したものが検索結果に反映されますが、クローラーには「クロール バジェット」という1つのサイトに対してクロールできるページの上限数が決められています。
そのため、サイト内に重複コンテンツがあると、そのページの数だけ余計にクロール バジェットを費やすことになり、ほかのクロールされるべきページまで巡回されなくなってしまいます。これにより、コンテンツの投稿や更新を行っても、検索結果に反映されるまでに時間がかかり、最新性の低下にもつながる恐れがあります。
ペナルティを受ける恐れがある
先述したように、Googleでは他サイトの内容と酷似しているコンテンツを「無断複製されたコンテンツ」としてペナルティの対象とすることがあります。意図的かどうかにかかわらず、他サイトのコピーと判断されるようなコンテンツはペナルティの対象となるため、コピペチェックツールなどを活用して重複が起きないように注意が必要です。
ペナルティを受けると順位が大幅に低下したり、インデックスから削除されたりする恐れがあるため、事前に対象となりそうなページを見つけて内容の変更や削除などを行うとよいでしょう。
このように、重複コンテンツによってさまざまな影響が出る恐れがあるため、重複コンテンツがないかチェックする必要があります。次に、その方法について詳しくご紹介します。
重複コンテンツをチェックする方法
重複コンテンツが発生していないかをチェックする方法としては、Google Search Consoleや重複コンテンツチェックツールを使用するなどがあげられます。ここでは、それらのチェック方法をご紹介します。Google Search Consoleを使用する
Google Search Consoleでは、自サイト内での重複コンテンツの有無や手動ペナルティを受けているかどうかを確認できます。
重複コンテンツがあるか確認する際は、Google Search Consoleの画面左にあるサイドバーから「インデックス作成」>「ページ」を選択します。そこで、画面下部の「ページがインデックスに登録されなかった理由」の中に「重複しています。ユーザーにより、正規ページとして選択されていません」という項目があれば重複があると判断できます。その項目をクリックすることで、どのページが重複しているのかを見ることも可能です。
また、手動ペナルティを受けているか確認する際は、サイドバーから「セキュリティと手動による対策」>「手動による対策」を選択します。そこで、「問題は検出されませんでした」と表記されていればペナルティを受けていないと判断できるでしょう。
重複コンテンツチェックツールを使用する
重複コンテンツをチェックする際にWeb上で提供されている無料ツールを使う方法もあります。主な重複コンテンツのチェックツールには以下があげられます。
- sujiko.jp:2つのページURLを入力することで、そのページ同士がどのくらい重複しているのかを調べられる
- CopyContentDetector:ツール内のテキストボックスに対象のテキストを入力することで、そのテキストがWeb上にあるコンテンツと重複していないかを調べられる
これらのツールを活用することで、ペナルティを受ける前に重複コンテンツを見つけることも可能になります。
検索順位チェックツールで分析する
Google Search ConsoleやGRCなどの検索順位を確認できるツールを使うことで、重複コンテンツによってカニバリゼーションが起きていないかをチェックできます。具体的には、これらのツールで特定のキーワードを検索し、そのキーワードで複数のページがランクインしている場合は重複コンテンツの可能性があるといえます。
ただし、必ずしも重複であるとはいえないため、ほかのチェック方法も併用して調べることが大切です。
URLにパラメータをつけて検索する
URLにパラメータをつける方法でも重複コンテンツのチェックが可能です。方法としては、Goolgeで重複コンテンツが疑われるキーワードで検索し、検索結果が表示されているURLの末尾にパラメータである「&filter=0」をつけて再度検索します。
その検索結果で、&filter=0をつける前の検索結果にはなかったページが表示された場合は、そのページが重複コンテンツである可能性があります。
これらのチェック方法で重複コンテンツが見つかった場合は、重複を解消するために対処する必要があります。次では、その対処法について詳しくご紹介します。
重複コンテンツが見つかった場合の対処法
重複コンテンツが見つかった場合は、URLの正規化やnoindexの使用など、さまざまな対処法があります。ここでは、それらの対処法についてご紹介します。
URLを正規化する
URLの正規化とは、1つのページを複数のURLで表示できる場合、それらのURLを1つに統一することです。
Googleでは、URLが複数になってしまう原因として以下の項目をあげています。
地域の違い: たとえば、米国と英国向けのコンテンツは異なる URL からアクセスできるが、実質的には同じ言語の同じコンテンツである場合
デバイスの違い: たとえば、1 つのページにモバイル版と PC 版がある場合
プロトコルの違い: たとえば、1 つのサイトに HTTP バージョンと HTTPS バージョンがある場合
サイトの機能: たとえば、カテゴリページの並び替え機能やフィルタ機能で結果が生成される場合
意図的でないバリエーション: たとえば、クローラーがアクセスできる状態のままサイトのデモ版が残っている場合
これらによって異なるURLから同じページを表示できる状態になっていると、ユーザーの利便性が低下したり、正しいページがどれかといった混乱を招いてしまったりする恐れがあります。そのため、次でご紹介する301リダイレクトやcanonical・alternateによってURLを正規化しましょう。
301リダイレクトで正規のURLに転送する
301リダイレクトとは、アクセスしたURLとは別のURLに恒久的に転送するための手法です。これを行うことで、複数のURLで同一のページがある場合でも1つのURLにユーザーを転送できるようになり、検索エンジンにもリダイレクト先のページが正規のURLであると伝えられます。
設定する際、WordPressであればプラグインを利用することで簡単に設定できますが、そうではない場合は「.htaccess」ファイルで設定する必要があります。記述を間違えるとリダイレクトエラーが発生する恐れがあるため、慎重に設定を行いましょう。
canonicalで正規のURLを検索エンジンに伝える
canonical(カノニカル)とは、複数のURLで同一のページがある場合に、どのURLを評価してほしいのかを検索エンジンに伝える値のことです。これにより、重複コンテンツがある場合でも正規のURLを優先して評価対象にしてもらえるため、重複によって評価が分散してしまうのを避けられます。
設定する際は、<head>タグの中で以下のように記述します。
<link rel="canonical" href="正規化するURL">
canonicalを1ページの中で複数記述してしまうと検索エンジンが正常に処理できなくなるため、必ず1ページに1つだけ<head>タグの中に記述するようにしましょう。
alternateでデバイスごとに異なるURLを正規化する
alternate(オルタネイト)とは、PC向けとモバイル向けでページURLが異なる場合や、ページの多言語化によって言語ごとにページのURLが異なる場合などに、これらのページの存在を検索エンジンに伝える値のことです。
alternateを設定する際は、先述したcanonicalと併用してURLの正規化を行います。
例えば、PC向けとモバイル向けでURLを分けている場合には、PC用のページの<head>タグ内で以下のように記述します。
<link rel="alternate" media="only screen and (max-width: 640px)" href="モバイル用のページURL">
同じ内容で異なるURLを持つモバイル用のページでは、<head>タグ内で以下のようにcanonicalを記述します。
<link rel="canonical" href="PC用のページURL">
これを行うことで、モバイル用ページの存在を検索エンジンに伝えられ、PC用を正規のURLとして評価対象にすることが可能になります。
noindexを使用する
noindexとは、特定のページをインデックス登録しないよう検索エンジンに伝えるメタタグの値のことです。1つのページでURLが複数ある場合、正規のURL以外はnoindexを設定することで、インデックスに登録されなくなるため重複コンテンツが発生するのを防げます。
noindexが正しく設定されていると、Google Search Consoleで対象のページが「noindexタグによって除外されました」と表示されるようになります。重複コンテンツ以外にも検索結果に表示したくないページなどでnoindexが使われるため、活用するとよいでしょう。
検索エンジンに対してインデックス登録されたくないページを伝えられる手法としては、noindexのほかにもrobots.txtがあげられます。ただし、robots.txtの使用はGoogleから推奨されていません。次に、なぜrobots.txtの使用は推奨されないのかについて詳しくご紹介します。
robots.txtの使用は推奨されない
robots.txtとは、検索エンジンのクローラーにサイト内でアクセス可能なURLを伝えるためのファイルです。このファイルを設定することで、noindexのように同一ページに設定されている複数のURLがインデックス登録されるのを防げるため、重複コンテンツの解消も可能です。
ただし、noindexは巡回してきたクローラーにインデックス登録をしないように伝えるのに対し、robots.txtはクローラーが訪れること自体を拒否する仕様となっており、Googleはインデックス登録や検索結果への表示を防ぐ目的でrobots.txtを使用するのを推奨していません。
Googleでは、robots.txtについて以下のように公表しています。
これは主に、サイトでのリクエストのオーバーロードを避けるために使用するもので、Google にウェブページが表示されないようにするためのメカニズムではありません。Google にウェブページが表示されないようにするには、noindex を使用してインデックス登録をブロックするか、パスワードでページを保護します。
このように、ページのインデックスを防ぐにはnoindexの使用が推奨されているため、robots.txtは使用しないようにしましょう。
ページを削除またはリライトする
モバイル向けや多言語対応といった役割がなく、ただコンテンツが重複してしまっている場合は正規ではないURLのページを削除するのも有効です。削除の際は、コンテンツを非公開または削除するだけでなく、Google Search Consoleから対象ページのインデックスを削除する申請も行いましょう。被リンクがついていると削除した際にSEOの評価が下がってしまうため、削除対象のページに被リンクがないかも確認することが大切です。
また、重複によってカニバリゼーションが起きている場合は、それぞれのコンテンツが狙っているキーワードのユーザーニーズを再度確認し、1ページに1キーワードを狙うかたちになるようにリライトを行うことで、ページ同士が別のキーワードで評価されるようになり、重複を解消できるでしょう。
定型文の使用をできるだけ避ける
商品やサービスを紹介する際には定型文が使われることがありますが、ページ内で紹介する割合が多くなると、「重複コンテンツと判断される基準」で述べたように、30%を超えてコンテンツが重複する場合があります。
そのため、30%を超えそうであれば、定型文ではなくページごとに独自の紹介文を作るなどで重複にならないように対策することが大切です。
まとめ
この記事では、重複コンテンツの概要やチェック方法などをご紹介しました。重複コンテンツがサイト内に存在する場合、評価の分散や低下を招いたり、クローラーに巡回されにくくなったりするなどの悪影響を及ぼすリスクがあります。
チェック方法には、Google Search Consoleやチェックツールの使用、検索順位チェックツールでの分析などがあげられます。重複コンテンツが見つかった場合は、URLの正規化やnoindexの使用、ページの削除・リライトなどを行うことで重複の解消が可能になるでしょう。
SEO対策ならバンソウにおまかせ!
バンソウでは、SEO対策などのさまざまなマーケティング支援を提供しています。SEO対策にお悩みの方は、下記のフォームからぜひお気軽にご相談ください。