重要なページレベルシグナル：大規模なスケールでのコンテンツ品質評価

Murrough Foley

Author·4 min read

2026-04-04

経験豊富なSEO担当者の多くは、長年にわたりGoogleがコンテンツを評価する方法について機能するメンタルモデルを持っていました。私たちは大枠を理解していました。まず関連性マッチング、次にページレベルの品質シグナル、そして権威性とリンクです。常に疑問だったのは、品質評価が実際にどれほど詳細に行われているか、そしてGoogleが単語数を数え見出しタグをチェックする以上の、より洗練されたことを行っているかどうかでした。

2024年のGoogle API文書リークと、それ以前のYandexソースコードリークは、私たちに確証を与えました。新たな発見ではなく、確証です。私たちが見つけたシグナルは、SEOコミュニティが理論化してきた概念に直接対応していました。しかし、それらが内部文書で特定の属性名やモジュール構造とともに命名されているのを目にすることで、理論は事実に近いものへと変わりました。

そこで私は実験を始めました。これらのシグナルに基づいて評価基準を構築し、LLMを使ってコンテンツをそれらに対して大規模に評価することはできるか？もし可能なら、そのスコアは実際に、なぜあるページがランクインし他のページはそうでないのかについて、有用なことを教えてくれるだろうか？

Googleのランキングパイプラインはどのように機能するか（短いバージョン）

これはSEOに長く関わっている人にとっては目新しいものではありませんが、次の内容のために各レイヤーが重要なので、整理しておく価値があります。

レイヤー1：関連性マッチング (BM25)

最初の関門は、コストが低く高速です。GoogleはBM25（またはその派生形）を使ってクエリ用語とドキュメントをマッチングさせます。これは1990年代からの用語頻度ランキング関数であり、ニューラルランキングにおけるすべての進歩にもかかわらず、何らかの形のBM25が依然として最初のフィルターです。あなたのコンテンツがクエリにマッチする用語や概念を含んでいなければ、品質シグナルが評価される段階に到達することはありません。

私はこれを単純に考えます：

BM25はあなたを部屋に入れる — あなたのコンテンツは考慮されるのに十分な関連性がある
品質シグナルがあなたの席を決める — 関連性のある結果の中でどこにランクするか

ほとんどのSEOアドバイスは、ステージ1は明白であると仮定しながら、ステージ2に焦点を当てています。しかし、検索者とは異なる用語を使用したり、核心となるポイントを本筋から外れた議論の下に埋もれさせたりしているために、真に優れたコンテンツが低くランクされているのを私は数多く目にしてきました。

レイヤー2：ページレベル品質シグナル

ここからが面白くなります — そしてリーク情報が私たちに最も多くの作業材料を与えた部分です。Googleは単にあなたのページが関連性があるかどうかをチェックしているだけではありません。複数の次元にわたってコンテンツ自体を評価しているのです。リークされたAPI文書から目立った三つのシグナルがあります：

contentEffort（コンテンツ努力度） — このコンテンツの作成にどれだけの真の努力が払われたか？単語数ではありません。「これを複製するのがどれほど難しいか」という意味での努力です。

originalContentScore（オリジナルコンテンツスコア） — コンテンツのどれだけが、集約的または派生的な情報ではなく、独自の貢献を表しているか？

page2vecLq — これはページレベルのベクトル埋め込みを使用して、主題が焦点を絞っていない、あるいは意味的に貧弱なページを識別します。「Lq」はおそらく「Low Quality（低品質）」を意味し、意味をなさないページに対する降格フラグであると考えられています。しかし、含意は同じです。主題に厳密に留まるページはこのフラグを回避します。

これらが唯一のコンテンツシグナルというわけではありません — 数十のモジュールにわたって数百の属性がありました。しかし、この三つは特定の疑問に答えます。このコンテンツは中身があるのか、それとも単にうまくフォーマットされたノイズなのか？

レイヤー3：権威性とリンク

ドメイン権威性、ページレベルのバックリンク、被リンク元ドメイン、ブランドシグナル。これはSEO業界が最も長く理解してきたレイヤーであり、依然として最も強力です。Koray Tugberkは、トピックマップ、意味的構造、そしてGoogleがsiteRadiusと呼ぶもの — サイトのトピック的な権威性がその中核主題から放射されるという考え方 — について優れた作業を行っています。彼のトピックオーソリティに関する調査は、まだ読んでいないなら一読の価値があります。

疑問点

レイヤー1と3はよく理解され、よくツール化されています。BM25関連性のためのキーワード調査ツールがあります。権威性メトリクスのためのAhrefsやMozがあります。レイヤー2にもツールはあります — SurferSEO、Clearscope、MarketMuseはすべて、用語頻度、見出し構造、コンテンツの長さといったオンページシグナルを測定します。しかし、私が興味を持ったのは、リーク情報が指し示す別のもの、つまり定性的なシグナルを測定することでした。「このページは適切な用語を含んでいるか？」ではなく、「誰かが実際にこれに努力を払ったか？ここに何かオリジナルなものはあるか？主題から外れていないか？」ということです。

これらは従来のNLPでは測定が難しいものです。しかし、LLMはまさにこの種の定性的判断に優れています — 適切な評価基準を与えれば。

私が調査対象に選んだ5つの次元

測定可能なコンテンツ品質の次元はたくさんあります — そして既存のSEOツールはその多く（キーワードカバレッジ、可読性、見出し構造、コンテンツの長さなど）をすでにうまく扱っています。私は意図的に、より不透明で現在のツールキットでは十分に扱われていない五つを選びました。三つはリークされたシグナルに直接基づき、一つはGoogleの公開品質ガイドラインに、もう一つはベースラインとして含めた構造的なベストプラクティスに基づいています。

これらを競合コンテンツを大規模に評価するための自動化されたプロンプトとして構築しましたが、手動のチェックリストとしても同様に機能します。

これらのプロンプトに関する注意点： 以下で共有するのは、本番環境で使用している評価基準の簡略化されたバージョンです。これらはあなた自身のコンテンツをスコアリングし始め、それがどの位置にあるかを感じ取るには十分です。しかし、LLMで大規模に使用したい場合は、何が起こるかを理解する必要があります。

キャリブレーション問題： LLMは決定的ではありません。同じプロンプトを同じコンテンツで二回実行すると、特に境界線上のケースでは、異なるスコアが得られることがあります。オリジナリティで真に2と3の間にあるページは、一回目は2点、次は3点と評価されるかもしれません。信頼できる結果を得るには、反復が必要です。モデルが一貫しないケースを見つけ、なぜ不確実なのかを理解し、その曖昧さを解決する特定のルールをプロンプトに追加しなければなりません。「記事がフレームワークの名前を挙げていても、その下のアドバイスが標準的なものであれば、3ではなく2と評価する」といったことです。

ニッチ問題： ソフトウェア開発コンテンツにおいて何が「オリジナル」とみなされるかは、健康や金融において何が「オリジナル」とみなされるかとは異なります。スコア2対3の境界は、業界で標準とされるものによって変化します。私はクライアントごとの取り組みにおいて、ニッチ固有の拡張機能と例を開発しなければなりませんでした。B2B SaaSコンテンツに有効な評価基準は、eコマースの商品説明用のものとは異なるキャリブレーションが必要です。

正直な時間投資： 特定のニッチにわたって、これらのプロンプトが一貫性のある信頼性の高いスコアを生成するようにするには、数分ではなく数時間の反復を要します。バッチをスコアリングし、結果を手動でレビューし、不一致を見つけ、ルールを追加し、再スコアリングし、繰り返します。退屈ですが必要であり、それは何も教えてくれないノイズの多いスコアと、実際に意思決定に使用できるキャリブレーションされたスコアとの違いです。

以下の基本評価基準は、フレームワーク、スコアリングテーブル、そして問うべき適切な質問を提供します。ここから始めて、あなた自身のコンテンツで試し、特定のドメインに合わせてそれらを調整する時間をかけることを期待してください。

各評価基準はコンテンツを1〜5の尺度で評価します。ほとんどのコンテンツは2〜3のスコアです。すべての次元で一貫して4〜5を獲得しているなら、あなたは真に競争が難しいコンテンツを制作しています。

1. コンテンツ努力度 — 再現可能性テスト

基づくもの： GoogleのcontentEffortシグナル

これは私が最も興味深いと感じる次元です。なぜなら、「コンテンツ品質」に関する多くのノイズを取り除くからです。核心となる質問は「これはよく書かれているか？」ではなく、「これは競合他社やAIによってどれだけ簡単に複製できるか？」 です。

少し考えてみてください。「アウトソーシングの10のメリット」の完璧に書かれた要約は、ChatGPTを使える誰でも作成できます。正確で、構造が良く、本当に役立つかもしれません。しかし、無限に複製可能です。堀（モート）がありません。

それを、847の実際のアウトソーシングプロジェクトを独自のコストデータと指名された専門家インタビューで分析する記事と比較してください。そのコンテンツには堀があります — 作成に数ヶ月かかり、競合他社が持っていないデータへのアクセスを必要とし、既存の情報源からは生成できない洞察を含んでいます。

評価基準

スコア	ラベル	意味するところ
5	卓越 (Exceptional)	独自調査、独自データ、専門家インタビュー。複製に数ヶ月を要する。
4	高 (High)	包括的、明確な専門知識、独自分析。十分に複製するのに数日を要する。
3	適切 (Adequate)	確かな調査、いくらかの独自の視点。数時間で複製可能。
2	低 (Low)	大部分が集約的、テンプレートベース。1時間以内で複製可能。
1	最小限 (Minimal)	AIが数分で生成できるような一般的なコンテンツ。独自の貢献なし。

この基準の使い方

自身のコンテンツを評価する際に、以下のように自問してください：

誰かがGoogleの上位10件の結果を要約することでこれを再現できるか？ はいなら、あなたは1〜2の位置にいます。
これを作成するには、真の調査、専門知識、またはアクセスが必要か？ はいなら、あなたは4〜5の位置にいます。
このコンテンツに、他にどこにも存在しない何かがあるか？ 独自データ、独自スクリーンショット、実績の記録、具体的な情報源 — これらは偽装が困難な努力の印です。

最も重要なキャリブレーションルール：長さは努力ではない。 派生的な内容の3,000語の記事は、500語の独自調査記事よりスコアが低くなります。Googleもこれに同意しているようです。

コンテンツ努力度完全評価プロンプト（クリックで展開）

高努力度の指標 (スコア 4-5):

独自データまたは独自調査
具体的な情報源を伴う専門家インタビュー
明確に示された実体験
独自の写真、スクリーンショット、またはマルチメディア
特定のロジックを持つカスタムデザインの視覚的アセット
競合コンテンツに見られない分析や洞察

低努力度の指標 (スコア 1-2):

どこにでもある一般的な情報
独自の洞察や分析がない
テンプレートベースの構造（導入、5つのポイント、結論）
ストック画像のみ
タイトルをAIにプロンプトすることで生成可能
既存コンテンツのリライトのように読める

重要なスコア2対3の境界線： これは優れた調査スキルを持つ一般ライターが作成できるか、それともその領域を真に理解している人物が必要か？一般ライターでも可能 → スコア2。領域の専門家が必要 → スコア3。

---## 2. 独自性 — 新たな知識 vs 新たなラベル

基づく: Googleの originalContentScore 信号

これは、自己欺瞞が最も多い次元です。人々は自分で書いたので自分のコンテンツがオリジナルだと真に信じています。しかし、「自分が書いた」と「オリジナルなアイデアを含んでいる」は別物です。

テストは簡単です：記事の主要な主張を検索してください。上位10件の結果はほぼ同じことを言っていますか？もしそうなら、あなたのコンテンツは派生的です — どれだけ上手く書かれていても関係ありません。

これは厳しく聞こえますが、一度受け入れると解放されます。ほとんどのコンテンツは独自性で2です。それは問題ありません — すべての記事が画期的である必要はありません。しかし、自分が実際にどこに立っているかを知ることで、どこに努力を注ぐかを意図的に選択できます。

スコアリングルーブリック

スコア	ラベル	意味
5	最初に公開	速報情報または真の発見。新たな知識を創造する。
4	実質的にオリジナル	重要な独自分析。会話を変える。
3	混合 / 新しい枠組み	既知の概念を新しい方法で結びつける。単なる要約ではない。
2	ほとんど派生的	既知の概念を上手く説明する。有能だが置換可能。
1	完全に派生的	書き直し、要約、または集約。独自の価値なし。

誤検知の罠

これらは、人々（およびスコアリングシステム）がコンテンツが実際よりオリジナルだと錯覚する最も一般的なパターンです：

命名の誤謬。 3つの標準的なヒントをグループ化して「ABCフレームワーク」と呼びます。名前を取り除いて — アドバイスは標準的ですか？もしそうなら、それは3ではなく2です。整理は創造ではありません。

比喩の罠。 既知の概念を説明するために巧妙な比喩を使います。「技術的負債は氷山のようだ。」この比喩は、問題をどのように解決するかを変えますか、それともどのように記述するかだけを変えますか？もし記述だけなら、それは良い文章であって、独自性ではありません。

専門家の口調の罠。 「私の経験では、コードをテストすべきです。」一般的なアドバイスに権威ある言語を使っても、それは依然として一般的なアドバイスです。比較：「私たちのテストでは、コードカバレッジが80％以上の場合、本番バグが34％減少しました（n=47サービス）。」それは証拠です。それはオリジナルです。

完全な独自性スコアリングプロンプト（クリックして展開）

スコア2 vs 3 タイブレーカー:

特徴	スコア2（派生的）	スコア3（混合独自性）
フレームワーク	既知のものを分類する	意思決定を操作可能にする
合成	ソースA + ソースBを組み合わせる	A + Bを組み合わせて矛盾Cを明らかにする
視点	「ここにXがある」	「なぜXの標準的な見方が間違っているか/不完全かを示す」
有用性	Google/ChatGPTで見つけられる	この洞察には特定の専門家が必要だ

スコア4 vs 5 の境界: スコア4 = 測定。「Xを370億ドルと測定した。」スコア5 = 発見。「Xを期待したがYを見つけ、Zと矛盾する。」データポイントを最初に公開することはスコア5ではない — 天気予報は今日の温度を何も発見せずに最初に公開する。

3. トピックの一貫性 — コンテンツは主題に留まっていますか？

基づく: Googleの page2vecLq 信号

アプローチに関する注記: page2vecLq は否定的なフラグであると考えられています — 意味的に焦点が合っていないページを降格させ、焦点が合ったページを報酬するのではありません。私のルーブリックはこれを逆転させて肯定的なスコアリングシステム（1-5、5は非常に焦点が合っている）にしています。その理由は実用的です：もしGoogleが一貫性のないページを罰するなら、一貫性を肯定的にスコアリングすることで、その罰をトリガーするからどれだけ離れているかの代理指標が得られます。それはGoogleが計算するものの完璧な鏡ではありませんが、同じ基礎的な特性を反対方向から測定します。

これはほとんどのSEO担当者が過小評価している点です。本能は、トピックに関連するすべてをカバーすること — 広く網を投げ、包括的になることです。しかし、流出した信号は、Googleが意味的な焦点のようなものを測定していることを示唆しています。あなたのコンテンツは単一のトピックにどれだけ密接に周囲していますか？

テストは簡単です：このコンテンツが何についてであるかを1文で要約できますか？ もしそれに苦労するなら、あなたのコンテンツには一貫性の問題があります。

これは「究極のガイド」スタイルのコンテンツで最もよく見られます — 5,000語で全体の領域をカバーしようとし、15のサブトピックを表面的に触れる記事です。各セクションは個別には意味をなしますが、全体として重心がありません。すべてに対してランク付けしようとして、結局何にもランク付けされません。

スコアリングルーブリック

スコア	ラベル	意味
5	非常に焦点が合っている	単一の明確なトピックで、深く包括的なカバレッジ。無駄な部分ゼロ。
4	よく焦点が合っている	明確な中心トピック、一貫したカバレッジ。関連する軽い脱線。
3	適切な焦点	識別可能な主要トピックだが、不均一なカバレッジ。いくつかの緩いセクション。
2	焦点が合っていない	あまりにも多くの緩く関連したトピック。明確な一貫した流れなし。
1	一貫性がない	明確な中心トピックなし。情報のランダムな集まり。

危険信号

無関係な質問を含むFAQセクション。 これが最も一般的な一貫性キラーです。「React State Management」についてのページで、「プログラミング用にどのノートパソコンを買うべきか？」というFAQを尋ねるのは、トピックの焦点を犠牲にして検索トラフィックを捕捉しようとしています。
コンテンツとして偽装されたプロモーションセクション。 クラウド移行に関するガイドで、「あなたの変革の旅のためにCloudExpertsと提携しましょう」で終わるのは、教育的な一貫性を壊します。
「キッチンシンク」アプローチ。 「ソフトウェア開発」に関する1つの記事で、言語、方法論、クラウドプロバイダー、データベース、キャリアアドバイスをカバーしようとすること。

完全なトピック一貫性スコアリングプロンプト（クリックして展開）

関連するが本筋から外れたテスト: このセクションは別のトピックに関する記事に現れる可能性がありますか？もしそうなら、それは本筋ではなく脱線です。

表面的なカバレッジの閾値: 8つ以上のサブトピックを表面的に扱う = 最大スコア3。1つのトピックの深いカバレッジは多くのトピックの浅いカバレッジを上回ります。

柱コンテンツの例外: 広いトピックをカバーする包括的ガイドは、明確な組織論理があり、各セクションが一貫した全体に貢献するなら、スコア4-5を取れます。鍵は、構造があるか、単に緩く関連したセクションのリストかです。

4. E-E-A-T 信号 — 誰がこれを書いたのか、なぜ彼らを信頼すべきか？

基づく: Googleの品質評価ガイドライン

私はこれについて率直になりたいです。なぜなら、E-E-A-TはSEOの世界で複雑な歴史を持っているからです。

Googleが品質評価ガイドラインでE-A-T（専門性、権威性、信頼性）を導入した時、業界 — Marie Haynesのような実践者に導かれて — それを直接的なランキング信号として扱いました。その論理は合理的でした：Googleは人間の評価者にE-A-Tを評価するように言うので、GoogleのアルゴリズムはE-A-Tを測定しているに違いない。著者略歴がすべてのページに追加されました。「About Us」ページが拡張されました。資格が至る所に貼り付けられました。

そして2022年、Googleは経験のために追加の「E」を加え、そのサイクルが繰り返されました。E-E-A-Tはすべてのランキング質問の答えになりました。

流出した文書と何年ものテストを見た後、私が信じるようになったことは次の通りです：直接的な、測定可能なランキング信号としてのE-E-A-Tは、業界が想定するよりも単純ではありません。 Googleがこれらの信頼信号を、一般的な情報コンテンツよりも、YMYL（あなたのお金や生活）コンテンツ — 健康、金融、法律、安全 — にずっと積極的に適用する証拠があります。著者の資格のない医療記事は実際に抑制されるかもしれません。JavaScriptフレームワークに関するブログ記事？それほど明確ではありません。

私はすべてのニッチでランキング信号であると確信しているからではなく、E-E-A-Tを私のルーブリックに含めます。なぜなら、それがGoogleが明示的に報酬を与えるかどうかに関わらず、明確な経験マーカー、実証可能な専門性、透明なソース付けのあるコンテンツはより良いコンテンツだからです。そしてYMYLの垂直市場では、その影響に関する証拠ははるかに強いです。

とはいえ、私は経験が今後より重要になるコンポーネントであり、過小評価されていると考えます。なぜですか？なぜなら、経験はAIで偽造するのが難しいからです。LLMは既存のソースから専門家らしいコンテンツを合成できます。権威ある口調を模倣できます。しかし、実際に何かをすることから来る具体的で細かな詳細 — 予期しない問題、直感に反する教訓、実際のプロジェクトからの特定の数値 — を生み出すことはできません。

スコアリングルーブリック

スコア	ラベル	意味
5	卓越している	4つのコンポーネントすべての明確な証拠。名前付き専門家、実証された経験、権威あるソース、透明な方法論。
4	強い	3つ以上のコンポーネントの強い証拠。著者の信頼性が確立され、専門性が実証されている。
3	適切	中程度の証拠。いくつかの専門性が示され、基本的な信頼信号があるが、ギャップが存在する。
2	弱い	最小限の信号。一般的な著者性、検証されていない主張、専門性の証拠がほとんどない。
1	なし	匿名の著者、実証されていない主張、信頼信号なし。

何を見るべきか

経験指標: その仕事をした人だけが知るであろう特定の詳細。「Xを試したがYのために失敗した」は「Xが推奨される...」より強い。実際のプロジェクトからのオリジナルのスクリーンショット、写真、または成果物。

専門性指標: 一般主義者が研究できるものを超えた実証可能な知識。「私は専門家です」ではない — コンテンツの深さと正確さを通して示す。

権威指標: これはこの情報が期待される場所ですか？引用されたソースはそれ自体が権威ありますか？広範なウェブがこの著者やサイトを参照していますか？

信頼指標: 事実の正確さ、適切にソース付けされた主張、方法論と制限に関する透明性。連絡先情報。潜在的なバイアスの開示。

完全なE-E-A-Tスコアリングプロンプト（クリックして展開）

重要な較正注記: 著者帰属（署名、資格、略歴）は、コンテンツレベルのE-E-A-Tとは別の考慮事項です。明確な専門性のあるよく書かれた記事は、著者署名が追加される前でも、コンテンツE-E-A-Tで高くスコアリングできます。著者ページは追加の信頼層を加えますが、唯一の信号であるべきではありません。

資格は関連している必要がある。 生物学の博士号は、その人をソフトウェア開発の専門家にしません。

主張には証拠が必要。 特定の詳細のない「私の経験では...」は実証された経験ではありません。

---## 5. 構造的品質 — フォーマットはコンテンツを支えているか？

基づくもの： SEOのベストプラクティスとウェブコンテンツガイドライン

これは5つの次元の中で最も機械的で、正しくするのが最も簡単なものです。だからこそ、それ以外は優れているコンテンツが貧弱な構造によって台無しにされているのを頻繁に見かけるのは残念です。このセクションは簡潔にします。アドバイスは単純明快で、おそらく以前にも耳にしたことがあるからです。しかし、私のベンチマーク作業から、上位30位内のページでも多くのものがこれを間違えていると言えます。

採点基準

スコア	ラベル	意味
5	優秀	完璧な見出し階層、スキャンしやすい形式、戦略的な書式の使用。プロフェッショナルな編集品質。
4	良い	明確な構成、適切な見出し、良好なスキャン性。改善の余地はわずか。
3	適切	基本的な構成、見出しの使用、読みやすい。いくつかの構造的問題はあるが機能する。
2	貧弱	構成が乱雑、文字の壁、一貫性のない書式。スキャンやナビゲートが困難。
1	なし	意識の流れ。見出しなし、書式なし。未編集のように見える。

重要な基本事項

見出し階層： タイトルはH1、主要セクションはH2、サブセクションはH3。レベルを飛ばしてはならない。各見出しは後に続くコンテンツを説明するものであるべき — 気の利いたものや曖昧なものにしてはいけない。

段落の長さ： 最大3〜5文。ウェブ上では、より短い段落の方がほとんど常に良い。「文字の壁」は「これはオンライン読用に書かれていない」という信号を送る。

書式のバリエーション： 箇条書き、番号付きリスト、表、太字テキスト、コードブロックを、コンテンツに役立つ場所で使用する。しかし、過度な書式設定は避ける — すべての書式選択は、単にテキストを分割するためではなく、情報を消費しやすくするものであるべき。

内部リンクと外部リンク： 自サイトの関連コンテンツや、権威ある外部情報源へリンクする。これらは単なるSEOの信号ではなく、信頼の信号でもある。参照も接続もなく、孤立して存在するコンテンツは、信頼性が低く感じられる。

構造的品質の完全な採点プロンプト（クリックで展開）

主な調整ルール：

文字の壁（6〜7文を超える段落）はスコアを3に制限する
見出しレベルのスキップ（H1 → H3）はスコアを少なくとも1点下げる
長さは深さと一致しなければならない — 表面的な内容の3,000語は、焦点を絞った深い内容の1,000語よりスコアが低い
比較データには表、リストには箇条書き、技術コンテンツにはコードブロック — 情報の種類に適した形式を使用する

全体をまとめる

これら5つの次元は独立しておらず、相互に作用する。構造が貧弱で独創性が高ければ、あなたの洞察は埋もれてしまう。努力がなく構造が優れていれば、ウィキペディアの要約を美しくフォーマットしただけになる。E-E-A-Tが強く一貫性が弱ければ、信頼できる著者が焦点の定まらないコンテンツを書いていることになる。

順位がよく（一貫して、アップデートを跨いで、競争の激しい分野で）出るコンテンツは、5つの次元すべてで3以上、少なくとも2つで4以上のスコアを取る傾向がある。それは高いハードルだ。ウェブ上のコンテンツのほとんどは、努力と独創性で2-3、一貫性と構造で3-4、E-E-A-Tで2-3のスコアになる。

私が実際にこれらの基準をどのように使用するか：

執筆前： 努力と独創性で少なくとも3点を取れるかどうかを確認する。取れない場合 — 既存の情報源を要約して作成できるようなコンテンツを書こうとしている場合 — 独自の角度を見つけるか、書かないかのどちらかである。
編集中： 一貫性を確認する。記事は焦点を保っているか、それとも脱線しているか？核心的な主張に影響を与えずに削除できるセクションはあるか？
公開前： 構造とE-E-A-Tの信号を確認する。具体的で検証可能な主張はあるか？書式設定は助けになっているか、邪魔になっているか？読者はページ上の内容に基づいてこのコンテンツを信頼するだろうか？

これらの基準は完璧ではない。これらは、Googleが公式に確認したことのない信号の、私の解釈である。しかし、44,000のSERP結果に対してテストしたとき、トピックの一貫性は、特に情報系キーワードをターゲットにした低権威サイトにおいて、順位との一貫した統計的有意な相関を示した。基礎となる理論が完全に正しくないとしても、それらを有用にするには十分である。

データが示すもの

私はこれらの基準を大規模にテストした — 2,212のキーワードに渡る44,000のSERP結果を採点し、8つの統計的手法を実行して、ドメイン権威性を制御した後でも品質が順位を予測するかどうかを検証した。

簡単な答え：はい、しかしドメイン権威性は10倍重要である。トピックの一貫性が最も強い信号を示した。コンテンツの品質は、情報系キーワードで競合する低権威サイトにおいて最も重要である — これはまさに、ページレベルの信号が差を生むと予想される場所である。

詳細な調査結果はこちら。

次に私が検証したいのは、コンテンツの努力がページレベルでの被リンク獲得と相関するかどうか — 努力の順位付けへの効果が直接的なのか、リンクを通じて間接的なのか — である。もしあなたが同様の疑問に取り組んでいるなら、ぜひお聞かせいただきたい。

Vorfall des geleakten Google-API-Materials 2024

King, M. (2024). « Investigation of the Leaked Google Ranking Algorithm Data » iPullRank. ipullrank.com/google-algo-leak — Erste Analyse, die unter den 2.596 geleakten Modulen Signale wie contentEffort, originalContentScore, page2vecLq identifiziert.
Anderson, S. (2024). « The contentEffort Attribute, The Helpful Content System and E-E-A-T » Hobo Web. hobo-web.co.uk — Detaillierte Analyse der Verbindung zwischen dem Signal contentEffort und dem « Helpful Content System ».
Fishkin, R. (2024). « An Anonymous Source Shared Thousands of Leaked Google Search API Documents With Me » SparkToro. sparktoro.com — Unabhängige Verifizierung der Authentizität der geleakten Daten.

BM25

Robertson, S.E. et al. (1995). « Okapi at TREC-3. » NIST. — Grundlagenarbeit zu BM25.
Robertson, S.E. & Zaragoza, H. (2009). « The Probabilistic Relevance Framework: BM25 and Beyond. » Foundations and Trends in Information Retrieval. — Umfassende Studie zu BM25-Varianten.

E-E-A-T und die Richtlinien für die Qualitätsbewertung

Google (2024). « Search Quality Evaluator Guidelines » guidelines.raterhub.com — Offizieller Rahmen für E-E-A-T.