Die Seitenebenen-Signale, die zählen: Bewertung der Inhaltsqualität im großen Maßstab

Murrough Foley

Author·21 min read

2026-04-04

Die meisten erfahrenen SEOs haben seit Jahren ein funktionierendes mentales Modell davon, wie Google Inhalte bewertet. Wir kannten die groben Züge: erst Relevanzabgleich, dann seitenbezogene Qualitätssignale, dann Autorität und Links. Die Frage war immer, wie detailliert die Qualitätsbewertung tatsächlich wird – und ob Google etwas Anspruchsvolleres tut, als Wörter zu zählen und Überschriften-Tags zu prüfen.

Der Leak der Google-API-Dokumentation 2024, zusammen mit dem früheren Leak des Yandex-Quellcodes, gab uns Bestätigung. Keine Offenbarung

Bestätigung. Die Signale, die wir fanden, entsprachen direkt Konzepten, über die die SEO-Community theoretisiert hatte. Aber sie in interner Dokumentation mit spezifischen Attributnamen und Modulstrukturen benannt zu sehen, verwandelte Theorie in etwas, das näher an Fakten herankommt.

Also begann ich zu experimentieren. Konnte ich Bewertungsraster basierend auf diesen Signalen erstellen und LLMs nutzen, um Inhalte damit im großen Maßstab zu bewerten? Und wenn ja, würden die Bewertungen mir tatsächlich etwas Nützliches darüber sagen, warum einige Seiten ranken und andere nicht?

Wie Googles Ranking-Pipeline funktioniert (die kurze Version)

Dies ist nichts Neues für jeden, der schon eine Weile im SEO-Bereich ist, aber es lohnt sich, darzulegen, weil jede Ebene für das, was folgt, wichtig ist.

Ebene 1: Relevanzabgleich (BM25)

Das erste Tor ist günstig und schnell. Google verwendet BM25 (oder eine Variante davon), um Suchbegriffe mit Dokumenten abzugleichen. Es ist eine Term-Häufigkeits-Rankingfunktion aus den 1990er Jahren, und trotz aller Fortschritte im neuronalen Ranking ist irgendeine Form von BM25 immer noch der initiale Filter. Wenn Ihr Inhalt nicht die Begriffe und Konzepte enthält, die zur Suchanfrage passen, erreicht er nie die Stufe, auf der Qualitätssignale bewertet werden.

Ich stelle es mir einfach vor:

BM25 bringt Sie in den Raum

Ihr Inhalt ist relevant genug, um in Betracht gezogen zu werden.

Qualitätssignale bestimmen Ihren Sitzplatz – wo Sie unter den relevanten Ergebnissen ranken.

Die meisten SEO-Ratschläge konzentrieren sich auf Stufe 2, während sie annehmen, dass Stufe 1 offensichtlich ist. Aber ich habe jede Menge wirklich exzellente Inhalte gesehen, die schlecht ranken, weil sie eine andere Terminologie als der Suchende verwenden oder ihre Kernaussagen unter tangentialen Diskussionen vergraben.

Ebene 2: Seitenbezogene Qualitätssignale

Hier wird es interessant – und wo die Leaks uns am meisten zu arbeiten gaben. Google prüft nicht nur, ob Ihre Seite relevant ist. Es bewertet den Inhalt selbst über mehrere Dimensionen hinweg. Drei Signale aus der geleakten API-Dokumentation stachen hervor:

contentEffort

Wie viel echte Mühe ist in die Erstellung dieses Inhalts geflossen? Nicht Wortzahl. Mühe im Sinne von: Wie schwer wäre es, dies zu replizieren?

originalContentScore

Wie viel des Inhalts stellt einen originellen Beitrag dar im Vergleich zu aggregierten oder abgeleiteten Informationen?

page2vecLq

Dieses verwendet vektorbasierte Einbettungen auf Seitenebene, um thematisch unkonzentrierte oder semantisch schwache Seiten zu identifizieren. Das "Lq" steht wahrscheinlich für "Low Quality" – man geht davon aus, dass es ein Abwertungs-Flag für Seiten ist, die semantisch keinen Sinn ergeben, eher als eine positive Bewertung für fokussierte Inhalte. Aber die Implikation ist dieselbe: Seiten, die eng beim Thema bleiben, vermeiden das Flag.

Dies sind nicht die einzigen Inhaltsignale – es gab Hunderte von Attributen über Dutzende von Modulen hinweg. Aber diese drei beantworten eine spezifische Frage: Hat dieser Inhalt Substanz, oder ist er nur gut formatiertes Rauschen?

Ebene 3: Autorität und Links

Domain-Autorität, Backlinks auf Seitenebene, verweisende Domains, Markensignale. Dies ist die Ebene, die die SEO-Branche am längsten versteht, und sie ist immer noch die mächtigste. Koray Tugberk hat ausgezeichnete Arbeit zu thematischen Karten, semantischen Strukturen und dem, was Google siteRadius nennt, geleistet – die Idee, dass die thematische Autorität einer Website von ihrem Kernthema ausgeht. Seine Forschung zu thematischer Autorität ist lesenswert, falls Sie es noch nicht getan haben.

Die Frage

Die Ebenen 1 und 3 sind gut verstanden und gut mit Tools ausgestattet. Wir haben Keyword-Recherche-Tools für BM25-Relevanz. Wir haben Ahrefs und Moz für Autoritätsmetriken. Ebene 2 hat auch Tools

SurferSEO, Clearscope, MarketMuse messen alle Onpage-Signale wie Begriffshäufigkeit, Überschriftenstruktur und Inhaltslänge. Aber ich war daran interessiert, etwas anderes zu messen: die qualitativen Signale, auf die die Leaks hinwiesen. Nicht "enthält diese Seite die richtigen Begriffe?", sondern "hat sich hier jemand tatsächlich Mühe gegeben? Gibt es hier etwas Originelles? Bleibt es beim Thema?"

Diese sind mit traditionellem NLP schwerer zu messen. Aber LLMs sind genau für diese Art qualitativer Beurteilung gut – wenn man ihnen die richtigen Raster gibt.

Fünf Dimensionen, die ich untersucht habe

Es gibt viele Inhaltsqualitätsdimensionen, die man messen könnte – und bestehende SEO-Tools behandeln viele davon bereits gut (Keyword-Abdeckung, Lesbarkeit, Überschriftenstruktur, Inhaltslänge). Ich habe bewusst fünf ausgewählt, die undurchsichtiger sind und durch die aktuellen Toolkits nicht gut abgedeckt werden. Drei basieren direkt auf geleakten Signalen, eines auf Googles öffentlichen Qualitätsrichtlinien und eines auf strukturellen Best Practices, das ich als Baseline einbezogen habe.

Ich habe diese als automatisierte Prompts erstellt, um Konkurrenzinhalte im großen Maßstab zu bewerten, aber sie funktionieren genauso gut als manuelle Checklisten.

Ein Hinweis zu diesen Prompts: Was ich unten teile, sind vereinfachte Versionen der Raster, die ich in der Produktion verwende. Sie reichen aus, um mit der Bewertung Ihrer eigenen Inhalte zu beginnen und ein Gefühl dafür zu bekommen, wo sie stehen. Aber wenn Sie sie im großen Maßstab mit einem LLM verwenden wollen, müssen Sie wissen, worauf Sie sich einlassen.

Das Kalibrierungsproblem: LLMs sind nicht deterministisch. Führen Sie denselben Prompt zweimal auf denselben Inhalt aus und Sie erhalten manchmal unterschiedliche Bewertungen – besonders bei Grenzfällen. Eine Seite, die sich echt zwischen einer 2 und einer 3 in der Originalität befindet, könnte bei einem Durchlauf eine 2 und beim nächsten eine 3 erhalten. Um zuverlässige Ergebnisse zu bekommen, muss man iterieren: die Fälle finden, in denen das Modell inkonsistent ist, herausfinden, warum es unsicher ist, und spezifische Regeln zum Prompt hinzufügen, die die Mehrdeutigkeit auflösen. "Wenn der Artikel ein Framework benennt, der Ratschlag darunter aber Standard ist, vergeben Sie Punktzahl 2, nicht 3" – so etwas.

Das Nischenproblem: Was in Software-Entwicklungsinhalten als "originell" gilt, unterscheidet sich von dem, was in Gesundheits- oder Finanzinhalten als "originell" gilt. Die Grenze zwischen Punktzahl 2 und 3 verschiebt sich je nach dem, was in Ihrer Branche Standard ist. Ich musste für jedes Kundenengagement nischenspezifische Erweiterungen und Beispiele entwickeln. Ein Raster, das für B2B-SaaS-Inhalte funktioniert, benötigt eine andere Kalibrierung als eines für E-Commerce-Produktbeschreibungen.

Der ehrliche Zeitaufwand: Diese Prompts so zu gestalten, dass sie konsistente, zuverlässige Bewertungen für eine bestimmte Nische liefern, erfordert Stunden der Iteration, nicht Minuten. Sie bewerten einen Stapel, überprüfen die Ergebnisse manuell, finden die Unstimmigkeiten, fügen Regeln hinzu, bewerten erneut, wiederholen. Es ist mühsam, aber notwendig – und es ist der Unterschied zwischen verrauschten Bewertungen, die Ihnen nichts sagen, und kalibrierten Bewertungen, auf die Sie tatsächlich Entscheidungen stützen können.

Die Basis-Raster unten geben Ihnen den Rahmen, die Bewertungstabellen und die richtigen Fragen. Beginnen Sie hier, probieren Sie sie an Ihren eigenen Inhalten aus und erwarten Sie, Zeit damit zu verbringen, sie für Ihre spezifische Domain zu verfeinern.

Jedes Raster bewertet Inhalte auf einer Skala von 1-5. Die meisten Inhalte erreichen 2-3. Wenn Sie durchgängig 4-5 über alle Dimensionen erreichen, produzieren Sie Inhalte, die wirklich schwer zu überbieten sind.

1. Inhaltsaufwand

Der Replizierbarkeitstest

Basierend auf: Googles contentEffort-Signal

Dies ist die Dimension, die ich am interessantesten finde, weil sie so viel vom Rauschen um "Inhaltsqualität" durchschneidet. Die Kernfrage ist nicht "ist dies gut geschrieben?" – es ist "wie leicht könnte dies von einem Konkurrenten oder einer KI repliziert werden?"

Denken Sie einen Moment darüber nach. Eine perfekt geschriebene Zusammenfassung von "10 Vorteile des Outsourcings" kann von jedem mit ChatGPT erstellt werden. Sie mag genau, gut strukturiert und wirklich hilfreich sein. Aber sie ist unendlich replizierbar. Es gibt keinen Graben.

Vergleichen Sie das mit einem Artikel, der 847 echte Outsourcing-Projekte mit proprietären Kostendaten und benannten Experteninterviews analysiert. Dieser Inhalt hat einen Graben – er brauchte Monate zur Erstellung, erfordert Zugang zu Daten, die Konkurrenten nicht haben, und enthält Einsichten, die nicht aus bestehenden Quellen generiert werden können.

Das Bewertungsraster

Punktzahl	Bezeichnung	Was es bedeutet
5	Außergewöhnlich	Originalrecherche, proprietäre Daten, Experteninterviews. Würde Monate zur Replikation benötigen.
4	Hoch	Umfassend, klare Expertise, originelle Analyse. Würde Tage für eine gute Replikation benötigen.
3	Angemessen	Solide Recherche, etwas originelle Perspektive. Könnte in mehreren Stunden repliziert werden.
2	Niedrig	Meist aggregiert, vorlagenbasiert. Könnte in unter einer Stunde repliziert werden.
1	Minimal	Generischer Inhalt, den eine KI in Minuten produzieren könnte. Kein origineller Beitrag.

Wie man dies nutzt

Wenn Sie Ihre eigenen Inhalte bewerten, fragen Sie:

Könnte jemand dies reproduzieren, indem er die Top-10-Google-Ergebnisse zusammenfasst? Wenn ja, sind Sie bei 1-2.
Erfordert dies echte Recherche, Expertise oder Zugang, um erstellt zu werden? Wenn ja, sind Sie bei 4-5.
Gibt es etwas in diesem Inhalt, das nirgendwo anders existiert? Proprietäre Daten, originale Screenshots, dokumentierte Ergebnisse, namentliche Quellen – dies sind die Marker für Aufwand, der schwer vorzutäuschen ist.

Die wichtigste Kalibrierungsregel: Länge ist nicht Aufwand. Ein 3.000-Wörter-Artikel mit abgeleiteten Inhalten schneidet schlechter ab als 500 Wörter Originalrecherche. Google scheint dem zuzustimmen.

Vollständiger Inhaltsaufwand-Bewertungs-Prompt (zum Aufklappen klicken)

Indikatoren für hohen Aufwand (Punktzahl 4-5):

Proprietäre Daten oder Originalrecherche
Experteninterviews mit namentlichen Quellen
Eigene Erfahrung, klar demonstriert
Eigene Fotografien, Screenshots oder Multimedia
Eigens gestaltete visuelle Assets mit spezifischer Logik
Analyse oder Einsichten, die nicht in konkurrierenden Inhalten zu finden sind

Indikatoren für geringen Aufwand (Punktzahl 1-2):

Generische Informationen, die überall verfügbar sind
Keine originellen Einsichten oder Analysen
Vorlagenbasierte Struktur (Einleitung, 5 Punkte, Fazit)
Nur Stock-Bilder
Könnte durch Anstoßen einer KI mit dem Titel produziert werden
Liest sich wie eine Umschreibung bestehender Inhalte

Die kritische Grenze zwischen Punktzahl 2 und 3: Könnte ein Generalist mit guten Recherchefähigkeiten dies produzieren, oder erfordert es jemanden, der die Domain wirklich versteht? Generalist könnte es → Punktzahl 2. Erfordert Domain-Experten → Punktzahl 3.

---## 2. Originalität — Neues Wissen vs. neue Etiketten

Basierend auf: Googles originalContentScore-Signal

Dies ist die Dimension, in der ich die meisten Selbsttäuschungen sehe. Menschen glauben aufrichtig, ihr Inhalt sei originell, weil sie ihn selbst geschrieben haben. Aber "Ich habe es geschrieben" und "Es enthält originelle Ideen" sind zwei verschiedene Dinge.

Der Test ist einfach: Suche nach den Hauptaussagen in deinem Artikel. Würden die Top-10-Ergebnisse ungefähr dasselbe sagen? Wenn ja, ist dein Inhalt abgeleitet — unabhängig davon, wie gut du ihn geschrieben hast.

Das klingt hart, aber es ist befreiend, sobald man es akzeptiert. Die meisten Inhalte haben eine 2 in Originalität. Das ist in Ordnung — nicht jeder Beitrag muss bahnbrechend sein. Aber zu wissen, wo man tatsächlich steht, ermöglicht es, bewusste Entscheidungen darüber zu treffen, wo man Aufwand investiert.

Das Bewertungsschema

Punktzahl	Bezeichnung	Was es bedeutet
5	Erstveröffentlichung	Neuigkeiten oder echte Entdeckung. Schafft neues Wissen.
4	Wesentlich originell	Signifikante eigene Analyse. Verändert die Diskussion.
3	Gemischt / Neuartige Rahmung	Verbindet bekannte Konzepte auf neue Weise. Nicht nur eine Zusammenfassung.
2	Überwiegend abgeleitet	Erklärt bekannte Konzepte gut. Kompetent, aber austauschbar.
1	Vollständig abgeleitet	Umarbeitung, Zusammenfassung oder Aggregation. Kein einzigartiger Wert.

Die Fallstricke falsch-positiver Bewertungen

Dies sind die Muster, die ich am häufigsten sehe und die Menschen (und Bewertungssysteme) dazu verleiten, Inhalte für origineller zu halten, als sie sind:

Der Benennungsfehlschluss. Du fasst drei Standardtipps zusammen und nennst es "Das ABC-Framework". Nimm den Namen weg — ist der Ratschlag Standard? Wenn ja, ist es eine 2, keine 3. Organisation ist nicht Kreation.

Die Metaphernfalle. Du verwendest eine clevere Metapher, um ein bekanntes Konzept zu erklären. "Technische Schulden sind wie ein Eisberg." Verändert die Metapher, wie wir das Problem lösen, oder nur, wie wir es beschreiben? Wenn es nur Beschreibung ist, ist es gutes Schreiben, nicht Originalität.

Die Experten-Tonfall-Falle. "In meiner Erfahrung solltest du deinen Code testen." Autoritativer Sprachstil mit generischem Rat ist immer noch generischer Rat. Vergleiche: "In unseren Tests reduzierte eine Code-Abdeckung von über 80 % Produktionsfehler um 34 % (n=47 Services)." Das sind Belege. Das ist originell.

Vollständige Aufforderung zur Originalitätsbewertung (zum Ausklappen anklicken)

Der 2 vs. 3-Entscheidungshelfer:

Merkmal	Punktzahl 2 (Abgeleitet)	Punktzahl 3 (Gemischte Originalität)
Frameworks	Kategorisiert bekannte Dinge	Macht Entscheidungsfindung operationalisierbar
Synthese	Kombiniert Quelle A + Quelle B	Kombiniert A + B, um Widerspruch C aufzuzeigen
Perspektive	"Hier ist, was X ist"	"Hier ist, warum die Standardansicht von X falsch/unvollständig ist"
Nützlichkeit	Ich könnte das bei Google/ChatGPT finden	Ich bräuchte einen spezifischen Experten für diese Erkenntnis

Die Grenze zwischen Punktzahl 4 und 5: Punktzahl 4 = Messung. "Wir haben X auf 37 Mrd. $ geschätzt." Punktzahl 5 = Entdeckung. "Wir erwarteten X, fanden aber Y, was Z widerspricht." Der Erste zu sein, der einen Datenpunkt veröffentlicht, ist keine 5 — ein Wetterbericht veröffentlicht als Erster die heutige Temperatur, ohne etwas zu entdecken.

3. Thematische Kohärenz — Bleibt dein Inhalt beim Thema?

Basierend auf: Googles page2vecLq-Signal

Ein Hinweis zum Ansatz: Es wird angenommen, dass page2vecLq ein Negativsignal ist — es stuft Seiten herab, die semantisch unkonzentriert sind, statt fokussierte Seiten zu belohnen. Mein Bewertungsschema kehrt dies in ein positives Bewertungssystem um (1-5, wobei 5 hoch fokussiert ist). Die Begründung ist praktisch: Wenn Google inkohärente Seiten abstraft, dann gibt uns eine positive Bewertung der Kohärenz einen Anhaltspunkt dafür, wie weit eine Seite davon entfernt ist, diese Strafe auszulösen. Es ist kein perfektes Spiegelbild dessen, was Google berechnet, aber es misst dieselbe zugrundeliegende Eigenschaft aus der entgegengesetzten Richtung.

Dies ist der Punkt, den die meisten SEOs unterschätzen. Der Instinkt ist, alles zum Thema abzudecken — ein weites Netz auswerfen, umfassend sein. Aber das geleakte Signal deutet darauf hin, dass Google etwas wie semantischen Fokus misst. Wie eng kreist dein Inhalt um ein einziges Thema?

Der Test ist einfach: Kannst du in einem Satz zusammenfassen, worum es in diesem Inhalt geht? Wenn du damit Schwierigkeiten hast, hat dein Inhalt ein Kohärenzproblem.

Ich sehe das am häufigsten bei "Ultimate Guide"-Inhalten — Artikeln, die versuchen, eine ganze Domäne auf 5.000 Wörtern abzudecken und 15 Unterthemen oberflächlich zu streifen. Jeder Abschnitt für sich ergibt Sinn, aber das Ganze hat keinen Schwerpunkt. Es versucht, für alles zu ranken und endet damit, für nichts zu ranken.

Das Bewertungsschema

Punktzahl	Bezeichnung	Was es bedeutet
5	Hoch fokussiert	Ein klares Einzelthema mit tiefgründiger, umfassender Abdeckung. Kein Füllmaterial.
4	Gut fokussiert	Klares zentrales Thema, konsistente Abdeckung. Geringfügige, themenrelevante Abschweifungen.
3	Ausreichender Fokus	Erkennbares Hauptthema, aber ungleichmäßige Abdeckung. Einige lose Abschnitte.
2	Unfokussiert	Zu viele lose verwandte Themen. Kein klarer roter Faden.
1	Inkohärent	Kein klares zentrales Thema. Zufällige Ansammlung von Informationen.

Warnsignale

FAQ-Abschnitte mit themenfremden Fragen. Dies ist der häufigste Kohärenzkiller. Eine Seite über "React State Management" mit einer FAQ-Frage "Welchen Laptop sollte ich zum Programmieren kaufen?" versucht, Suchverkehr auf Kosten der thematischen Schärfe einzufangen.
Werbeabschnitte, die als Inhalte getarnt sind. Ein Leitfaden zur Cloud-Migration, der mit "Partner mit CloudExperts für Ihre Transformationsreise" endet, zerstört die inhaltliche Kohärenz.
Der "Alles-inklusive"-Ansatz. Der Versuch, Programmiersprachen, Methodologien, Cloud-Anbieter, Datenbanken und Karriererat in einem Artikel über "Softwareentwicklung" abzudecken.

Vollständige Aufforderung zur Bewertung thematischer Kohärenz (zum Ausklappen anklicken)

Der "Tangential, aber verwandt"-Test: Könnte dieser Abschnitt in einem Artikel über ein anderes Thema erscheinen? Wenn ja, ist es eine Abschweifung, kein Kerninhalt.

Schwelle zur oberflächlichen Abdeckung: 8+ Unterthemen oberflächlich abzudecken = maximal Punktzahl 3. Tiefe Abdeckung eines Themas schlägt oberflächliche Abdeckung vieler Themen.

Ausnahme für Pillar-Content: Umfassende Leitfäden zu einem breiten Thema können 4-5 Punkte erreichen, wenn es eine klare Organisationslogik gibt und jeder Abschnitt zu einem kohärenten Ganzen beiträgt. Der Schlüssel ist, ob es eine Struktur hat oder nur eine Liste loser Abschnitte ist.

4. E-E-A-T-Signale — Wer hat das geschrieben und warum sollte ich ihm vertrauen?

Basierend auf: Googles Quality Rater Guidelines

Ich möchte bei diesem Punkt direkt sein, weil E-E-A-T eine komplizierte Geschichte in der SEO-Welt hat.

Als Google E-A-T (Expertise, Authoritativeness, Trustworthiness) in seinen Quality Rater Guidelines einführte, behandelte die Branche — angeführt von Praktikern wie Marie Haynes — es als direktes Ranking-Signal. Die Logik war einleuchtend: Google sagt menschlichen Bewertern, sie sollen E-A-T bewerten, also muss Googles Algorithmus E-A-T messen. Autoren-Biografien wurden auf jeder Seite hinzugefügt. "Über uns"-Seiten wurden erweitert. Qualifikationen wurden überall angebracht.

Dann fügte Google 2022 das zusätzliche "E" für Experience hinzu, und der Zyklus wiederholte sich. E-E-A-T wurde zur Antwort auf jede Ranking-Frage.

Hier ist, was ich nach der Lektüre der geleakten Dokumentation und jahrelangen Tests glaube: E-E-A-T als direktes, messbares Ranking-Signal ist weniger eindeutig, als die Branche annimmt. Es gibt Hinweise darauf, dass Google diese Vertrauenssignale viel aggressiver auf YMYL-Inhalte (Your Money or Your Life) — Gesundheit, Finanzen, Recht, Sicherheit — anwendet als auf allgemeine Informationsinhalte. Ein medizinischer Artikel ohne Autorenangaben wird möglicherweise tatsächlich unterdrückt. Ein Blogbeitrag über JavaScript-Frameworks? Weniger klar.

Ich nehme E-E-A-T in meine Bewertungsschemata auf, nicht weil ich sicher bin, dass es ein Ranking-Signal für alle Nischen ist, sondern weil es ein nützliches Qualitätsrahmenwerk ist. Inhalte mit klaren Erfahrungsmerkmalen, nachweisbarer Expertise und transparenter Quellenangabe sind bessere Inhalte — egal, ob Google sie in deiner Nische explizit belohnt oder nicht. Und in YMYL-Bereichen sind die Belege für ihre Wirkung viel stärker.

Trotzdem glaube ich, dass Experience die Komponente ist, die in Zukunft wichtiger wird — und die unterschätzte. Warum? Weil Erfahrung mit KI schwer zu fälschen ist. Ein LLM kann expertengleich klingende Inhalte aus vorhandenen Quellen synthetisieren. Es kann einen autoritativen Tonfall imitieren. Aber es kann nicht die spezifischen, detaillierten Details produzieren, die aus dem tatsächlichen Tun einer Sache stammen — die unerwarteten Probleme, die kontraintuitiven Lektionen, die konkreten Zahlen aus einem realen Projekt.

Das Bewertungsschema

Punktzahl	Bezeichnung	Was es bedeutet
5	Herausragend	Klare Belege für alle vier Komponenten. Genannter Experte, demonstrierte Erfahrung, maßgebliche Quellen, transparente Methodik.
4	Stark	Starke Belege für 3+ Komponenten. Glaubwürdigkeit des Autors etabliert, Expertise nachgewiesen.
3	Ausreichend	Mäßige Belege. Einige Expertise gezeigt, grundlegende Vertrauenssignale, aber es gibt Lücken.
2	Schwach	Minimale Signale. Generische Autorenschaft, unbelegte Behauptungen, wenig Belege für Expertise.
1	Keine	Anonymer Autor, unbegründete Behauptungen, keine Vertrauenssignale.

Worauf man achten sollte

Erfahrungsindikatoren: Spezifische Details, die nur jemand kennen würde, der die Arbeit gemacht hat. "Wir haben X versucht und es ist wegen Y gescheitert" ist stärker als "X wird empfohlen für...". Originale Screenshots, Fotos oder Artefakte aus realen Projekten.

Expertenindikatoren: Nachweisbares Wissen, das über das hinausgeht, was ein Generalist recherchieren könnte. Nicht "Ich bin ein Experte" — zeige es durch die Tiefe und Genauigkeit des Inhalts.

Autoritätsindikatoren: Ist dies der erwartete Ort für diese Information? Werden Quellen zitiert, die selbst maßgeblich sind? Verweist das breitere Web auf diesen Autor oder diese Seite?

Vertrauensindikatoren: Sachliche Richtigkeit, korrekt belegte Behauptungen, Transparenz über Methodik und Grenzen. Kontaktinformationen. Offenlegung möglicher Interessenkonflikte.

Vollständige Aufforderung zur E-E-A-T-Bewertung (zum Ausklappen anklicken)

Wichtiger Hinweis zur Kalibrierung: Die Zuschreibung zum Autor (Namensnennung, Qualifikationen, Biografie) ist eine separate Überlegung von der E-E-A-T-Bewertung auf Inhaltsebene. Ein gut geschriebener Artikel mit klarer Expertise kann auch ohne Autorenangabe eine gute E-E-A-T-Bewertung erhalten. Die Autorenseite fügt eine zusätzliche Vertrauensebene hinzu, sollte aber nicht das einzige Signal sein.

Qualifikationen müssen relevant sein. Ein PhD in Biologie macht jemanden nicht zum Experten für Softwareentwicklung.

Behauptungen erfordern Belege. "In meiner Erfahrung..." ohne spezifische Details ist keine demonstrierte Erfahrung.

---## 5. Strukturelle Qualität — Unterstützt die Formatierung den Inhalt?

Basierend auf: SEO-Best Practices und Richtlinien für Webinhalte

Dies ist die mechanischste der fünf Dimensionen und die einfachste, richtig umzusetzen — weshalb es frustrierend ist, wie oft ansonsten exzellente Inhalte durch eine schlechte Struktur untergraben werden. Ich halte diesen Abschnitt kurz, weil die Ratschläge unkompliziert sind und Sie sie wahrscheinlich schon kennen. Aber aus meiner Benchmark-Arbeit kann ich Ihnen sagen, dass viele Seiten in den Top 30 hier immer noch Fehler machen.

Das Bewertungsschema

Punktzahl	Bezeichnung	Was es bedeutet
5	Exzellent	Perfekte Überschriftenhierarchie, scannbares Format, strategischer Einsatz von Formatierungen. Professionelle redaktionelle Qualität.
4	Gut	Klare Organisation, korrekte Überschriften, gute Scannbarkeit. Geringfügige Verbesserungen möglich.
3	Angemessen	Grundlegende Organisation, Überschriften werden verwendet, lesbar. Einige strukturelle Probleme, aber funktional.
2	Schwach	Unorganisiert, Textwüsten, inkonsistente Formatierung. Schwer zu scannen oder zu navigieren.
1	Nicht vorhanden	Bewusstseinsstrom. Keine Überschriften, keine Formatierung. Wirkt unredigiert.

Die grundlegenden Dinge, die zählen

Überschriftenhierarchie: H1 für den Titel, H2 für Hauptabschnitte, H3 für Unterabschnitte. Niemals Ebenen überspringen. Jede Überschrift sollte den folgenden Inhalt beschreiben — nicht clever oder vage sein.

Absatzlänge: Maximal 3-5 Sätze. Im Web sind kürzere Absätze fast immer besser. Eine Textwüste signalisiert: "Dies wurde nicht für das Online-Lesen geschrieben."

Formatierungsvielfalt: Verwenden Sie Aufzählungspunkte, nummerierte Listen, Tabellen, fettgedruckten Text und Codeblöcke, wo sie dem Inhalt dienen. Aber übertreiben Sie es nicht mit der Formatierung — jede Formatierungsentscheidung sollte die Information leichter konsumierbar machen, nicht nur den Text auflockern.

Interne und externe Links: Verlinken Sie zu verwandten Inhalten auf Ihrer Website und zu vertrauenswürdigen externen Quellen. Das sind nicht nur SEO-Signale — sie sind Vertrauenssignale. Inhalte, die isoliert existieren, ohne Referenzen und Verbindungen, wirken weniger glaubwürdig.

Vollständige Eingabeaufforderung zur Bewertung der strukturellen Qualität (zum Ausklappen anklicken)

Wichtige Kalibrierungsregeln:

Textwüsten (Absätze mit mehr als 6-7 Sätzen) begrenzen die Punktzahl auf 3
Das Überspringen von Überschriftenebenen (H1 → H3) reduziert die Punktzahl um mindestens 1 Punkt
Länge muss der Tiefe entsprechen — 3.000 Wörter oberflächliche Abdeckung erzielen eine niedrigere Punktzahl als 1.000 Wörter fokussierter Tiefe
Tabellen für Vergleichsdaten, Aufzählungen für Listen, Codeblöcke für technische Inhalte — verwenden Sie das richtige Format für den Informationstyp

Alles zusammengeführt

Diese fünf Dimensionen sind nicht unabhängig — sie beeinflussen sich gegenseitig. Hohe Originalität mit schlechter Struktur bedeutet, dass Ihre Erkenntnisse begraben sind. Großartige Struktur ohne Anstrengung bedeutet, dass Sie eine Wikipedia-Zusammenfassung schön formatiert haben. Starke E-E-A-T mit schwacher Kohärenz bedeutet, dass ein glaubwürdiger Autor unkonzentrierte Inhalte schreibt.

Die Inhalte, die gut ranken — konsistent, über Updates hinweg, in wettbewerbsintensiven Nischen — erzielen tendenziell 3+ in allen fünf Dimensionen und 4+ in mindestens zwei. Das ist eine hohe Latte. Die meisten Inhalte im Web erzielen 2-3 bei Anstrengung und Originalität, 3-4 bei Kohärenz und Struktur und 2-3 bei E-E-A-T.

Wie ich diese Schemata in der Praxis anwende:

Vor dem Schreiben: Ich prüfe, ob ich mindestens eine 3 für Anstrengung und Originalität erreichen kann. Wenn nicht — wenn ich vorhabe, Inhalte zu schreiben, die durch die Zusammenfassung existierender Quellen entstehen könnten — finde ich entweder einen originellen Ansatz oder schreibe sie nicht.
Während der Bearbeitung: Ich prüfe die Kohärenz. Ist der Artikel fokussiert geblieben oder ist er abgeschweift? Gibt es Abschnitte, die entfernt werden könnten, ohne das Kernargument zu beeinträchtigen?
Vor der Veröffentlichung: Ich prüfe Struktur und E-E-A-T-Signale. Gibt es konkrete, überprüfbare Aussagen? Hilft oder behindert die Formatierung? Würde ein Leser diesem Inhalt basierend auf dem, was auf der Seite steht, vertrauen?

Die Schemata sind nicht perfekt. Es ist meine Interpretation von Signalen, deren Nutzung durch Google in der von mir beschriebenen Weise nie offiziell bestätigt wurde. Aber als ich sie an 44.000 SERP-Ergebnissen getestet habe, zeigte die thematische Kohärenz eine konsistente, statistisch signifikante Korrelation mit dem Ranking — besonders für Websites mit geringer Autorität, die informative Keywords anvisieren. Das reicht aus, um sie nützlich zu machen, selbst wenn die zugrundeliegende Theorie nicht ganz korrekt ist.

Was die Daten zeigen

Ich habe diese Bewertungsschemata im großen Maßstab getestet — 44.000 SERP-Ergebnisse über 2.212 Keywords bewertet und 8 statistische Methoden angewendet, um zu testen, ob Qualität das Ranking vorhersagt, nachdem die Domainautorität herausgerechnet wurde.

Kurze Antwort: Ja, aber Domainautorität ist 10x wichtiger. Thematische Kohärenz zeigte das stärkste Signal. Inhaltsqualität ist am wichtigsten für Websites mit geringer Autorität, die bei informativen Keywords konkurrieren — genau dort, wo man erwarten würde, dass seitenbezogene Signale einen Unterschied machen.

Vollständige Ergebnisse hier.

Das Nächste, was ich testen möchte, ist, ob der Aufwand für Inhalte mit dem seitenbezogenen Linkaufbau korreliert — ob der Ranking-Effekt von Aufwand direkt ist oder über Links "gewaschen" wird. Wenn Sie an ähnlichen Fragen arbeiten, würde ich gerne davon hören.

Vorfall des geleakten Google-API-Materials 2024

King, M. (2024). « Investigation of the Leaked Google Ranking Algorithm Data » iPullRank. ipullrank.com/google-algo-leak — Erste Analyse, die unter den 2.596 geleakten Modulen Signale wie contentEffort, originalContentScore, page2vecLq identifiziert.
Anderson, S. (2024). « The contentEffort Attribute, The Helpful Content System and E-E-A-T » Hobo Web. hobo-web.co.uk — Detaillierte Analyse der Verbindung zwischen dem Signal contentEffort und dem « Helpful Content System ».
Fishkin, R. (2024). « An Anonymous Source Shared Thousands of Leaked Google Search API Documents With Me » SparkToro. sparktoro.com — Unabhängige Verifizierung der Authentizität der geleakten Daten.

BM25

Robertson, S.E. et al. (1995). « Okapi at TREC-3. » NIST. — Grundlagenarbeit zu BM25.
Robertson, S.E. & Zaragoza, H. (2009). « The Probabilistic Relevance Framework: BM25 and Beyond. » Foundations and Trends in Information Retrieval. — Umfassende Studie zu BM25-Varianten.

E-E-A-T und die Richtlinien für die Qualitätsbewertung

Google (2024). « Search Quality Evaluator Guidelines » guidelines.raterhub.com — Offizieller Rahmen für E-E-A-T.