Erkennen, vermeiden

Duplicate Content: Definition und Gefahr

"DC" - wenn nicht gerade "DataCenter" damit gemeint ist - ist das Schreckgespenst für alle Optimierer. Schenkt man dem Hühnergeschrei in den Foren Glauben, ist Duplicate Content die Ursache für so ziemlich jedes WehWehchen und das Damokles-Schwert über jeder Website.

Duplicate Content ("Doppelter Inhalt") bedeutet, dass zwei (nahezu) gleiche Dokumente unter verschiedenen URLs (Adressen) erreichbar sind. Die Gründe dafür sind vielfältig, absichtlich oder unabsichtlich. Du hast zb deine Website auf irgendeinem Gratis-Webspace, entscheidest dich dann aber doch für einen ordentlichen Provider samt Domain. Dann lädst du die Site komplett auf die neue Domain, lässt aber die alte Site, weil ja noch Besucher hinkommen. Schon hast du Duplicate Content. Andere Fälle sind weit häufiger: Du hast zB DomainA und DomainB, bei beiden aber den gleichen Webspace. Von "außen" ist das aber nicht erkennbar - es könnten auch verschiedene Webspaces mit dem selben Inhalt sein. Oder dein Blog/Forum/CMS produziert verschiedene Links auf die gleichen Seiten. Oder.. oder .. oder.
Absichtlich erzeugter Duplicate Content wird verwendet, um Satelliten-Seiten mit Content zu füllen. Normalerweise werden das keine wirklich identischen Seiten sein, sondern leichte Abwandlungen.

Formen von Duplicate Content

A.) Völlig identische Seiten/Dokumente:
Zwei Dokumente sind Bit für Bit völlig gleich. Das kommt zB bei Bildergalerien vor: Photoshop (oÄ) erzeugen immer gleiche Dateien. Vom der Galerieseite " DSC00010.htm" gibt es Tausende identische Exemplare im Web. Oder PDFs, die per Mail herumgereicht werden und etwa auf verschiedenen Fun-Seiten landen. Oder eben die oben genannten Fälle.

B.) Inhaltlich völlig identische Seiten:
Das beinhaltet natürlich auch Fall A, mit dem Unterschied, dass kleine Abweichungen im Quellcode nicht beachtet werden. Also das, was von Parser in den Indexer kommt, ist bis ins letzte Byte gleich.

Fall A + B behandelt Google so: Dasjenige Dokument mit mehr PageRank* wird "normal" gerankt, Kopien davon landen im "Sekundären Index". Das passiert nicht sofort, aber relativ schnell. Es ist auch egal, auf welcher Domain das Original oder die Kopie ist (Google weiß ja nicht, was das Original ist). Eine Abwertung der übrigen Domain erfolgt nicht. Allerdings geht auf diese Art PageRank ("Linkpower"... oder wie du es nennst) verloren.

C.) Weitgehend identische Seiten im selben Verbund (~ Domain):
Google wertet angeblich alle Seiten ab, die sich im <head> nicht unterscheiden. Das betrifft v.a. den <title>, die Meta-Description und die Meta-Keywords. Damit bekommt Google auf recht brachiale Weise das Problem in den Griff, dass Onlineshops, Blogs und Forenthreads häufig verschiedene URLs für nahezu gleiche Inhalte erzeugen. Ein Thread in einem Forum ist zB etwas verschieden, je nachdem wie man ihn aufruft, obwohl er inhaltlich nahezu identisch ist.
Betroffen davon wären aber auch Seiten nach dem Muster index.php?seite=12; also Seiten, bei denen <head> und Menue immer gleich sind und der eigentliche Inhalt per Include eingefügt wird. Meinem Empfinden nach werden derartige Sites tatsächlich sehr schlecht gerankt. Gelegentlich findet man auch ganze statische Domains, bei denen alle Seiten von einem Template übernommen wurden; meistens kleinere Firmenpräsenzen.

D.) Weitgehend identische Seiten - irgendwo im Web:
Wer Punkt C.) verstanden hat, weiß schon: njet. Google kann das nicht. Um einzelne Seiten kümmert sich Google gar nicht, um Spam-Domains jenseits der 100000 Seiten gerade mal, wenn ein Spam-Report hereinflattert oder ein neuer Algo starke Veränderungen zum vorigen anzeigt. Handarbeit gibt es bei Google nur für die Großen Bösen, kleinere Seiten mit ein bissel Duplicate Content haben nichts zu befürchten. Wenn ich annehmen würde, dass Google besser als Google ist, dann würde ich annehmen, dass Google schon beim Indexieren einer Seite diese nach gewissen Kriterien zur "Sonderbehandlung" schickt. Etwa wenn plötzlich auf einer Domain 10000 Seiten aus dem Nichts auftauchen.
Es sei aber angemerkt, dass das auch keine andere Suchmaschine kann. Die nötigen Berechnungen sind extrem aufwändig und würden auch Googles Kapazitäten weit sprengen.

E.) Einzelne Text-Blöcke/Absätze:
Völlig unproblematisch. Wenn Google das tatsächlich irgendwie erkennen und abwerten würde, wären alle Blogs weg vom Fenster.

Wie gefährlich ist Duplicate Content wirklich?

Zwar hat Google dem Duplicate Content schon durch den PageRank-Algorithmus einen Riegel vorgeschoben: Vergessene oder Satellitenseiten (Brückenseiten) würden nur wenig PageRank bekommen und damit von selbst aus dem Index fallen. Allerdings funktioniert das nicht immer so schön und nicht zuletzt kann man PageRank kaufen. Duplicate Content ist immer noch DAS Hauptproblem bei der Indexierung des Webs.

Google zeichnet sich derzeit vor allem durch Planlosigkeit aus und genau das macht die Sache gefährlich: Ganze Sites brechen ohne erkennbaren Grund plötzlich ein und kommen nur langsam wieder hoch.

Für Websitebetreiber ohne "Grauzonenaktivitäten" besteht wenig Gefahr. Man sollte darauf achten, ob bei der Yahoo! - Site-Abfrage viele Dupletten auftauchen und dieses Problem beseitigen. Und anders als Yahoo! hat Google keine Probleme mit Standardfällen wie zB www.domain.de/ vs. www.domain.de/index.php oder domain.de vs. www.domain.de (mit/ohne www)

Gerüchte, dass allein das Grabben von Textpassagen zur Abwertung der beklauten Site führen können, sind übrigens völliger Blödsinn.

*PageRank: Damit meine ich das, was Google intern dafür hält, nicht das Bildchen vom Balken.

Links zum Thema:

Duplicate Content: Diskussion bei Abakus

Kommentare:

Danke für deine ausführungen, ich denke aber dass google nicht nur den head sonder den gesamten quelltext prüft; wenn sich mindestens 20% unterscheiden, scheint es okay zu sein. viele grüsse
mathias

Mathias
Antworten

Eine wirklich tolle Zusammenfassung. Vor allem, dass an dieser Stelle nüchtern einige sehr verbreitete Vorurteile enttarnt werden gefällt mir sehr. Der letztem Satz zum Pagerank sollte aber am besten direkt am Anfang stehen und mehrfach unterstrichen werden. Die stumpfe Fixierung auf den "Pagerank" scheint leider nicht tot zukriegen.

Christian
Antworten

Hallo, meine Webseite ist über verschiedene Url erreichbar das ich bei Strato 3 Domain Namen bekommen habe ist das jetzt schlecht für meine Webseite könnte das als Duplikat erkennt werden. Ich muss dazusagen das ich bei der Optimierung immer nur eine angebe bzw. Optimieren.

Achim
Antworten

Hallo Achim, das ist tatsächlich schädlich. Stelle das am Besten mit einer guten htaccess ab. Aktuell bewertet Google wirklich schon das, was User, wenn sie es überhaupt wahrnehmen, als Kleinigkeiten abtun, sehr streng. Daher achtet wirklich auf jede Kleinigkeit ;-)

Carsten Todt
Antworten

Hallo, wir haben vor unseren Online-Shop (de-Domain) für unsere Niederlassung in Österreich weitestgehend zu kopieren. Da wir dort identische Artikel anbieten, wir die Seite dann nuter .at zu erreichen sein. Wie kritisch ist so eine Kopie für Suchmaschinen, da ja die Artikel genau identisch beschrieben werden?

Stefan
Antworten

@Stefan
Das ist ein Problem, google bestraft zwar nicht direkt, aber einen große Erfolge sind mit der gespiegelten Seite nicht zu erwarten.
Auch wenn es Arbeit kostet, versuche uniquen Inhalt zu erstellen.

Matthias
Antworten

Habe seit 11 Jahren eine ALTE Website. Allein schon deswegen wurde sie in Google gut bis sehr gut gerankt ( jahrelang auf Seite 1) trotz damal üblichen und heute verpönten Frames. Hauptseite hat PR4. Unterseiten zwischen PR2-PR3.
Doch jetzt wurdevor etwa 4 Monaten mit WEBEASY 7 eine neue Website gebaut.Doch WEBEASY regenerierte alle Unterseiten seltsamerweise mit der Endung "htm" statt wie heute üblicher, mit html. Nur dieINDEX-SEITE.behielt nach wie vor die html-Endung.
Resultat: Alle Unterseiten der NEUEN Website konnten den alten bisherigen PR der alten html-Seiten nicht übernehmen (trotz identischer url, ausgenommen eben der Unteschied mit der htm- Endung ) Alle neuen Unterseiten haben also PR/0.

Da die alten Unterseiten nach wie vor in GOOGLE aber erstklassig gelistet sind, will ich diese logischerweise natürlich nicht löschen und deshalb liess ich sie bis heute aufgeschaltet.

Doch bei der NEUEN Website rührt sich nicht viel. Trotz Seo-Optimierung und 1300 Backlinks. Die tümpelt seit Monaten irendwo auf Seite 8 von GOOGLE herum und man hat das Gefühl die würde vom GOGGLE-Spider überhaupt nie besucht.

Prüfe ich die neue Website mit verschiedenen Online-Testtools, erhalte ich überall gute bis sehr gute Bewertungen. 98-100 Prozent optimiert.Alles palletti und Halleluja.

Trotzdem bewegt sich das Ding nicht richtig vorwärts. Wer hat eine Idee ? Metas, Titel Description Keywords usw. alles wunderbar im grünen Bereich.Nun habe ich gestern noch bei "Seitenreport.de" die Website getestet. Hier meckert die Analyse allerdyngs etwas von "Duplicat-Content" . Die Unterseiten der ALTEN Website sind zwar themenbezogen, jedoch im Text alle recht verschieden.
Könnte es trotzdem sein, dass die alten Unterseiten" der Grund dafür sind, dass sich die neue Homepage sich nicht bewegt ? Wer hat da eine Idee ?"

pascal
Antworten

KORREKTUR !
Sorry. Eine Verwechslung: Getestet wurde nicht bei Site-check sonden bei www.seitenreport.de

Pascal
Antworten

Als mir zeigt Copyscape rss feeds als duplicate content an...ratlos...

chris
Antworten

Hallo Chris,
hast Du mittlerweile eine Idee zu den RSS Feeds? Ich stehe nämlich vor einem ähnlichen Problem.

Daniel
Antworten

Mir geht es ganz ähnlich Achim aus dem Kommentar, ich habe eine Webseite (Joomla CMS) unter einer Subdomain meiner ältesten Domain laufen. (Hauptdomain: freakinthecage.de/Subdomain: webdesign.freakinthecage.de)

Irgendwann bot mir mein Provider eine kostenlose .eu Domain an die ich erfreut genommen habe und und die Joomla Seite die unter webdesign.freakinthecage.de läuft darauf umgeleitet.

Kurz darauf konnte ich günstig eine .com Domain ergattern. Die ich ebenfalls auf die Joomla Subdomain verlinkt habe.

Also eine wirklich existierende Webseite unter 3 Domains. Anfangs hatte ich den Eindruck das es durchaus einen positiven Effekt gehabt hat da sich die vorhandenen Backlinks vervielfachten.

Seit dem letzten Google Filter update bin ich allerdings mit meinem Hauptkeyword nicht mehr bei Google zu finden, zuvor hatte ich bei diesem sehr begehrten Keyword eigentlich eine recht gute Position.

Der Sichtbarkeitsfaktor ist seitdem rapid gefallen, unter anderen Keywords bin ich aber noch vertreten.

Nach Deinem "Fall A + B" Beispiel hätte ich ja nichts zu befürchten, das ist aber wiedersprüchlich zu der Aussage die Du Achim gegenüber getätigt hast.

Jetzt ist meine Verwirrung perfekt.. :-)

Könntest Du den Sachverhalt aufklären, da wäre ich sehr,sehr dankbar... :-)

Frank
Antworten

Mmmh ... ach wenn es stimmt, sind wir glücklich
" hat Google keine Probleme mit Standardfällen wie zB www.domain.de/ vs. www.domain.de/index.php oder domain.de vs. www.domain.de (mit/ohne www)" Genau das ist vermutlich exakt unser Problem seit etwa 3 Monaten und es fühlt sich ein wenig nach schleichendem Tod an. Jede Woche etwas weiter runter, aber immer nur die betroffene Startseite. Ich muß sagen, hier ist das Thema grundsätzlich klasse erklärt und vor allem denke ich ebenfalls, dass einige Angelegenheiten bei google total überbewertet werden. Da würde so manches einfach die Möglichkeiten übersteigen. Es gibt wirklich wichtigere Webseiten um die google sich kümmern muß, als die, die immer die tollsten Maßnahmen hinter jeder Aktion sehen. Vielen Dank für die endlich mal realistische Einschätzung. Gruß aus Köln, dirk

dirk
Antworten

so wie google haben auch die Nutzer ein Problem mit DC. Wenn Sie auf einer Seite sind, wollen Sie einzigartigen Inhalt und nicht alles x-mal lesen. Das kostet Zeit und Nerven. Deshalb ist es schon aus dem Aspekt heraus sinnvoll, guten und einzigartigen Inhalt zu erstellen.

Matthias
Antworten

Bald 1 Jahr später neue Billanz zu meinem Post 04/05/2012
Was hat sich inzwischen verändert ? Die Unterseiten von ehemals PR-0 haben inzwischen fast ausnahmslos auf PR=4 angehoben. Die IndexSeite hat einen PR=5 und ist bei "seittest.de" als *Sehr gut" bewertet und unter die Top-100 gerutscht. Toll. Nur.... das Ranking selbst lässt noch zu wünschen übrig. Auf Google.ch auf Seite 4. Nach wie vor aber sind die "alten" (html-Unterseiten) auf Seite 1 zu finden. Teils sogar als Top.

Pascal
Antworten

Ergänzende Mitteilung zum obigen Beitrag!
Upps.. Da hat sich gerade etwas gekreuzt. Habe gerade festgestellt, dass die Index-Seite sich von Seite 4 brandneu auf Seite 2 bei "Google. ch" (Keyword: "Zauberer" vorverlegt hat. Muss in den letzten Stunden passiert sein.
Wäre aber trotzdem interessant zu wissen, ob ich nun trotzdem den vorhandenen "doppelten Content" löschen soll oder nicht? Die Seo-Meinungen gehen da teilweise auseinander.

Pascal
Antworten

Eine Frage habe ich noch:

Unsere Website www.seniorenwissen.net ist auch bei Facebook vertreten, auf der wir unsere neuesten Artikel veröffentlichen/posten.

Angenommen ich mache eine zweite Facebook-Seite auf, mit anderem Namen und poste dort unter anderen Überschriften wieder unsere neuesten Artikel, würde das duplicate content sein? Ich meine, die URLs bleiben ja identisch, nur den Text, den ich über den Link bei einem Beitrag setze, verändere ich. Wäre das für uns, Seniorenwissen, schädlich?

Sophie
Antworten

Hallo, also ich bin total verwirrt, und meine Frage ist letztlich immer noch unbeantwortet:
Ich betreibe 1 Projekt, welches unter abc.biz als auch unter abc.at läuft, also gleiche URL-Name, aber unterschiedliche domainendung. Wie verhält es sich in diesem Fall mit double content? Würde ich also besser eine Umleitung auf die hauptdomain anlegen, um db zu vermeiden?
Danke vorab für die Hilfe.
el.pe

Lars
Antworten

also eigentlich ist interner dc nicht so schlimm, da dann google die relevanteste seite auswählt. nur bei automatisch erzeugtem inhalt wird es gefährlich, google ist hier gnadenlos und entfernt die gesamte domain.

Lara
Antworten

ach www.seitenreport.de war es habe es wieder nicht gut gelesen glaube ich haha

gr
marcel

Marcel
Antworten

Google Webmaster Tools sieht die Sache nicht so streng... Wenn beispielsweise über eine externe Webseiten-Bewertung "DC" festgestellt und moniert wird, steht im Analyseprogramm von Google selbst nichts böses... Ich finde das irritierend...

Martin
Antworten

auf www.seitenreport.de hat sich das problem mittlerweile gelöst ?
dort wurde bei einem meiner projecte vor nicht allzu langer zeit ebenfalls dc festgestellt, aber mittlerweile ohne jegliches zutun wird das dort nicht mehr festgestellt.

mfg

Tim
Antworten

Ich schreibe einen magazinartigen Blog und veröffentliche die Beiträge häufig auch identisch auf dem Bewertungsportal Qype.Ist das empfehlenswert oder spiele ich damit überwiegend einer anderen Plattform Inhalte zu, die mich im Ranking höher bringen würden, wenn ich sie alleine nutzen würde?

conny
Antworten

Hi everybody,

I wanted my website to be available with and without www. So i made a header ("location: http://freedoes.com"); - Script in php.

Unfortunately there were some websites, saying that there is duplicate content. Playing a little and found the solution:

Just add: , TRUE, 301 to the script:

header ( "location: http://freedoes.com", TRUE, 301);

Thats it.

Hope this helps you, too.
Dan

Dan
Antworten

Bei der Flut an Web-Angeboten sollte man auch aus Sicht des Nutzers nur auf einzigartigen und wertvollen Content setzen. Nur dann hat man die Chance sich gegen einen anderen Web-Anbieter des gleichen Produkts oder Inhaltes durchzusetzen.

Benni
Antworten

Klasse der Artikel - interessant deine Unterscheidung in verschiedene Formen des 'duplicate content'. Auch nach meiner Erfahrung wird der title-tag stark mit ins Ranking einbezogen. Wortwahl, Reihenfolge und Menge an Begriffen fliesst mit ein und entsprechend verschieden ist dann auch die Platzierung in den google Suchergebnissen. Individuelle Seitentitel, die auf den tatsächlichen Seiteninhalte (keywords)der Einzelseite Bezug nehmen werden besser platziert.

Satyam
Antworten

Hallo zusammen

Ein Kunde hat zwei identische Websites:

lifecom.ch
lifebuilder.ch

Ist dies der Grund, warum es im Ranking nicht aufwärts geht? Penalty?

Gruess aus Bern

Pierrot
Antworten

Hallo Zusammen
Ich habe mehr Filialen in der ganzen Europa und entsprechend gewisse Inhalte wiederholen sich. Sind das DC? Was für eine Lösung gebe es? Viele Seiten sind nur von uns vererbt, z.B. die Produkte usw, aber es gibt auch andere Informationen wie Kontakt, Adresse, Tel, Team usw. Sind dies DC?
Gruss aus Basel

Anna
Antworten

Hallo! Gibt eigentlich genug Gratistools, wo man das überprüfen kann. Wichtig ist es allemal....

Lutze
Antworten

Danke für diese nützliche Zusammenfassung! Meine Erfahrung ist: Wenn der TEXT auf den entsprechenden Seiten wirklich unterschiedlich ist, hat man auch bei ÄHNLICHEN Inhalten als Seitenbetreiber keine Probeleme mit DC.

Johannes
Antworten

Bei Abakus hat jemand ein neues Tool vorgestellt, dass angeblich sehr zuverlässig Duplicate Content findet.

https://goo.gl/VVbyWF

Stefan
Antworten

Sehr informativer Beitrag! Es hat mich wirklich erstaunt, dass Google anscheinend Websites mit kleinen abgekupferten Textpassagen nicht abstraft.
LG

Michael
Antworten

Super beitrag Dank euch habe es geschafft meine Seite von doppel Content zu befreien

Anes
Antworten

Ja solche probleme gab es damals auch mit meinen Websiten.

Marko
Antworten

Hey, ich plane gerade einen Blog, auf dem ich auch teils Inhalte anderer Websites mit deren Erlaubnis und Nennung der Quelle veröffentliche. Wie weit sollten diese Texte geändert werden?

Johanna
Antworten

Sehr wichtig, ich nutze auch einige free Tools um das zu checken.

Grafikdesign Dresden
Antworten

Meine Seite ist über die Domain und über die index Seite (doppelter Content) erreichbar. Welche Seite verlinke ich und was muss ich auf der index als canonical eingeben?

Gitte
Antworten

wass soll ich machen z mein seite senden bei word press

maik
Antworten

Gibt es ein Tool zur Messung von Schwachstellen auf Unterseiten? Quasi ein Tool, welches die komplette Website analysiert und wobei man erkennen kann, welche Unterseite ausbremst?

Bernhard
Antworten

Ja ich glaube ein solches Tool gibt es!

Google mal nach MOZ Tools - die Seite ist wirklich super und findet die Stärkste Unterseite!

Liebe Grüße Claudio von HD24 Webdesign

HD24 Webdesign Leipzig
Antworten

Klasse Beitrag, guter Inhalt und ich habe mich auch selbst bei Fehlern ertappt!
Danke für die Hinweise und die Hilfe!
Ich werde den Blog verfolgen :)

Liebe Grüße,
Bruno

Bruno
Antworten

Sehr cooler Inhalt. Die Tipps sind wirklich sehr gut

Felix Patzelt 10.02.2019
Antworten

Sehr interessanter Artikel! Wir haben in letzter Zet viel mit DC getestet, und einige interessante Erkenntnisse gewonnen.

Wir haben einige Seite kreiert, die mehrere tausend Unterseiten haben, mit einem Masspagebuilder-Plugin. Die Seiten unterscheiden sich lediglich durch die Ortschaft, soll heissen, jede Unterseite steht für eine separate Ortschaft. Der Artikel, der für all die Seiten verwendet wurde, ist aber derselbe.

Erstaunlicherweise haben diese Seiten zum Teil sehr gute Rankings erzielt. Da Google dies wohl als eine Art Directory-Webseite ansieht, scheint Duplicate Content in diesem Fall kein Problem zu sein...

Beste Grüsse Markus von der Visionline SEO Agentur

Visionline SEO Agentur 21.02.2019
Antworten