Duplicate Content („Doppelter Inhalt“) bedeutet, dass zwei (nahezu) gleiche Dokumente unter verschiedenen URLs (Adressen) erreichbar sind. Da die Ressourcen der Suchmaschinen begrenzt sind und z.B. Google verständlicherweise nicht immer gleiche Inhalte aufnehmen möchte, wird nur eine Quelle als Original eingestuft. Die jeweiligen Duplikate werden im Ranking herabgesetzt oder nicht im Index aufgenommen. Dies sieht man oft am Ende von Suchanfragen.

Von Doppelten Inhalt spricht man, wenn der gleiche Text auf der eigenen oder einer anderen Webseite verwendet wird. Anhand eines Beispiels wird dies noch deutlicher.

Gerade durch z.B. Produktdaten, die von vielen Shopbetreibern vom Hersteller bezogen werden, entsteht diese Duplicated Content Problematik. Den einzelnen Shopbetreibern werden vom Hersteller die Daten inklusive der Produktbeschreibungen zur Verfügung gestellt, die dann wiederum unverändert auf den Shopseiten ausgegeben werden. Es entstehen dadurch eine große Anzahl von Seiten mit der gleichen Produktbeschreibung des Artikels auf verschiedenen Shops.

Quellen für doppelte Inhalte

Es gibt eine Menge unterschiedlicher Quellen von Duplicated Content. So kann auch ihr Shopsystem doppelte Inhalte erzeugen. Typische Fehlerquellen sind:

  1. Jede Seite ist mit und ohne „www“ aufrufbar z.B. http://www.domain.de und http://domain.de
  2. Session-IDs. Beispiel: domain.de/produkte.html und domain.de/produkte.html?oscid=xyz
  3. Falsche Verlinkung der Startseite http://www.domain.de/ und http://www.domain.de/index.php.
    Dieser Fall tritt z.B. häufig bei XTCommerce Shops auf.
  4. URLs mit Groß- und Kleinschreibung aufrufbar: domain.de/AGB.html sowie domain..de/agb.html
  5. Content ist sowohl über „http“ als auch über „https“ aufrufbar
  6. Tracking-Parametern in der URL domain.de/produkte.html und domain.de/produkte.html?google_base=xyz
  7. Die Seite ist auch per Druckvorschau unter einer URL erreichbar
  8. Filterfunktionen geben gleichen Inhalt aus: domain.de/search.html?sort=farbe oder domain.de/search.html?sort=name bringen gleiche Ergebnisse

Wie kann ich doppelte Inhalte erkennen ?

Um zu ermitteln, wer z.B. den gleichen Datenbestand ausliefert, wird einfach eine Textpassage aus einer Produktbeschreibung mit ca. 10 Wörtern herausgenommen und danach bei Google mit Gänsefüßchen gesucht, um die exakten Treffer zu der Wortpassage zu erhalten.

Anhand der Ergebnisse kann man feststellen, welche Domains über den gleichen Content verfügen. Um die Problematik zu verdeutlichen, haben wir eine Phrase aus dem Angebot eines großen Versandhaus entnommen und bei Google danach gesucht.


Link zum Beispielfoto

Aus dem Screenshot kann man erkennen, dass der gleiche Inhalt auf mehreren verschiedenen URLs besteht.

Dies kommt dadurch zustande, dass dieses Kleid in den Kategorien:

>> Damenmode >> Mode >> Kleider >> Partykleider >> Jerseykleid und
>> Damenmode >> Markenshops >> Vivance Collection >> Kleider & Röcke >> Jerseykleid, Vivance Collection

veröffentlicht wurde.

Content Diebstahl

Ein weiterer wichtiger Punkt, wodurch Duplicated Content entstehen kann, ist der Content Diebstahl durch Dritte. Dieser sollte zur Vermeidung von Duplicated Content bekämpft werden. Dies kann durch Angabe einer Quelle mit Link erreicht werden, damit Google zur Originalquelle verwiesen wird, oder durch rechtliche Schritte. Um einen Contentdiebstahl aufzudecken sollte öfters verglichen werden, ob der Inhalt nochmals im Internet vorhanden ist. Dazu nehmen Sie einfach wie oben bereits aufgeführt eine Textpassage aus Ihrem Content und geben diese bei Google in Gänsefüßchen ein. Anhand der Ergebnisse können Sie feststellen, ob jemand den gleichen Content auf seiner Website anbietet oder man selbst eine andere Domain mit dem gleichen Inhalt bestückt hat.

Wie soll man dagegen vorgehen?

Von Duplicated Content spricht man wenn eine Gleichheit des Textes einer anderen Seite besteht, wobei HTML Code und wiederkehrende Blöcke wie Navigation ausgeschlossen werden. Google ermittelt dabei über einen Algorhythmus ob sich der Text ähnelt.

Vorallem sollte man die technischen Möglichkeiten nutzen um DC zu vermeiden. Mit anderen Worten sollte man keine SessionIDs für Google auszuliefern, eine Standarddomain definieren oder das Crawlen von https Seiten verbieten. Desweiteren haben die großen Suchmaschinen Werkzeuge bereit gestellt um solche DC Quellen zu vermeiden. So gibt es neben dem Canonical Tag, welches die Orginalquelle angibt, z.B. noch die Möglichkeit in den Google Webmaster Tools einzelne Parameter wie die Session ID auszuschließen. Haben Sie diese Voraussetzungen geschaffen, sollten Sie natürlich auch DC bei Ihren Texten vermeiden.

Um also Duplicated Content abzuschwächen oder zu vermeiden, muss daher jeder Text so abgeändert werden, dass dieser ca. 20-30% zum Originaltext abweicht. Dadurch wird ein zweites Original erzeugt und von Google nicht mehr als Dublette erkannt. Angenommen der bisherige Text besteht aus 100 Wörtern kann man diesen mit zusätzlichen 20 Wörtern und Sätzen anreichern um eben so ein zweites Organal zu erzeugen. Auch durch Verwendung von Synonymen oder abgeändertem Satzbau kann man einen eindeutigen Text erstellen.

Das Mischen von Snippets von ähnlichen Produkten reicht hier oftmals nicht aus. Ebenfalls sinnvoll ist es, eigene Benutzer-Bewertungen für Produkte gleich auf der Produktseite aufzulisten. Dadurch würde eine Textpassage erscheinen die auf ihre Domain eindeutig wäre.

Generell gilt dabei, je eindeutiger Sie den Text gestalten können, desto weniger Gefahr läuft man, diesen Filter bei Google auszulösen.

Seoratio GbR

ist Partner und Geschäftsführer bei Seoratio.de, wo er sich auf die Universal Search sowie transparente Shop- und Suchmaschinenoptimierung spezialsiert hat. Durch seine 10-jährige Erfahrung im Online-Marketing ist er ein langjähriger Experte auf dem Gebiet der Suchmaschinenoptimerung. Vor seiner Firmengründung arbeitete Thomas Zeithaml als SEO-Consultant für namhafte Agenturen und betreute vor allem Shopbetreiber aus verschiedensten Bereichen & Branchen.

  • Contentklau kommt leider gerade bei gutem Content viel zu oft vor. Doch wie weißt man bei einer Website einwandfrei nach, dass man der Urheber des Contents oder oftmals auch nur geklauten Snippets ist, z.B. Webarchive…? Es muss natürlich auch Realisierbar bleiben, ein Shop mit beispielsweise 1000 Produkten kann nicht jede Unterseite notariell oder wie auch immer beglaubigt festhalten. Gibt es hier rechtlich abgesicherte Erfahrungen oder Vorschläge/Ideen?

  • priocont

    Gerade nach dem letzten Panda-Update ist die Einzigartigkeit einer Webseite entscheidend für die Platzierung in den Suchergebnissen der Suchmaschinen. Ein wesentliches Kriterium ist auf jeden Fall unique content (http://de.wikipedia.org/wiki/Unique_Content), damit kann schon viel erreicht werden, wenn man sich gegenüber Wettbewerbsseiten behaupten will. Das kombiniert mit einer geordneten Struktur, der richtigen Textlänge mit entsprechender Keyworddichte und noch weiterer Kriterien (http://www.content.de/lexicon/SEO-Shopoptimierung-4.html) entscheidet über die Einzigartigkeit einer Webseite und damit maßgeblich über den Erfolg beim Ranking.

  • Hallo Thomas, toller Artikel, im Gegensatz zu anderen Posts endlich mal einer mit einer konkreten Handlungsaufforderung („mindestens 20-30 Prozent Uniqueness“).

    Habe aktuell eine passende Problematik; ein Magento-Shop, der zwar durch eine SEO-Erweiterung das Canonical-Tag setzt, jedoch habe ich durch x Farbvarianten von Produkten auch leider x Unterseiten mit x einzigartigen „canonical-links.“Das alles fällt somit glaub ich auch unter „Near Duplicate Conten“
    Folge: Anstatt 350 Unterseiten ca 7700 Seiten im Google-Index.
    Langsam bin ich mit meinem Latein am Ende,

    @all: Jemand eine Idee? :)

    Grüße Ulrich

  • Kann man es irgendwie vermeiden, dass bei Pruduktgrids, die Produktbezeichnungen ausgelesen werden? Mir entsteht dadurch eine ungewollt hohe Keyworddichte.

Online-Marketing

3 Growth Hacks für Online-Shops: Jetzt ausprobieren!

Hendrik Lennarz •

Recht

E-Commerce-Recht – Rückblick auf den November 2014

Rolf Albrecht •