SES NY 2011: Duplicate Content Session

S

Speaker:

Brian Ussery, CTO von Search Discovery Inc.
Tiffany Oberoi, Search Quality Team bei Google
Eric Enge, President von Stone Temple Consulting

Notizen:



Oberoi

  • Wegen Dupe Content gibt’s es keine Penalties! Es ist ein Filter. Gilt zumindest im „nicht-SPAM“ Fall
  • Guter anwendungsfall für Canonical: Druckversion der Seite oder http vs. https …
  • Wenn man URL-parameter nutzt -> ggf. werden mehr Seiten gecrawled!

Ussery

  • Man kann teilweise auf der Cache-Version der Seite sehen, dass Google das Canonical entdeckt hat und im Cache ist dann nur das Orginal und nicht die Kopie!
  • Häufige Bereiche wo Dupe Content passieren kann: Scraping / Syndikation, Kategorien / Sortierungen / Facceted Navigtion, technisches wie www. oder ohne oder https oder dev Subdomains o.ä. und zuletzt noch Produktinfos von Herstellern.

Enge

  • Als Dupe Content werden natürlich nicht die Elemente angeschaut die sich nicht verändern wie Header, Menu, Sidebards oder Footer. Zur Evaluierung wird nur der Content angeschaut
  • „Shingles“: Geschuffelter Text -> ist immer noch Duplicate
  • Lückenfülltexte werden auch erkannt als Dupe Content
  • Einfache Synonym Substitution also „toll“ und „wundervoll“ in einem Text wechseln
  • Evtl. in Zukunft da in Patenten beschrieben-> ein Satz der in zwei Textblöcken vorkommt die sonst unterschiedlich sind fallen ggf. zusammen bei einer Suche deren „Antwort“ in genau dem doppelten Satz vorkommt



War leider sehr Grundlegebend aber: Vielleicht gibt es da auch nicht viel mehr? 😉

Über den Autor

2 Kommentare

  • Hi Andre,

    klingt interessant: werden denn Markov generierte Texte wie der untenstehende als Duplicate Content oder geringwertiger Content erkannt?

    Sie [möchten|wollen|müssen] [schrittweise|gezielt|flexibel|langfristig] [Vermögen|Aktiva] [aufbauen|sichern|erwirtschaften|bilden-C] und über Ihr [Geld|Kapital|Angespartes|Guthaben] [täglich|frei|jederzeit] [verfügen]?
    Die [ideale|perfekte|sprachliche*|quadratische*|fachliche|optimale|notwendige|wohltuende*] [Ergänzung|Lösung|Schule*|Vorraussetzung*] für Ihr [Geschäftsgirokonto|Girokonto|Geld]: das [Tagesgeld] Flex.
    Die [Geschäftskonten|Minderjährige*|Anleger*|Girokonto*|Lastschriften*] [können] mit einem [Tagesgeldkonto] [kombiniert|eingerichtet|angeboten|getätigt|durchgeführt] [werden] um [liquide|liquid*|schuldenfrei|solvent|zahlungsfähig-T] zu sein und [gleichzeitig|simultan|ebenso|zugleich-T] Zinserträge [erwirtschaften|ausfüllen|erreichen|zahlen*|gutschreiben|generieren|unterstützen*] [zu können|zu wollen|bzw. Zinsverluste zu vermeiden|kann].

  • Hi Markus,

    ich könnte mir gut vorstellen, dass man im Longtail damit davon kommt wenn man es geschickt macht. Aber im Shorthead auf keinem Fall. Da schauen früher oder später auch Menschen drauf und dann ist die Frage was die davon halten.

    Wenn du schon etwas mit Markov-generierten Texten machst dann schuffel die doch vielleicht noch in der Reihenfolge …

    BG
    Andre

von Andre