Duplicerat innehåll

Duplicerat innehåll, vad menas med det och varför filtrerar Google bort sidor eller hela hemsidor helt eller endast för vissa sökord?. Hur påverkar det vid sökordsoptimering.

Hur fungerar det?

Hur fungerar det? Vi tar ett exempel: Låt oss säga att ni i Januari flyttade några sidor från root katalogen (www.erdomän.se/sidorna) till en underkatalog (www.erdomän.se/nyasidor/sidorna). Ingenting ändras i innehållet, er sökordsoptimering ligger kvar som tidigare, endast flyttning sker. Ni raderar naturligtvis sidorna i root katalogen. Allt fungerar som det skall, ända tills Google hittar dom nya sidorna. Eftersom dom gamla sidorna är indexerade av Google så hittas sidor med exakt likadant innehåll. Google kommer då att filtrera bort dom nya. Detta kommer att ta tid innan Google uppfattar att sidorna är flyttade.

Det finns flera sätt att lösa detta exempel på

Använd ‘Google removal tool’ eller gör 301 redirects på dom gamla sidorna till dom nya (301 är en liten kodsnutt som placeras på sidan som talar om att den är permanent flyttad).
Använd inte 302 eller 404. 302 är temporarly moved och 401-404 är error sidor som visas när inget hittas.
Har ni flera domäner med samma innehåll så rekommenderar vi att ni gör 301 redirect på alla utan en. Har ni http aktiverat?. Visas er hemsida om ni plockar bort www i adressfältet?. Glöm då inte att göra samma sak med den, se separat artikel om detta.

Varför skall man göra såhär?

Google vill endast ha en sida som visar innehållet, inte flera. Man kan till och med bli bestraffad oerhört om Google anar att det är medvetet utfört (spamming). Ni kommer då inte att synas någonstans på kanske 6-12 månader.

Stjäl någon era texter så kan det innebära att ni blir bestraffade

Lånar ni ut texter till andra så se till att dom skiljer sig innehållsmässigt men minst 40% annars kan en sökordsoptimering vara värdelös, ni kommer ändå inte med.
Hur skall man kunna veta om någon använder ert material. Markera lite text från en av era sidor och sök efter det. Dom resultaten som kommer upp skall helst bara vara er egna. Kommer det upp många så kan ni alltid söka inom dom hittade sidorna. Ett val finns vid sökruta sist vid sökresultaten.
Självklart vet vi inte exakt när en hemsida klassas som likvärdig

Är filtret sid- eller site-baserat?

Min personliga uppfattning är att det generellt är sidbaserat. Men kan i extrema fall även gälla hela siter.
Baserat på en diskussion med en Google-ingenjör så förklarade han att filtret är en tvåstegs process. Ett steg är själva indexeringsprocessen där en sida kan flaggas för lik en annan.
Den andra fasen för att upptäcka dubletter är vid sökningar. Hittas många sidor med ‘troligt’ likvärdigt innehåll kommer dom endast att visa några få och sist i sökresultatet skriva ‘visa fler resultat…..’

Vi bygger ju inte era hemsidor

Vi bygger ju inte era hemsidor, inte heller rör vi text etc så vi har svårt att påverka ert innehåll. Det är ju er hemsida och vi kan endast anpassa det som finns. Ni bör/skall addera nya sidor så ofta ni kan. Detta innebär ju att vi har fler sidor kontinuerligt att utföra sökordsoptimering på. En levande hemsida är bättre för både besökaren och sökmotorerna och ni skriver då originalet.
Google letar alltid efter kvalitativt material för att indexera. I indexeringsprocessen fastställer Google om det är en kvalitets sida eller ett plagiat (duplicate content). I processen jämförs sidan mot dessa kvalitetssignaler och läggs antingen till i resultatet eller inte.
Hur nära 100% lika är 'duplicate content'?

Självklart vet vi inte exakt när en hemsida klassas som likvärdig

Om vi tittar tillbaka 1 år i tiden då en konkurerande kunders hemsidor försvann helt från Google samtidigt. Det var klart så att tekniken som användes var s.k. tekniksidor/dörrsidor etc där dom helt kopierat hemsidan till en ny domän, filtret aktiverades och bang – borta. Jag kan tänka mig att Google jämförde site A med site B och hittade ett mönster för att upptäcka alla kunders hemsidor. Det var inte bara duplicerat innehåll då utan riktigt otillåtna metoder.

Vad är duplicate content?

  • 1. Ta bort rubriker, menyer, sidfötter och all grafik (template/mallen) Detta är enkelt gjort via en matematisk algoritm. Det enda man behöver göra är att leta efter vissa mönster som matchar på några sidor.
  • 2. Content är vad som är kvar efter att template/mallen tagits bort. Innehållet jämförs på samma sätt genom att leta efter mönster.
Har man samma titlar på sidorna så kan även det göra så filtret aktiveras. Denna typ av matchning kan jämföras med ett uppslag i en ordlista. Man bygger ett index över sidor (ordlista) baserat på ord. man startar sedan med den minsta gemensamma nämnaren för att hitta en matchning via andra ord på andra sidor.

Hur nära 100% lika är ‘duplicate content’?

För några år sedan när filtret utvecklades skrevs det ett dokument I ämnet (numera borttaget) och då nämndes siffran 12%. Efter våra studier så är vi mycket frågande till den siffran. Skulle det räcka ned att texter skiljer sig 12% för att undvika filtret. Skulle inte lita på det eftersom filtret är förödande om det skulle slå in. Skilj era sidor med minst 40% eget material om ni lånat eller lånar ut texter. Samma gäller om ni har fokus på 2 länder (olika landsdomäner) på samma språk.

När behöver ni vara oroliga?

  • 1. Repetitivt innehåll på flera språk (eng/usa, spanska/centralamerika, etc)
  • 2. Automatgenererat innehåll med lite skillnader på många sidor.
  • 3. Geografiska hemsidor med likvärdigt innehåll på olika domäner.
  • 4. Multipla toppdomäner, com/se/nu med samma innehåll.
  • 5. Aktiverat http protokoll (om http://dindomän fungerar).

När kontrolleras duplicate content?

Troligtvis genom en bakgrundsrutin som jobbar dygnet runt. Säkerligen med hundratals datorer. Jag är övertygad om att dom har inställningar som per automatik känner av närheten eller om det inte är likvärdigt innehåll. Googles indexeringstider är numera inte statiska månadsuppdateringar som det var för 3-4 år sedan utan numera så görs olika processer I indexeringen konstant. Rankningsprocess, länkkontrollprocess, duplicate contentprocess, pagerankprocess, trustrankprocess etc. Vi är alltså nu inne i en ”Google uppdaterar alltid” era. Där dom enkelt kan ändra små saker för att få bra söksvar och upptäcka fuskare.

Vad gör Google om dom upptäcker duplicate content?

Bestraffar den senast funna inom några sekunder. Vad som generellt händer är att den först hittade anses som originalet. Den andra kommer att begravas djupt ner i resultaten och ingen sökordsoptimering i världen hjälper. Undantag finns naturligtvis. Vi tror att det är hög PageRank/TrustRank. Detta för att dom anses ha bra status och hög trovärdighet. Naturligtvis så finns det hemsidor som slinker igenom filtret.
Jag tror att “duplicering” kommer att bli vår stora nöt att knäcka i framtiden. Vi har 100% kontroll på vad vi skall göra när olika typer av filter aktiveras, men ibland kan visssa saker vara svåra att upptäcka efter vi gjort sökordsoptimering.

Duplicate content-problemet har inte nått sin fulla styrka ännu

Duplicate content-problemet har inte nått sin fulla styrka ännu och fortfarande i liten omfattning i Sverige ännu, men det kommer garanterat. Som allt annat så är Amerika först upp. Detta är bara början och sökmotorerna har nu gjort den grundläggande filtreringen genom att lösa filtrering som vi beskrivit ovan. På Search Engine Conference i New Orleans fick Googlee, MSN och andra representanter från olika sökmotorer frågor om ämnet och svarade:

”Det är mycket svårt att skilja ett original från kopian genom automatisk process. Det är INGEN prioritet i nuläget p.g.a. svårigheterna med algoritmen och dom juridiska aspekterna att öka filtreringen”.

Men dom löser det garanterat och skruvar upp filtret. Innehållstjuvar kommer säkert i många fall att hamna under”’rättmätigt användande” och falla in i filtret. Notera att dom juridiska aspekterna tas på mycket stort allvar av alla stora sökmotorer.

Var säker på att er hemsidas text är original. Google behöver exempel på hemsidor som filtrerats bort och är original. Detta kan göras på: www.google.com/support/ med “duplicate content” i ärenderaden.

Duplicate content filtreringen varierar mellan sökmotorerna

Duplicate content filtreringen varierar mellan sökmotorerna. Yahoo filtrerar mindre medan Google filtrerar ner komplext. Google tar också hänsyn till mer egenskaper för filtreringen, tex. mallar etc. Som även kan filtrera hela siter av enskilda sökord.

Det finns så många saker som kan påverka filtreringen

Det finns så många saker som kan påverka filtreringen så jag tror inte vi kan redovisa alla. Det vanligaste problemet är systersiter på olika domäner ich http problemet. Tänk också på detta om ni har/skall göra en shop som många använder (mallar) så kan risken för filtrering vara stor om ni inte har unikt redaktionellt material utan endast produkter som även dom många använder.
Læs også:
%d bloggers like this: