روش‌ های برای شناسایی محتوای تکراری

محتوای داپلیکیت (Duplicate Content) چیست و چگونه آن را تشخیص دهیم؟

محتوای داپلیکیت (محتوای دوگانه) است که در چندین صفحه اینترنت یکسان است. صفحات تکراری فقط متون کپی شده نیستند، بلکه بالاتر از همه صفحات مجزا کاملاً یکسان هستند. بین محتوای داپلیکیت داخلی و خارجی تفاوت وجود دارد: داخلی به این معنی است که همان محتوا در یک دامنه است. برای مثال، در سایت مهدی نجاری و خارجی به این معنی است که محتوا در چندین دامنه وجود دارد.

Duplicate Content برای موتورهای جستجو مثل گوگل مشکل ایجاد می کند. بنابراین، از نتایج جستجو حذف می شوند و یا شانسی برای دیده شدن ندارند. برای اینکه یک وب سایت مشکلی در رتبه بندی نداشته باشد، هر صفحه ایندکس شده باید به اندازه کافی “محتوای منحصر به فرد” داشته باشد. “محتوای یونیک” محتوایی است که فقط برای یک صفحه ایجاد شده و فقط در آن صفحه ظاهر شود.

اگر متن یکسان یا بسیار مشابه چندین بار در یک وب سایت یا در وب سایت های مختلف استفاده شود، این محتوای داپلیکیت است (محتوای تکراری). موتورهای جستجو بر تجربه مثبت کاربر و بر محتوای یونیک متکی هستند، به همین دلیل است محتوای مشابه فقط یک بار ایندکس می شود. اگر موتور جستجو محتوای یک صفحه را به عنوان محتوای تکراری و به عنوان تلاش برای فریب تشخیص دهد، ارزش صفحه کاهش می یابد یا از فهرست حذف می شود.

چرا محتوای تکراری مشکل ساز است؟

duplicate content یک مشکل بزرگ برای گوگل است. برای گوگل دشوار است که از نظر الگوریتمی بفهمد کدام سمت دامنه برای یک کوئری جستجو مناسب‌تر است. علاوه بر این، گوگل می‌خواهد منابع خزیدن را ذخیره کند و 100 نسخه از یک صفحه را کراول نکند، زیرا هزینه سخت‌افزاری زیادی بر اساس استانداردهای گوگل هدر می‌رود. اصول اولیه این موضوع مستقیماً از Google در دسترس است: «محتوای تکراری».

گوگل تلاش زیادی می کند تا صفحاتی با اطلاعات متمایز را ایندکس کند و نمایش دهد. به عنوان مثال، این فیلترینگ به این معنی است که اگر سایت شما دارای یک نسخه «عادی» و «چاپگر» از هر مقاله است و هیچ یک از این ها با متا تگ noindex مسدود نشده است، ما یکی از آنها را برای فهرست کردن انتخاب می کنیم. در موارد نادری که Google متوجه شود محتوای تکراری ممکن است به قصد دستکاری در رتبه‌بندی ما و فریب کاربران ما نشان داده شود، ما همچنین تنظیمات مناسبی را در ایندکس و رتبه‌بندی سایت‌های درگیر انجام خواهیم داد. در نتیجه ممکن است رتبه سایت آسیب ببیند یا سایت به طور کامل از نتایج گوگل حذف شود، در این صورت دیگر در نتایج جستجو ظاهر نمی شود.

Google Webmaster Quality Guideline, Avoid Duplicate Content Section

همچنین محتوایی که یونیک نباشد و جملات گسسته زیادی داشته باشد، حتی اگر کاملا مشابه نباشد می تواند باعث جریمه محتوای تکراری شود. معمولاً Google کلاسترهای (cluster) محتوا را با نسخه های محتوایی مشابه یا بسیار مشابه ایجاد می کند تا یکی از این محتواها را به عنوان نماینده (Representative) انتخاب کند. محتوای نماینده، محتوایی است که همه خوشه‌های محتوا را به عنوان محتوای کنونیکال (canonical) نشان می‌دهد.

محتوای متعارف (کنونیکال) معمولاً از معتبرترین دامنه یا از بهترین صفحه وب انتخاب می شود. زمانی که خوشه محتوا بزرگتر می شود و صفحات تکراری و صفحاتی غیر منحصر به فرد رفته رفته بیشتر می شوند و از محتوای نماینده اقتباس می کنند، محتوای نماینده و URL آن اعتبار بیشتری پیدا می کند. این به عنوان وارونگی لینک نامیده می شود (Link Inversion) که اکثر سئوکاران سنتی نمی دانند. این روش موضوعی برای ربودن محتوا است که یک تکنیک کلاه سیاه است.

خوشه های محتوا و عبارت محتوای نماینده مستقیماً از پتنت‌های Google گرفته شده‌اند. پاداش دادن به موضوعات یونیک با محتوای میونیک تشویقی برای ایجاد محتوای با کیفیت است.

چه زمانی محتوای تکراری مشکل ساز می شود؟

اگر وب سایت دارای چندین صفحه وب با محتوای یکسان باشد، این یک مشکل برای تشخیص کلمه کلیدی اصلی برای موتور جستجو و کابران ایجاد می کند و ممکن است ورودی ترافیک بر روی نتایج با موضوع یکسان تقسیم شود. گوگل یا سایر موتورهای جستجو می خواهند فقط یک صفحه را برای یک گروه جستجوی خاص ببینند تا بتوانند صفحه یونیک موضوع را در فهرست نتایج نشان دهند.

مگر اینکه کراولر ها سعی کنند یکی از آنها را به عنوان URL کنونیکال انتخاب کنند. همچنین، حتی اگر یک تگ Canonical در آن صفحات وجود داشته باشد، تنها یک اشاره برای ربات گوگل است و گوگل به دلخواه خود صفحه کنونیکال را نمایش می دهد. این فرآیند، برای کراول گوگل هزینه بر خواهد بود، زیرا بات ها سعی می کنند بدانند کدام صفحه برای مفهوم یک کوئری خاص مناسب تر است.

اگر یک وب سایت محتوای تکراری بیشتری نسبت به محتوای یونیک داشته باشد، به راحتی می توان آن را مشکل محتوای تکراری نامید. همچنین، صفحه بندی اشتباه، استفاده از برچسب کنونیکال، محتوای بیش از نامرتبط باعث محتوای تکراری داخلی شود.

تفاوت محتوای Repetitive با Duplicate Content چیست؟

بزرگترین تفاوت بین محتوای تکراری و محتوای Repetitive این است که repetitive content برای ایجاد حالت کپی ایجاد نشده است. به طور کلی، پاورقی (footer) را می توان به عنوان repetitive content در site-wide فیلدهای هدر نامید. لوگو و شعار یک شرکت را می توان همزمان در بیش از یک رسانه یافت. استناد از یک منبع را می توان در بیش از یک منبع نیز یافت. چنین محتوایی repetitive content نامیده می شود.

نمونه های معمول از Duplicate Content چیست؟

  • وب سایت هایی که از https: // example.com، http: // example.com، http: // www استفاده می کنند و ریدایرکت انجام نداده اند.
  • استفاده از حروف کوچک و حروف بزرگ در آدرس مثل kabodseo.com/K و kabodseo.com/k
  • URL های خود برای نسخه های چاپی.
  • PDF های اضافی با اطلاعات محصول مانند جزئیات فنی، که در صفحه فرود محصول ارائه می شود.
  • صفحات متعدد جزئیات محصول برای اندازه ها، رنگ ها و شکل های خاص.
  • پارامتر های آدرس (URL parameters) سایت های افیلیت مثل ? Partnerid=2858
  • Parameter URLs برای مرتب‌سازی و نمایش نمای کلی محصول.
  • /index.htm, / en / و موارد مشابهی که سیستم های مدیریت محتوا تولید می کنند.
  • صفحات برچسب که به صورت خودکار تولید می شوند.
  • و صفحات پیجینیشن pagination pages

چگونه می توانیم محتوای تکراری (duplicate content) را پیدا کنیم؟

ساده ترین راه برای پیدا کردن داپلیکیت کانتنت در سایت خود، جستجوی بخش های متنی در سرچ گوگل است. کافیست متن را درون گیومه (“”) قرار دهید:

چگونه محتوای تکراری را پیدا کنیم؟
پیدا کردن محتوای داپلیکیت با اپراتورها

شما همچنین می توانید از اپراتورهای جستجو مانند “site:kabodseo.ir “اخبار” استفاده کنید. این اپراتور هر صفحه وب را که شامل رشته «اخبار» روی آن است نشان می‌دهد. همچنین می‌توانید ببینید کدام صفحه‌ها برای این کوئری در کل دامنه مرتبط‌تر هستند:

مثالی از روش پیدا کردن محتوای تکراری duplicate content

برای اینکه واقعا محتوای تکراری را پیدا کنید، باید روی این لینک کلیک کنید ( نتایج حذف شده گوگل یا omitted Pages) تا صفحات تکراری فیلتر شده نمایش داده شوند:

نتایج جستجوی تکراری حذف شده
نتایج جستجوی تکراری حذف شده

مثال های بالا فقط روش‌های کلی هستند. برای یافتن مثال های نزدیک و مفیدتر، باید از عملگرهای جستجوی intitle، inurl، inanchor به روشی کارآمد استفاده کنید. از آنجایی که جستجو برای همه عبارات متنی دشوار است، ابزارهای مفیدی وجود دارد. سرچ کنسول گوگل گوگل گزارش «Index Coverage» دارد. برای انجام این کار، روی “Excluded” در نمودار کلیک کنید:

بخش exclude در سرچ کنسول گوگل

سپس گوگل از بخش های زیر به شما می گوید کدام محتوای شما محتوای Duplicate است:

با کلیک بر روی URL مربوطه، منویی باز می شود که در آن می توانید مستقیماً به ابزار بررسی URL بروید. در آنجا حتی می توانید ببینید که URL دوگانه (duplicate) کدام است.

همچنین می توانید از ابزار هایی مثل Ahrefs, SemRush و غیره محتوای تکراری را پیدا کنید که البته پیشنهاد من این است که روش دستی آن را پیدا کنید.

روش دیگر من استفاده از فیلتر query سرچ کنسول است.

  • ابتدا وارد نتایج search result شوید.
  • سپس بر روی NEW+ کیک کنید.
  • Query را انتخاب کرده و کلمه کلیدی خورد را وارد کنید و apply را بزنید.
  • از نتایج بدست آمده آن هایی را که کانسپت (مفهوم) یکسان دارد در نظر بگیرید.
  • سپس وارد تب Pages شوید و تمام کلماتی که یک مفهوم دارند ولی در صفحات مختلفی آمده اند را در گوگل شیت جدا کنید.
  • در نهایت برای رفع آن یک صفحه که محتوای بهتری دارد یا در نتایج حضور بهتری دارد را اصلی در نظر بگیرید و بقیه صفحات را ریدارکت 301 بر روی صفحه اصلی بزنید.
بخش فیلتر کوئری های سرچ کنسول برای پیدا کردن محتوای تکراری یا داپلیکیت

چگونه می توانید از محتوای تکراری (duplicate content) جلوگیری کنید؟

راه حل های مختلفی برای جلوگیری از محتوای تکراری وجود دارد. اساسی ترین: اصول پایه این است که اجازه ندهید محتوای داپلیکیت ایجاد شود و از آنجا شروع می شود که خزش (crawl) تمیزی داشته باشید و همچنین لینک داخلی به محتوای تکراری نداده باشید. برای من به هنگام گرفتن پروژه سئو پس از اصلاح ساختار و معماری سایت، رفع محتوای تکرای از اولین اقدامات در سئو تکنیکال می باشد که می تواند در ابتدای کار جهش خوبی در رنکینگ داشته باشد و همینطور تارگت های هدف جستجو را مرتب کند.

اگر از قبل محتوای دوگانه دارید، باید آن را مستقیماً از طریق تغییر مسیرهای 301 به URL اصلی مورد نظر ارسال کنید. گاهی وقت ها ممکن است صفحات تکراری داشته باشید که به درد کاربر می‌خورد.مثلا متغیرهای محصول مثل ظرفیت حافظه گوشی ها، affiliate URLs یا صفحات مرتب سازی و چینش محصولات که بهتر است برای آن از تگ کنونیکال (canonical ) استفاده کنید و صفحات فرعی را بر روی اصلی کنونیکال بزنید تا از محتوای تکراری جلوگیری کنید.

لینک کنونیکال در هد صفحه شما قرار می گیرد که برای کاربران قابل مشاهده نیست و به موتورهای جستجو می گوید که کدام صفحه باید در نتایج جستجو ظاهر شود. سپس موتورهای جستجو URL دوگانه و URL اصلی را به عنوان محتوا درک می کنند و می توانند آن را مدیریت کنند.

اگر از وردپرس استفاده می کند از طریق افزونه رنک مث یا Yoast می توانید در هر صفحه در بخش advance آدرس کنونیکال را وارد کنید.

اگر محتوای تکراری دارید که نباید در هیچ نسخه ای در ایندکس ظاهر شود مانند صفحاتی که فقط برای پیمایش استفاده می شوند، باید با استفاده از متا تگ robots آن را روی “noindex, follow” تنظیم کنید تا آنها را از جستجو حذف کنید.

اگر عناصر ناوبری شما تنها پس از رندر شدن جاوا اسکریپت قابل مشاهده است، باید از noindex با دقت استفاده کنید. زیرا صفحات وب با تگ noindex توسط گوگل برای صرفه جویی در منابع خزیدن ارائه نمی شوند. بنابراین، نمایش ناوبری داخلی در صفحاتی که بدون جاوا اسکریپت هستند می تواند مفید باشد.

اگر صفحات Duplicate Conten دارید، که هر دو باید قابل جستجو باشند، تنها یک چیز کمک می کند: باید محتوا آن ها را تا جایی که امکان دارد متمایز کنید. حتی اگر همه خدمات شما یکسان باشد، صرف نظر از اینکه تعمیر لپ تاپ یا رایانه رومیزی باشدو یا می خواهید سرویس ها جداگانه پیدا شوند، باید محتوای خود را برای آنها فرموله کنید. البته این در مورد توضیحات محصول در فروشگاه های آنلاین نیز صدق می کند.

موارد خاص از محتوای تکراری

مانند Repetitive content که قبلاً صحبت کردیم، انواع دیگری از انواع محتوای تکراری در موقعیت خاص وجود دارد:

ماژول های متنی تکرارشونده

حتی پاراگراف های تکی که در چندین صفحه شما ظاهر می شوند، نوعی محتوای تکراری هستند. گوگل این را “ماژول های متنی تکرارشونده” می نامد:

ماژول‌های متنی تکرارشونده را به حداقل برسانید: به‌جای درج اعلامیه‌های کپی رایت گسترده در انتهای هر صفحه، فقط می‌توانید خلاصه‌ای کوتاه با پیوندی به اطلاعات دقیق ارائه دهید.

Google Webmaster Guidelines

این اطلاعات کم اهمیتی نیست. سعی کنید تا حد امکان متن کمتری در Footer و تب های تکرار شونده قرار دهید. اطلاعات حمل و نقل و موارد دیگر نیز محتوای تکراری هستند! گوگل بسیار حساس است. اگر 300 کلمه اطلاعات گسترده درباره فروشگاه را در انتهای هر وب سایت قرار دهید. این نوع محتوا برای کاربران ضرری ندارد، اما با این حال، این نوع محتوا توجه کاربر را جلب نمی کند. این نوع از کلمات ایجاد ارتباط را بین کوئری سرچ شده کاربر و محتوای فروشگاه مختل می کند و باعث گیج شدن ربات ها و موتور جستجو گوگل می شود.

محتوای داپلیکیت خارجی

اگر محتوا در چندین دامنه ظاهر شود، گوگل باید یک نسخه اصلی را انتخاب کند. به عنوان یک قاعده، این صفحه ای است که Googlebot برای اولین بار آن محتوا را در آن پیدا می کند. اما سیگنال های دیگری مانند لینک به منبع نیز نشانه ای برای گوگل هستند.

بنابراین اگر یک بیانیه مطبوعاتی دارید و می خواهید صفحه شما برای آن پیدا می شود، ابتدا باید مطمئن شوید که منتشر می کنید. بسیار مهم است که گوگل ابتدا صفحه شما را بخزد. می توانید با کلیک بر روی “ابزار بازرسی URL” در کنسول جستجوی گوگل از طریق رابط کاربری (User Interface)، این کار را تسریع کنید.

پس از بررسی URL لازم، می توانید روی دکمه درخواست ایندکس (request indexing) کلیک کنید. همچنین، باید لینک هایی ارائه دهید که به محتوای اصلی شما اشاره می کنند، استفاده از منطق اولین ایندکس (first-index) ممکن است برای انتشار عمومی کافی نباشد، زیرا سایت های خبری در طیف گسترده ای از موضوعات دارای قدرت زیادی هستند.

درخواست first index در سرچ کنسول

محتوای تکراری خارجی برای نسخه اصلی مشکل خاصی ندارد. اگر از محتوای تامین‌کنندگان برای توضیحات محصول استفاده می‌کنید، احتمالاً توسط سایر وب‌سایت‌ها نیز استفاده خواهد شد. بنابراین احتمال اینکه صفحه شما پیدا شود بسیار کم است. بنابراین شما همیشه باید توضیحات محصول خود را خودتان ایجاد کنید و مطلب یونیک بنویسید.

اما اگر از نقل قول استفاده می کنید، معمولاً مشکلی نیست. برای حفظ امنیت، می‌توانید با استفاده از برچسب «blockquote» آنها را به‌عنوان نقل قول در کد منبع علامت‌گذاری کنید:

این یک نقل قول است.

محتوای تکراری بین المللی (زبان ها و جامعه هدف مختلف)

اگر برای آلمان، اتریش یا سوئیس دارید، احتمالاً صفحات خود را با قیمت‌ها، شماره تلفن‌ها و اطلاعات حمل و نقل متناسب با آن تنظیم کرده‌اید. برای اینکه با محتوای تکراری مشکلی نداشته باشید، از “hreflang” استفاده کنید.

به این ترتیب در صفحه خود به موتور جستجو می گویید که کدام یک از صفحات برای کدام کشور و برای کدام زبان در نظر گرفته شده است. به عنوان مثال، این کد می گوید که Example.com دو نسخه محتوای متفاوت برای یک موضوع دارد. یکی از آنها مخاطبانی است که در ایالات متحده به انگلیسی آمریکایی صحبت می کنند و دیگری انگلیسی بریتانیایی در بریتانیا را هدف قرار می دهد.

<link rel = "alternate" hreflang = "en-US" href = "https://www.example.com/content-in-en-uk" />
<link rel = "alternate" hreflang = "en-UK" href = "https: //www.example.com/content-in-en-us" />

حتی با وجود hreflang هرج و مرج وجود دارد:

حتی با برنامه hreflang تعریف شده، ممکن است که Google در صفحات بین المللی مشابه ادغام شود. می توانید این را ببینید، برای مثال، از این واقعیت که صفحه amazon.de در حافظه پنهان Google برای amazon.at ذخیره می شود:

حتی اگر حافظه نهان ربطی به ایندکسینگ نداشته باشد، نشان دهنده این است که صفحات این ایندکش توسط گوگل “تا شده (folded)” هستند. این کار در یک سال منجر به اختلاط ناخوشایند بین کشورها و همچنین به مشکلات رتبه‌بندی شد که بسیاری مجبور بودند با آن دست و پنجه نرم کنند. از اکتبر 2017، گوگل به سادگی URL مربوطه را برای کشور مناسب حل کرد. معمولا نیازی به فردی کردن محتوا برای کشورهای مختلف نیست.

نکته: همچنین باید از مسیر مطلق در ویژگی های hreflang استفاده کنید. Hreflang Attribute پیج رنک و ارتباط و امتیازات اطمینان را بین URL های جایگزین به اشتراک می گذارد. بنابراین، استفاده دقیق از آن مهم است. اگر ویژگی‌های hreflang به صورت متقابل پیاده‌سازی نشود، توسط Google معتبر فرض نمی‌شود. هر دو نسخه جایگزین باید دارای ویژگی های hreflang در اشاره به جایگزین باشند.

آخرین نظرات در مورد محتوای تکراری (duplicate content)

محتوای تکراری یک مفهوم مهم SEO بین منابع خزیدن موتور جستجو، محتوای اصلی، ابهام زدایی، کنیبالیزیشن کلمات کلیدی، خوشه‌های محتوا، وارونگی لینک، ارتباط، امتیازات اطمینان، و رقت‌های سیگنال رتبه‌بندی و بسیاری از توکن‌ها و پتنت‌های موتور جستجو است.

برای درک و استفاده از مفاهیمی مانند تگ های Canonical، 301 Redirections، Site Migrations و Unique Information، Added Value Content، نیاز به درک نگرانی های اساسی و ماهیت همه موتورهای جستجو، به ویژه گوگل است.

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

به بالای صفحه بردن