روش TF-IDF چیست

فراوانی وزنی کلمه کلیدی TF-IDF چیست و روش محاسبه آن چگونه است؟

فراوانی وزنی (TF-IDF) فرمولی است که می توان توزیع مناسب اصطلاحات یا کلمات کلیدی را در یک متن تعیین کرد. . با این حال، روش تعیین این توزیع بسیار پیچیده تر از کار با چگالی کلمه کلیدی، که بر اساس فراوانی کلمه کلیدی است. متن بهینه سازی شده بر اساس TF-IDF باید محتوای جامعی را در بر بگیرد. برخلاف شمارنده های معمولی کلمات، در این روش زمینه معنایی استفاده از کلمات کلیدی ارزیابی می‌شود و اصطلاحات مرتبط با موضوع پیشنهاد می‌شود.

ریشه عبارت TF-IDF در سئو چیست؟

فرمول TF-IDF از سال 2012 یک موضوع مهم در سئو داخلی بوده است. در اصل، فرمولی که توزیع بهینه عبارات مرتبط با موضوع را در متن توصیف می کند، از بازیابی اطلاعات بدست می آید.

دانشمند اطلاعات “دونا هارمن” در سال 1992 به این فرمول اشاره کرد. این فرمول به طور فزاینده ای در صحنه سئو توسط بازاریابان آنلاین و کارشناسان سئو تثبیت شد. این فرمول دو عامل را برای تجزیه و تحلیل متون ترکیب می کند، TF و IDF:

TF مخفف “Term Frequency” است و اصطلاح وزن یا فراوانی یک کلمه را در یک سند توصیف می کند. IDF مخفف «inverse document frequency» است و در عوض فرکانس اسناد معکوس را نشان می دهد. این بدان معنی است که IDF مخفف وزن یا وزن یک اصطلاح در یک گروه از اسناد است.

به جای چگالی کلمات کلیدی، از متون TF-IDF برای محاسبه وزن عبارات استفاده می شود. دلیل: به طور خلاصه، هنگام استفاده از فرمول TF-IDF، کلمات کلیدی دیگر کلمات کلیدی خوانده نمی شوند، بلکه اصطلاحات نامیده می شوند.

موضوع TF-IDF زمانی به اوج خود رسید که زیرا سئوکاران به به صورت گسترده این مدل را به عنوان جایگزینی برای چگالی کلمه کلیدی قرار دادند. پس از دونا هارمن یک ریاضیدان با نام Jana Engelmann با استفاده از چند محاسبات برداری به این نتیجه رسید که به دست آورد که چگالی کلمه کلیدی «برای بازیابی اطلاعات یا سئو کاملاً بی ارزش است».

محاسبه فراوانی وزنی TF-IDF در یک سند چگونه است؟

برای فرمول TF-IDF، فراوانی یک کلمه (i) در یک متن (j) با فراوانی همان کلمه در یک سند مرتبط دیگر ضرب می شود. بنابراین وزن w عبارت (i) را در سند (j) نشان می دهد:

وزن: w

فراوانی کلمه یا عبارت i

سند یا متن: j

فرکانس کلمه یا عبارت: TF

فرکانس یا تکرار: T

قرار گرفتن سایر کلمات در یک متن: D

فرکانس معکوس سند(مرتبط بودن یک متن با یک کلمه کلیدی): IDF

wi, j = TFi, j * IDFi

فاکتور TF مخفف «فرکانس عبارت» است. این مشخص می‌کند که یک عبارت (یعنی یک کلمه یا یک ترکیب) چند بار در یک سند رخ می‌دهد. به صورت زیر محاسبه می شود:

TFi = log2 (Freqi, j + 1) / log2 (L)

لگاریتم از افزایش زیاد کلمه کلیدی اصلی جلوگیری می کند که منجر به ارزش بهتر در محاسبه شود. در حالی که چگالی کلمه کلیدی فقط درصد توزیع یک کلمه را در رابطه با تعداد کل کلمات یک متن محاسبه می کند، فراوانی درون-سندی نیز شامل نسبت تمام کلمات استفاده شده در متن است.

ضریب IDF “فرکانس معکوس سند”، فرکانس سند را محاسبه می کند. برای این منظور عبارت فرکانس (t) برای قرار گرفتن نسبی سایر کلمات در یک متن/سند (D) یا یک وب سایت تنظیم می شود. IDF برای تعیین میزان مرتبط بودن یک متن با یک کلمه کلیدی خاص استفاده می شود. محاسبه به شرح زیر است:

IDFt = log (1 + ND / ft)

با “فرکانس معکوس سند” یک اصلاح سازی به فاکتور TF اضافه می شود. محاسبه فرکانس معکوس سند برای درج فراوانی اسناد در تاریخ معین مهم است. IDF تعداد تمام اسناد شناخته شده را در رابطه با تعداد متن هایی که حاوی عبارت (term) است را تعیین می کند. در اینجا نیز لگاریتم برای “فشرده سازی” نتایج عمل می کند.

در برخی از کشورها، TF-IDF را می توان WDF-IDF نیز نامید که مخفف عبارت “درون فرکانس سند” (Within Document Frequency) و “فرکانس معکوس سند” (Inverse Document Frequency) است.

ضرب هر دو فرمول در یکدیگر وزن نسبی یک عبارت در داخل یک سند را در رابطه با تمام اسناد بالقوه که می توانند شامل همان کلمه کلیدی باشند را به ما بدهد. برای به دست آوردن یک نتیجه مفید، این فرمول باید برای هر کلمه معنی دار در یک سند متنی انجام شود.

هرچه پایگاه داده ای که برای محاسبه TF- IDF استفاده می شود بزرگتر باشد، نتایج دقیق تر است.

چگونه از TF-IDF در سئو استفاده کنیم؟

وقتی از TF * IDF در سئو صحبت می کنیم، نویسنده در تلاش است با استفاده از ابزار های تجزیه و تحلیل مطالب خود را تا حد امکان یونیک و بهینه کند. به دلیل یونیک بودن متن ها متورهای جستجو شانس قرار گیری آن ها را SERP ارتقا می دهند.

برای مدت طولانی، چگالی کلمات کلیدی به عنوان معیاری برای متن های سئو شده برای موتورهای جستجو استفاده می شد، فرمول TF-IDF اکنون روشی بسیار دقیق تر برای بهینه سازی محتوا می باشد.

همانطور که موتور جستجو بیشتر و بیشتر تلاش می کند تا بافت معنایی عبارات را تفسیر کند، سئو محتوای یک وب سایت از نظر معنایی می تواند سودمند باشد که به عنوان بهینه سازی معنایی پنهان (latent semantic optimization) شناخته می شود.

هدف تجزیه و تحلیل فراوانی وزنی TF-IDF تنها بهینه سازی کلمه کلیدی URL نیست، بلکه برای این که یک متن یونیک باشد اطلاعاتی را در حین ایجاد متن ارائه می دهد که سایر عبارات یک سند باید حاوی آنها باشد.

معایب TF-IDF

فرمول TF-IDF نوشدارویی برای سئو نیست. بلکه یک گزینه مبتنی بر ریاضی است که می توان محتوا را تا حد امکان یونیک کرد. بسیاری از عوامل برای بهینه سازی محتوای واقعی از مقدار TF-IDF حذف شده اند.

به عنوان مثال می توان به استفاده از کلمات مرتبط و هم جوار یا کلمات که سیگنالی درباره نیت جستجو کاربر نشان می‌دهند باشد. جهت گیری خالص به سمت مقادیر TF * IDF همچنین می تواند محتوای مزخرف را به عنوان بهینه ارزیابی کند. برای مثال، ابزارها نمی توانند کلمات ابهام دار و دوپهلو را متوجه شوند.

علاوه بر این، فرمول TF-IDF نمی تواند بفهمد عبارت‌های جستجو می‌توانند بیشتر در یک پاراگراف ظاهر شوند، یا اینکه مترادف ها می توانند معنی کلمه اصلی را برگردانند. اگر قرار است متون بر اساس وزن دهی بهینه سازی شوند، کاربر باید بداند که تمام عناصر وب سایت او در تحلیل گنجانده شده است.

آژانس های متنی، کپی رایترها یا وب مسترها نباید از منحنی TF-IDF به عنوان راهنمای مطلق استفاده کنند. در نهایت، نتایج ابزارها فقط محاسبات مبتنی بر لگاریتم هستند. سایر جنبه ها هیچ نقشی در وزن دهی عبارات ندارند. اما تونالیته، CTA ها، ساختار، سبک نوشتاری، اصطلاحات و خط داستانی نقش مهمی در کاربرپسند بودن و خوانایی یک متن دارند.

بهبود مستمر الگوریتم های موتورهای جستجو، پیشرفت هوش مصنوعی (یادگیری ماشینی) و همچنین اهمیت به کاربر در سئو، این نقاط ضعف فرمول TF-IDF را پوشش داده است که مدت هاست به عنوان یک سلاح مخفی در سئو به حساب می آمده است.

با فرمول TF-IDF، هیچ قانون جدیدی برای بهینه سازی متون وب ایجاد نشده است. در عوض، عبارت وزن دهی که قبلاً توسط دانشمند کامپیوتر هانس پیتر لون از IBM در سال 1957 به عنوان بخشی از بازیابی اطلاعات، توسعه و تحلیل شده بود مجدداً کشف شد. قبل از اینکه واژه وزن دهی برای سئو کشف شود، قبلا در زبان شناسی و بعداً در زبان شناسی رایانه هنگام ارزیابی مطالب متنی استفاده می شد.

نرخ‌ تعامل (اشتراک‌گذاری، نظرات، اینگیج)، کاهش نرخ پرش و مدت زمان ماندگاری خیلی مهم‌تر از محاسبه تعداد کلمات برای Google و الگوریتم‌های جستجوی می باشند. بنابراین باید در هنگام نوشتن متن مواردی که باعث رضایت کاربر و بهبود تجربه کاربری می شود در نظر گرفت.

بهینه سازی متن تنها یکی از جنبه های متعدد در زمینه بهینه سازی OnPage است. حتی بهترین متنی که مطابق TF-IDF نوشته شده است، اگر از محتوا و بک لینک‌ها ضعیف داشته باشد و برای استفاده از موبایل بهینه نشده اند باشد شانسی برای رتبه گرفتن ندارد.

چگونه فروشگاه های آنلاین از TF-IDF استفاده می کنند؟

اگر در یک صفحه فقط یک محصول قرار گیرد، با توجه به اینکه توضیحات محصول کوتاه است تیتر دسته‌ها و توضیحات محصول نیز برای بهینه‌سازی فروشگاه آنلاین در محاسبه وزن‌بندی قرار می گیرند، زیرا فرمول TF-IDF روش مناسبی برای محاسبه محتوای کوتاه نیست.

فاکتور تجزیه و تحلیل TF-IDF همچنان می تواند به درک تفاوت بین مطالب در SERP کمک کند. برخی از صفحات وب ممکن است از اصطلاحات متفاوت، معتبر، مرتبط و مفید برای یک موضوع استفاده کنند. بررسی آن ها می تواند فرصتی برای ارتقا محتوا باشد. اما همچنان، نوشتن مقاله فقط برای بهینه سازی TF-IDF، هدف واقعی سئو و انتشار محتوا را از بین می برد.

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

به بالای صفحه بردن