سیستم بازیابی اطلاعات موتور جستجو چگونه عمل می کند؟

فهرست محتوا

بازیابی اطلاعات (information retrieval) به معنای ریکاوری اطلاعات است. بازیابی اطلاعات به فرآیندی گفته می شود که در آن درخواست اطلاعات از یک پایگاه داده بزرگ بدون ساختار، اطلاعاتی انتخاب می شود که دقیق ترین مطابقت را با درخواست داشته باشد.

بنابراین بازیابی اطلاعات یکی از وظایف اصلی یک موتور جستجو است: موتورهای جستجو گردآورنده اطلاعات و داده ها هستند. داده های جمع آوری شده ارزیابی، پردازش، ذخیره و بازیابی می شوند.

نکته: الگوریتم Page Rank انقلابی برای فناوری های موتورهای جستجو بود. تا قبل از پیج رنک و گوگل، همه موتورهای جستجو از روش بازیابی اطلاعات برای طبقه بندی و ساختار وب استفاده می کردند. با PageRank، گوگل می تواند SERP بسیار بهتری را برای کاربران ایجاد کند و همچنین، موتور های جستجو می توانند پایگاه داده ایندکس خود را بسیار سریعتر به روز کنند. به همین دلیل است که گوگل یک موتور جستجوی فرامتنی هست.

آنچه در ویکی پدیا درباره بازیابی اظلاعات گفته شده است:

بازیابی اطلاعات (Information Retrieval) فعالیت بدست آوردن منابع سیستم اطلاعاتی که مربوط به اطلاعات لازم یک مجموعه است را می‌گویند. جستجوها می‌توانند برپایه جستجوی تمام متن یا سایر جستجوهای مبتنی بر محتوا نمایه گذاری شوند. بازیابی اطلاعات علم جستجو اطلاعات در یک سند، جستجو برای خود سندها، جستجو برای فراداده‌ها که داده‌ها را توصیف می‌کنند و برای پایگاه داده ‎های متنی، عکسی یا آوایی است. سیستم‌های بازیابی اطلاعات خودکار برای کاهش چیزی که آن را سرریز داده‌ها (اضافه‌بار اطلاعات) استفاده می‌شوند. سیستم بازیابی اطلاعات نرم‌افزاری است که دسترسی، ذخیره و مدیریت کتاب‌ها، مقالات و دیگر سندها را فراهم می‌کند. موتورهای جستجوگر وب (موتور جستجوی وب) از قابل مشاهده‌ترین برنامه‌های کاربردی بازیابی اطلاعات هستند.
wikipedia

معنی بازیابی اطلاعات چیست؟

تعداد روزافزون اسناد دیجیتالی موجود تقاضا برای جستجوی سریع و هدفمند را به همراه دارد. در معنای کلاسیک، به جستجوی اسناد متنی اشاره دارد. با این حال، اطلاعات باید همیشه برای همه اسناد چند رسانه ای بازیابی شوند.

علاوه بر کاربرد اصلی موتورهای جستجو، فرآیند بازیابی اطلاعات شامل کتابخانه های دیجیتال، پایگاه های داده تصویر یا آرشیوهای چندرسانه ای نیز می شود.

نوع جستجو بر الزامات یا روش های بازیابی اطلاعات تأثیر می گذارد تأثیر خود را نشان می دهد به عنوان مثال:

پایگاه داده ای که جستجو در آن انجام می شود: تفاوت های بزرگ بین پایگاه داده خود-مدیریت و پایگاه داده در اینترنت
درخواست اطلاعات: در مقابل ایده نسبتا مبهم هنگام جستجو
نوع سند: متون در فرمت های مختلف (به عنوان مثال doc، pdf، فایل html)، فیلم ها، تصاویر، فایل های صوتی
یکی دیگر از مشکلات انتخاب اطلاعات مناسب، آگاهی نامشخص از سیستم بازیابی اطلاعات است، یعنی از محتوای سند اطلاعی ندارد. سیستم بازیابی فقط می تواند از روش های خاصی استفاده کند، به عنوان مثال. آمار متن یا وزن اصطلاح، اما با استفاده از کلمات خاص مشکل دارد، به عنوان مثال. با مترادف یا متجانس.

برای اینکه بتوانیم درخواست اطلاعات را بهتر انجام دهیم و نتیجه بهتری ارائه کنیم، روش های مختلفی در بازیابی اطلاعات برای طبقه بندی دقیق تر درخواست جستجو وجود دارد، به عنوان مثال. با در نظر گرفتن زمینه جستجو – این کاری است که موتورهای جستجو مانند گوگل انجام می دهند. برای مثال، موتور جستجو شامل سوالات قبلی است.

منشاء اصطلاح بازیابی اطلاعات

اصطلاح “بازیابی اطلاعات” برای اولین بار در سال 1950 توسط Calvin N. Mooers استفاده شد. وانوار بوش در مقاله As We May Think در ماهنامه آتلانتیک در سال 1945 توضیح داد که چگونه استفاده از دانش موجود می تواند از طریق استفاده از فروشگاه های دانش متحول شود. دید او Memex نام داشت. این سیستم باید انواع حامل های دانش را ذخیره کند و جستجوهای هدفمند و مرور اسناد را با استفاده از لینک ها فعال کند. بوش قبلاً به استفاده از موتورهای جستجو و ابزارهای بازیابی فکر می کرد.

علم اطلاعات از شوک های اسپوتنیک تقویت شد. از یک طرف، ماهواره روسی آمریکایی ها را از عقب ماندگی خود در تحقیقات فضایی آگاه نگه داشت که با موفقیت برنامه آپولو از بین رفت. از سوی دیگر، نکته بسیار مهم برای علم اطلاعات بود چون نیم سال طول کشید تا رمز سیگنال اسپوتنیک شکسته شود. این در حالی است که کد رمزگشایی مدت ها است در یک مجله روسی که قبلاً در کتابخانه های آمریکا بود خوانده شده بود. به همین دلیل است که بازیابی اطلاعات یک اصطلاح مهم در تاریخ است.

مدل های بازیابی اطلاعات کدامند؟

مدل های بازیابی مختلفی وجود دارد که برخی از آنها بر روی یکدیگر ساخته می شوند. مهم ترین مدل های بازیابی اطلاعات عبارتند از:

مدل بولی Boolean Model

قدیمی ترین مدل بازیابی اطلاعات بر اساس منطق بولی از سال 1854 تا کنون.
مطالب را فقط می توان با استفاده از عملگرهای “and”، “or”، “not” پیدا کرد.
محتوا مرتب نشده است – هیچ رتبه بندی نتایج وجود ندارد.

مدل هستی شناختی Ontological Model

این مدل بر اساس ارزیابی محتوای سند نیست، بلکه بر اساس ارزیابی ساختار لینک بین اسناد است که منجر به رتبه‌بندی اسناد می‌شود.
ساختار اجازه می دهد تا بیانیه ای در مورد اعتبار اسناد ارائه دهد.
این شامل PageRank از گوگل است که توسط لری پیج و سرگئی برین ایجاد شده است.

آمار متن Text Statistics

بررسی اصطلاحات در یک سند:
وزن دهی از طریق WDF و IDF انجام می شود.
فراوانی نسبی یک عبارت در یک سند: WDF: In Document Frequency
فراوانی که یک سند در یک پایگاه داده با یک اصطلاح خاص رخ می دهد: IDF: Inverse Document Frequency
مدل برداری نیز بخشی از مدل آمار متن است: هر متن مربوط به یک نقطه در فضا است، زوایای بردارها شباهت کلمات را به یکدیگر نشان می دهد.

مدل خوشه ای Cluster model

خلاصه اسناد توسط Similarity می تواند روند جستجو را سرعت بخشد زیرا فقط دسترسی به یک مجموعه اسناد مورد نیاز است.
اگر خوشه ها ناقص یا بسیار بزرگ باشند، ممکن است مشکلاتی ایجاد شوند.

موتورهای جستجو چگونه از بازیابی اطلاعات استفاده می کنند؟

هر موتور جستجوی اینترنتی از information retrieval برای پردازش سوالات جستجو استفاده می کند. در موتورهای جستجو، ارزیابی اطلاعات «تعیین شده» و مرتب‌سازی آن بر اساس اهمیت/ارتباط بسیار مهم است که منجر به رتبه‌بندی می‌شود. به محض اینکه یک عبارت جستجو را در قسمت جستجو وارد می کنید، موتور جستجو اطلاعات مربوط به عبارت جستجوی شما را از داده های ذخیره شده (SERP) برمی گرداند.

بر این اساس، سئو سایت تلاش می کند تا بازیابی اطلاعات از صفحه بهینه شده را بهبود بخشد. یکی از اقدامات، به عنوان مثال، بهینه سازی WDF-IDF وب سایت ها است.

نمونه ای از فرآیند سیستم بازیابی اطلاعات

برای اینکه بتوانید یک عبارت جستجو را تا حد امکان دقیق فرموله کنید، در واقع باید آنچه را که نمی دانید بدانید. بنابراین، برای نوشتن یک عبارت جستجوی کافی، دانش پایه باید در دسترس باشد. علاوه بر این، عبارت جستجوی زبان طبیعی باید به گونه ای تبدیل شود که توسط سیستم بازیابی قابل خواندن باشد. در اینجا چند نمونه از فرمول بندی کوئری در پایگاه داده های مختلف آورده شده است. به دنبال اطلاعاتی در مورد بازیگر «جانی دپ» در فیلم «شکلات» هستیم.

LexisNexis: HEADLINE : ( “Johnny Depp” w / 5 “Chocolat”)

DIALOGUE: (Johnny ADJ Depp AND Chocolat) ti

Google: “Chocolat” “Johnny Depp”

کاربر نحوه عملکرد فرآیند بازیابی را مشخص می کند، به ویژه با روشی که در آن عبارت جستجو در سیستم مورد استفاده فرموله می شود. باید بین سیستم های مبتنی بر کلمه و سیستم های مبتنی بر مفهوم تمایز قائل شد.

سیستم های مفهوم گرا می توانند ابهام کلمات را تشخیص دهند (به عنوان مثال جاوا = جزیره، جاوا = قهوه یا جاوا = زبان برنامه نویسی). واحد مستندسازی (DE) از طریق عبارت جستجو نشان داده می شود. DE ارزش افزوده اطلاعاتی اسناد را نشان می دهد. به این معنی که در DE اطلاعات نویسنده، سال تولد و غیره به صورت فشرده آورده شده است. بسته به پایگاه داده، یا کل سند یا فقط بخش هایی از آن ثبت می شود.

سیستم بازیابی اطلاعات موتور جستجو چگونه عمل می کند؟

معنی بازیابی اطلاعات چیست؟

منشاء اصطلاح بازیابی اطلاعات