بهینه سازی روش تشخیص اهمیت پیوند در پایگاه پیوند و کاربست آن …

DNS
شکل ۳-۱ معماری خزنده وب ]۲۱ [
ماژول تصمیـم گیر DNS آدرس های [۹۷]IP را برای نام دامنـه جستجو می کند. در واقـع این ماژول تعیین می کند که سرویس دهنده ی وب صفحه ی مشخص شده توسط آدرس را از کجا واکشی نماید.
گردآورنده تحت نظارت واحد کنترل، به صفحات هسته[۹۸] رفته و اسناد و مدارک را به واحد تجزیه لینکها می فرستد. این ماژول از پروتکل [۹۹]HTTP برای بازیابی صفحات استفاده می کند.
واحد تجزیه لینک، مجموعه ای از لینک ها را از صفحات واکشی شده استخراج می کند. پس از جداسازی، لینک های مناسب به واحد کار ارسال شده و در فهرست دستور کار بعدی واحد واکشی قرار می گیرد. واحد تجزیه در واقع از دو بخش جداسازی لینک ها و نمایه سازی تشکیل شده است. آنچه نهایتًا در پایگاه ذخیره می شود در واقع حاصل فرآیند نمایه ساز است]۱ و۲[.
با توجه به معماری خزنده وب می توان یک الگوریتم پایه مطابق شکل ۳-۱ برای خزنده وب در نظر گرفت[۳۹]:
{
Pick up the next URL
Connect the server
Get the URL
When the page arrives, gets its links ( optionally do stuff)
Repeat
}
شکل ۳-۲ الگوریتم پایه خزنده وب
۳-۳ انتخاب صفحه
طراحی یک خزنده خوب چالش های بسیاری را به دلیل اینکه وب مجموعه ای بسیار حجیم است و به طور دائم باید بروز باشد، به همراه دارد. به طور مثال بر طبق مطالعات مختلف بیش از یک میلیون صفحه در دسترس در وب وجود دارد. این یعنی اینکه متوسط سایز یک صفحه وب حدود ۵ تا ۱۰ کیلوبایت است. داده های متنی میزانشان حداقل ۱۰ ترابایت است[۹]. نرخ رشد وب به صورت دراماتیک است و سـایز وب در کمـتر از دو سـال دو برابر شده است. گذشته از این صفحاتی که به تازگی ایجاد شـده اند به طور مداوم در حال بروز رسـانی می باشند. ۴۰ درصـد صفحـات وب تقـریباً یکبار در هر هفتـه بروز رسانی می شوند. ]۱۷[
خزنده باید با حجم عظیمی از داده ها سر و کار داشته مگر در مواردی که منابع محاسباتی و زمان نامحدود باشد و باید با دقت تصمیـم بگیرد که چـه یو آر اِلی دانلـود شود و با چه ترتیبی. خزنده ممکن است ظرفیت ذخیره سازی محدود داشته باشند و قادر به ایندکس گذاری و یا تجزیه و تحلیل تمام صفحات نباشد[۴۶].
اغلب خزنده ها به دو دلیل قادر به ملاقات هر صفحه ممکن نخواهد بود. دلیل اول اینکه خزنده و یا مشتری ممکن است ظرفیت ذخیره سازی محدود داشته باشند و قادر به ایندکس گذاری و یا تجزیه و تحلیل تمام صفحات نباشد[۱۷]. در حال حاضر وب دارای چندین ترابایت داده متنی می یاشد که به سرعت در حال رشد است، به همین دلیل است که اغلب مشتریان انتظار می رود که نمی خواهند و یا قادر نخواهند بود که از عهده تمام داده ها برآیند[۵۰].
دلیل دوم، زمان بر بودن بررسی تغییرات خزش می باشد بنابراین در برخی از نقاط خزنده ممکن است نیاز به بازبینی دوباره صفحاتی قبلاً بازیابی شده داشته باشد که این امری زمان بر است. این به این معنی است که ممکن است هرگز بعضی از صفحات را بدست نیاورد. در حال حاضر تخمین زده شده است که بیش از یک میلیارد صفحه در دسترس در وب وجود دارد و تعدادی از این صفحات با نرخ بسیار سریعی در حال تغییر می باشند[۵۰].
در هر صورت، برای خزنده مهم است که ابتدا صفحات “مهم” را بازدید نماید، به طوری که بخشی از وب که بازدید و به روز نگه داشته شده معنی دار است[۳۶]. در بخش های بعدی، چند تعریف مختلف و مفید از اهمیت ارائه می گردد و اولویت خزیدن توسعه می یابد به طوری که صفحات مهم احتمال بالاتری از ملاقات شدن برای اولین بار را داشته باشند.
۳-۴ اهمیت صفحه
لزوماً همه صفحات بهره مساوی را به مشتری خزنده نمی دهند. به عنوان مثال، اگر مشتری در حال ساخت یک پایگاه داده تخصصی در یک موضوع خاص باشد، پس آن صفحاتی که به آن موضوع اشاره می کنند مهم تر هستند و باید در اسرع وقت ممکن بازدید شوند[۳۹].
به طور مشـابه، یـک موتور جستجو از تعدادی یو آر اِل های وب که به یک صفحه اشاره می کنند استفاده می نماید که در اصطلاح به آن صفحه لینک[۱۰۰] می شود و نتایج جستجوی کاربر را رتبه بندی می کند. اگر خزنده نتواند تمام صفحات را ملاقات کند بنابراین بهتر است که آنها را در یک رتبه بالاتر ملاقات کند بنابراین نتایج رتبه بندی بالاتری را به کاربر نهایی ارائه می دهد.
۳-۵ چالش های اجرای یک خزنده
با توجه به اندازه و نرخ بالای تغییر در وب، خزنده با چالش های بسیار مهمی روبه رو است که در زیر به آن ها اشاره شده است:
۳-۵-۱ انتخاب صفحات برای دانلود
در اغلب موارد خزنده نمی تواند همه ی صفحات وب را دانلود نماید. حتی اغلب موتورهای جستجوی جامع هم تنها بخش کوچکی از تمام وب را فهرست می کنند. با توجه به این واقعیت، برای خزنده بسیار مهم می باشد که با دقت صفحات را انتخاب و مهمترین صفحات را در ابتدا ملاقات نماید به طوری که بخشی از وب که بازدید و بروز نگه داشته شده است معنی دار باشد]۲۳ و ۳۶[.
۳-۵-۲ بازدید مجدد صفحات
اولین بار که خزنده تعدادی از صفحات معنی دار را دانلود می کند مجبور است دوباره صفحـات دانلـود
شده را به منظور تشخیص تغییرات و تازه کـردن مجموعه دانلود مـلاقات نماید. خزنـده باید با دقت تصمیم گیری کند که کدام صفحات باید بازنگری شوند و کدام صفحات به دلیل اینکه نرخ تغییرات در وب زیاد و بسیار متـفاوت می باشد به منظور دستیابی به طراوت[۱۰۱] بالا، نادیده گـرفته شـوند]۱۹[.
هر بارکه کراولر ”صفحات مهم” را دانلود می کند، مجبور است برای یافتن تغییرات و روزآمدسازی صفحات دانلود شده، آنها را مورد مرور مجدد قرار دهد. به دلیل این که صفحات وب با سرعت متفاوتی تغییر می کنند کراولر نیاز دارد که با دقت تصمیم بگیرد که کدام صفحات را مورد مرور مجدد قرار دهد و از کدام صفحات صرف نظر کند. این تصمیم ممکن است به طور قابل توجهی بر روزآمدسازی یک مجموعه دانلود شده اثر بگذارد مثلاً اگر یک صفحه مشخص به ندرت تغییر می کند، کراولر ممکن است به دلیل بازدید از صفحاتی که بیش تر تغییر می کنند، آن صفحه را کم تر مورد بازدید مجدد قرار دهد]۱۹ و ۳۶[.
ماژول خزنده موظف است صفحات وب را برای تحلیل و ایجاد شاخص به صورت جامع استخراج کرده و تحویل انباره صفحـات بدهد. این ماژول با یک مجمـوعه اولیه یو آر اِل کار خـود را شروع می کند. این یو آر اِل ها به صورت یک صف اولویت دار قرار می گیرند. این ماژول آدرس لینک های موجود در یـک URL را نیـز بازیابی و آدرس هـای ملاقـات شده را حذف می کند]۳۶[.
۳-۶ پیچیدگی های فرآیند خزیدن
با توجه به ماهیت دائماً متغیر وب، خزنده ی وب با پیچیدگی های زیر رو به رو است] ۲۳ و ۲۴ [:

مطلب دیگر :
فايل دانشگاهی - بهینه سازی روش تشخیص اهمیت پیوند در پایگاه پیوند و کاربست آن ...

دانلود متن کامل پایان نامه در سایت jemo.ir موجود است

  • انتخاب صفحات
  • مدل خزیدن
  • تازه سازی و سرکشی دوره ای به صفحات وب