بهینه سازی روش تشخیص اهمیت پیوند در پایگاه پیوند و کاربست آن در …

۳-۶-۱ استرات‍ژی های سنجش انتخاب صفحات

  • معیار مبتنی بر گرایشات کاربران[۱۰۲]
  • معیار مبتنی بر شهرت صفحات[۱۰۳]
  • معیار مبتنی بر محل قرار گرفتن صفحات[۱۰۴]

۳-۶-۱-۱ معیار مبتنی بر گرایشات کاربران
در این روش هدف فراهم آوردن صفحات مورد نظر کاربر یا مجموعه ای از کاربران است. پس صفحات مهم، صفحاتی هستند که با خواسته کاربر مرتبط اند و از طریق میزان شباهت بین کلید واژه های متن و سوال مورد نظر کاربر صفحات با اهمیت مشخص می شوند یعنی هر چه کلید واژه های سـوال در متنی بیشتر تکرار شده باشد یا آن کلید واژه در عنوان یا خطوط ابتدایی متن آمده باشد، آن متن دارای اهمیت بیشتری است و در صفحه نمایش در قسمت بالاتری قرار می گیرد]۲۳ و ۲۴[.
۳-۶-۱-۲ معیار مبتنی بر شهرت صفحات
در این روش اهمیت صفحه بستگی به میزان محبوبیت آن صفحه دارد. یک راه تشخیص محبوبیت صفحات از طریق تعداد لینک هـایی است که به آن صفحـه اشاره شده است یعنی صفـحه ای که تعـداد بیشتری لینک به آن اشاره شده باشد مهم تر است]۲۳ و ۲۴[.
۳-۶-۱-۳ معیار مبتنی بر محل قرار گرفتن صفحات
در معیار مبتنی بر محل قرار گرفتن صفحه، منظور از محل قرار گرفتن صفحه، آدرس صفحه، ماهیت آدرس از لحاظ com. یا net . یا edu. و … و میزان فاصله آن از صفحه خانگی آن وب سایت است]۲۳ و ۲۴[.
۳-۷ چگونگی آغاز و ختم فرآیند استخراج و ذخیره سازی صفحات وب

  • خزش و توقف[۱۰۵]
  • خزش و توقف مبتنی بر مقدار آستانه[۱۰۶]

۳-۷-۱ خزش و توقف
در روش خزش و توقف، خزنده پس از ملاقات و دریافت دقیقاً k  صفحه وب متوقف می شود که k عددی ثابت است. صفحات نیز به ترتیب اهمیت شان مرتب می شوند]۴۸[.
۳-۷-۲ خزش و توقف مبتنی بر مقدار آستانه
در روش  خزش و توقف مبتنی بر مقدار آستانه، دقیقاً مانند الگوی توقف و خزش عملیات انجام می شود با این تفاوت که صفحاتی دریافت و ذخیره می شوند که اهمیت آنان از مقدار آستانه t بیشتر باشد]۴۸[.
۳-۸ استراتژی های روزآمدسازی صفحات

  • سیاست روزآمد سازی یکپارچه[۱۰۷]
  • سیاست روزآمد سازی نسبی[۱۰۸]

۳-۸-۱ سیاست روزآمد سازی یکپارچه
طبق سیاست روزآمد سازی یکپارچه، خزنده تمام صفحـات را در یک بسـامد و بدون توجـه به این که
چگونه این صفحات تغییر یافته اند، مورد مرور مجدد قرار می دهد]۲۳[.
۳-۸-۲ سیاست روزآمد سازی نسبی
طبق سیاست روزآمد سازی نسبی، خزنده صفحاتی را که به طور نسبی در زمان های بیش تر تحت تغییرات بیش تری قرار گرفته اند، بیش تر مورد مرور مجدد قرار می دهد]۲۳[.
۳-۹ به حداقل رساندن بار روی وب سایت های بازدید شده
هنگامی که خزنده صفـحات را از وب سایـت جمع آوری می کنـد منابع متعلق به وب سایت های دیگر را مصـرف می نماید. برای مثال هنگامیکه خزنده صفحهp را از سایت s دانلود می کند، سایت احتیاج دارد که صفحه p را از فایل سیستم خود بازیابی کند، دیسک و منابع سی پی یو را مصرف نماید. بعد از این بازیابی صفحه باید از طریق شبکه منتقل شود، جاییکه منابع بسیاری از وب سایتها به اشتراک گذاشته شده است بنابراین، خزنده باید اثر خود را روی این منابع به حداقل برساند. از طرف دیگر ممکن است مدیریت وب سایت یا یک شبکه خاص شکایت کند و گاهی به طور کامل ممکن است دسترسی خزنده را بلوک نماید]۷[.
۳-۱۰ موازی سازی روند خزنده
با توجه به اندازه بسیار بزرگ وب، خزنده ها اغلب روی دستگاه های متعدد اجرا و صفحات را به صـورت مـوازی دانـلود می کننـد. این موازی سـازی اغلب برای دانلود تعـداد زیادی از صفحات در یک میزان زمان قابل قبول لازم است. واضح است که این خزنده موازی باید به درستی هماهنگ شده باشد. بـنابراین خزنده های مختـلف در چنـدین زمان از یک صفحـه وب بازدیـد نمی کنند. به هر حـال این همـاهنگی می تواند موجب سرریز ارتباط معنادار و محدود کردن تعداد خزنده های همزمان گردد]۷ و ۲۳[.
۳-۱۱ ساختار وب
ساختار وب را می توان به صورت یک گراف عظیم جهت دار که در برگیرنده ی گره ها و اتصالهای متعدد است در نظر گرفت. در این گراف، صفحات وب معادل گره ها و لینک های بین صفحات معادل یال های گراف هستند که نمایی از ساختار آن در شکل های ۳-۳ و ۳-۴ نشان داده شده است.]۱[

برای دانلود متن کامل این فایل به سایت torsa.ir مراجعه نمایید.