دسته : -پژوهش های دانشگاهی
فرمت فایل : word
حجم فایل : 23 KB
تعداد صفحات : 30
بازدیدها : 208
برچسبها : پروژه تحقیق مبانی نظری
مبلغ : 12000 تومان
خرید این فایلآناتومی یك موتور جستجو وب فوق متنی در مقیاس وسیع
خلاصه:
در این بخش، به گوگل خواهم پرداخت، یك نمونة اصلی از یك موتور جستجوی در مقیاس وسیع كه استفاده وسیعی از ساختار اراده شده در فوق متنی می كند. گوگل برای جستجو و یافتن (Crawl) و شاخص بندی وب به طور مؤثر و تولید نتایج هرچه رضایت بخش تر نسبت به سیستم های موجود طراحی شده است. این نمونه اصلی با پایگاه داده ای متشكل متن و فوق پیوند كامل 24 میلیون صفحه در http://google.standard.edi/ موجود می باشد. مهندسی یك موتور جستجو یك وظیفة چالش آور است. موتورهای جستجو دهها تا صدها میلیون صفحه وب متشكل از تعداد قابل ملاحظه ای موضوعهای متفاوت را شاخص بندی می كنند و پاسخ گوی دهها میلیون پرس و جو به صورت روزانه هستند. بر خلاف اهمیت بالای موتورهای جستجوی برروی وب تحقیقات آكادمیك بسیار اندكی برروی آنها صورت گرفته است (در كشور عزیز ما دقیقاً هیچ مطالعه و تحقیقی صورت نگرفته است). علاوه بر این به دلیل سرعت پیشرفت تكنولوژی وب، امروزه ساخت یك موتور جستجو مسبت به سه سال پیش بسیار متفاوت است. این بخش به بررسی و توصیف عمقی این موتور جستجوی وب در مقیاس وسیع می پردازد. جدای از مشكلات تغییر مقیاس تكنیكهای جستجوی قدیمی داده با این وسعت، چالشهای تكنیكی جدیدی در زمینه استفاده از اطلاعات اضافی ارائه شده در فوق متن برای تولید نتایج جستجوی بوجود آمده است. این بخش به این كه چگونه می توان یك سیستم در مقیاس وسیع عملی كه بتواند اطلاعات اضافی ارائه شده در فقو متن را استخراج كند را تولید كرد، پاسخ خواهد گفت. همچنین ما به این مشكل كه چگونه می توان با مجموعه های فوق متن كنترل نشده (هر كسی می تواند هر چه خواست بنیسد) كنار آمد، نیز دقت خواهیم كرد.
معرفی
وب چالشهای جدیدی برای بازیابی اطلاعات ایجاد می كند. حجم اطلاعات موجود برروی وب به سرعت در حال افزایش است و به همان نسبت تعداد كاربران جدید كه در جستجوی وب بی تجربه هستند افزایش می یابد. مردمی كه احتمالاً وب را از طریق گراف پیوند آن مرور می كنند، اغلب كار خود را با شاخصهای ذخیره شده با كیفیت بالای انسانی مانند یاهو! یا موتورهای جستجو شروع می كنند. لیتهاس ذخیره و نگهداری شده توسط انسانی موضوعهای معروف را به طور موثری پوشش می دهند اما شخصی بودن، گران و پرهزینه بودن برای ساخت و نگهداری، كندی در پیشرفت و ناتوانی در پوشش موضوعهای مبهم و پیچیده از عیبتهای عمده آنها محسوب می شود.
موتورهای جستجوی وب – گسترش یافتن: 1994-2001
تكنولوژی موتورهای جستجو باید به میزان زیادی تغییر پیدا می كرد تا بتواند هماهنگی خود را با گسترش وب حفظ كند. در 1994، یكی از اولین موتورهای جستجوی وب یعمی كرم وب گسترة جهانی (WWWW) شاخصی از000/110 صفحه وب و اسناد در دسترس وب داشت. از نوامبر 1998 موتورهای جستجوی برتر ادعای شاخص بندی از 2 میلیون (WebCrawler) تا 100 میلیون (از (Search Engine Watch صفحه وب و سند را داشتند. قابل پیش بینی است كه تا سال 2001 یك شاخص جامع از وب شامل بیش از دو میلیارد سند باشد. در همان زمان تعداد پرس و جوهایی كه موتورهای جستجو اداره می كنند به طور شگفت آوری افزایش می یابد.
گوگل: تغییر دادن وب
این موتور جستجوایی كه در سطح وب امروز باشد چالشهای بسیاری را پدید می آورد. تكنولوژی جستجو و یافتن سریع برای جمع آوری و به روز رسانی سندهای وب لازمی می باشد. فضای ذخیره سازی بهید به طور كارآمدی برای ذخیره شاخصها و به طور اختیاری خود سندها بكار گرفته شود. سیستم شاخص بندی باید صدها گیگا بایت داده را به طور كارآمد پردازش كند. پرس و جحوها باید به سرعت اداره شوند (با نرح صدها تا هزاران پرس و جو در ثانیه).
تحقیقات موتور جستجوی آكادمیك
جدای از گسترش بسیار زیاد، وب به طور افزایشی در طول زمان حالت تجاری به خود گرفته است، در سال 1993، %5/1 از سرویس دهندگان وب بر دامنه .com قرار داشتند. این مقدار در سال 1998 به %60 رسید. در همان زمان، موتورهای جستجو از حوزة آكادمیك به تجاری كوچ كردند. تا امروز اغلب پیشرفتهای موتورهای جستجو در شركتهایی صورت می گیرد كه حداقل میزان انتشار جزئیات را دارند. این باعث می شود تكنولوژی موتور جستجو تا حد زیادی مثل جادوی سیاه مخفی باقی بماند و گرایش تبلیغاتی پیدا كند. با گكوگل، سعی شده است تا پیشرفت و فهم بیشتری در قلمرو آكادمیك صورت گیرد.
خرید و دانلود آنی فایل