بررسی عملکرد موتور های جستجو

تاریخ مقاله: 1394/9/5

بررسی عملکرد موتور های جستجو

چکيده
در اين مقاله، اجزاي تشکيل دهنده و روش ها و الگوريتم هايي  که در يک موتور جستجو بکار برده مي شود ،  تشريح مي‌شود.  با توجه به اين که موتور هاي جستجو سعي بر اين دارند که الگوريتم هاي خود را بصورت پنهان نگاه دارند اما ميتوان روش کار کلي آنها را شبيه سازي کرد و به برخي از آن ها پي برد و از آن ها استفاده کرد. با بررسي الگوريتم ها و برخي از روالي که در موتور هاي جستجو بکار مي روند مي توان به نقطه اي رسيد که شروع پياده سازي يک موتور جستجو را براي ما فراهم مي کند . در واقع هدف ، پياده سازي و بهينه سازي عملکرد موتور هاي جستجو مي باشد.
همچنين روش هايي مطرح خواهد شد که چگونه از يک موتور جستجو به نحو احسنت استفاده کنيم و وبسايت خود را در رده هاي اول رتبه بندي موتور هاي جستجو قرار دهيم ،
کلمات کليدي
موتور ، جستجو ، وبسايت ، رتبه ، کاربر ، بهينه .
1- مقدمه
موتور جستجو  يا همان جويشگر به برنامه اي گفته مي شود که موضوعات مورد نظر کاربران را در قالب کلمات کليدي درون اسناد و اطلاعات موجود در اينترنت کاوش مي کند و نتايج را  در قالب آدرس محل ذخيره عرضه مي نمايد. ممکن است يک وبسايت موتور جستجوي اختصاصي براي خود داشته باشد .
2- تعاريف ، انواع و اجزاي تشکيل دهنده موتور هاي جستجو
موتور هاي جستحوي عمومي محتويات تمامي وبسايت  ها را جستجو مي کنند و چکيده اي از آنان را د يک پايگاه داده شاخص دهي شده indexed database نگه داري مي کنند..
2-1- موتور هاي جستجو از لحاظ پشتيباني مالي و نيروي انساني به دو دسته تقسيم مي شوند
دسته اول ، موتور هاي جستجوي آزمايشي: در دانشگاه ها و موسسات پژوهشي شکل مي گيرند ، هدف آن ها آزمايش يک روش جديد ، ارزيابي عملکرد و برآورد کيفيت نتايج يک الگوريتم است. نمي توانند يک مقياس بزرگ large scale را در بر بگيرند.
دسته دوم ، موتور هاي جستجوي تجاري: در پهنه کل اينترنت به جستجو مي پردازند . از طريق پشتيباني افراد حقيقي و حقوقي منابع مالي را دارا هستند و کيفيت باعث خواهد شد که رضايت کاربران حاصل شود و با رضايت کاربران سرمايه جذب خواهد شد.
2-2- بزرگترين مشکلات ساخت موتور جستجو
بزرگترين مشکل هاي ساخت موتور جستجو را مي توان ناهمگوني وحشتناک اسناد و محتويات وب و راضي نگه داشتن انبوهي از کاربران بي تجربه و پر توقع دانست.
نکته : آن دسته از موتور هاي جستجويي که بر اساس تطبيق کلمات کليدي با محتويات اسناد کار مي کنند نتايجي را بر مي گردانند که ارتباط کمي با موضوع مورد نظر کاربران دارند.
2-3- انواع جستجو بر اساس ساختار
نوع اول ، جستجوي مبتني بر پيمايش وب و درون کاوي: بصورت  هوشمند کليه پهنه وب را درون کاوي و پيمايش مي کند. مجموعه اسناد و پرونده ها را دريافت کرده و رده بندي مي کند. بررسي آيتم هاي مورد جستجو کاربران بر اساس شاخص هاي تهيه شده صورت مي گيرد. فرآيند هاي دريافت، ذخيره ، رده بندي ، و شاخص دهي بر اساس الگوريتم ها ، هوشمند و بصورت خودکار انجام مي شود.
نوع دوم ، جستجوي مبتني بر فهرست: با دخالت مستقيم و نظارت صاحبان اسناد و مستندات وب ثبت و سازماندهي مي شود. بطور مثال کليه اسناد در ده ها شاخه تقسيم مي شود ( هنر ، ورزش ، تفريح ، خبر ،  … ) و تمامي اين شاخه ها به چندين زير شاخه تقسيم مي شوند  ،  مثلا شاخه هنر به شاخه هاي موسيقي ، سينما ، نقاشي و … تقسيم ميشوند و خود اين زير شاخه ها نيز بر زير شاخه هايي تقسيم ميشوند .صاحب يک سند موظف است آن را با توضيحات کافي که در  ويراستارهاي ويژه درج مي شود در فهرست دايرکتوري متناسب با آن سند درج کند. کاربران شانس بيشتري در اين روش براي يافتن نتيجه مطلوب خواهند داشت. اين روش ممکن در بعضي مواقع کاربران آماتور را راضي نکند زيرا اين کاربران علاقه اي به جلو رفتن در ميان اين شاخه ها و زيز شاخه ها ندارند.
نوع سوم ، جستجوگر هاي مختلط: تلفيق سيستم فهرست غني و يک موتور جستجو هستند ، دقيق ترين و کامل ترين پاسخ را براي کاربران فراهم مي آورند .  تلفيق اين دو که فهرستها را زير و رو مي کند و کاربر را به زير شاخه مورد نظرش ميرساند بسيار مطلوب است.
نکته: يک وبسايت از يک صفحه شروع شده و از طريق آن و هايپر لينک هاي موجود در آن به اعماق کل وبسايت طي مسير مي کند.
2-4- معماري کلي موتور هاي جستجو
اجزاي معماري تشکيل دهنده يک موتور جستجو هشت مورد است : درون کاو ، کنترل درون کاو ، انباره صفحات ، ماجول شاخص دهي ، collection analysis module ، index utility، موتور پرس و جو  و  ماجول رتبه بندي.
2-4-1- درون کاو يا خزنده crawler
تمامي موتور هاي جستجو به يک ماجول عملياتي به نام درون کاو متکي هستند که پنه وسيع وب را بطور زمان بندي شده پيمايش مي کند و به جمع آوري صفحات بيشمار ذخيره شده در گوشه کنار وب مي پردازند. هر درون کاو از تعداد قابل توچهي برنامه کوچک تشکيل شده است که هر کدام از صفحه شروع يا هسته يک وبسايت آغاز بکار مي کنند و پس از دريافت آن صفحه و تحويل به انباره صفحات  page repository لينک هاي درون صفحه جاري و صفحات پيوند خورده را نيز به همين روال استخراج و ذخيره مي کنند.
2-4-2- کنترل درون کاو  control crawler
مجموعه برنامه هاي درون کاوي را با تحويل URL  مورد نظر راه اندازي کره و بکار درون کاوي مي گمارد. اين ماجول است که تعيين مي کند صفحه بعدي که قرار است ملاقات شود کدام است . ماجول خزنده موظف است تمام آدرس ها يا URL  ها را درون صفحات استخراج و آن ها را براي تصميم گيري در اختيار ماجول کنترل درون کاو بگذارد.
تفاوت موتور هاي جستجو مختلف بيشتر در الگوريتم کنتري درون کاو نمود پيدا مي کند.
2-4-3- انباره صفحات يا  page repository
بانک اطلاعاتي صفحاتي که توسط ماجول درون کاو استخراج مي شود در انباره صفحات قرار ميگيرد تا براي شاخص دهي و تحليل محتوايي در اختيار ديگر ماجول ها قرار گيرد. ماجول درون کاو آنقدر عمليات استخراج و ذخيره در انباره صفحات را انجام ميدهد که يا منابع انباره صفحات تمام شود يا آنکه تمام آدرس ها استخراج شوند.
2-4-4- ماجول شاخص دهي يا  Indexer
اين ماجول کلمات موجود در صفحات را به همراه URL آن ها در يک جدول بسيار عظيم ليست مي کند.
يک خروجي ماجول شاخص دهي بانک اطلاعاتي يا شاخص ساختاري Structure index است . اين بانک چگونگي پيوند خوردن صفحات را نشان مي دهد.
2-4-5- collection analysis module
اين قسمت کنترل موارد زير را به عهده دارد:
•    تمامي صفحات در حال تغيير هستند
•    احتمال دارد لينکي که در يک صفحه است هيچ ربطي به اين صفحه از لحاظ محتوايي نداشته باشد
2-4-6- utility index
خروجي ماجول collection analysis است که پس از تحليل کل انباره صفحات بدست مي آيد. اين شاخص ها مي تواند متفاوت باشند مانند تعداد تصوير در يک صفحه تا تعداد لينک ها يا رتبه اقتصادي وبسايت صاحب آن صفحه و …
نکته: ماجول هاي درون کاو و شاخص دهي مدام بايد در حال اعمال تغييرات صفحات وب باشند.
نکته: برخي از موتور هاي جستجو مثل گوگل انباره صفحات خود را بطور کامل نگه داري مي کنند.
2-4-7-  query engine موتور پرس و جو
دريافت درخواست هاي جستجو از کاربران را به عهده دارد.
2-4-8- ranking module ماجول رتبه بندي
نتايج حاصل از جستجوي کلمات کليدي کاربر را به نحوي رتبه دهي مي کند تا مرتبط ترين آيتم در صدر نتايج جستجو قرار گيرد.
2-5- عملکرد اجزاي معماري در کنار هم
ماجول درون کاو موظف است صفحات وب را براي تحليل و ايجاد شاخص بصورت جامع استخراج کرده و تحويل انباره صفحات بدهد. اين ماجول با يک مجموعه اوليه URL کار خود را شروع مي کند اين  URL ها بصورت يک صف اولويت دار قرار مي گيرند.
اين ماجول آدرس لينک هاي موجود در يک URL را نيز بازيابي مي کند. ماجول کنترل درون کاو آدرس هاي ملاقات شده را حذف مي کند.
نظر به ماهيت دائما متغير وب کنترل فرآيند درون کاوي وب با پيچيدگي هاي زير رو به رو است :
•    انتخاب صفحات
•    مدل درون کاوي
•    تازه سازي و سرکشي دوره اي به صفحات وب
سه معيار براي انتخاب صفحات وجود دارد :
•    معيار مبتني بر گرايشات کاربران
interest driven
•    معيار مبتني بر شهرت صفحات
popularity driven
•    معيار مبتني بر محل قرار گرفتن صفحات
location driven
در معيار مبتني بر گرايشات کاربران فراواني نسبي تمام کلمات کليدي محاسبه مي شود.
در معيار مبتني بر شهرت صفحه تعداد ارجاعات به آن صفحه محاسبه مي شود يعني تعداد وبسايت هايي که به آن صفحه اشاره مي کنند. منظور از صفحاتي که به آن صفحه اشاره کرده اند اين است که به آن صفحه لينک داده اند.
در معيار مبتني بر محل قرار گرفتن صفحه منظور از محل قرار گرفتن صفحه آدرس صفحه ، ماهيت آدرس از لحاظ  .com يا net .  يا  .edu و … است و ميزان فاصله آن از صفحه خانگي آن وبسايت است.
مدل درون کاوي چگونگي آغاز و ختم فرآيند استخراج و ذخيره سازي صفحات وب از گستر بسيار عظيم وب است. دو الگو براي اين موضوع است:
•    کاوش و توقف
crawl and stop
•    کاوش و توقف مبتني بر مقدار آستانه
crawl and stop with threshold
در روش کاوش و توقف درون کاو پس از ملاقات و دريافت دقيقا k  صفحه وب متوقف مي شود که k  عددي ثابت است . صفحات نيز از پر اهميت به کم اهميت  sort مي شوند.
در روش  کاوش و توقف مبتني بر مقدار آستانه دقيقا مانند الگوي توقف و کاوش عمليات انجام مي شود با اين تفاوت که صفحاتي دريافت و ذخيره مي شوند که اهميت آنان از مقدار آستانه t بيشتر باشد.
روش هاي تازه سازي و سرکشي به صفحات :
•    تازه سازي يکنواخت ومدام
•    تازه سازي متناسب با تغيير
در تازه سازي يکنواخت و مدام سرکشي در زمان مشخص انجام ميشود.
در تازه سازي متناسب با تغيير،  فرضا صفحه با تناوب  t تغير مي کند، بهترين سياست اين است که با همين تناوب به آن صفحه سرکشي کند ، ابتدا نرخ تغييرات صفحه را بالا در نظر گرفته مي شود و تناوب بر روي مقدار کوتاهي مثلا يک بار در روز تنظيم مي شود. اگر صفحه تغيير نکرده باشد درون کاو تاخير تازه سازي آن را با ضريب مشخصي افزايش مي دهد. زمان تازه سازي صفحات در اين روش بصورت پويا تغيير خواهد کرد.
انباره ذخيره سازي صفحات به دليل حجم زياد اسناد شباهت چنداني با پايگاه هاي اطلاعاتي رايج ندارد . چالش هايي که انباره صفحات با آن ها روبه رو است عبارت است از:
•    گسترش پذيري تا بي نهايت
scaleability
•    پشتيباني از دسترسي هم زمان گونه
dual access mode
•    بهنگام سازي عظيم و توده اي
large bulk updates
•    صفحات منسوخ
absolete pages
گشترش پذيري تا بينهايت از حجم زياد اسناد ناشي مي شود که توسط صدها تا هزار ها اين اسناد توزيع مي شوند.
در پشتيباني از دسترسي دو گانه منظور از دسترسي دو گانه وجود دو نوع دسترسي است : اول، دسترسي مستقيم يا تصادفي که يک صفحه خاص را تحويل کاربر مي دهد ، دوم ، دسترسي جويباري که براي ماجول شاخص دهي نياز است.
بهنگام سازي عظيم و توده اي بايد انجام شود. سيستم ذخيره سازي بايد اجازه بدهد که هم زمان با دسترسي ماجول هاي ديگر به انباره صفحات عمليات بهنگام سازي نيز در جريان باشد.
صفحات منسوخ و حذف شده در بهنگام سازي بايد  از انباره صفحات حذف شوند.
موتور هاي جستجو شاخص هاي زير را درون صفحات وب استخراج مي کنند:
•    شاخص لينک link index
•    شاخص متني text index
در شاخص لينک صفحات موجود در انباره را در قالب يک گراف جهت دار directional graph  مدل مي شوند. گره ها يا نود هاي اين گراف صفحات وب هستند و لبه هاي گراف ارجاعاتي است که صفحات در قالب hyperlink به يکديگر دارند. محموعه لينک ها به بيرون links outward و به داخل incoming link  مورد توجه است و مجوعه دوم يعني لينک هاي به داخل مهمتر از  لينک هاي به بيرون هستند.
شاخص متني عبارت است از يک پايگاه اطلاعاتي از کل کلمات کليدي ممکن در ادبيات هر زبان به همراه مجموعه غني از مخفف ها و استعارات به همراه انديس صفحاتي که اين کلمات در درون آن ها وجود دارند. شاخص متني شاخص واژگون  inverted index  نيز ناميده مي شود.
رتبه دهي و تحليل لينک چگونگي يا ترتيب تحويل صفحات حاوي کلمات کاربر را نشان مي دهد.
ماجول رتبه دهي پس از غربال کردن نتايج بي ارزش يا کم ارزش آن ها را بر حسب  اهميتشان رتبه بندي و مرتب مي کند تا آنچه را که کاربر دريافت مي دارد فهرست مرتب شده اي از صفحات مرتبط با کليدواژه هايش باشد. ماجول رتبه بندي در دو دسته کاملا متفاوت از اطلاعات بهره مي گيرد :
•    اطلاعات مندرج در بطن صفحه
•    اطلاعات مندرج در بيرون از صفحه وب يعني درون صفحات ديگر. اين روش ، روش موفقي است.
ارزش يک صفحه از نظر ماجول رتبه بندي به عوامل زير بستگي دارد:
•    دفعات تکرار کلمات کليدي
•    ترتيب و مجاورت کلمات کليدي
•    محل درج کلمات کليدي از لحاظ عنوان پاراگرافي يا متن معمولي
•    درج کلمات درون آدرس صفحه در بطن url
•    پر رنگ بودن کلمات کليدي
•    بهره گيري از برچسب هاي توصيفي meta description tag
•    بهره گيري از بر چسب alt tag
اطلاعات مندرج در بيرون صفحه:
•    تعداد ارجاعاتي که به صفحه داده شده است
•    رده بندي جهاني وبسايت حاوي صفحه از لحاظ طراحي ، تعداد بازديدکننده ، جذب ترافيک و …
بيشترين عوامل رتبه بندي بيرون صفحه تعداد ارجاعات و لينک هايي است که از ديگر صفحات ، صفحه مورد نظر را نشانه رفته اند.
2-6- برچسب ها
2-6-1- برچسب هاي توصيفي متن يا mdt  يا
meta description tag
کدهاي html  که درون منبع صفحات مخفي هستند و بازديد کنندگان سند آن ها را نمي بيند و در موتور هاي جستجو و رتبه بندي تاثير زيادي دارند.
براي تعريف بر چسب هاي توصيفي متن بايد کدهاي زير را بکار برد:
•    مشخص کردن کلمات کليدي
•    توصيف کوتاه از محتواي صفحه
•    مشخص کردن تاريخ آخرين ويرايش
•    تازه سازي مجدد صفحه بر حسب ثانيه

2-6-2- بر چسب alt tag
بخشي از تصاوير مربوط به محتواي صفحه هستند و بخشي ديگر لوگو ، آيکون ، نام تجاري يا …  هستند ، اين برچسب توصيف يکايک تصاوير است. از آنجايي که مطالب داخل عکس نمي تواند توسط جستجوگر بازيافت شود از اين برچسب براي اين کار استفاده مي کنيم.
2-7- فايل robots.txt
يک فايل متني است که بر روي سرويس دهنده وب و درون دايرکتوري اصلي هر وبسايت ذخيره مي شود و تنظيمات گردش و سرکشي به اعماق آن وبسايت را عرضه مي کند. اين فايل زحمت درون کاو را کاهش خواهد داد. اين فايل با خطوط زير آغاز مي شود:
user-agant : “نام برنامه راهنماي وبسايت“
disallow: “نام فايل ها يا دايرکتوري که توسط درون کاو نبايد ديده شود“

اگر کسي نخواهد هيچ نقطه از وبسايتش درون فهرست جستجو قرار گيرد:
user-agant : *
disallow : /
3- الگوريتم هاي رتبه بندي
منظور از الگوريتم ها رتبه بندي الگوريتم هايي هستند که تصميم مي گيرند بر اساس چه کلمات کليدي چه وبسايتي در چه صفحه و رده اي از نتايج حستجو قرار گيرد. الگوريتم هاي رتبه بندي امروزه بسيار پيچيده هستند و از هزاران پارامتر بهره مي برند ما به برخي از مشهورترين پارامتر ها خواهيم پرداخت.
پارامتر هاي رتبه دهي سه دسته اند :
•    کلمات (تعداد و موقعيت کلمات)
•    لينک ها ( تعداد و ارجاعات)
•    آمار کاربران (کليک يا راي کاربر)
مهمترين پارامتر کلمات هستند . اخيرا تکنيک هاي پيشرفته اي براي  رتبه بندي ابداع شده که از رفتار کاربران به عنوان پارامتر استفاده مي کنند. شرکت گوگل از پيشتازان اين روش است و با ايجاد امکان نظردهي کاربران بر نتايج اين سيستم را نيز وارد الگوريتم هاي پيچيده خود کرده است.
3-1- وزن دهي به کلمات
براي هر کلمه اي در يک متن يک وزني با الگوي خاصي در نظر گرفته مي شود. اين وزن بيانگر تاثير کلمه بر موضوع متن در مقايسه با ساير کلمات بکار رفته است.
اهميت کلمات را مي توان بر پايه شرايطي مشخص کرد:
•    وزن آماري کلمه
•    مکان قرار گيري کلمه
•    مفهوم هر کلمه
•    کاربرد خاص کلمه
وزن آماري کلمه تعداد تکرار آن کلمه در متن بر اساس توزيع کلمات در متن است که به دو دسته فراواني مطلق و فراواني نسبي تقسيم مي شود.
مکان قرارگيري کلمه ، اينکه کلمه در عنوان يا زير عنوان يا بدنه متن يا چکيده متن قرار گيرد از معيار هاي وزن دهي به کلمات مي باشد.
مفهوم هر کلمه که بيانگر ارتباط کلمه با کلمات ديگر است به بياني مترادف يا متضاد بودن آن کلمه است.
از کاربرد هاي خاص کلمه مي توان اسامي را در سيستمي که دنبال اسامي خاص مي گردد مثال زد که اهميت ويژه اي دارد.
3-1-1- ارزيابي کلمات کليدي
کلماتي که از آستانه تعيين شده براي وزن دهي عبور مي کنند بايد معيار هاي زير را داشته باشند:
•    جامعيت
•    تعيين کنندگي
جامعيت يعني اينکه هر چه تعداد کلمات بيشتري از يک متن استخراج شود ،  احتمال بازيابي آن متن نيز بيشتر مي شود.
تعيين کنندکي يعني هر کلمه کليدي تا چه حد دقيق ، متن هاي مربوط را مشخص کند.
3-1-2- پارامتر هاي وزن دهي
سه پارامتر اصلي در وزن دهي به کلمات:
•    tf.idf
•    سيگنال و نويز
•    مقدار تمايز
يکي از پر کاربرد ترين روابط در حوزه بازيابي اطلاعات پارامتر tf.idf  است که از حاصلضرب فراواني کلمه در فراواني معکوس سند بدست مي آيد. اين روشي است مبتني بر چند سند که فراواني کلمه ،تعداد تکرار کلمه در يک سند خاص و فراواني معکوس، تعداد اسنادي که اين کلمه در آن اسناد ظاهر شده است را نشان مي دهد. در اين روش محاسبات کم است ولي نتايج قابل قبول.
در پارامتر سيگنال نويز هر چه احتمال رخداد کلمه بيشتر مي شود بار اطلاعاتي کمتري براي آن در نظر گرفته مي شود. کلمات با اهميت که داراي توزيع متمرکز هستند يعني تنها در بعضي از اسناد متني ظاهر شده اند ميزان نويز کمتري دارند.
در پارامتر مقدار تمايز استفاده کلمه اي از سند به عنوان کلمه کليدي که باعث کاهش مشابهت اين سند با ساير اسناد مي شود مد نظر است. هر چه مقدار تمايز بيشتر باشد بيانگر تخصصي تر بودن اين کلمه و اهميت بيشتر آن در متمايز کردن سندي از ساير اسناد است.
4- بازيابي تحمل پذير
منظور از بازيابي تحمل پذير اين است که موتور جستجو بتواند اشتباهات کاربر را در ورود کليدواژه يا عبارات پيش بيني  کند و آن را جبران کند و يا پيشنهاد اصلاح آن را به کاربر ارائه دهد.
4-1- الگوريتم کلي غلط يابي املايي در موتور هاي جستجو
مرحله اول: زماني که غلط در درخواست کاربر وارد شد کلمات متناظر با آن را پيدا کن و به همراه کلمه غلط به مرحله بعدي بفرست. مثلا اگر کاربر “ارتبات” را وارد کرد نتايج جستجو هم بر اساس “ارتبات” باشد هم بر اساس “ارتباط”.
محله دوم: اگر کلمه وارد شده در لغت نامه موجود نباشد مانند مرحله اول عمل کن.
مرحله سوم: مانند حالت اول عمل کن به شرطي که تعداد مستندات يافته شده در اثر درخواست وارد شده کمتر از مقدار از پيش تعيين شده اي باشد.
مرحله چهارم: وقتي که پرسش وارد شده تعداد مستنداتي کمتر از مقدار از پيش تعيين شده اي را باز گرداند در اين صورت موتور جستجو پيشنهادي براي اصلاح کلمه به کاربر بدهد.
4-2- غلط يابي املايي
دو روش عمده براي غلط يابي املايي وجود دارد:
•    فاصله ويرايشي edit distance
•    همپوشاني کا-گرم k-gram
دو شيوه خاص غلط يابي از ديدگاه کلمه و جمله:
•    کلمه مجزا isolated word
•    حساس به متن context-sensitive
اگر در خواست کابر شامل چند کلمه باشد عمل غلط يابي را هر بار بر روي کلمات آن به طور جداگانه انجام مي دهيم که به اين روش روش کلمه مجزا مي گويند.
در روش حساس به متن در کنار هم قرار گرفتن کلمات و تشکيل عبارت متداول بررسي ميشود براي مثال کاربر “فروشگاه مهرآباد” تهران را وارد مي کند ، از نظر الگوريتم کلمه مجزا هيچ خطايي در اين جستجو ديده نخواهد شد اما در الگوريتم حساس به متن “فرودگاه مهرآباد تهران” پيشنهاد خواهد شد.
4-2-1- الگوريتم فاصله ويرايشي
فاصله ويرايشي بين دو رشته کاراکتر عبارت است از تعداد اعمالي که لازم است تا يکي را به ديگري تبديل کند. اين اعمال مي توانند شامل حذف و درج و جابجايي باشند.
تعدادي الگوريتم براي تعريف و محاسبه فاصله ويرايشي وجود دارد که عبارت اند از:
•    Hamming distance
•    Leveshtein distance
•    Damerau-Leveshtein distance
•    Jaro-Winker distance
•    Ukkonen
•    Hirshberg
يکي از الگوريتم هاي مهم الگوريتم Leveshtein است که از روش برنامه سازي پويا براي محاسبه فاصله بين دو رشته استفاده مي کند.
براي مثال فاصله دو کلمه kitten و sitting برابر  3 است.
1. kitten –> sitten(substitution of  ‘s’ for ‘k’)
2. sitten –> sittin (substitution of  ‘i’ for ‘e’)
3. sittin –> sitting(substitution of  ‘g’ at the end)
4-2-2- الگوريتم مجاورت کا-گرم
براي بررسي مجاورت دو رشته استفاده مي شود. مجموعه N-gram شامل دنباله هاي n تايي يک رشته است
مثال: رشته information  که  4-gram آن بصورت زير است:
info – nfor – form – orma – rmat – mati – atio – tion
روش کلي بدين صورت است که ابتدا تمامي N-gram  ها را توليد مي کنيم و آن ها را انديس گذاري مي کنيم. وقتي خواستيم يک کلمه را اصلاح کنيم همين کار را با آن کلمه مي کنيم.
براي اين کار دو روش وجود دارد:
•    روش اول : ابتدا N-gram هاي کلمه را پيدا مي کنيم و آن ها را با N-gram هاي ديکشنري مقايسه مي کنيم. فرض بر اين است که کلمه اشتباه فقط 2 يا 3 کاراکتر اشتباه  يا گم شده يا تغيير يافته دارد با مقايسه N-gram ها مي توان نزديک ترين کلمه درست را پيدا کرد.
•    روش دوم: ابتدا کلمات مشابه کلمه اشتباه را با استفاده از الگوريتم  Leveshtein  براي يک فاصله ويرايشي معين ، پيدا مي کنيم سپس براي هر کدام از آن ها N-gram ها را توليد مي کنيم ، هر کدام از کلمات که تعداد بيشتري     N-gram مشابهت با کلمه غلط داشت را به عنوان پيشنهاد ارائه مي کنيم.
نکته: الگوريتم N-gram براي کشف غلط هاي ناشي از جاي خالي نيز کار مي کند. براي اينکار مي توان در توليد مشابه هاي نزديک کلمه ، جاي خالي را بين حروف قرار دهيم ( علاوه بر افزودن ، کاستن و جابجايي).
4-2-3- غلط يابي حساس به متن
اگر کلمات وارد شده از نظر املا صحيح باشند ممکن است اشتباهي از طرف کاربر در وارد کردن عبارت صورت گرفته باشد ، مانند “فروشگاه مهرآباد تهران” بجاي “فرودگاه مهرآباد تهران”.
براي چنين اصلاحاتي نمي توانيم از الگوريتم کلمه مجزا استفاده کنيم و به الگوريتم حساس به متن رجوع مي کنيم. دو روش براي اين کار وجود دارد :
•    روش اول ، ساده ترين روش اين است که براي هر کدام از کلمات عبارت وارد شده توسط کاربر را به طور جداگانه ، کلمات مشابه را به روش هاي “کلمه مجزا” مانند “فاصله ويرايشي” و “کا-گرم” پيدا کنيم و ترکيبات مختلف آن ها را تشکيل دهيم. سپس عبارت تشکيل شده را بازيابي کرده هر کدام که تعداد نتايج بيشتري را باز گرداند به عنوان پيشنهاد به کاربر ارائه دهيم. اين روش مي تواند سربار زيادي توليد کند. مخصوصا وقتي تعداد کلمات مشابه زياد باشد.
•    روش دوم ، مي توان از روش هاي تشخيص براي بهبود نتايج جستجو استفاده کرد. در اين روش تمام ترکيبات ممکن با کلمات مشابه را توليد نمي کنيم بلکه متداول ترين آنها را از روي آمار هم نشيني هاي دو کلمه اي توليد مي کنيم و آن را براي سه کلمه گسترش مي دهيم . براي مثال فرودگاه مهرآباد بسيار متداول تر از فروشگاه مهر آباد مي باشد همچنين عبارت مهرآباد تهران متداول تر از مهرآباد مهران است لذا ترکيب فرودگاه مهرآباد تهران محتمل تر است. دو منبع براي بدست آوردن آمار همنشيني هاي دو کلمه اي وجود دارد. منبع اول هم نشيني کلمات در اسناد نمايه گذاري شده است و منبع دوم همنشيني کلمات در پرسش هاي وارد شده توسط کاربران است.
زماني که دو کاربر مختلف دنبال موضوعي يکسان مي گردند ممکن است از کلمات کليدي متفاوتي استفاده کنند. ميزان موفقيت کاربر از نظر سرعت و دقت بستگي به هوش و طرز فکر و دريافت ذهني وي از عملکرد موتور جستجو دارد. تجربه نشان مي دهد کاربران پس از مدتي با رفتار موتور جستجو آشنا مي شوند و کلماتي را انتخاب مي کنند که بهتر از گذشته عمل مي کند.
4-3- مفهوم ربط
کليد واژه ها را بايستي با شکل صحيح و در قالبي مناسب وارد کرد و در انتظار پاسخ از سوي موتور جستجو بود . اما کاربران مختلف کليد واژه هاي مختلفي را به موتور جستجو وارد مي کنند چون تجارب ، دانش و مهارت هاي متفاوتي دارند. يک موتور جستجو بايد قادر باشد جواب کاربراني با شرايط مختلف را بدهد.
کاربر براي کار با موتور جستجو بايد سه دانش داشته باشد:
•    ذهني
•    فني
•    معنايي
دانش ذهني ، دانش مورد نياز براي تبديل يک نياز اطلاعاتي به يک در خواست قابل جستجو مي باشد.
دانش فني ، مهارت هاي اساسي بکارگيري رايانه و ترکيب درخواست هاي وارد شده به عنوان عبارت هاي جستجوي خاص مي باشد.
دانش معنايي ، مشخص مي کند که چگونه و در چه وقتي قابليت موجود در موتور جستجو را بايد بکار گرفت.
افزايش اين سه دانش از طرف کاربر بصورت چشم گيري باعث افزايش ميزان اسناد بازيابي شده مي شود. در بسياري از موارد کاربر مي خواهد چيزي را از موتور جستجو بخواهد که راجب آن اطلاع خاصي ندارد و درباره آن جاهل است به همين دليل رفتار کاربران در حين جستجو تا حدي غير قابل پيش بيني مي شود.
از آنجايي که هدف بازيابي اطلاعاتي ايجاد ارتباط است از اين رو هم ربط کليد جدايي ناپذير بازيابي موثر است. ربط مقياس موثر بودن ميان منبع اطلاعات و دريافت کننده است.
ربط از نظر کاربر با معيار هاي زير بررسي مي شود:
•    وضعيت شناختي کاربر
•    ارزشي که به اطلاعات داده مي شود
•    فوريت کاربرد دانش جستجو شده
•    دانش قبلي از همان موضوع
•    مشکلي که بايد گشوده شود
ربط از نظر سيستم بازيابي با معيار هاي زير بررسي مي شود:
•    محل کليد واژه
•    بسامد نسبي
•    وجود کليد واژه ها در متاتگ ها
•    محبوبيت وبسايت
کار اصلي موتور جستجو سنجش ارتباط اطلاعات ذخيره شده و اطلاعات در خواست شده است. به عبارتي ديگر با ارائه يک سوال به نظام ، نظام بازيابي بايد بررسي کند که آيا اطلاعات ذخيره شده مربوط به پرسش است يا نه ، اما ايهام و استعارات پشت واژگان و نقص بيان مفاهيم با برخي واژگان اين  ارتباط ( ربط ) را مشخص مي سازد.
نظر خواهي از کابر در رتبه بندي: براي برطرف کردن مشکل سو تفاهم بين ذهن کاربر و الگوريتم هاي موتور جستجو اخيرا از الگوريتم هاي پيشرفته تري استفاده مي شود که در آن نظر کاربر به عنوان يک پارامتر لحاظ مي شود. گوگل يکي از موتور هاي جستجو است که پيشتاز اين روش است.
5- متا جستجوگر ها
يک موتور جستجو گر سايتي است که به طور واسطه بين کاربر و موتور هاي جستجو قرار مي گيرد، پرسش کاربر را دريافت مي کند و آن را پالايش کرده و با استفاده از سرويس وب موتور هاي جستجو ، نتايج را از چندين موتور جستجو دريافت و حاصل را ترکيب کرده و به کاربر ارائه مي دهد. استفاده از اين روش باعث مي شود دامنه جستجو وسيع تر شود و نتايج بهتري حاصل شود.
6- سئو چيست
معني سئو بهينه سازي استفاده از موتور هاي جستجو است يعني توليد کردن صفحاتي که براي موتور هاي جستجو جالب هستند.
SEO : Search Engine Optimization
بهينه سازي صفحات وب يعني اينکه در يک موتور جستجوي بزرگ بيشترين امتياز را بدست آورد. در واقع يعني اينکه چه کار هايي انجام دهيم که وبسايت ما درصفحه اول نتايج جستجو قرار گيرد.
علم سئو درمورد روش هاي فني مطالعه مي کند:
•    عنوان صفحه مناسب
•    تگ ها و متا تگ ها
•    کلمات کليدي
•    توضيحات مناسب سايت
•    محتوايي که موتور جستجو به آن تمايل دارد
نکته : يکي از کارهايي که متخصصان سئو انجام مي دهند پيگيري تمام تغييرات عملکرد داخل موتور هاي جستجو است. بنابرين آن ها مي توانند صفحات وب را بر طبق اين تغييرات بهينه سازي کنند.
نکته : سئو بسيار مهم است براي اينکه:
•    اگر از اين علم استفاده نشود بازديد کنندگان زيادي را از دست خواهيم داد
•    موتور هاي جستجو تنها وسيله شناساندن وبسايت ما در فضاي مجازي هستند
•    برتر بودن در موتور هاي جستجو مشتريان زيادي را بسوي وبسايت ما دعوت مي کند
•    91 درصد کاربران از موتور هاي جستجو استفاده مي کنند
•    73 درصد معاملات آنلاين از طريق موتور هاي جستجو آغاز مي شود.
چه کساني به سئو نياز دارند؟
در جواب بايد گفت هر وبسايتي که بسوي تجارت و بازرگاني حرکت مي کند به سئو نيازمند است.
نکته: بهينه سازي بايد بصورت مداوم بر روي وبسايت انجام شود و با يک بار اجراي بهينه سازي نتيجه مطلوب بدست نخواهد آمد.
6-1- مراحل بهينه سازي
بهينه سازي از چندين مرحله تشکيل يافته است:
مرحله اول ، انتخاب نام دومين يا دامنه مناسب است که بايد داري ويژگي هاي زير باشد:
•    مرتبط با موضوع وبسايت باشد
•    کوتاه و مفيد باشد
•    تايپ آن آسان باشد
•    ذهن مخاطب را درگير کند
مرحله دوم ، پرداخت هزينه به يک شرکت مطمئن و انتخاب ميزباني مناسب (هاستينگ) که داراي ويژگي هاي زير باشد:
•    سرعت انتقال بالا
•    پهناي باند بالا
•    آپ تايم و داون تايم مناسب
مرحله سوم ، طراحي مناسب وبسايت و يا استفاده از سيستم مديريت محتوا . طراحي بايد مناسب با موضوع و محتواي وبسايت باشد.
از سيستم هاي مديديت محتواي مناسب مي توان wordpress  و joomla   را نام برد. يکي از قوي ترين سيستم هاي مديريت محتوا datalife مي باشد که از نظر سئو بهتر عمل مي کند.
مرحله چهارم ، استفاده از  کدهاي html   ، کلمات کليدي و لينک هاي داخلي و در کل ، ساختار وب مناسب .
مرحله پنجم ، لينک هايي که به وبسايت ما اشاره مي کنند بايد تعدادشان زياد باشد و اين زماني اتفاق مي افتد که مطالب ما مفيد و به درد بخور باشند.
مرحله ششم ، حتما بايد چيزي براي ارائه داشته باشيم وگرنه بايد از فکر بالا بردن آمار بيرون بيايم.
مرحله هفتم ، مطالب را کپي نکنيم چون اينکار پس از چندين بازديد کاربر  لو مي رود.
مرحله هشتم ، با مخاطبين ارتباط نزديک بر قرار کنيم ، قسمتي در وبسايت با نام تماس با ما داشته باشيم و در صورت امکان شماره تماسمان را پايين وبسايت بگذاريم.
مرحله نهم ، ثبت وبسايت در dmoz.org ، به هر قيمتي ولي به درستي وبسايت خود را در اين دايرکتوري ثبت کنيم ، پس از مدتي نتيجه مطلوب را حتما مي بينيم.
مرحله دهم ، کاربر را نرنجانيم مانند سيستم هايي که داراي قسمت عضويت اجباري يا مسائلي از اين قبيل هستند.
مرحله يازدهم ، لينک بدهيم تا لينک بگيريم.
مرحله دوازدهم ، قالب سايت را با تمام مرورگر ها منطبق کنيم ، همچنين قالب را سبک بسازيم ، زيرا با اينترنت زغالي موجود در ايران بعضي ها حوصله لود شدن يک وبسايت را ندارند.
مرحله سيزدهم ، کلمات کليدي وبسايت خود و وبسايت رقيب را به دقت بررسي کنيم و بهترين ها را انتخاب کنيم . براي اين کار از وبسايت dwords گوگل کمک بگيريم. توضيحات وبسايت نيز فراموش نشود. از کلمات کليدي بروز استفاده کنيم.
مرحله چهاردهم ، عنوان وبسايت مناسب ، کوتاه و روان استفاده کنيم و از به کار بردن بهترين ، اولين و قدرتمندترين وبسايت بپرهيزيم.
مرحله پانزدهم ، از نوشتن چيز هاي مختلف بپرهيزيم و خود را روي يک موضوع خاص متمرکز کنيم.
مرحله شانزدهم ، براي وبسايت صفحه error 404 طراحي کنيم.
مرحله هفدهم ، قسمت جستجو براي وبسايتمان طراحي کنيم.
مرحله هجدهم ، مطالب بروز باشند و حداقل يک پست در روز ارسال کنيم.
مرحله نوزدهم ، مي توان هر پست را بطور جداگانه در گوگل يا ديگر موتور هاي جستجو ثبت کرد.
مرحله بيستم ، داشتن وبلاگ ، فروم يا انجمن در وبسايت.
مرحله بيست و يکم ، لينک هاي داخل شده به وبسايت زياد باشند که معمولا صفحه اصلي بهترين معيار است همچنين افزايش لينک هاي داخلي تا حد ممکن بسيار مفيد خواهد بود .
مرحله بيست و دوم ، لينک هاي برگشتي سايت از سايت هاي معتبر دولتي و يا دانشگاهي را افزايش دهيم.
مرحله بيست و سوم ، عضويت در دايرکتوري هاي معتبر.
مرحله بيست و چهارم ، صفحه کامل و مجزا درباره سياست هاي حريم خصوصي  privacy policy .
مرحله بيست و پنجم ، سرعت وبسايت خود را افزايش دهيم.
مرحله بيست و ششم ، از يک افزونه مترجم استفاده کنيم تا کساني که به زبان ما تسلط ندارند بتوانند از وبسايت استفاده کنند ، در اين حالت گستره بازديد کنندگان بسيار بالا مي رود.
مرحله بيست و هفتم ، ساخت پوسته جديد و ايجاد تنوع براي کاربران.
مرحله بيست و هشتم ، مقالات خود را منتشر کنيم.
مرحله بيست و نهم ، استفاده از لينک هاي منظم در صفحات مختلف وبسايت.
مرحله سيم ، بطور حتم يک صفحه نقشه وبسايت map site طراحي کنيم.
مرحله سي و يکم ، از خصوصيات alt tag ها در توضيحات مرتبط با عنوان صفحه استفاده کنيم.
مرحله سي و دوم ، از فايل robots.txt  در دايرکتوري خود استفاده کنيم.
مرحله سي و سوم ، در سايت خود با مقالات و مطالب خود چند بار لينک بدهيم.
مرحله سي و چهارم ، صفحات را براي استفاده کاربران بسازيم نه براي موتور هاي جستجو.
مرحله سي و پنجم ، مي توان از طريق فايل robots.txt دسترسي crawler موتور هاي جستجو را محدود کرد.
6-2- اشتباهات سئو
اشتباهاتي که ممکن است توسط برنامه نويس و طراح وبسايت صورت گيرد:
•    صفحات بيهوده : اشتباه بزرگي است که در صفحه اول وبسايت يک تصوير بسيار بزرگ و يک لينک که روي آن نوشته شده “براي ورود به وبسايت اينجا کليک کنيد”  وجود داشته باشد. در حالت بدتر اين لينک درون يک انيميشن فلش قرار دارد و اينکه هيچ گاه توسط جستجو گر دنبال نخواهد شد. صفحه اصلي يا ايندکس مهمترين صفحه وبسايت است و بار ها توسط موتور هاي جستجو بررسي مي شود. نبايد آن را به هدر داد.
•    منو هاي فلش : از فلش براي زيبايي وبسايت استفاده مي شود ، در حالي که لينک هاي موجود در اين منو ها هيچ گاه توسط جستجو گر هاي موتور جستجو دنبال نمي شود.
•    مطالب موجود در تصاوير و انيميشن ها : يک جستجو گر نمي تواند کلمات موجود در عکس ها و انيميشن ها را تشخيص دهد .
•    استفاده بيش از حد از تکنولوژي Ajax  : مطالب در Ajax بصورت پويا بارگذاري و لود مي شوند و اين مطالب و صفحات توسط جستجو گر ها قابل طبقه بندي و خواندن نيستند.
•    استفاده از زير شاخه ها : با تغيير شاخه اصلي بسياري از صفحات از دست خواهند رفت.
•    لينک ها : استفاده از “click here” يا “more” يا  “ادامه” يا “بيشتر”   براي لينک ها بسيار نا مناسب است.
نکته: هرگز از کلمات يکسان براي اتصال به صفحات ديگر استفاده نکنيد زيرا از نظر جستجوگر لينک هايي با کلمات يکسان داراي مطالب يکسان هستند و دنبال نمي شوند.
•    title ها :  اگر مي خواهيم نام وبسايت در تمامي title ها باشد از ترکيب (“نام وبسايت” |  “موضوع صفحه”) استفاده شود . نبايد تعداد زياد حروف در title ها استفاده شود ، تعداد استاندارد 65 حروف است که بقيه توسط موتور جستجو حذف مي شود. برخي فکر مي کننداستفاده بيش از حد يک کلمه مي تواند صفحه آن ها را در مورد آن کلمه در موقعيت بالاتري قرار دهد. آن ها سخت در اشتباهند ، جستجو گر اين صفحات را به عنوان صفحات هرز شناسايي مي کند.
•    توضيحات تصاوير: alt  يا توضيحات تصوير نقش مهمي در شناسايي موضوع تصوير دارد و نبايد به هيچ وجه ناديده گرفته شود ، موتور جستجو فقط از طريق alt  مي تواند در مورد تصوير اطلاعات کسب کند.
7- مديريت کامل وب مستر تولز گوگل Google webmaster tools
پس از ورود به اين سرويس بر روي دکمه Add a site کليک مي کنيم و سپس با وارد کردن آدرس وبسايت به روي دکمه continue کليک مي کنيم ، آدرس ما نمايش داده ميشود. با نمايش آدرس وبسايت بر روي verify this site  کليک مي کنيم و صفحه verify ownership  برايمان باز مي شود، در قسمت verification method  سه روش در اختيار ما قرار مي گيرد :
•    اضافه کردن کد html  به کدهاي html  وبسايت
•    اضافه کردن صفحه html  در root  وبسايت
•    اضافه کردن تکه کد به dns  وبسايت (پيشنهاد نميشود)
پس از انجام مراحل بالا با کليک بروي دکمه verify وارد بخش مديريت وبسايت مي شويم و مي توانيم از منو هاي موجود براي اينکار استفاده مي کنيم.
7-1- توضيحات منوي تنظيمات سايت site confiquration
7-1-1- مديريت  site map
به  مجموعه اي از آدرس ها که در قالب خاص تعريف مي گردند نقشه سايت مي گويند. نقشه سايت در گوگل مي تواند خيلي سريع تر صفحات وبسايت ما را ذخيره کند.
7-1-2- مديريت دسترسي خزنده به قسمت هاي مختلف سايت   crawler access
با فايل robots.txt  مي توان ربات هاي موتور جستجوگر را مديريت کرد که به کدام يک از صفحات و فولدر ها دسترسي داشته باشد و به کداميک از آن ها دسترسي نداشته باشد.
7-1-3- مديريت  site link
اگر معماري سايت به درستي پياده سازي شود و داراي بازديد کننده بالايي باشد و همچنين page rank  بالايي داشته باشد در اين صورت ممکن است که گوگل لينک ها يا عبارت هاي منو هاي وبسايت ما را بصورت خاص و تفکيک شده نمايش دهد که اين امتياز بسيار عالي از سوي گوگل به وبسايت ما مي تواند باشد.
7-1-4- تنظيمات تغيير آدرس وبسايت    change of address
اگر قصد داريم آدرس دامنه وبسايتمان را تغيير دهيم از اين قسمت ، براي مطلع ساختن گوگل از اين تغيير، استفاده مي شود تا با سرعت بيشتري صفحات وب ما را ذخيره کند.
7-1-5- تنظيمات کلي  setting
داراي قسمت geographic target  است که تنظيمات موقعيت جغرافيايي يا کشور هدف است. يعني وبسايت ما را فقط محدود به جستجو هاي آن کشور مي کند.
و همچنين داراي قسمت preferred domain است که مي توانيم به گوگل بگوييم که سايت و لينک ها بصورت www يا بدون www نمايش داده شوند.
و همچنين داراي قسمت crawler rate  است که تعداد دفعات مراجعه خزنده گوگل به وبسايت را تنظيم مي کند. ممکن است به علت بزرگ بودن سايت و در خواست هاي زياد اين مقدار کم شود . در صورتي که از عدم شناسايي تغييرات وبسايت ناراضي هستيم مقدار آن را افزايش مي دهيم.
7-2- توضيحات منوي your site on the web
7-2-1- کلمات کليدي در جستجو نمايش داده شده search queries
در اين قسمت کلمات کليدي  که  در موتور جستجو باعث مراجعه به سايت ما شده است به همراه موقعيت آن کلمات کليدي از وبسايت ما در صفحات گوگل نمايش داده مي شوند. علاوه برآن ميزان کليک ها و
CTR  ها هم نمايش داده مي شود. اگر کلمه اي از وبسايت ما خيلي مهم واقع شود و آمار زيادي داشته باشد ستاره دار مي شود.
7-2-2- لينک به سايت شما  link to your site
در اين قسمت آدرس صفحاتي از وبسايت ما که لينک هاي ارزشمند از سايت هاي ديگر به آن داده شده است ليست شده و نمايش داده مي شود. مي توان متن لينک هاي داده شده و آدرس وبسايت هاي لينک دهنده را نيز مشاهده کرد.

7-2-3- کلمات کليدي keywords
در اين صفحه رايج ترين کلمات کليدي موجود در صفحات وبسايت ما نمايش داده مي شود.
7-2-4- لينک هاي داخلي Internal Links
ليست صفحاتي که در داخل وبسايت به هم لينک داده شده اند به همراه تعداد لينک ها و صفحات لينک داده شده وجود دارد.
7-2-5- آمار مشترکين خوراک  feed or subscriber stats
در صورت ارائه فيد يا خوراک در وبسايتمان مي توانيم آن را در نقشه سايت ذخيره کنيم و در اين صفحه مي توان وضعيت مشترکين خود را در سرويس google reader  مشاهده کرد.
7-3- توضيحات منوي امکانات عيب شناسي dianostic
7-3-1- تروجان Malware
اگر وبسايت حاوي کد هاي تروجان باشد به ما اعلام مي کند.
7-3-2- خطاهاي خزنده Crawl Errors
خزنده وقتي صفحات وبسايت ما را بررسي مي کند ، خطاهايي که با آن ها مواجه مي شود را نمايش مي دهد. اين خطاها به چند دسته تقسيم مي شوند:
•    وب
•    mobile- chtml
•    mobile-xhtml
اگر مشکلي در صفحه ما باشد گزارش کاملي در اين قسمت در دست ما خواهد بود. حساسيت گوگل به اين خطاها بالاست پس به خطاها بايد  توجه کنيم.
7-3-3- Restricted by robots.txt
در اين قسمت ليست صفحاتي که توسط فايل robots.txt  پاک گرديده اند نمايش داده مي شود.
7-3-4- گزارش وضعيت خزنده Crawl States
گزارشي از وضعيت صفحات کنکاش شده را مي دهد که شامل صفحات کنکاش شده در هر روز ، ميانگين مدت زمان مصرف شده براي دريافت صفحات و حجم صفحات دانلود شده در هر روز.
7-3-5- پيشنهادات کد هاي html Suggestions
خزنده ليستي از مشکلات وبسايت را ارائه مي دهد که حل اين مشکلات کمک بسياري مي کند. شامل سه مورد  short meta
duplicate meta , long meta  است.
يک قسمت meta description  است که اگر توضيحاتي تکراري در صفحات وبسايت وجود داشته باشد در description duplicate meta نمايش داده مي شود. اگر توضيحات صفحه بلندتر از حد مجاز باشد در long meta description  و اگر کوتاه باشد در short meta description  نمايش داده مي شود.