یکشنبه ۰۲ اردیبهشت ۰۳

کراول و ایندکس شدن سایت

دانستنی های عمومی

کراول و ایندکس شدن سایت

۵ بازديد

بسیاری از افرادی که در حال فعالیت در صنعت سئو هستند، به خوبی نمی دانند که موتورهای جستجو چگونه کار می کنند. خیلی از سئوکاران بیشتر وقت روزانه خود را صرف مواردی مثل ساختار سرور، ریدایرکت های 301، خطاهای 404، تگ های عنوان و موارد مختلف دیگر می کنند. آموزش سئو خصوصی  این افراد در واقع فراموش می کنند که هدف اصلی این فعالیت ها چه چیزی است.

حقیقتی که وجود دارد این است که بیشتر سئوکاران، به صورت حرفه ای آموزش ندیده اند و خیلی از آن ها مهارت های سئو سایت خود را به صورت تجربی و توسط آزمون و خطاها فرا گرفته اند. در نتیجه تعجبی ندارد که بیشتر افراد دقیقا ندانند که موتورهای جستجو چگونه کار می کنند و هدف از پیاده سازی تکنیک های بهینه سازی سایت چیست.

برای اثبات این امر، به عملکرد خودتان دقت کنید؛ از آخرین دفعه ای که تصمیم گرفتید متوجه شوید موتورهای جستجوگر چگونه کار می کنند، چقدر زمان می گذرد؟ ممکن است که شما در مورد بروز رسانی های الگوریتم رتبه بندی موتورهای جستجو مثل موتور جستجو گوگل، مطالعاتی داشته اید؛ اما به احتمال زیاد، کمتر پیش آمده است تا به شکلی عمیق به این مسئله بپردازید و در مورد آن تحقیق کنید.

به همین دلیل، تصمیم گرفته ایم تا مراحل کلی عملکرد موتور جستجو را به بهترین شکل ممکن برای شما شرح دهیم. مطمئنا اینکه دقیقا بدانید موتورهای جستجوگر چگونه کار می کنند، بر بهبود روند سئو سایت شما بسیار تاثیرگذار است.

کراول و ایندکس شدن سایت

وقتی می شنوید موتور جستجو گوگل سایتی را ایندکس کرده است، دقیقا چه معنایی دارد؟ سئوکاران از این اصطلاح استفاده می کنند تا بررسی کنند آیا یک سایت در صفحات نتایج جستجو گوگل حضور دارد یا خیر. برای انجام اینکار بیشتر سئوکاران از عبارت site:www.site.com استفاده می کنند؛ اگر نتیجه ای ظاهر شد، نشان دهنده این است که وب سایت مورد نظر توسط ربات گوگل ایندکس شده است. در این مرحله شما صفحاتی را مشاهده خواهید کرد که متعلق به سایت مورد نظر بوده و در دیتابیس گوگل قرار گرفته اند. اما نکته مهم این است که تمامی این صفحاتی که متعلق به سایت شما بوده و در توسط موتور جستجو گوگل ایندکس نیز شده اند، لزوما توسط ربات گوگل کراول نشده اند.

ایندکس شدن سایت تفاوت های مفهومی زیادی با کراول کردن سایت توسط خزنده گوگل دارد. برای درک بهتر این دو مفهوم باید بدانید که صفحات سایت قبل از اینکه کراول شوند، نیاز دارند تا کشف بشوند؛ به دنبال آن این صفحات قبل از اینکه ایندکس بشوند نیاز دارند تا کراول بشوند.

یکی از کارکنان گوگل اعلام کرده است که عمل ایندکس به صورت مستقل، شامل بررسی اطلاعات و اسناد نمی شود؛ بلکه در واقع لیستی از کلماتی است که برای هر کدام از آن عبارات، اسناد مرتبط را نشان می دهد. ما به صورت محاوره ای می گوییم که یک سایت ایندکس شده است؛ اما اتفاقی که واقعا افتاده این است که تنها برخی از کلمات مرتبط با اطلاعات صفحه مورد نظر که اشاره به مفهوم محتوایی صفحه دارند، جمع آوری شده اند.

Vanessa Fox که یکی از کارمندان اسبق گوگل است، در مورد اینکه موتورهای جستجو چگونه کار می کنند بیان کرده است که گوگل در ابتدا URL ها را شناسایی می کند و سپس این URL های شناخته شده را به سیستم scheduling (برنامه ریزی) کراول کردن ربات خود اضافه می کند. بنابراین یک لیست جمع آوری می شود و سپس ربات گوگل لیست URL ها را به ترتیب اولویت بندی مرتب می کند و عمل کراول کردن را بر روی آن ها انجام می دهد. این اولویت، به چندین عامل بستگی دارد. بعد از اینکه یک صفحه کراول شد، گوگل فرآیند الگوریتمیک دیگری را طی می کند تا تصمیم بگیرد که صفحه مورد نظر در بین URL های ایندکس شده قرار بگیرد یا خیر. نکته نهایی مهم بررسی این دو مفهوم، این است که گوگل همه صفحاتی که کراول کرده را ایندکس نمی کند و همچنین همه صفحاتی که در لیست ایندکس خود قرار داده را کراول نکرده است.

https://khanomsin.ir/free-seo-training/

گوگل این پروسه را به صورت یک نمودار خطی برای کاربران ارائه کرده است:

 

دو نکته مهم دیگر وجود دارد که باید در مورد اینکه موتورهای جستجوگر چگونه کار می کنند، آن را متوجه شوید:

  • Robot.txt تنها از کراول شدن یک صفحه سایت جلوگیری می کند. به همین دلیل گاهی اوقات گوگل دارای صفحاتی در نتایج جستجوی خود مانند مثال بالا است. گوگل می تواند صفحات را با لینک های موجود آن مرتبط کند اما قادر نیست که محتوای صفحه را کراول کند.
  • Noindex های هر صفحه به صورت قطعی از ایندکس شدن جلوگیری نمی کنند. شما صفحات دارای کدهای noindex را نیز می تواند کراول کند و ارتباط بین لینک های موجود را مورد بررسی قرار دهد. تنها کاری که این موتور جستجو انجام می دهد این است که از نمایش این صفحات در SERP های خود جلوگیری می کند (البته این مسئله برای همه صفحات صدق نمی کند).

تگ های canonical و چندین پارامتر دیگر در زمانی که ربات گوگل می خواهد یک صفحه را کراول کند، موثر هستند و می توانند در مراحل کلی عملکرد موتور جستجو نقش داشته باشند.

لینک ها و نمودار آن ها

مسئله بعدی مرتبط با اینکه موتورهای جستجو چگونه کار می کنند این است که سئوکاران باید بدانند که لینک ها چه ماهیتی دارند و نحوه پردازش آن ها به چه صورت می باشد. مهمترین نکته ای که در این زمینه باید بدانید این است که لینک ها در طول پروسه کراول کردن، پردازش نمی شوند. به زبانی دیگر، ربات گوگل هنگام خزیدن در سایت شما، تصمیمی برای PageRank شما نمی گیرد و فعالیت های مربوط به رتبه دهی به وضعیت لینک سازی شما را به صورت جداگانه انجام می دهد.

از این مسئله، نکات مهمی برای مراحل کلی عملکرد موتورهای جستجو به دست می آید که در ادامه آن ها را برای شما بیان کرده ایم.

PageRank معیاری برای اندازه گیری کیفیت و کمیت لینک های یک صفحه است و ارتباطی با محتوا ندارد. PageRank قبلا به صورت علنی به نمایش در می آمد؛ اما گوگل تصمیم گرفت تا این معیار بسیار مهم را از حالت عمومی خارج سازد.

بسیاری از سئوکاران معتقد هستند که دو عنصر اصلی در ارتباط با PageRank وجود دارد؛ سطح دامنه و سطح صفحه سایت. اعتقاد بر این است که سطح دامنه همان عنصری است که اعتبار دامنه را مشخص می کند. اعتبار دامنه یکی از فاکتورهای اصلی رتبه بندی کلی وب سایت شما می باشد. البته دقت داشته باشید که این موارد تنها از تجربه های سئوکاران مختلف به دست آمده اند و گوگل به صورت رسمی هیچ کدام از این موارد را معتبر ندانسته است.

از آنجا که PageRank به طور جداگانه مورد پردازش قرار می گیرد، دستورالعمل هایی مانند noindex، disallow  و مسدود کردن های دیگر ربات گوگل، از بررسی وضعیت لینک های سایت شما جلوگیری نمی کنند. شما به هیچ طریقی نمی توانید موتور جستجو را متوقف کنید تا برای PageRank شما رتبه ای در نظر نگیرد. بر خلاف باور بیشتر افراد، یک ریدایرکت 302 می تواند از PageRank عبور کند.

تا كنون نظري ثبت نشده است
ارسال نظر آزاد است، اما اگر قبلا در رویا بلاگ ثبت نام کرده اید می توانید ابتدا وارد شوید.