Googlebot
Googlebot نام عمومی دو نوع گوگل است خزنده های وب:
- Googlebot Desktop: یک خزنده دسکتاپ که کاربر را روی دسکتاپ شبیه سازی می کند.
- گوگل بات تلفن هوشمند: یک خزنده موبایل که کاربر را در یک دستگاه تلفن همراه شبیه سازی می کند.
شما می توانید زیرنوع Googlebot را با نگاه کردن به آن شناسایی کنید رشته عامل کاربر در درخواست. با این حال، هر دو نوع خزنده از یک نشانه محصول (توکن عامل کاربر) تبعیت می کنند robots.txt، و بنابراین نمی توانید به طور انتخابی گوشی هوشمند Googlebot یا Googlebot را هدف قرار دهید دسکتاپ با استفاده از robots.txt.
برای اکثر سایت ها در درجه اول گوگل نسخه تلفن همراه را نمایه می کند از محتوا به این ترتیب اکثر درخواستهای خزیدن Googlebot با استفاده از تلفن همراه انجام میشود خزنده، و اقلیت با استفاده از خزنده دسکتاپ.
نحوه دسترسی Googlebot به سایت شما
برای اکثر سایت ها، Googlebot نباید بیش از یک بار در هر چند ثانیه به سایت شما دسترسی داشته باشد میانگین. با این حال، به دلیل تاخیرها، ممکن است که نرخ کمی بالاتر به نظر برسد در دوره های کوتاه
Googlebot به گونه ای طراحی شده است که به طور همزمان توسط هزاران ماشین برای بهبود اجرا شود عملکرد و مقیاس با رشد وب. همچنین، برای کاهش استفاده از پهنای باند، ما بسیاری را اجرا می کنیم خزندهها در ماشینهای واقع در نزدیکی سایتهایی که ممکن است بخزند. بنابراین، سیاهههای مربوط به شما ممکن است نمایش بازدید از چندین آدرس IP، همه با عامل کاربر Googlebot. هدف ما این است که در هر بازدید تا جایی که می توانیم صفحات سایت شما را بخزیم بدون اینکه شما را تحت تأثیر قرار دهیم سرور اگر سایت شما در پیگیری درخواست های خزیدن گوگل مشکل دارد، می توانید نرخ خزیدن را کاهش دهید.
Googlebot عمدتاً از آدرسهای IP در ایالات متحده میخزد. در صورتی که Googlebot تشخیص دهد اگر سایتی درخواست های ایالات متحده را مسدود می کند، ممکن است سعی کند از IP بخزد آدرس های واقع در کشورهای دیگر فهرست بلوکهای آدرس IP مورد استفاده در حال حاضر توسط Googlebot در دسترس است قالب JSON.
Googlebot روی HTTP/1.1 می خزد و در صورت پشتیبانی سایت،
HTTP/2. وجود ندارد
مزایای رتبه بندی بر اساس نسخه پروتکلی که برای خزیدن سایت شما استفاده می شود. هر چند خزیدن
بیش از HTTP/2 ممکن است منابع محاسباتی (به عنوان مثال، CPU، RAM) را برای سایت شما و Googlebot ذخیره کند.
برای انصراف از خزیدن در HTTP/2، به سروری که سایت شما را میزبانی می کند دستور دهید پاسخ دهد
با 421
کد وضعیت HTTP هنگامی که Googlebot سعی می کند سایت شما را بخزد
HTTP/2. اگر این امکان پذیر نیست، شما
می تواند به تیم Googlebot پیام ارسال کند
(البته این راه حل موقتی است).
Googlebot می تواند 15 مگابایت اول یک فایل HTML را بخزد یا فایل مبتنی بر متن پشتیبانی شده. هر منبع ارجاع شده در HTML مانند CSS و JavaScript به طور جداگانه واکشی می شود و هر واکشی محدود به همان محدودیت اندازه فایل است. بعد از 15 مگابایت اول فایل، Googlebot خزیدن را متوقف می کند و فقط 15 مگابایت اول فایل را برای نمایه سازی در نظر می گیرد. محدودیت اندازه فایل روی داده های فشرده نشده اعمال می شود. سایر خزنده های گوگل، به عنوان مثال Googlebot Video و Googlebot Image، ممکن است محدودیت های متفاوتی داشته باشد.
هنگام خزیدن از آدرس های IP در ایالات متحده، منطقه زمانی Googlebot است زمان اقیانوس آرام.
مسدود کردن Googlebot از بازدید از سایت شما
تقریباً غیرممکن است که یک وب سرور را با انتشار نکردن پیوندهای آن مخفی نگه دارید. برای به عنوان مثال، به محض اینکه شخصی پیوندی از "مخفی" شما را دنبال کند. سرور به وب سرور دیگری، "راز" URL ممکن است در تگ ارجاع ظاهر شود و توسط دیگری ذخیره و منتشر شود وب سرور در گزارش ارجاع دهنده آن. به طور مشابه، وب دارای بسیاری از لینک های قدیمی و شکسته است. هر زمان که شخصی پیوند نادرستی به سایت شما منتشر می کند یا پیوندها را برای بازتاب به روز نمی کند تغییرات در سرور شما، Googlebot سعی می کند یک لینک نادرست را از سایت شما بخزد.
اگر می خواهید از خزیدن Googlebot در محتوای سایت خود جلوگیری کنید، باید یک تعداد گزینه. بودن از تفاوت بین جلوگیری از خزیدن Googlebot در صفحه و جلوگیری از آن آگاه است Googlebot از فهرست کردن یک صفحه و جلوگیری از دسترسی به صفحه توسط هر دو خزنده ها یا کاربران
در حال تأیید Googlebot
قبل از اینکه تصمیم به مسدود کردن Googlebot بگیرید، توجه داشته باشید که رشته عامل کاربر توسط Googlebot استفاده میشود اغلب توسط خزنده های دیگر جعل می شود. تأیید اینکه یک درخواست مشکل ساز است، مهم است در واقع از گوگل می آید. بهترین راه برای تأیید اینکه یک درخواست واقعاً از آنجا آمده است ربات گوگل به از جستجوی معکوس DNS استفاده کنید در IP منبع درخواست، یا برای تطبیق IP منبع با محدوده IP Googlebot.