نمای کلی خزندهها و واکشیهای Google (عاملهای کاربر)
Google از خزندهها و واکشیها برای انجام اقدامات برای محصولات خود، به صورت خودکار یا بهصورت خودکار استفاده میکند توسط درخواست کاربر ایجاد می شود.
"خزنده» (گاهی اوقات "ربات" یا "عنکبوت" نیز نامیده می شود) یک اصطلاح عمومی برای هر برنامه ای است که برای کشف و اسکن خودکار وب سایت ها با دنبال کردن پیوندها از یک صفحه وب به استفاده می شود یکی دیگر. خزنده اصلی گوگل که برای جستجوی گوگل استفاده می شود نامیده می شود Googlebot.
Fetchers، مانند مرورگر، ابزارهایی هستند که در صورت درخواست کاربر، یک URL واحد درخواست می کنند.
جداول زیر خزندهها و واکشیهای Google را نشان میدهند که توسط محصولات و سرویسهای مختلف استفاده میشوند. چگونه می توانید در گزارش های ارجاع دهنده خود مشاهده کنید و چگونه آنها را در آنها مشخص کنید robots.txt. لیست ها نیستند جامع، آنها فقط رایج ترین درخواست کنندگانی را که ممکن است در فایل های گزارش نشان داده شوند پوشش می دهند.
-
توکن عامل کاربر در خط
User-agent:
در robots.txt استفاده می شود برای مطابقت با نوع خزنده هنگام نوشتن قوانین خزیدن برای سایت شما. برخی از خزنده ها بیش از یک نشانه، همانطور که در جدول نشان داده شده است. برای یک قانون باید فقط یک توکن خزنده را مطابقت دهید درخواست دادن. این فهرست کامل نیست، اما بیشتر خزندههایی را که ممکن است در وبسایت خود ببینید، پوشش میدهد. - رشته عامل کامل کاربر توضیح کاملی از خزنده است و در درخواست HTTP و گزارش های وب شما.
خزنده های معمولی
خزنده های متداول گوگل برای ایجاد شاخص های جستجوی گوگل و اجرای محصولات دیگر استفاده می شود. خزیدن خاص، و برای تجزیه و تحلیل. آنها همیشه از قوانین robots.txt پیروی می کنند و به طور کلی از آن می خزند محدوده IP منتشر شده در googlebot.json شی.
خزنده های رایج | |||||
---|---|---|---|---|---|
Googlebot تلفن هوشمند |
|
||||
Googlebot رومیزی |
|
||||
تصویر Googlebot |
برای خزیدن بایت های تصویر برای Google Images و محصولات وابسته به تصاویر استفاده می شود.
|
||||
اخبار Googlebot |
Googlebot News از Googlebot برای خزیدن مقالات خبری استفاده میکند، اما به آن احترام میگذارد
رمز عامل کاربر تاریخی
|
||||
ویدیوی Googlebot |
برای خزیدن بایت های ویدیو برای Google Video و محصولات وابسته به ویدیوها استفاده می شود.
|
||||
Google StoreBot |
Google Storebot در انواع خاصی از صفحات می خزد، از جمله، اما نه محدود به، صفحات جزئیات محصول، صفحات سبد خرید و صفحات پرداخت.
|
||||
Google-InspectionTool |
Google-InspectionTool خزنده ای است که توسط ابزارهای تست جستجو مانند آزمون نتایج غنی و بازرسی URL در کنسول جستجو جدای از user agent و user agent token، از Googlebot تقلید می کند.
|
||||
GoogleOther |
GoogleOther خزنده عمومی است که ممکن است توسط تیم های مختلف محصول برای واکشی در دسترس عموم استفاده شود مطالب از سایت ها به عنوان مثال، ممکن است برای خزیدن یکباره برای تحقیقات داخلی و توسعه.
|
||||
Google-Extended |
|
خزنده های مورد خاص
خزندههای مورد خاص توسط محصولات خاصی استفاده میشوند که توافقی بین آنها وجود دارد
سایت خزیده شده و محصول در مورد فرآیند خزیدن. برای مثال، AdsBot
نادیده می گیرد
عامل کاربر جهانی robots.txt (*
) با اجازه ناشر آگهی. را
خزنده های مورد خاص ممکن است قوانین robots.txt را نادیده بگیرند و بنابراین از محدوده IP متفاوتی کار می کنند.
نسبت به خزنده های معمولی محدوده IP در منتشر شده است
شی
special-crawlers.json.
خزنده های مورد خاص | |||||
---|---|---|---|---|---|
APIs-Google |
توسط Google API برای ارسال پیامهای اعلان فشار استفاده میشود. عامل کاربر جهانی را نادیده می گیرد
(
|
||||
AdsBot Mobile Web Android |
اندروید را چک می کند
کیفیت آگهی صفحه وب.
عامل جهانی کاربر (
|
||||
AdsBot Mobile Web |
آیفون را چک می کند
کیفیت آگهی صفحه وب.
عامل جهانی کاربر (
|
||||
AdsBot |
دسکتاپ را بررسی می کند
کیفیت آگهی صفحه وب.
عامل جهانی کاربر (
|
||||
AdSense |
خزنده AdSense از سایت شما بازدید می کند تا محتوای آن را تعیین کند تا مرتبط باشد
تبلیغات عامل کاربر سراسری (
|
||||
AdSense موبایل |
خزنده موبایل AdSense از سایت شما بازدید می کند تا محتوای آن را تعیین کند تا ارائه دهد
تبلیغات مرتبط عامل کاربر سراسری (
|
||||
Google-Safety |
عامل کاربر Google-Safety خزیدن مخصوص سوء استفاده، مانند کشف بدافزار برای پیوندهایی که به صورت عمومی در دارایی های گوگل پست شده اند. این عامل کاربر قوانین robots.txt را نادیده می گیرد.
|
واکشیهای راهاندازی شده توسط کاربر
واکشیهای راهاندازی شده توسط کاربر توسط کاربران برای انجام یک عملکرد خاص محصول فعال میشوند. برای مثال، تأییدکننده سایت Google بر اساس درخواست کاربر عمل می کند. از آنجا که واکشی توسط یک کاربر درخواست شده است، این واکشیها به طور کلی قوانین robots.txt را نادیده بگیرید. محدودههای IP که واکشیکنندههای راهاندازی شده توسط کاربر استفاده میکنند در منتشر شده است user-triggered-fetchers.json هدف - شی.
واکشیهای راهاندازی شده توسط کاربر | |||||
---|---|---|---|---|---|
فیدفچر |
Feedfetcher برای خزیدن فیدهای RSS یا Atom برای Google Podcasts، Google News و PubSubHubbub.
|
||||
Google Publisher Center |
واکشی و پردازش فیدهایی که ناشران به صراحت ارائه کرده اند از طریق مرکز ناشر Google برای استفاده در صفحات فرود Google News.
|
||||
Google Read Aloud |
به درخواست کاربر، Google Read Aloud صفحات وب را با استفاده از تبدیل متن به گفتار واکشی و می خواند. (TTS).
|
||||
Google Site Verifier |
Google Site Verifier به درخواست کاربر، نشانههای تأیید کنسول جستجو را واکشی میکند.
|
یادداشتی درباره Chrome/ W.X.Y.Z در نمایندگیهای کاربر
هرجا که رشته Chrome/W.X.Y.Z را در عامل کاربر مشاهده کردید
رشته ها در جدول، W.X.Y.Z در واقع یک مکان نگهدار است که نسخه را نشان می دهد.
از مرورگر Chrome مورد استفاده توسط آن عامل کاربر: به عنوان مثال، 41.0.2272.96
. این نسخه
تعداد به مرور زمان افزایش خواهد یافت
با آخرین نسخه منتشر شده Chromium که توسط Googlebot استفاده میشود مطابقت دهید.
اگر گزارش های خود را جستجو می کنید یا سرور خود را برای یک عامل کاربری با این الگو فیلتر می کنید، به جای مشخص کردن یک عدد دقیق، از حروف عام برای شماره نسخه استفاده کنید شماره نسخه
عوامل کاربر در robots.txt
در جایی که چندین عامل کاربر در فایل robots.txt شناسایی میشوند، گوگل بیشترین موارد را دنبال میکند
خاص اگر میخواهید تمام گوگل بتواند صفحات شما را بخزد، نیازی به این ندارید
اصلا فایل robots.txt. اگر میخواهید دسترسی همه خزندههای Google را مسدود کنید یا اجازه دهید
برخی از محتوای خود، می توانید این کار را با تعیین Googlebot به عنوان عامل کاربر انجام دهید. مثلا،
اگر میخواهید همه صفحات شما در جستجوی Google ظاهر شوند و اگر میخواهید تبلیغات AdSense ظاهر شوند
در صفحات خود، به فایل robots.txt نیاز ندارید. به همین ترتیب، اگر می خواهید برخی از صفحات را مسدود کنید
به طور کلی از Google، مسدود کردن عامل کاربر Googlebot
نیز همه را مسدود می کند
سایر عوامل کاربر گوگل.
اما اگر میخواهید کنترل دقیقتری داشته باشید، میتوانید دقیقتر عمل کنید. به عنوان مثال، شما ممکن است
میخواهید همه صفحات شما در جستجوی Google ظاهر شوند، اما نمیخواهید تصاویر در صفحه شخصیتان باشد
دایرکتوری برای خزیدن در این مورد، از robots.txt برای غیر مجاز کردن استفاده کنید
Googlebot-Image
عامل کاربر از خزیدن فایلها در فهرست شخصی شما
(در حالی که به Googlebot اجازه می دهد همه فایل ها را بخزد)، مانند این:
User-agent: Googlebot Disallow: User-agent: Googlebot-Image Disallow: /personal
برای مثال دیگر، بگویید که می خواهید در تمام صفحات خود تبلیغات داشته باشید، اما آنها را نمی خواهید.
صفحاتی که در جستجوی گوگل ظاهر می شوند. در اینجا، Googlebot را مسدود میکنید، اما اجازه میدهید
Mediapartners-Google
عامل کاربر، مانند این:
User-agent: Googlebot Disallow: / User-agent: Mediapartners-Google Disallow:
کنترل سرعت خزیدن
هر خزنده گوگل برای هدفی خاص و با نرخ های متفاوت به سایت ها دسترسی دارد. گوگل استفاده می کند الگوریتم هایی برای تعیین نرخ خزیدن بهینه برای هر سایت. اگر یک خزنده گوگل در حال خزیدن است سایت شما اغلب، شما می توانید نرخ خزیدن را کاهش دهید.
خزنده های بازنشسته گوگل
خزندههای Google زیر دیگر مورد استفاده قرار نمیگیرند، و فقط برای مرجع تاریخی در اینجا ذکر شدهاند.
خزنده های بازنشسته گوگل | |||||
---|---|---|---|---|---|
دوبلکس در وب |
از Duplex در وب سرویس پشتیبانی می کند.
|
||||
نور وب |
هدر
|
||||
برنامه های موبایل اندروید |
صفحه برنامه اندروید را بررسی می کند
کیفیت آگهی.
از
|
||||
Google Favicon |
|