نحوه نوشتن و ارسال روبات.فایل txt
تو می توانی کنترل کنید که خزنده ها به کدام فایل ها دسترسی داشته باشند در سایت خود با یک فایل robots.txt.
یک فایل robots.txt در ریشه سایت شما قرار دارد. بنابراین، برای سایت www.example.com
،
فایل robots.txt در www.example.com/robots.txt
زندگی می کند. robots.txt یک دشت است
فایل متنی که به دنبال آن است
استاندارد حذف ربات ها.
یک فایل robots.txt از یک یا چند قانون تشکیل شده است. هر قانون دسترسی همه یا را مسدود یا اجازه می دهد
یک خزنده خاص به یک مسیر فایل مشخص شده در دامنه یا زیر دامنه ای که robots.txt
فایل میزبانی شده است. مگر اینکه در فایل robots.txt چیز دیگری مشخص کنید، همه فایل ها به طور ضمنی هستند
برای خزیدن مجاز است
در اینجا یک فایل robots.txt ساده با دو قانون وجود دارد:
User-agent: Googlebot Disallow: /nogooglebot/ User-agent: * Allow: / Sitemap: https://www.example.com/sitemap.xml
معنی فایل robots.txt در اینجا آمده است:
-
عامل کاربر به نام Googlebot مجاز به خزیدن در هر URLی که با آن شروع می شود، ندارد
https://example.com/nogooglebot/
. - سایر عوامل کاربر مجاز به خزیدن در کل سایت هستند. این ممکن بود حذف شود و نتیجه یکسان خواهد بود. رفتار پیشفرض این است که عوامل کاربر اجازه دارند کل سایت را خزیدن
-
فایل نقشه سایت سایت در
https://www.example.com/sitemap.xml
.
برای مثالهای بیشتر به بخش نحو مراجعه کنید.
دستورالعمل های اساسی برای ایجاد یک فایل robots.txt
ایجاد یک فایل robots.txt و در دسترس و مفید ساختن آن به طور کلی شامل چهار مرحله است:
- فایلی با نام robots.txt ایجاد کنید.
- افزودن قوانین به فایل robots.txt.
- فایل robots.txt را در ریشه سایت خود آپلود کنید.
- فایل robots.txt را آزمایش کنید.
یک فایل robots.txt ایجاد کنید
شما می توانید تقریباً از هر ویرایشگر متنی برای ایجاد یک فایل robots.txt استفاده کنید. مثلا Notepad TextEdit، vi و emacs میتوانند فایلهای robots.txt معتبر ایجاد کنند. از واژه پرداز استفاده نکنید. کلمه پردازنده ها اغلب فایل ها را در قالبی اختصاصی ذخیره می کنند و می توانند کاراکترهای غیرمنتظره ای مانند نقل قول های فرفری، که می تواند برای خزنده ها مشکل ایجاد کند. حتما فایل را با UTF-8 ذخیره کنید اگر در گفتگوی ذخیره فایل از شما خواسته شود، رمزگذاری می شود.
قوانین قالب و مکان:
- نام فایل باید robots.txt باشد.
- سایت شما می تواند تنها یک فایل robots.txt داشته باشد.
-
فایل robots.txt باید در ریشه میزبان سایت قرار گیرد
که اعمال می کند. به عنوان مثال، برای کنترل خزیدن در همه URL های زیر
https://www.example.com/
، فایل robots.txt باید در این آدرس قرار گیردhttps://www.example.com/robots.txt
. نمی توان را در a قرار داد فهرست فرعی (مثلاً درhttps://example.com/pages/robots.txt
). اگر شما دوباره در مورد نحوه دسترسی به ریشه سایت خود مطمئن نیستید یا برای انجام این کار به مجوز نیاز دارید، با وب خود تماس بگیرید ارائه دهنده خدمات میزبانی اگر نمی توانید به ریشه سایت خود دسترسی پیدا کنید، از یک مسدودسازی جایگزین استفاده کنید روشی مانندmeta
برچسب ها. -
یک فایل robots.txt را می توان در یک زیر دامنه پست کرد (به عنوان مثال،
) یا غیر استاندارد
پورت ها (به عنوان مثال، ).
https://site.example.com/robots.txt
https://example.com:8181/robots.txt
- فایل robots.txt فقط برای مسیرهای درون پروتکل، میزبان و پورت که در آن قرار دارد اعمال می شود.
ارسال شده. یعنی قوانین موجود در
https://example.com/robots.txt
فقط برای فایلهای موجود در آن اعمال میشودhttps://example.com/
، نه به زیر دامنه هایی مانندhttps://m.example.com/
، یا پروتکل های جایگزین، مانندhttp://example.com/
. - فایل robots.txt باید یک فایل متنی کدگذاری شده UTF-8 باشد (که شامل ASCII است). گوگل ممکن است نادیده گرفتن کاراکترهایی که بخشی از محدوده UTF-8 نیستند، به طور بالقوه robots.txt را رندر می کنند قوانین نامعتبر است
نحوه نوشتن روبات.قوانین txt
قوانین دستورالعمل هایی برای خزنده ها هستند که در مورد قسمت هایی از سایت شما می توانند بخزند. دنبال کردن این دستورالعمل ها هنگام اضافه کردن قوانین به فایل robots.txt:
- یک فایل robots.txt از یک یا چند گروه (مجموعه قوانین) تشکیل شده است.
-
هر گروه از قوانین متعدد (همچنین به عنوان دستورالعمل ها شناخته می شود) تشکیل شده است، یک قانون در هر خط. هر یک
گروه با یک خط
User-agent
شروع می شود که هدف گروه ها را مشخص می کند. - یک گروه اطلاعات زیر را می دهد:
- گروه برای چه کسانی اعمال می شود (عامل کاربر).
- نماینده به کدام دایرکتوری ها یا فایل هایی دسترسی دارد.
- به کدام دایرکتوری ها یا فایل هایی که نماینده نمی توانند دسترسی داشته باشند.
- خزنده ها گروه ها را از بالا به پایین پردازش می کنند. یک عامل کاربر میتواند تنها با یک مجموعه قوانین مطابقت داشته باشد اولین و خاص ترین گروهی است که با یک عامل کاربر مشخص مطابقت دارد. اگر چندتایی باشد گروه ها برای همان عامل کاربر، گروه ها قبلاً در یک گروه واحد ترکیب می شوند در حال پردازش.
-
فرض پیش فرض این است که یک عامل کاربر می تواند هر صفحه یا دایرکتوری را که توسط a مسدود نشده است بخزد
قانون
disallow
. -
قوانین به حروف کوچک و بزرگ حساس هستند. به عنوان مثال،
disallow: /file.asp
اعمال می شودhttps://www.example.com/file.asp
، اما نهhttps://www.example.com/FILE.asp
. -
کاراکتر
#
شروع یک نظر را نشان می دهد. نظرات در طول نادیده گرفته می شوند در حال پردازش.
خزندههای Google از قوانین زیر در فایلهای robots.txt پشتیبانی میکنند:
-
user-agent:
[الزامی، یک یا چند در هر گروه] قانون نام مشتری خودکار شناخته شده به عنوان خزنده موتور جستجو را مشخص می کند این قانون برای این اولین خط برای هر گروه قانون است. نام های عامل کاربر گوگل هستند ذکر شده در فهرست Google از نمایندگان کاربر. استفاده از یک ستاره (*
) با همه خزندهها به جز خزندههای مختلف AdsBot مطابقت دارد. که باید به صراحت نام برد. مثلا:# Example 1: Block only Googlebot User-agent: Googlebot Disallow: / # Example 2: Block Googlebot and Adsbot User-agent: Googlebot User-agent: AdsBot-Google Disallow: / # Example 3: Block all crawlers except AdsBot (AdsBot crawlers must be named explicitly) User-agent: * Disallow: /
-
disallow:
[حداقل یک یا چندdisallow
یاallow
ورودی در هر قانون] دایرکتوری یا صفحه، نسبت به دامنه ریشه، که نمیخواهید عامل کاربر بخزد. اگر قانون به یک صفحه اشاره دارد، باید آن صفحه باشد نام صفحه کامل همانطور که در مرورگر نشان داده شده است. باید با نویسه/
و if شروع شود به یک دایرکتوری اشاره دارد، باید با علامت/
ختم شود. -
allow:
[حداقل یک یا چندdisallow
یاallow
ورودی در هر قانون] دایرکتوری یا صفحه، نسبت به دامنه ریشه، که ممکن است توسط عامل کاربری که ذکر شد خزیده شود. این برای نادیده گرفتن a استفاده می شود قانونdisallow
برای اجازه خزیدن در یک زیر شاخه یا صفحه در غیر مجاز فهرست راهنما. برای یک صفحه، نام کامل صفحه را همانطور که در مرورگر نشان داده شده است، مشخص کنید. آن باید با یک کاراکتر/
شروع می شود و اگر به یک دایرکتوری اشاره دارد، باید با کاراکتر ختم شود علامت/
. -
sitemap:
[اختیاری، صفر یا بیشتر در هر فایل] مکان نقشه سایت برای این سایت URL نقشه سایت باید یک URL کاملا واجد شرایط باشد. Google جایگزینهای http/https/www.non-www را فرض نمیکند یا بررسی نمیکند. نقشه سایت راه خوبی برای مشخص کنید که گوگل چه محتوایی را باید بخزد، نه محتوایی را که باید بخزد می توان یا نمی توان خزید. درباره نقشه سایت بیشتر بیاموزید. مثال:Sitemap: https://example.com/sitemap.xml Sitemap: https://www.example.com/sitemap.xml
همه قوانین، به جز sitemap
، از علامت *
برای یک مسیر پشتیبانی می کنند.
پیشوند، پسوند یا کل رشته.
خطوطی که با هیچ یک از این قوانین مطابقت ندارند نادیده گرفته می شوند.
صفحه ما را در مورد بخوانید تفسیر گوگل از مشخصات robots.txt برای شرح کامل هر قانون
فایل robots.txt را آپلود کنید
هنگامی که فایل robots.txt خود را در رایانه خود ذخیره کردید، آماده هستید تا آن را در دسترس قرار دهید خزنده های موتورهای جستجو هیچ ابزاری وجود ندارد که بتواند در این مورد به شما کمک کند، زیرا چگونه شما آپلود فایل robots.txt در سایت شما بستگی به معماری سایت و سرور شما دارد. وارد شوید با شرکت میزبان خود تماس بگیرید یا اسناد شرکت میزبان خود را جستجو کنید. برای برای مثال، "آپلود فایل infomaniak" را جستجو کنید.
پس از آپلود فایل robots.txt، بررسی کنید که آیا برای عموم قابل دسترسی است و آیا Google می تواند آن را تجزیه کنید
نشانه گذاری robots.txt را تست کنید
برای آزمایش اینکه آیا فایل robots.txt که به تازگی آپلود شدهاید در دسترس عموم است، a را باز کنید
پنجره مرور خصوصی
(یا معادل آن) در مرورگر خود و به محل فایل robots.txt بروید. برای
به عنوان مثال، https://example.com/robots.txt
. اگر محتویات خود را می بینید
فایل robots.txt، شما آماده آزمایش نشانه گذاری هستید.
گوگل دو گزینه برای رفع مشکلات نشانه گذاری robots.txt ارائه می دهد:
- گزارش robots.txt در کنسول جستجو. شما فقط می توانید از این گزارش برای فایل های robots.txt استفاده کنید که از قبل در سایت شما قابل دسترسی هستند.
- اگر توسعه دهنده هستید، بررسی کنید و بسازید کتابخانه منبع باز robots.txt Google، که در جستجوی گوگل نیز استفاده می شود. می توانید از این ابزار برای آزمایش فایل های robots.txt به صورت محلی استفاده کنید در کامپیوتر شما.
روباتها را ارسال کنید.فایل txt به Google
هنگامی که فایل robots.txt خود را آپلود و آزمایش کردید، خزنده های Google به طور خودکار پیدا می کنند و شروع به استفاده از فایل robots.txt خود کنید. شما مجبور نیستید کاری انجام دهید. اگر خود را به روز کردید فایل robots.txt و باید در اسرع وقت کپی کش شده گوگل را رفرش کنید، یاد بگیرید نحوه ارسال فایل robots.txt به روز.
روبات های مفید.قوانین txt
در اینجا چند قانون مفید معمول robots.txt آمده است:
قوانین مفید | |
---|---|
خزیدن کل سایت را ممنوع کنید |
به خاطر داشته باشید که در برخی شرایط URL های سایت ممکن است هنوز نمایه شوند اگر آنها خزیده نشده اند. User-agent: * Disallow: / |
خزیدن دایرکتوری و محتویات آن را ممنوع کنید |
یک اسلش رو به جلو به نام دایرکتوری اضافه کنید تا خزیدن یک کل ممنوع شود فهرست راهنما. User-agent: * Disallow: /calendar/ Disallow: /junk/ Disallow: /books/fiction/contemporary/ |
اجازه دسترسی به یک خزنده را بدهید |
فقط User-agent: Googlebot-news Allow: / User-agent: * Disallow: / |
اجازه دسترسی به همه به جز یک خزنده واحد |
User-agent: Unnecessarybot Disallow: / User-agent: * Allow: / |
خزیدن یک صفحه وب را ممنوع کنید |
برای مثال، صفحه User-agent: * Disallow: /useless_file.html Disallow: /junk/other_useless_file.html |
خزیدن کل سایت به جز فهرست فرعی ممنوع است |
خزندهها فقط میتوانند به فهرست فرعی User-agent: * Disallow: / Allow: /public/ |
یک تصویر خاص را از Google Images مسدود کنید |
به عنوان مثال، تصویر User-agent: Googlebot-Image Disallow: /images/dogs.jpg |
همه تصاویر سایت خود را از Google Images مسدود کنید |
گوگل نمی تواند تصاویر و ویدیوها را بدون خزیدن در آنها فهرست کند. User-agent: Googlebot-Image Disallow: / |
خزیدن فایل های یک نوع فایل خاص را ممنوع کنید |
برای مثال، خزیدن همه فایلهای User-agent: Googlebot Disallow: /*.gif$ |
خزیدن کل سایت را ممنوع کنید، اما اجازه دهید |
این پیاده سازی صفحات شما را از نتایج جستجو پنهان می کند، اما
User-agent: * Disallow: / User-agent: Mediapartners-Google Allow: / |
از * و $ برای مطابقت دادن URL هایی که به
رشته خاص
|
برای مثال، همه فایلهای User-agent: Googlebot Disallow: /*.xls$ |