نحوه نوشتن و ارسال روبات.فایل txt

اگر از یک سرویس میزبانی سایت مانند Wix یا Blogger استفاده می کنید، ممکن است نیازی به (یا قادر باشید) فایل robots.txt خود را مستقیماً ویرایش کنید. در عوض، ارائه‌دهنده شما ممکن است یک جستجو را افشا کند صفحه تنظیمات یا مکانیسم دیگری که به موتورهای جستجو می‌گوید آیا شما را بخزند یا نه صفحه

اگر می خواهید یکی از صفحات خود را از موتورهای جستجو مخفی یا آشکار کنید، دستورالعمل ها را جستجو کنید به عنوان مثال، در مورد تغییر نمایان بودن صفحه در موتورهای جستجو در سرویس میزبانی خود، جستجو برای "wix hide page از موتورهای جستجو".

تو می توانی کنترل کنید که خزنده ها به کدام فایل ها دسترسی داشته باشند در سایت خود با یک فایل robots.txt.

یک فایل robots.txt در ریشه سایت شما قرار دارد. بنابراین، برای سایت www.example.com، فایل robots.txt در www.example.com/robots.txt زندگی می کند. robots.txt یک دشت است فایل متنی که به دنبال آن است استاندارد حذف ربات ها. یک فایل robots.txt از یک یا چند قانون تشکیل شده است. هر قانون دسترسی همه یا را مسدود یا اجازه می دهد یک خزنده خاص به یک مسیر فایل مشخص شده در دامنه یا زیر دامنه ای که robots.txt فایل میزبانی شده است. مگر اینکه در فایل robots.txt چیز دیگری مشخص کنید، همه فایل ها به طور ضمنی هستند برای خزیدن مجاز است

در اینجا یک فایل robots.txt ساده با دو قانون وجود دارد:

User-agent: Googlebot
Disallow: /nogooglebot/

User-agent: *
Allow: /

Sitemap: https://www.example.com/sitemap.xml

معنی فایل robots.txt در اینجا آمده است:

عامل کاربر به نام Googlebot مجاز به خزیدن در هر URLی که با آن شروع می شود، ندارد https://example.com/nogooglebot/.
سایر عوامل کاربر مجاز به خزیدن در کل سایت هستند. این ممکن بود حذف شود و نتیجه یکسان خواهد بود. رفتار پیش‌فرض این است که عوامل کاربر اجازه دارند کل سایت را خزیدن
فایل نقشه سایت سایت در https://www.example.com/sitemap.xml.

برای مثال‌های بیشتر به بخش نحو مراجعه کنید.

دستورالعمل های اساسی برای ایجاد یک فایل robots.txt

ایجاد یک فایل robots.txt و در دسترس و مفید ساختن آن به طور کلی شامل چهار مرحله است:

فایلی با نام robots.txt ایجاد کنید.
افزودن قوانین به فایل robots.txt.
فایل robots.txt را در ریشه سایت خود آپلود کنید.
فایل robots.txt را آزمایش کنید.

یک فایل robots.txt ایجاد کنید

شما می توانید تقریباً از هر ویرایشگر متنی برای ایجاد یک فایل robots.txt استفاده کنید. مثلا Notepad TextEdit، vi و emacs می‌توانند فایل‌های robots.txt معتبر ایجاد کنند. از واژه پرداز استفاده نکنید. کلمه پردازنده ها اغلب فایل ها را در قالبی اختصاصی ذخیره می کنند و می توانند کاراکترهای غیرمنتظره ای مانند نقل قول های فرفری، که می تواند برای خزنده ها مشکل ایجاد کند. حتما فایل را با UTF-8 ذخیره کنید اگر در گفتگوی ذخیره فایل از شما خواسته شود، رمزگذاری می شود.

قوانین قالب و مکان:

نام فایل باید robots.txt باشد.
سایت شما می تواند تنها یک فایل robots.txt داشته باشد.
فایل robots.txt باید در ریشه میزبان سایت قرار گیرد که اعمال می کند. به عنوان مثال، برای کنترل خزیدن در همه URL های زیر https://www.example.com/، فایل robots.txt باید در این آدرس قرار گیرد https://www.example.com/robots.txt. نمی توان را در a قرار داد فهرست فرعی (مثلاً در https://example.com/pages/robots.txt). اگر شما دوباره در مورد نحوه دسترسی به ریشه سایت خود مطمئن نیستید یا برای انجام این کار به مجوز نیاز دارید، با وب خود تماس بگیرید ارائه دهنده خدمات میزبانی اگر نمی توانید به ریشه سایت خود دسترسی پیدا کنید، از یک مسدودسازی جایگزین استفاده کنید روشی مانند meta برچسب ها.
یک فایل robots.txt را می توان در یک زیر دامنه پست کرد (به عنوان مثال، ) یا غیر استاندارد پورت ها (به عنوان مثال، ). https://site.example.com/robots.txthttps://example.com:8181/robots.txt
فایل robots.txt فقط برای مسیرهای درون پروتکل، میزبان و پورت که در آن قرار دارد اعمال می شود. ارسال شده. یعنی قوانین موجود در https://example.com/robots.txt فقط برای فایل‌های موجود در آن اعمال می‌شود https://example.com/، نه به زیر دامنه هایی مانند https://m.example.com/، یا پروتکل های جایگزین، مانند http://example.com/.
فایل robots.txt باید یک فایل متنی کدگذاری شده UTF-8 باشد (که شامل ASCII است). گوگل ممکن است نادیده گرفتن کاراکترهایی که بخشی از محدوده UTF-8 نیستند، به طور بالقوه robots.txt را رندر می کنند قوانین نامعتبر است

نحوه نوشتن روبات.قوانین txt

قوانین دستورالعمل هایی برای خزنده ها هستند که در مورد قسمت هایی از سایت شما می توانند بخزند. دنبال کردن این دستورالعمل ها هنگام اضافه کردن قوانین به فایل robots.txt:

یک فایل robots.txt از یک یا چند گروه (مجموعه قوانین) تشکیل شده است.
هر گروه از قوانین متعدد (همچنین به عنوان دستورالعمل ها شناخته می شود) تشکیل شده است، یک قانون در هر خط. هر یک گروه با یک خط User-agent شروع می شود که هدف گروه ها را مشخص می کند.
یک گروه اطلاعات زیر را می دهد:
- گروه برای چه کسانی اعمال می شود (عامل کاربر).
- نماینده به کدام دایرکتوری ها یا فایل هایی دسترسی دارد.
- به کدام دایرکتوری ها یا فایل هایی که نماینده نمی توانند دسترسی داشته باشند.
خزنده ها گروه ها را از بالا به پایین پردازش می کنند. یک عامل کاربر می‌تواند تنها با یک مجموعه قوانین مطابقت داشته باشد اولین و خاص ترین گروهی است که با یک عامل کاربر مشخص مطابقت دارد. اگر چندتایی باشد گروه ها برای همان عامل کاربر، گروه ها قبلاً در یک گروه واحد ترکیب می شوند در حال پردازش.
فرض پیش فرض این است که یک عامل کاربر می تواند هر صفحه یا دایرکتوری را که توسط a مسدود نشده است بخزد قانون disallow.
قوانین به حروف کوچک و بزرگ حساس هستند. به عنوان مثال، disallow: /file.asp اعمال می شود https://www.example.com/file.asp، اما نه https://www.example.com/FILE.asp.
کاراکتر # شروع یک نظر را نشان می دهد. نظرات در طول نادیده گرفته می شوند در حال پردازش.

خزنده‌های Google از قوانین زیر در فایل‌های robots.txt پشتیبانی می‌کنند:

user-agent: [الزامی، یک یا چند در هر گروه] قانون نام مشتری خودکار شناخته شده به عنوان خزنده موتور جستجو را مشخص می کند این قانون برای این اولین خط برای هر گروه قانون است. نام های عامل کاربر گوگل هستند ذکر شده در فهرست Google از نمایندگان کاربر. استفاده از یک ستاره (*) با همه خزنده‌ها به جز خزنده‌های مختلف AdsBot مطابقت دارد. که باید به صراحت نام برد. مثلا:
```
# Example 1: Block only Googlebot
User-agent: Googlebot
Disallow: /

# Example 2: Block Googlebot and Adsbot
User-agent: Googlebot
User-agent: AdsBot-Google
Disallow: /

# Example 3: Block all crawlers except AdsBot (AdsBot crawlers must be named explicitly)
User-agent: *
Disallow: /
```
disallow: [حداقل یک یا چند disallow یا allow ورودی در هر قانون] دایرکتوری یا صفحه، نسبت به دامنه ریشه، که نمی‌خواهید عامل کاربر بخزد. اگر قانون به یک صفحه اشاره دارد، باید آن صفحه باشد نام صفحه کامل همانطور که در مرورگر نشان داده شده است. باید با نویسه / و if شروع شود به یک دایرکتوری اشاره دارد، باید با علامت / ختم شود.
allow: [حداقل یک یا چند disallow یا allow ورودی در هر قانون] دایرکتوری یا صفحه، نسبت به دامنه ریشه، که ممکن است توسط عامل کاربری که ذکر شد خزیده شود. این برای نادیده گرفتن a استفاده می شود قانون disallow برای اجازه خزیدن در یک زیر شاخه یا صفحه در غیر مجاز فهرست راهنما. برای یک صفحه، نام کامل صفحه را همانطور که در مرورگر نشان داده شده است، مشخص کنید. آن باید با یک کاراکتر / شروع می شود و اگر به یک دایرکتوری اشاره دارد، باید با کاراکتر ختم شود علامت /.
sitemap: [اختیاری، صفر یا بیشتر در هر فایل] مکان نقشه سایت برای این سایت URL نقشه سایت باید یک URL کاملا واجد شرایط باشد. Google جایگزین‌های http/https/www.non-www را فرض نمی‌کند یا بررسی نمی‌کند. نقشه سایت راه خوبی برای مشخص کنید که گوگل چه محتوایی را باید بخزد، نه محتوایی را که باید بخزد می توان یا نمی توان خزید. درباره نقشه سایت بیشتر بیاموزید. مثال:
```
Sitemap: https://example.com/sitemap.xml
Sitemap: https://www.example.com/sitemap.xml
```

همه قوانین، به جز sitemap، از علامت * برای یک مسیر پشتیبانی می کنند. پیشوند، پسوند یا کل رشته.

خطوطی که با هیچ یک از این قوانین مطابقت ندارند نادیده گرفته می شوند.

صفحه ما را در مورد بخوانید تفسیر گوگل از مشخصات robots.txt برای شرح کامل هر قانون

فایل robots.txt را آپلود کنید

هنگامی که فایل robots.txt خود را در رایانه خود ذخیره کردید، آماده هستید تا آن را در دسترس قرار دهید خزنده های موتورهای جستجو هیچ ابزاری وجود ندارد که بتواند در این مورد به شما کمک کند، زیرا چگونه شما آپلود فایل robots.txt در سایت شما بستگی به معماری سایت و سرور شما دارد. وارد شوید با شرکت میزبان خود تماس بگیرید یا اسناد شرکت میزبان خود را جستجو کنید. برای برای مثال، "آپلود فایل infomaniak" را جستجو کنید.

پس از آپلود فایل robots.txt، بررسی کنید که آیا برای عموم قابل دسترسی است و آیا Google می تواند آن را تجزیه کنید

نشانه گذاری robots.txt را تست کنید

برای آزمایش اینکه آیا فایل robots.txt که به تازگی آپلود شده‌اید در دسترس عموم است، a را باز کنید پنجره مرور خصوصی (یا معادل آن) در مرورگر خود و به محل فایل robots.txt بروید. برای به عنوان مثال، https://example.com/robots.txt. اگر محتویات خود را می بینید فایل robots.txt، شما آماده آزمایش نشانه گذاری هستید.

گوگل دو گزینه برای رفع مشکلات نشانه گذاری robots.txt ارائه می دهد:

گزارش robots.txt در کنسول جستجو. شما فقط می توانید از این گزارش برای فایل های robots.txt استفاده کنید که از قبل در سایت شما قابل دسترسی هستند.
اگر توسعه دهنده هستید، بررسی کنید و بسازید کتابخانه منبع باز robots.txt Google، که در جستجوی گوگل نیز استفاده می شود. می توانید از این ابزار برای آزمایش فایل های robots.txt به صورت محلی استفاده کنید در کامپیوتر شما.

روبات‌ها را ارسال کنید.فایل txt به Google

هنگامی که فایل robots.txt خود را آپلود و آزمایش کردید، خزنده های Google به طور خودکار پیدا می کنند و شروع به استفاده از فایل robots.txt خود کنید. شما مجبور نیستید کاری انجام دهید. اگر خود را به روز کردید فایل robots.txt و باید در اسرع وقت کپی کش شده گوگل را رفرش کنید، یاد بگیرید نحوه ارسال فایل robots.txt به روز.

روبات های مفید.قوانین txt

در اینجا چند قانون مفید معمول robots.txt آمده است:

قوانین مفید
خزیدن کل سایت را ممنوع کنید	به خاطر داشته باشید که در برخی شرایط URL های سایت ممکن است هنوز نمایه شوند اگر آنها خزیده نشده اند. توجه: این مطابقت ندارد خزنده های مختلف AdsBot، که باید به صراحت نام برد. User-agent: * Disallow: /
خزیدن دایرکتوری و محتویات آن را ممنوع کنید	یک اسلش رو به جلو به نام دایرکتوری اضافه کنید تا خزیدن یک کل ممنوع شود فهرست راهنما. احتیاط: به یاد داشته باشید، از robots.txt برای مسدود کردن دسترسی به خصوصی استفاده نکنید محتوا؛ به جای آن از احراز هویت مناسب استفاده کنید. نشانی‌های اینترنتی که فایل robots.txt مجاز نمی‌داند ممکن است همچنان بدون خزیدن ایندکس شود و فایل robots.txt توسط آن قابل مشاهده است هر کسی، به طور بالقوه مکان محتوای خصوصی شما را افشا کند. User-agent: * Disallow: /calendar/ Disallow: /junk/ Disallow: /books/fiction/contemporary/
اجازه دسترسی به یک خزنده را بدهید	فقط `googlebot-news` می‌تواند کل سایت را بخزد. User-agent: Googlebot-news Allow: / User-agent: * Disallow: /
اجازه دسترسی به همه به جز یک خزنده واحد	`Unnecessarybot`ممکن است در سایت خزیده نشوند، همه ربات های دیگر ممکن است. User-agent: Unnecessarybot Disallow: / User-agent: * Allow: /
خزیدن یک صفحه وب را ممنوع کنید	برای مثال، صفحه `useless_file.html` واقع در آن را مجاز نکنید `https://example.com/useless_file.html`، و `other_useless_file.html` در فهرست `junk`. User-agent: * Disallow: /useless_file.html Disallow: /junk/other_useless_file.html
خزیدن کل سایت به جز فهرست فرعی ممنوع است	خزنده‌ها فقط می‌توانند به فهرست فرعی `public` دسترسی داشته باشند. User-agent: * Disallow: / Allow: /public/
یک تصویر خاص را از Google Images مسدود کنید	به عنوان مثال، تصویر `dogs.jpg` را مجاز نکنید. User-agent: Googlebot-Image Disallow: /images/dogs.jpg
همه تصاویر سایت خود را از Google Images مسدود کنید	گوگل نمی تواند تصاویر و ویدیوها را بدون خزیدن در آنها فهرست کند. User-agent: Googlebot-Image Disallow: /
خزیدن فایل های یک نوع فایل خاص را ممنوع کنید	برای مثال، خزیدن همه فایل‌های `.gif` را ممنوع کنید. User-agent: Googlebot Disallow: /*.gif$
خزیدن کل سایت را ممنوع کنید، اما اجازه دهید`Mediapartners-Google`	این پیاده سازی صفحات شما را از نتایج جستجو پنهان می کند، اما `Mediapartners-Google` خزنده وب همچنان می تواند آنها را تجزیه و تحلیل کند تا تصمیم بگیرد چه چیزی چیست تبلیغات برای نمایش بازدیدکنندگان در سایت شما User-agent: * Disallow: / User-agent: Mediapartners-Google Allow: /
از `*` و `$` برای مطابقت دادن URL هایی که به رشته خاص	برای مثال، همه فایل‌های `.xls` را مجاز نکنید. User-agent: Googlebot Disallow: /*.xls$