Google Search Central

راهنمای جامع سئو برای موتورهای جستجو

خانه> خزیدن و نمایه‌سازی> robots.txt> ساختن robots.txt

نحوه نوشتن و ارسال روبات.فایل txt

تو می توانی کنترل کنید که خزنده ها به کدام فایل ها دسترسی داشته باشند در سایت خود با یک فایل robots.txt.

یک فایل robots.txt در ریشه سایت شما قرار دارد. بنابراین، برای سایت www.example.com، فایل robots.txt در www.example.com/robots.txt زندگی می کند. robots.txt یک دشت است فایل متنی که به دنبال آن است استاندارد حذف ربات ها. یک فایل robots.txt از یک یا چند قانون تشکیل شده است. هر قانون دسترسی همه یا را مسدود یا اجازه می دهد یک خزنده خاص به یک مسیر فایل مشخص شده در دامنه یا زیر دامنه ای که robots.txt فایل میزبانی شده است. مگر اینکه در فایل robots.txt چیز دیگری مشخص کنید، همه فایل ها به طور ضمنی هستند برای خزیدن مجاز است

در اینجا یک فایل robots.txt ساده با دو قانون وجود دارد:

User-agent: Googlebot
Disallow: /nogooglebot/

User-agent: *
Allow: /

Sitemap: https://www.example.com/sitemap.xml

معنی فایل robots.txt در اینجا آمده است:

  1. عامل کاربر به نام Googlebot مجاز به خزیدن در هر URLی که با آن شروع می شود، ندارد https://example.com/nogooglebot/.
  2. سایر عوامل کاربر مجاز به خزیدن در کل سایت هستند. این ممکن بود حذف شود و نتیجه یکسان خواهد بود. رفتار پیش‌فرض این است که عوامل کاربر اجازه دارند کل سایت را خزیدن
  3. فایل نقشه سایت سایت در https://www.example.com/sitemap.xml.

برای مثال‌های بیشتر به بخش نحو مراجعه کنید.

ایجاد یک فایل robots.txt و در دسترس و مفید ساختن آن به طور کلی شامل چهار مرحله است:

  1. فایلی با نام robots.txt ایجاد کنید.
  2. افزودن قوانین به فایل robots.txt.
  3. فایل robots.txt را در ریشه سایت خود آپلود کنید.
  4. فایل robots.txt را آزمایش کنید.

شما می توانید تقریباً از هر ویرایشگر متنی برای ایجاد یک فایل robots.txt استفاده کنید. مثلا Notepad TextEdit، vi و emacs می‌توانند فایل‌های robots.txt معتبر ایجاد کنند. از واژه پرداز استفاده نکنید. کلمه پردازنده ها اغلب فایل ها را در قالبی اختصاصی ذخیره می کنند و می توانند کاراکترهای غیرمنتظره ای مانند نقل قول های فرفری، که می تواند برای خزنده ها مشکل ایجاد کند. حتما فایل را با UTF-8 ذخیره کنید اگر در گفتگوی ذخیره فایل از شما خواسته شود، رمزگذاری می شود.

قوانین قالب و مکان:

  • نام فایل باید robots.txt باشد.
  • سایت شما می تواند تنها یک فایل robots.txt داشته باشد.
  • فایل robots.txt باید در ریشه میزبان سایت قرار گیرد که اعمال می کند. به عنوان مثال، برای کنترل خزیدن در همه URL های زیر https://www.example.com/، فایل robots.txt باید در این آدرس قرار گیرد https://www.example.com/robots.txt. نمی توان را در a قرار داد فهرست فرعی (مثلاً در https://example.com/pages/robots.txt). اگر شما دوباره در مورد نحوه دسترسی به ریشه سایت خود مطمئن نیستید یا برای انجام این کار به مجوز نیاز دارید، با وب خود تماس بگیرید ارائه دهنده خدمات میزبانی اگر نمی توانید به ریشه سایت خود دسترسی پیدا کنید، از یک مسدودسازی جایگزین استفاده کنید روشی مانند meta برچسب ها.
  • یک فایل robots.txt را می توان در یک زیر دامنه پست کرد (به عنوان مثال، ) یا غیر استاندارد پورت ها (به عنوان مثال، ). https://site.example.com/robots.txthttps://example.com:8181/robots.txt
  • فایل robots.txt فقط برای مسیرهای درون پروتکل، میزبان و پورت که در آن قرار دارد اعمال می شود. ارسال شده. یعنی قوانین موجود در https://example.com/robots.txt فقط برای فایل‌های موجود در آن اعمال می‌شود https://example.com/، نه به زیر دامنه هایی مانند https://m.example.com/، یا پروتکل های جایگزین، مانند http://example.com/.
  • فایل robots.txt باید یک فایل متنی کدگذاری شده UTF-8 باشد (که شامل ASCII است). گوگل ممکن است نادیده گرفتن کاراکترهایی که بخشی از محدوده UTF-8 نیستند، به طور بالقوه robots.txt را رندر می کنند قوانین نامعتبر است

قوانین دستورالعمل هایی برای خزنده ها هستند که در مورد قسمت هایی از سایت شما می توانند بخزند. دنبال کردن این دستورالعمل ها هنگام اضافه کردن قوانین به فایل robots.txt:

  • یک فایل robots.txt از یک یا چند گروه (مجموعه قوانین) تشکیل شده است.
  • هر گروه از قوانین متعدد (همچنین به عنوان دستورالعمل ها شناخته می شود) تشکیل شده است، یک قانون در هر خط. هر یک گروه با یک خط User-agent شروع می شود که هدف گروه ها را مشخص می کند.
  • یک گروه اطلاعات زیر را می دهد:
    • گروه برای چه کسانی اعمال می شود (عامل کاربر).
    • نماینده به کدام دایرکتوری ها یا فایل هایی دسترسی دارد.
    • به کدام دایرکتوری ها یا فایل هایی که نماینده نمی توانند دسترسی داشته باشند.
  • خزنده ها گروه ها را از بالا به پایین پردازش می کنند. یک عامل کاربر می‌تواند تنها با یک مجموعه قوانین مطابقت داشته باشد اولین و خاص ترین گروهی است که با یک عامل کاربر مشخص مطابقت دارد. اگر چندتایی باشد گروه ها برای همان عامل کاربر، گروه ها قبلاً در یک گروه واحد ترکیب می شوند در حال پردازش.
  • فرض پیش فرض این است که یک عامل کاربر می تواند هر صفحه یا دایرکتوری را که توسط a مسدود نشده است بخزد قانون disallow.
  • قوانین به حروف کوچک و بزرگ حساس هستند. به عنوان مثال، disallow: /file.asp اعمال می شود https://www.example.com/file.asp، اما نه https://www.example.com/FILE.asp.
  • کاراکتر # شروع یک نظر را نشان می دهد. نظرات در طول نادیده گرفته می شوند در حال پردازش.

خزنده‌های Google از قوانین زیر در فایل‌های robots.txt پشتیبانی می‌کنند:

  • user-agent: [الزامی، یک یا چند در هر گروه] قانون نام مشتری خودکار شناخته شده به عنوان خزنده موتور جستجو را مشخص می کند این قانون برای این اولین خط برای هر گروه قانون است. نام های عامل کاربر گوگل هستند ذکر شده در فهرست Google از نمایندگان کاربر. استفاده از یک ستاره (*) با همه خزنده‌ها به جز خزنده‌های مختلف AdsBot مطابقت دارد. که باید به صراحت نام برد. مثلا:
    # Example 1: Block only Googlebot
    User-agent: Googlebot
    Disallow: /
    
    # Example 2: Block Googlebot and Adsbot
    User-agent: Googlebot
    User-agent: AdsBot-Google
    Disallow: /
    
    # Example 3: Block all crawlers except AdsBot (AdsBot crawlers must be named explicitly)
    User-agent: *
    Disallow: /
  • disallow: [حداقل یک یا چند disallow یا allow ورودی در هر قانون] دایرکتوری یا صفحه، نسبت به دامنه ریشه، که نمی‌خواهید عامل کاربر بخزد. اگر قانون به یک صفحه اشاره دارد، باید آن صفحه باشد نام صفحه کامل همانطور که در مرورگر نشان داده شده است. باید با نویسه / و if شروع شود به یک دایرکتوری اشاره دارد، باید با علامت / ختم شود.
  • allow: [حداقل یک یا چند disallow یا allow ورودی در هر قانون] دایرکتوری یا صفحه، نسبت به دامنه ریشه، که ممکن است توسط عامل کاربری که ذکر شد خزیده شود. این برای نادیده گرفتن a استفاده می شود قانون disallow برای اجازه خزیدن در یک زیر شاخه یا صفحه در غیر مجاز فهرست راهنما. برای یک صفحه، نام کامل صفحه را همانطور که در مرورگر نشان داده شده است، مشخص کنید. آن باید با یک کاراکتر / شروع می شود و اگر به یک دایرکتوری اشاره دارد، باید با کاراکتر ختم شود علامت /.
  • sitemap: [اختیاری، صفر یا بیشتر در هر فایل] مکان نقشه سایت برای این سایت URL نقشه سایت باید یک URL کاملا واجد شرایط باشد. Google جایگزین‌های http/https/www.non-www را فرض نمی‌کند یا بررسی نمی‌کند. نقشه سایت راه خوبی برای مشخص کنید که گوگل چه محتوایی را باید بخزد، نه محتوایی را که باید بخزد می توان یا نمی توان خزید. درباره نقشه سایت بیشتر بیاموزید. مثال:
    Sitemap: https://example.com/sitemap.xml
    Sitemap: https://www.example.com/sitemap.xml

همه قوانین، به جز sitemap، از علامت * برای یک مسیر پشتیبانی می کنند. پیشوند، پسوند یا کل رشته.

خطوطی که با هیچ یک از این قوانین مطابقت ندارند نادیده گرفته می شوند.

صفحه ما را در مورد بخوانید تفسیر گوگل از مشخصات robots.txt برای شرح کامل هر قانون

هنگامی که فایل robots.txt خود را در رایانه خود ذخیره کردید، آماده هستید تا آن را در دسترس قرار دهید خزنده های موتورهای جستجو هیچ ابزاری وجود ندارد که بتواند در این مورد به شما کمک کند، زیرا چگونه شما آپلود فایل robots.txt در سایت شما بستگی به معماری سایت و سرور شما دارد. وارد شوید با شرکت میزبان خود تماس بگیرید یا اسناد شرکت میزبان خود را جستجو کنید. برای برای مثال، "آپلود فایل infomaniak" را جستجو کنید.

پس از آپلود فایل robots.txt، بررسی کنید که آیا برای عموم قابل دسترسی است و آیا Google می تواند آن را تجزیه کنید

برای آزمایش اینکه آیا فایل robots.txt که به تازگی آپلود شده‌اید در دسترس عموم است، a را باز کنید پنجره مرور خصوصی (یا معادل آن) در مرورگر خود و به محل فایل robots.txt بروید. برای به عنوان مثال، https://example.com/robots.txt. اگر محتویات خود را می بینید فایل robots.txt، شما آماده آزمایش نشانه گذاری هستید.

گوگل دو گزینه برای رفع مشکلات نشانه گذاری robots.txt ارائه می دهد:

  1. گزارش robots.txt در کنسول جستجو. شما فقط می توانید از این گزارش برای فایل های robots.txt استفاده کنید که از قبل در سایت شما قابل دسترسی هستند.
  2. اگر توسعه دهنده هستید، بررسی کنید و بسازید کتابخانه منبع باز robots.txt Google، که در جستجوی گوگل نیز استفاده می شود. می توانید از این ابزار برای آزمایش فایل های robots.txt به صورت محلی استفاده کنید در کامپیوتر شما.

هنگامی که فایل robots.txt خود را آپلود و آزمایش کردید، خزنده های Google به طور خودکار پیدا می کنند و شروع به استفاده از فایل robots.txt خود کنید. شما مجبور نیستید کاری انجام دهید. اگر خود را به روز کردید فایل robots.txt و باید در اسرع وقت کپی کش شده گوگل را رفرش کنید، یاد بگیرید نحوه ارسال فایل robots.txt به روز.

در اینجا چند قانون مفید معمول robots.txt آمده است:

قوانین مفید
خزیدن کل سایت را ممنوع کنید

به خاطر داشته باشید که در برخی شرایط URL های سایت ممکن است هنوز نمایه شوند اگر آنها خزیده نشده اند.

User-agent: *
Disallow: /
خزیدن دایرکتوری و محتویات آن را ممنوع کنید

یک اسلش رو به جلو به نام دایرکتوری اضافه کنید تا خزیدن یک کل ممنوع شود فهرست راهنما.

User-agent: *
Disallow: /calendar/
Disallow: /junk/
Disallow: /books/fiction/contemporary/
اجازه دسترسی به یک خزنده را بدهید

فقط googlebot-news می‌تواند کل سایت را بخزد.

User-agent: Googlebot-news
Allow: /

User-agent: *
Disallow: /
اجازه دسترسی به همه به جز یک خزنده واحد

Unnecessarybotممکن است در سایت خزیده نشوند، همه ربات های دیگر ممکن است.

User-agent: Unnecessarybot
Disallow: /

User-agent: *
Allow: /

خزیدن یک صفحه وب را ممنوع کنید

برای مثال، صفحه useless_file.html واقع در آن را مجاز نکنید https://example.com/useless_file.html، و other_useless_file.html در فهرست junk.

User-agent: *
Disallow: /useless_file.html
Disallow: /junk/other_useless_file.html

خزیدن کل سایت به جز فهرست فرعی ممنوع است

خزنده‌ها فقط می‌توانند به فهرست فرعی public دسترسی داشته باشند.

User-agent: *
Disallow: /
Allow: /public/

یک تصویر خاص را از Google Images مسدود کنید

به عنوان مثال، تصویر dogs.jpg را مجاز نکنید.

User-agent: Googlebot-Image
Disallow: /images/dogs.jpg

همه تصاویر سایت خود را از Google Images مسدود کنید

گوگل نمی تواند تصاویر و ویدیوها را بدون خزیدن در آنها فهرست کند.

User-agent: Googlebot-Image
Disallow: /

خزیدن فایل های یک نوع فایل خاص را ممنوع کنید

برای مثال، خزیدن همه فایل‌های .gif را ممنوع کنید.

User-agent: Googlebot
Disallow: /*.gif$

خزیدن کل سایت را ممنوع کنید، اما اجازه دهیدMediapartners-Google

این پیاده سازی صفحات شما را از نتایج جستجو پنهان می کند، اما Mediapartners-Google خزنده وب همچنان می تواند آنها را تجزیه و تحلیل کند تا تصمیم بگیرد چه چیزی چیست تبلیغات برای نمایش بازدیدکنندگان در سایت شما

User-agent: *
Disallow: /

User-agent: Mediapartners-Google
Allow: /
از * و $ برای مطابقت دادن URL هایی که به رشته خاص

برای مثال، همه فایل‌های .xls را مجاز نکنید.

User-agent: Googlebot
Disallow: /*.xls$
منبع اطلاعات این صفحه راهنمای رسمی گوگل برای اصول سئو، صفحه می‌باشد. این محتوا توسط گوگل تهیه شده و تحت مجوز Creative Commons Attribution 4.0 منتشر شده است و با همین مجوز توسط من ترجمه و منتشر می‌شود.
Last updated UTC.
Last updated in Google UTC.