آنچه در ویدیو می‌بینید:

در این ویدیو، با فایل robots.txt و نحوه عملکرد آن در وب‌سایت‌ها آشنا می‌شوید. همچنین یاد می‌گیرید که چگونه این فایل را برای مدیریت بهتر خزنده‌های موتورهای جستجو بهینه‌سازی کنید.

اگر هم شرایط دیدن ویدیو رو ندارید، می‌تونید از محتوای متنی اون استفاده کنید 

فایل robots.txt شامل مجموعه‌ای از قوانین است که به موتورهای جستجو (بات‌ها) اعلام می‌کند که چه بخش‌هایی از سایت را می‌توانند یا نمی‌توانند کراول کنند. برای مثال، ممکن است برخی از صفحات یا بخش‌های سایت را نخواهیم در نتایج جستجو نمایش داده شوند. در این حالت، از طریق فایل robots.txt آن‌ها را Disallow می‌کنیم.

در صورتی که فایل robots.txt نداشته باشیم، چه اتفاقی می‌افتد؟

اگر یک وب‌سایت فاقد فایل robots.txt باشد، به این معناست که تمام صفحات آن به‌صورت پیش‌فرض قابل کراول شدن هستند، مگر اینکه در جایی دیگر مانند متاتگ‌ها یا هدرهای HTTP، محدودیتی برای آن‌ها اعمال شده باشد.

نکته: اگر از سیستم‌های مدیریت محتوا مانند وردپرس استفاده می‌کنید، وردپرس به‌صورت پیش‌فرض فایل robots.txt را ایجاد می‌کند که حداقل‌ترین تنظیمات را دارد. اما اگر سئوی یک وب‌سایت اختصاصی را بر عهده دارید، باید بررسی کنید که این فایل وجود دارد یا نه و در صورت نیاز، آن را اصلاح و بهینه‌سازی کنید.

📌 robots.txt Default in WordPress
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

نحوه تنظیم قوانین در robots.txt

در این فایل می‌توان مشخص کرد:

  • کدام بخش‌ها برای چه موتورهای جستجویی قابل کراول هستند.
  • کدام بخش‌ها نباید کراول شوند.
  • محدودیت‌هایی برای جلوگیری از ایجاد فشار بر روی سرور تعیین کرد.

تأثیر robots.txt روی ساب‌دامین‌ها

اگر وب‌سایت شما شامل چندین ساب‌دامین است (مثلاً images.example.com یا api.example.com)، هر ساب‌دامین می‌تواند فایل robots.txt جداگانه‌ای داشته باشد. در صورتی که فایلی برای آن‌ها تعریف نشود، تمام محتویات آن ساب‌دامین برای موتورهای جستجو قابل کراول(خزش) خواهد بود.

برای مثال، اگر تصاویر سایت شما در images.example.com ذخیره شده باشند و فایل robots.txt برای این ساب‌دامین نداشته باشید، تمامی تصاویر قابل ایندکس خواهند بود. اما اگر این ساب‌دامین را در robots.txt مسدود کنید، موتورهای جستجو نمی‌توانند تصاویر را ایندکس کنند که این موضوع ممکن است باعث از دست دادن ترافیک از طریق جستجوی تصاویر گوگل شود.

مقاله پیشنهادی: آموزش بینگ وب مستر تولز

تأثیر robots.txt بر CSS و JavaScript

گاهی اوقات برخی از فایل‌های CSS و JavaScript در سایت‌ها روی ساب‌دامین‌های جداگانه‌ای میزبانی می‌شوند. اگر به‌طور ناخواسته این فایل‌ها در robots.txt مسدود شوند، ممکن است موتورهای جستجو نتوانند صفحات را به‌درستی رندر کنند. این اتفاق می‌تواند منجر به نمایش ناقص صفحه در نتایج جستجو شود.

رویکرد بهینه برای مدیریت فایل robots.txt

  • توصیه می‌شود که فایل robots.txt را تا حد ممکن ساده نگه دارید.
  • به‌جای افزودن قوانین پیچیده و متعدد، تلاش کنید ساختار سایت را بهینه کنید.
  • محدودیت‌های غیرضروری را اعمال نکنید، مگر اینکه دلیل مشخصی برای آن وجود داشته باشد.
  • در نظر داشته باشید که مسدود کردن یک صفحه در robots.txt، آن را از ایندکس گوگل حذف نمی‌کند.
  • جایگزین‌های مناسب برای جلوگیری از ایندکس شدن صفحات

اگر نمی‌خواهید برخی صفحات در نتایج جستجو نمایش داده شوند، گزینه‌های بهتری مانند:

  • استفاده از متاتگ noindex
  • بازگرداندن کدهای وضعیت HTTP مانند 401 (Unauthorized) یا 403 (Forbidden)
  • حذف لینک‌های داخلی به صفحات نامطلوب
  • بهتر است لینک‌های داخلی به صفحات نامطلوب حذف شوند تا گوگل حتی درخواست بررسی آن‌ها را نیز ارسال نکند.

مثال از مدیریت robots.txt در دیجی‌کالا

به‌عنوان مثال، اگر در وب‌سایت دیجی‌کالا وارد حالت خروج از حساب کاربری شوید، لینک ورود به سایت به شکل example.com/login خواهد بود. این لینک در بخش‌های مختلف سایت ممکن است مقدار متفاوتی داشته باشد، اما بهتر است با جاوا اسکریپت مدیریت شود تا در کدهای HTML قرار نگیرد. این کار باعث می‌شود گوگل آن را مشاهده نکند و نیازی به مسدودسازی در robots.txt نباشد.

مشاهده فایل روبوتس سایت دیجی‌کالا

جمع‌بندی

  • هر ساب‌دامین می‌تواند فایل robots.txt جداگانه‌ای داشته باشد.
  • سعی کنید قوانین پیچیده و زیاد در ابن فایل قرار ندهید.
  • از روش‌های جایگزین مانند noindex، 401 و 403 برای جلوگیری از ایندکس شدن صفحات استفاده کنید.
  • در صورت نداشتن فایل robots.txt، تمامی صفحات سایت قابل کراول شدن خواهند بود.
  • فایل robots.txt یکی از ابزارهای مهم در سئو است که استفاده نادرست از آن ممکن است باعث مشکلاتی در ایندکس شدن سایت و کاهش ترافیک شود.