فایل Robots.txt چیه؟

وظیفه فایل robots.txt محدود کردن دسترسی روباتای گوگل و بقیه موتورهای جستجو به محتویات سایت شماس. این روباتا به شکل به طور کامل خودکار عمل کرده و قبل از ورود به هر سایت یا صفحه ای از وجود فایل robots.txt روی اون و محدود نبودن دسترسی محتوا مطمئن می شن. همه روباتای استاندارد در اینترنت به این قوانین و محدودیتا احترام گذاشته و صفحات شما رو بازدید و ایندکس نمی کنن ولی روباتای اسپم توجهی به این فایل ندارن. اگه تمایل به حفظ امنیت محتوایی خاص و مخفی کردن اون از دید روباتای اینترنتی دارین بهتره از پسورد گذاری صفحات استفاده کنین.

اسپم

در عمل به کار گیری فایل robots.txt به شما این امکان رو می ده که صفحات سایت رو تنها مختص کاربران اینترنتی طراحی کرده و ترسی از محتوای تکراری، وجود لینکای بسیار در اون صفحه و تاثیر منفی بر سئو سایت نداشته باشین. هم اینکه به شما این امکان رو می ده که صفحات بی ارزش و کم محتوا رو از دید موتورهای جستجو مخفی کنین تا زمان روباتا در سایت شما واسه ایندکس کردن این صفحات هدر نره.

شما تنها زمانیکه قصد محدود کردن روباتای گوگل رو داشته باشین از فایل robots.txt استفاده میکنین و اگه از نظر شما تموم صفحات سایت توانایی و ارزش ایندکس شدن به وسیله گوگل رو داشته باشن احتیاجی به این فایل دارین. حتی قرار دادن یه فایل خالی با همین نام هم لزومی نداره.

واسه قرار دادن یه فایل robots.txt شما باید به هاست دسترسی داشته و اونو در ریشه اصلی کپی کنین. اگه به هر دلیل دسترسی شما به سرور محدود شده باشه می تونین با قرار دادن تگای متا در هدر صفحه دسترسی روبات به اونو محدود کنین.

واسه جلوگیری از ورود همه روباتای اینترنتی به صفحه از تگ:

<meta name=”robots” content=”noindex” />

و واسه محدود کردن روباتای گوگل از تگ:

<meta name=”googlebot” content=”noindex” />

استفاده کنین. با مشاهده این تگ در هدر یه صفحه گوگل کلا اونو از یافته های جستجوی خود خارج می کنه.

آموزش ساخت فایل robots.txt

یه فایل ساده واسه مدیریت روباتای اینترنتی از دو قانون اصلی استفاده میکنه :

User-agent: نشون دهنده نوع روباتیه که نباید به صفحه دسترسی داشته باشه.

Disallow: نشون دهنده نشانی صفحه ایه که می خواید از دید روباتا مخفی بمونه.

با ترکیب این دو دستور شما می تونین قوانین مختلفی رو واسه دسترسی به صفحات داخلی سایت تعریف کنین. مثلا واسه یه user-agent مشخص میشه چندین نشانی رو معرفی کرد و یا برعکس.

لیست همه روباتای اینترنتی معتبر در دیتابیس Web Robots Database هست و شما می تونین با قرار دادن نام هریک به عنوان User-agent قوانین مشخصی واسه اونا تعریف کنین و یا با به کار گیری کاراکتر * به جای نام در فایل robots.txt یه قانون رو واسه همه روباتا اعمال کنین. مانند:

User-agent: *

Disallow: /folder1/

موتور جستجوی گوگل چندیدن نوع روبات مخصوص بخود داره که معروفترین اونا با نام Googlebot شناخته میشه و وظیفه بررسی و ایندکس صفحات وب رو برعهده داره. روبات Gogglebot-image هم مسئول بررسی تصاویر سایتا و ایندکس کردن اوناس.

User-Agent: Googlebot

Disallow: /folder2/

شما می تونین به روشای مختلفی قوانین خود رو اعمال کنین، میشه یه صفحه مشخص و یا یه دسته از صفحات رو واسه یه قانون تعریف کرد. مثالای زیر روشای جور واجور به کار گیری این قوانین هستن:

واسه نبود دسترسی روباتا به تموم محتویات سایت از کاراکتر / استفاده میکنیم

Disallow: /

واسه نبود دسترسی به یه فولدر یا دسته از سایت نام اونو وارد کنین

Disallow: /blog/

واسه اعمال محدودیت روی یه صفحه خاص نشانی دقیق اونو بدون نام سایت وارد کنین

Disallow: /blog/keyword-planner/

واسه محدود کردن یه تصویر روی سایت نشانی اونو بهمراه User-agent مربوط به اون وارد کنین

User-agent: Googlebot-Image

Disallow: /images/dogs.jpg

و واسه مخفی کردن تموم تصاویر موجود روی سایت از دید موتورهای جستجو از دستور زیر استفاده کنین

User-agent: Googlebot-Image

Disallow: /

هم اینکه شما می تونین یه نوع فایل مشخص رو از دید موتورهای جستجو مخفی نگه دارین، مثلا واسه تصاویری با فرمت gif

User-agent: Googlebot

Disallow: /*.gif$

به این موضوع دقت لازم رو به عمل بیارین که فایل robots.txt نسبت به بزرگ و کوچیک بودن حروف انگلیسی حساس بوده و نشانی صفحات باید به دقت وارد شن. پس از ساخت فایل مورد نظر خود و ذخیره اون در فرمت txt اونو روی سرور و در ریشه اصلی کپی کنین. قوانین اعمال شده واسه روباتایی هستن که از این پس به سایت شما وارد می شن حذف صفحاتی که در گذشته ایندکس شدن از دیتابیس گوگل نیازمند گذشت زمان میشه.

آزمایش Robots.txt  در بخش Blocked URLs وبمستر

وبمستر گوگل قسمت مشخصی رو واسه نمایش صفحاتی از سایت شما که به وسیله robots.txt دسترسی روبات به اونا محدود شده، در نظر گرفته. این صفحه با نام Blocked URLs و به عنوان زیر یه سری از بخش Crawl تعریف شده.

واسه اطمینان از کارکرد درست فایل robots.txt به بخش Blocked URLs در حساب وبمستر خود مراجعه کرده و مانند تصویر زیر در بخش اول محتویات فایل رو کپی کنین. در بخش دوم نشانی صفحاتی که می خواید اندازه محدودیت روباتای گوگل در دسترسی به اونا رو سبک سنگین کنین وارد کنین. (در هر خط یه نشانی)

در بخش انتهایی شما می تونین یه نوع از روباتای گوگل رو علاوه بر روبات اصلی که وظیفه ایندکس صفحات رو برعهده داره انتخاب کنین.

امتحان اندازه یادگیریواسه این مقاله ۳ سوال دیگه هم تعریف شده. واسه مشاهده همه پرسشا به حساب کاربری خود وارد شید.

ورود
ثبت نام

  • نام فایل حتما باید robots.txt باشه؟

    • بله، گوگل فقط این نام رو قبول میکنه

    • خیر، میشه هر نامی گذاشت