shift

همه چیز در مورد robots.txt

همه چیز در مورد robots.txt

ایمان
دسته: تکنولوژی  تگ ها: چگونه robots.txt بسازیم , تاثیر robots.txt در seo , نحوه کار robos.txt , roobts.txt کجا قرار می گیرد , robots.txt چیست

 

صاحبان وب سایت ها برای اینکه به ربات ها و اسپایدرهای موتورهای جستجو بفهمانند که چگونه و کجای وب سایت آنها را کنکاش کنند، از robots.txt استفاده می کنند. بطور کامل تر بخواهم بگویم، این عمل “The Robots Exclusion Protocol” نام دارد.

نحوه ی کار robots.txt به زبان بسیار ساده بدین صورت است: فرض کنید اسپایدر یک موتور جستجوگر می خواهد وب سایت شما را آنالیز کند. در این فرآیند به صفحه ی http://www.mywebsite.com/welcome.html بر می خورد. اما قبل از آنکه این صفحه را بررسی کند، سری به فایل http://www.mysite.com/robots.txt می زند و اطلاعات زیر را می یابد:

User-agent: *
Disallow: /

عبارت “User-agent: *” به این معنی است که این بخش شامل همه ی ربات ها می شود و عبارت “Disallow: /” نیز بدین معنی است که ربات حق ندارد هیچ یک از صفحات وب سایت را بررسی نماید. پس، ربات از ادامه ی فرآیند بررسی وب سایت شما دست می کشد.

دو نکته ی مهم هنگام استفاده از robots.txt وجود دارد:

  • ربات ها می توانند به سادگی فایل robots.txt شما را نادیده بگیرند، مخصوصا ربات های Malware که بدنبال خلا های امنیتی وب سایت شما هستند. و یا ابزارهای پیدا کننده ی ایمیل آدرس ها در متن وب سایت ها، که به robots.txt توجهی ندارند.
  • فایل robots.txt فایلی است که هر کسی می تواند به راحتی با وارد کردن آدرس http://www.mysite.com/robots.txt آن را مشاهده نماید. این بدین معنی است که کاربران به راحتی می توانند بفهمند شما دوست ندارید موتورهای جستجو کدام بخش از وب سایت شما را بررسی کنند. پس از robots.txt برای مخفی کردن فایل هایتان استفاده نکنید! (مشاهده فایل ربات گوگل)

محتویات robots.txt چیست؟ چگونه آن را ایجاد کنیم؟

robots.txt یک فایل متنی ساده است که شامل یک و یا چندین رکورد است. چیزی شبیه این:

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/

در مثال بالا، 3 مسیر در مقابل بررسی ربات ها محافظت شده اند. در ساختار این فایل، برای هر مسیر باید یک “Disallow” بطور جداگانه در یک خط نوشته شود. مثلا در مثال بالا نمی توان نوشت: ”Disallow: /cgi-bin/ /tmp/”. بلکه تمامی مسیرها را باید جداگانه در فایل آورد.

عبارت “*” در واقع به معنی “تمام ربات ها” می باشد. در فایل robots.txt عباراتی شبیه ”User-agent: *bot*” ،”Disallow: /tmp/*” یا “Disallow: *.gif” قابل نوشتن نیستند.

بیاد داشته باشید که وقتی شما ربات ها را بوسیله ی فایل robots.txt از مشاهده وب سایتتان محروم می کنید، بسیار سخت است که دوباره آنها را به بررسی وب سایتتان وا دارید. پس از همان ابتدا تصمیم درست را بگیرید.

حال وقت آن است که برخی از مثال های رایج را بررسی کنیم:

منع کردن ربات از بررسی کل وب سایت

User-agent: *
Disallow: /

اجازه دادن به ربات برای بررسی کل وب سایت

User-agent: *
Disallow:

و یا اینکه فایل robots.txt را خالی بگذارید و یا اصلا آن را ایجاد نکنید.

منع کردن همه ربات ها از بررسی بخش هایی از وب سایت

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /junk/

منع کردن یک ربات خاص

User-agent: BadBot
Disallow: /

اجازه دادن به یک ربات خاص

User-agent: Google
Disallow:User-agent: *
Disallow: /

منع کردن ربات ها از بررسی همه فایل ها بجز یکی

ایجاد چنین سیستمی کمی پیچیده به نظر می رسد. چرا که در ساختار این فایل دستوری به نام Allow وجود ندارد. پس تنها راه، بستن تمامی فایل ها به جز آن که انتظارش را داریم است.

آن را کجا قرار دهیم؟

پاسخ کوتاه است؟ در پوشه ی root وب سایتتان. بیاد داشته باشید در نوشتن robots.txt از حروف کوچک استفاده کنید. مثلا ننویسید “Robots.TXT”.

برخی از وب سایت ها نیز می توانند این فایل را برای شما ایجاد کنند. برای بررسی بیشتر سری  به mcanerin بزنید.

نظر خود را بنویسید...
ارسال نظر
لغو