robot.txt چیست؟

Posted on سپتامبر 25, 2008. Filed under: موتور جستجوگر, گوگل, ابزار وب |

شاید شما هم به این فکر رسیده باشید که اگر بخواهید جلوی قسمتی از سایت،محتوا و یا جایی از سایتتون رو برای خوانده شدن توسط موتورهای جستجویی نظیر گوگل یا یاهو بگیرید چه کاری باید انجام بدید.
خب، راه حل استفاده از فایل robots.txt هست. موتورهای جستجو قبل از هر کاری ابتدا به این فایل مراجعه می کنند و اگر اجازه داشتند به ادامه کار می پردازند. پیروی از فایل robots.txt نوعی قانون در موتورهای جستجو محسوب می شه.

بطور خلاصه robots.txt فایلی است که محدودیت هایی را برای موتورهای جستجو در زمینه جستجو و گردآوری سایت شما انجام می دهد.

خب، اگه شما می خواهید موتورهایی جستجو همه سایت شما رو بخوانند بنابراین نیازی نیست این مطلب رو بخوانید. نبود این فایل نشانگر رضایت شما از خوانده شدن تمام محتوای قابل دسترس برای موتورهای جستجو هست …

+ فایل robots.txt کجا باید قرار گیرد؟
– فایل robots.txt باید در root هاست شما ( پوشه اصلی که دامنه شما در آن قرار دارد ) قرار گیرد. بطور مثال آدرس فایل http://www.example.com/robots.txt قابل قبول هست ولی آدرسی مانند http://www.example.com/mysite/robots.txt غیرقابل قبول محسوب می شود و محتویات اون خوانده نمی شود. اگر شما به پوشه اصلی ( root ) دسترسی ندارید می توانید از META tag ها استفاده کنید

+ چگونه فایل robots.txt رو بسازم ؟
برنامه notepade را باز کنید شما کافیست برای این کار فایلی با نام robots و با پسوند txt بسازید. توجه داشته باشید تمامی حروف باید کوچک باشد و برای هنگام ذخیره باید حالت ASCII-encoded text رو انتخاب کنید.

ساده ترین فایل robots.txt شامل ۲ نقش است:

    * User-agent : روبات های مجاز
    * Disallow : صفحه های غیرمجاز

بطور مثال برای اجازه دادن به تمامی روبات های خزنده وب می تونید از دستور زیر استفاده کنید :

    *:User-agent

چند مثال کاربردی:
– جلوگیری از خوانده شدن محتوا برای تمامی موتورهای جستجو:

 User-agent: *
Disallow: /

– جلوگیری از خوانده شدن محتوای ۴ پوشه مشخص شده :

User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
Disallow: /tmp/
 Disallow: /private/

– جلوگیری از خواندن محتویات پوشه private توسط گوگل :

User-agent: Googlebot
Disallow: /private/

– جلوگیری از خوانده شدن یک فایل خاص :

User-agent: *
Disallow: /directory/file.html

– توجه داشته باشید که بزرگ و کوچک بودن آدرس ها مهم است.
– برای مشاهده لیستی کامل از نام روبات های جستجوگر می توانید به این آدرس مراجعه کنید
-جهت مشاهده اطلاعات بیشتر به  راهنمای گوگل مراجعه کنید.

Make a Comment

پاسخی بگذارید

در پایین مشخصات خود را پر کنید یا برای ورود روی شمایل‌ها کلیک نمایید:

نشان‌وارهٔ وردپرس.کام

شما در حال بیان دیدگاه با حساب کاربری WordPress.com خود هستید. بیرون رفتن / تغییر دادن )

تصویر توییتر

شما در حال بیان دیدگاه با حساب کاربری Twitter خود هستید. بیرون رفتن / تغییر دادن )

عکس فیسبوک

شما در حال بیان دیدگاه با حساب کاربری Facebook خود هستید. بیرون رفتن / تغییر دادن )

عکس گوگل+

شما در حال بیان دیدگاه با حساب کاربری Google+ خود هستید. بیرون رفتن / تغییر دادن )

درحال اتصال به %s

Liked it here?
Why not try sites on the blogroll...

%d وب‌نوشت‌نویس این را دوست دارند: