رادکام
از robots.txt برای جلوگیری از هدر رفتن ترافیک سایت برای جلوگیری از خزیدن رباتها در صفحات بی اهمیت استفاده میشود. مخفی کردن یک صفحه برای عدم خزیدن رباتهای خزنده (crawler) به این معنی نیست که این صفحه از نتایج جستجوی گوگل حذف میشود، زیرا ممکن است صفحات دیگر به صفحهی مورد نظر شما لینک شوند و این باعث میشود صفحهی شما ایندکس شود. برای اینکه یک صفحه در نتایج جستجو نمایش داده نشود نیاز است از متاتگ noindex استفاده کنید و یا دسترسی به صفحه ی خود را از طریق گذرواژه محدودکنید.
برخی تصاویر، استایلها و اسکریپتها نیز در بارگزاری سایت تاثیرگذار نیستند و همچنین کار را برای درک بهتر رباتهای خزنده از سایت شما سخت نمیکند، می توانید با استفاده از robots.txt از دسترسی رباتهای خزنده به آنها جلوگیری کنید.
توجه:قبل از ساختن فایل robots.txt حتما باید از اتفاقات ناشی از مسدود کردن قسمتهای مختلف سایت را در نظر داشته باشید.
ممکن است برخی رباتهای خزنده نتوانند دستور العملهای robots.txt اجرا کنند و یا برای این فایل اهمیتی قائل نشوند. اما رباتهای گوگل و دیگر رباتهای خزندهی مربوط به موتورهای جستجوی معتبر این فایل را بررسی و دستورات آن را اجرا میکنند. بنابراین اگر میخواهید از اطلاعات خود در مقابل رباتهای خزندهی دیگر محافظت کنید، بهتر است از راه های دیگر مانند محدودکردن دسترسی با استفاده از گذرواژه بر روی سرور استفاده کنید.
اگر چه رباتهای خزندهی مربوط به موتورهای جستجوی معتبر فایل robots.txt را بررسی میکنند، اما ممکن است هر کدام از آنها تفسیر متفاوتی از دستورالعملها داشته باشند و یا برخی از رباتها دستور العملها را متوجه نشوند.
در برخی مواقع رباتهای گوگل با توجه به دستورات robots.txt نمیخواهند محتوای مسدود شده را ایندکس کند اما ممکن است محتوای مسدود شدهی خود را در جاهای مختلف وب بیابید. برای حذف کامل نتایج یک صفحهی خاص میتوانید آن صفحه را در سرور با استفاده از گذرواژه محدود کنید و یا از متاتگ noindex استفاده کنید.
برای ساخت فایل robots.txt یک فایل با نام robots و پسوند .txt ایجاد کنید، سپس دستورات دلخواه خود را در داخل این فایل بنویسید و بر روی شاخهی اصلی سایت بارگزاری کنید.
دستور العملهای فایل robots.txt از دو دستور العمل اصلی User-agent و Disallow تشکیل میشود. منظور از User-agent رباتهای موتورهای جستجو (و یا نرم افزار های خزنده) میباشند. که لیستی از آنها را در اینجا می توانید بیابید. دستور Disallow نیز برای محدود کردن رباتها برای دسترسی به یک لینک خاص می باشد. اگر می خواهید دسترسی به تمام فرزندان یک لینک خاص را محدود کنید و یک لینک از فرزندان آن را محدود نکنید می توانید از دستوری به نام allow استفاده کنید.
گوگل از چندین User-agent مختلف استفاده می کند . مانند Googlebot برای جستجوی گوگل و Googlebot-Image برای جستجوی تصاویر گوگل. بیشتر این رباتها مانند Googlebot عمل میکنند. ولی شما می توانید این را با استفاده از دستور العملهای robots.txt رفتار ربات های مختلف را تغییر دهید .
نحوهی نوشته شدن برخی از دستورالعمل ها به شرح زیر است:
User-agent: [نام ربات هایی که می خواهید فراخوانی کنید]
Disallow: [آدرس لینکی که می خواهید مسدود شود]
Allow: [آدرس لینکی که اجازه ی دسترسی دارد]
شما می توانید با استفاده از دو خط از دستورات User-agent در یک خط و Disallow در خط بعدی ربات مورد نظر و لینکی که مجاز به دسترسی به آن نیست را انتخاب کنید.
برای واضح تر شدن به مثال های زیر توجه کنید :
عدم دسترسی به ... | کد |
کل وب سایت | Disallow: / |
یک پوشه از وب سایت با یک/ انتها و ابتدا | Disallow: /sample-directory/ |
یک صفحه از وب سایت | Disallow: /private_file.html |
ربات جستجوی تصاویر گوگل به یک تصویر |
User-agent: Googlebot-Image Disallow: /images/dogs.jpg |
کل تصاویر سایت |
User-agent: Googlebot-Image Disallow: / |
تصاویر با فرمت gif | User-agent: Googlebot
Disallow: /*.gif$ |
اگر بخواهید در وب سایت خود از گوگل AdSense استفاده کنید، نباید هیچ کدام از خزنده های به جز Mediapartners-Google این کد تمام صفحات شما را از نتایج جستجو مخفی می کند، به جز خزندهی Mediapartners-Google این خزنده می تواند وب سایت شما را تجزیه و تحلیل کند تا تبلیغات مناسب را به کاربران نمایش دهد. | User-agent: * Disallow: / User-agent: Mediapartners-Google Allow: / |
نکته: این دستورات به بزرگی و کوچکی حروف حساس می باشد، همچنین ربات گوگل فضای خالی را نادیده می گیرد .
الگو | کد |
عدم دسترسی به کلیه ی پوشه هایی که با یک کارکتر خاص شروع می شوند ، به عنوان مثال "private" |
User-agent: Googlebot Disallow: /private*/ |
عدم دسترسی به پوشه هایی از سایت که با یک علامت خاص آغاز می شوند . مانند : علامت سوال(؟) | User-agent: Googlebot
Disallow: /*? |
عدم دسترسی به فایل ها با فرمت خاص . برای این کار از $ بعد از فرمت استفاده می کنیم | User-agent: Googlebot
Disallow: /*.xls$ |
دسترسی همه ی ربات ها به صفحات یا پوشه هایی که نام آن ها با علامت سوال (؟) به پایان می رسد . و عدم دسترسی یه تمامی صفحات و پوشه های شامل علامت سوال (؟) | User-agent: *
Allow: /*?$ Disallow: /*? |
برای تست فایل robots.txt خود میتوانید به ابزار بررسی robots.txt گوگل مراجعه کنید. با استفاده از این ابزار بررسی میتوانید دسترسیها و عدم دسترسیهای رباتهای مختلف گوگل، عکسها و دایرکتوریهای مسدود شده را مشاهده کنید.
4,386بازدید
دیدگاه کاربران
هنوز دیدگاهی ثبت نشده است.
شما میتوانید درباره این مقاله، دیدگاه خود را ثبت کنید.