معرفی فایل robots.txt و نحوه استفاده از آن

فایل robots.txt

مقدمه ای برای robots.txt که robots.txt چیست و چه کارایی هایی دارد؟ موضوعی است که در این مقاله بدان می پردازیم. استاندارد robots.txt توسط Martijn Koster در سال ۱۹۹۴ پیشنهاد شد. به دلیل مفید بودن و سادگی این پروتکل، بیشتر موتورهای جستجو و سایت ها، خود را با آن سازگار کردند. یکی از موارد کاربردی در روند سئو سایت ها که باعث نمایش صحیح سایت ها توسط موتورهای جستجو می شود ، ساخت فایل robots.txt می باشد.

بیشتر موتورهای جستجو ( گوگل ، یاهو و بینگ) جهت ایندکس کردن صفحات وب از ربات های جستجوگر استفاده می کنند که این ربات ها اطلاعات بدست آمده از صفحات را به موتور جستجو ارسال می کنند. در صورتی که بخواهیم برای موتورهای جستجو مشخص کنیم که چه صفحاتی را ایندکس کند و چه صفحاتی ایندکس نشود، از فایل robots.txt در ایندکس هاستینگ سایت استفاده می کنیم. در ادامه نحوه کار با فایل robots.txt و تنظیم فایل robots.txt را توضیح می دهیم. فایل robots.txt یک فایل متنی کاملا ساده است که با ایجاد آن و وارد کردن دستوراتی که در ادامه مشاهده می کنید ساخته می شود.

فایل robots.txt

دستور User-agent :

دستور User-agent اولین دستور در فایل robots.txt می باشد که به اشکال مختلف آن می پردازیم.

 User-agent: *

نوشتن علامت ستاره در مقابل User-agent به این معنی است که محدودیت های لحاظ شده برای کل ربات های جستجوگر اعمال می گردد.

 User-agent: googlebot

در این صورت، محدودیت ها فقط برای ربات های گوگل اعمال می گردد. همچنین با یک جستجوی ساده می توانید لیست ربات های مربوط به موتورهای جستجو را پیدا کنید.

دستور Disallow :

این دستور از ایندکس شدن پوشه ها یا صفحات مشخص در آن جلوگیری می کند.

 User-agent: *

 Disallow: /admin.aspx

در مثال بالا محدودیت برای همه ربات ها اعمال می شود و همچنین اجازه ایندکس شدن را به صفحه admin.aspx نداده ایم.

 User-agent: *

 Disallow: /videos/

با وارد کردن این دو خط اجازه ایندکس شدن پوشه videos را به ربات ها نمی دهیم.

فایل robots.txt

دستور Allow :

از این دستور برای اجازه ایندکس شدن به زیر پوشه هایی داده می شود که داخل یک پوشه Disallow  شده قرار دارند.

 User-agent: *

Disallow: /videos/

Allow: /videos/steam/

با توجه به توضیحات گفته شده، به پوشه videos اجازه ایندکس شدن را نداده ایم اما پوشه steam که زیر پوشه videos  می باشد اجازه ایندکس شدن را دارد.

فایل robots.txt

کاربرد فایل robots.txt :

۱- از انتشار مطالب تکراری در صفحه نتایج موتور جستجو جلوگیری می کند.

۲- محل قرار گرفتن نقشه های سایت را تعیین می کند.

۳- برای اینکه سرور سایت overload نشود، crawl delay (تاخیر پیمایش) در نظر گرفته شده است.

۴- می توان بخش هایی از سایت ها را از دسترس عموم خارج کرد و به صورت محرمانه یا خصوصی استفاده شود.

فایل robots.txt را در کدام مسیر قرار دهیم :

هنگامی که ربات موتورهای جستجو وارد سایت ها می شود، ابتدا به دنبال فایل robots.txt در پوشه اصلی سایت می گردد. اگر در مسیر اصلی یک User-agent پیدا نکرد، تصور می کند که فایل robots.txt وجود ندارد. بنابراین حتما فایل robots.txt را در مسیر اصلی یا روت(ریشه) سایت قرار دهید.

فایل robots.txt

نحوه اطلاع از وجود فایل robots.txt :

اگر از وجود فایل ربات در سایت خود مطمئن نیستید می توانید با نوشتن robots.txt در انتهای دامنه سایت، متوجه وجود این فایل شوید. به عنوان مثال : www.example.com/robot.txt . با استفاده از این روش می توانید سایت های مختلف را امتحان کنید چون این فایل برای همه سایت ها عمومی و در دسترس می باشد.

اصطلاحاتی که در فایل robots.txt استفاده میشود :

User-agent : لیستی از ربات هایی که محدودیت در آنها اعمال می شود را درون آن قرار می دهیم.

Disallow : صفحات یا پوشه هایی که اجازه ایندکس شدن ندارند را در شامل می شود.

Allow : زیر پوشه هایی که اجازه ایندکس دارند ولی پوشه اصلی آن اجازه ایندکس ندارد را با Allow  مشخص می کنیم.

Crawl-delay : این مورد، میزان میلی ثانیه ای که ربات جستجوگر باید بین بالا آمدن سایت تا ایندکس آن منتظر بماند را مشخص می کند.

Sitemap : این ویژگی، مسیر دسترسی به نقشه  xml سایت را اعلام می کند و فقط توسط گوگل، یاهو و بینگ پشتیبانی می شود.

فایل robots.txt  و تاثیر آن بر سئو :

این فایل از مهمترین فایل ها در بهینه کردن سایت ها محسوب می شود لذا تعداد زیادی از مشکلات مربوط به سئو را می توان با استفاده از این فایل رفع کرد. فایل robots.txt همان قدر که موثر است می تواند مخرب هم باشد، پس در صورت داشتن اطلاعات کامل از آن استفاده کنید و یا اینکه از یک متخصص سئو مشاوره بگیرید.

فایل robots.txt

نکات مهمی که جهت بهینه سازی robots.txt باید رعایت شوند :

– هیچگاه فایل robots.txt را غیر از مسیر روت(ریشه) قرار ندهید. اگر ربات های جستجوگر نتوانند این فایل را در مسیر روت پیدا کنند، کل صفحات را ایندکس می کنند.

– برخی از ربات های مخرب عمدا فایل های مسدود شده را مورد بررسی قرار می دهند که بتوانند با استفاده از آنها به سایت ورود کنند. برای پیشگیری از ایندکس شدن اینگونه صفحات می توانید از تگ متای noindex استفاده کنید.

– حساسیت در بزرگ یا کوچک نوشته شدن فایل robots.txt وجود دارد، پس حتما این موضوع را رعایت کنید.

 بعضی از موتورهای جستجو مانند بینگ و گوگل از Regular Expression برای مشخص کردن زیر پوشه ها و صفحات استفاده می کنند

– فایل robots.txt را در بالاترین قسمت سایت(روت) قرار دهید که شناسایی شود.

فایل robots.txt

جمع بندی :

با توجه به توضیحات و مطالبی که گفتیم نتیجه می گیریم که استفاده از فایل robots.txt با توجه به موارد استفاده آن از اهمیت بالایی برخوردار می باشد هر چند در صورتی که بخواهیم کل فایل های ما ایندکس شود ممکن است احتیاجی به این فایل نباشد، اما اطلاع از وجود چنین امکانی برای مدیریت وبسایت لازم و ضروری است چه بسا در آینده مورد استفاده قرار گیرد.

فایل robots.txt

نظر خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد.

تگ های html مجاز به استفاده می باشند: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

ارسال یک پیام