به این مطلب امتیاز دهید

دنبال کردن



فایل robots.txt چیست؟





farsoft logo

روش ایجاد و استفاده از فایل robots.txt


فایل robots.txt

فایل Robots.txt یک فایل متنی است که وبمستر ها آن ها ایجاد می کنند تا به ربات ها (معمولا ربات های موتور جستجو) بگویند که چه صفحاتی از سایت را خزش (crawl) کنند. فایل robots.txt قسمتی از استاندارد استثنا کردن ربات ها (robots exclusion protocol) می باشد. REP یک گروه از استاندارد های وب می باشد که تنظیم میکند ربات ها چگونه یک وب سایت را ردیابی و خزش کند و همچنین چگونگی دسترسی به محتوا و ایندکس کردن آنها و در نهایت چگونگی نمایش محتوا به کاربران می باشد. REP همچنین شامل دستورالعمل هایی مانند ربات های متا و دستور العمل هایی برای زیر شاخه های صفحه ها و دستور العمل کلی برای سایت که ربات ها چگونه با آنها برخورد کند (از جمله follow و یا nofollow ).

در عمل می توان گفت کار فایل robots.txt این است که اجازه دهیم چه بخش هایی از سایت ما توسط ربات ها و خزنده های موتور های جستجو پیمایش شوند. دستورالعمل های خزیدن توسط اجازه ندادن (disallowing) یا اجازه دادن (allowing) به همه ربات ها یا ربات های خاص مشخص میشوند.

فرمت اولیه فایل robots.txt به این شکل می باشد:

					
User-agent: [user-agent name]
Disallow: [URL string not to be crawled]

					
				

این دو خط را می توان یک فایل robots.txt کامل در نظر گرفت ، گرچه یک فایل ربات می تواند شامل چندین خط از دستور العمل های دیگر مانند allows و یا disallows و همچنین crawl-delay (تاخیر در خزش) و غیره باشد.

مثال فایل robots.txt

در یک فایل robots.txt که برای چندین user-agent دستورالعمل های allow یا disallow می نویسیم ، دستور کاربردی فقط برای همان user-agent می باشد که برای هر user-agent در یک بلاک مخصوص دستور نوشته می شود و با یک خط از هم فاصله دارند.

مثال :

مثال فایل robots.txt

برای ربات های Msnbot و discobot و slurp به طور جداگانه دستور صادر شده است ، به همبن خاطر این ربات ها فقط به بلاک مخصوص خودشان توجه می کنند . دیگر ربات ها که با * مشخص شده است به این دستور ها توجه میکنند.

مثال برای فایل robots.txt :

کد محدود سازی کل وب سایت :

					
User-agent: * 
Disallow: /

					
				

مشخص می کند که خزنده ها هیچ صفحه ای حتی صفحه اصلی را پیمایش نکند. عملا دسترسی ربات ها را به سایت محدود می کند.

کد اجازه دسترسی به همه ربات ها به همه قسمت های سایت:

					
User-agent: * 
Disallow: 

					
				

این اجازه را به همه ربات ها می دهد که به همه ی قسمت های سایت دسترسی داشته باشند.

کد محدود کردن ربات خاص به فولدر:

					
User-agent: Googlebot 
Disallow: /example-subfolder/

					
				

این کد به این معناست که فقط ربات Googlebot هر فایلی را که در مسیر /example-subfolder/ وجود دارد را پیمایش (خزش ) نکند.

کد محدود کردن ربات خاص به یک صفحه :

					
User-agent: Bingbot
Disallow: /example-subfolder/blocked-page.html

					
				

با این کد فقط به ربات Bingbot می گوید که فایل یا صفحه مشخص شده را خزش نکند.

فایل robots.txt چگونه کار می کند:

موتور های جستجو دو وظیفه اصلی دارند :

1- خزیدن بین صفحات وب سایت برای به دست آوردن محتتوا

2- ایندکس گذاری این مطالب به طوری که مطالب برای کسانی که جستجو می کنند به نمایش گذاشته شود.

برای خزیدن سایت ها ، موتور های جستجو لینک ها را از یک سایت به سایت دیگر دنبال می کنند ، که در نهایت میلیارد ها لینک در سایت ها را خزش میکنند . این رفتار خزیدن را هم spidering نیز می گویند.

بعد از رسیدن به یک سایت ، قبل از انجام عمل spidering ، خزنده های موتور جستجو به دنبال فایل robots.txt می گردد. اگر این فایل پیدا شد ، خزنده ابتدا تمامی فایل را می خواند زیرا فایل ربات حاوی اطلاعاتی است که به موتور های جستجو می گوید که چگونه در سایت خزش کند. اگر فایل robots.txt هیچ دستوری مبنی بر اینکه قسمت یا فایلی را disallow کند نداشته باشد ( و یا اینکه وب سایت فایل robots.txt نداشته باشد) خزنده شروع به خزیدن به تمامی قسمت های سایت می کند.

نکاتی را که در هنگام ایجاد فایل robots.txt باید در نظر داشته باشید:

- برای اینکه فایل robots.txt دیده شود باید در بالاترین سطح دایرکتوری سایت قرار گیرد (در root و در کنار فایل index و یا صفحه اصلی سایت)

- فایل robots.txt به بزرگی و کوچکی حروف حساس می باشد، پس اسم فایل حتما باید robots.txt باشد ( نه Robots.txt یا robots.TXT و امثال اینها)

- بعضی ربات ها در هنگام ورود به سایت شما فایل robots.txt را نادیده میگیرند. معمولا این ها یا ربات های مخرب هستند و یا ربات هایی هستند که به دنبال آدرس ایمیل می باشند.

- فایل robots.txt به صورت عمومی قابل دسترسی و خواندن است ، کافی است در انتهای آدرس هر وب سایت /robots.txt را تایپ کنید (البته اگر فایل ربات را داشته باشد). به این معناست که همه می توانند ببینند شما چه صفحاتی را میخواهید خزش کنید و چه صفحاتی را نمیخواهید. پس برای برقراری امنیت بیشتر کاربران سایت تان آدرس قسمت های مهم را در این فایل نگذارید.

- برای دامنه اصلی یک فایل ربات و برای هر زیر دامنه نیز باید یک فایل ربات جداگانه تهیه کنید. عملا یعنی دامنه example.com باید فایل robots.txt خودش را داشته باشد و blog.example.com هم باید یک فایل ربات جداگانه داشته باشد.

- به طور کلی بهترین روش برای نمایش نقشه سایت هر دامنه ، پایین فایل robots.txt ی باشد. به طور مثال :

سایت مپ

دستور های robots.txt :

فایل robots.txt خود ساختار نوشتاری خاص خودش را دارد و شباهتی به بقیه زبان ها ندارد. در هر فایل ربات نهایتا با پنج عبارت رو به رو خواهید شد. آنها شامل:

User-agent :

خزنده های وب خاص که شما به آنها دستورالعمل می دهید (معمولا خزنده های موتور جستجو) . لیست اکثر خزنده ها را می توانید از اینجا مشاهده کنید.

Disallow :

دستوری که یه user-agent می گوید یک URL را خزش نکند.

Allow (فقط برای ربات گوگل کاربرد دارد) :

این دستور به ربات گوگل می گوید که به صفحه یا زیر شاخه خاصی دسترسی داشته باشد حتی اگر صفحه اصلی یا شاخه والد این فایل Disallow باشد.

Crawl-delay :

یک خزنده قبل از خزش و گردش در محتوا چند میلی ثانیه منتظر بماند .توجه داشته باشید که ربات گوگل به این دستور توجهی نمی کند ولی سرعت خزش ربات گوگل را میتوانید از وبمستر تنظیم کنید.

Sitemap :

برای فراخوانی و پیدا کردن آدرس نقشه سایت با فرمت xml که مربوط به آدرس همین دامنه می باشد. دقت داشته باشید که این دستور فقط برای ربات های google و yahoo و ask و bing قابل فهم و اجرا می باشد.

مکان قرار گیری فایل ربات کجا باید باشد؟

زمانی که خزنده های موتور جستجو و یا دیگر خزنده ها مانند خزنده فیسبوک (facebot) به سایت شما می آیند ، می دانند که باید به دنبال فایل ربات بگردند. ولی همه آنها فقط یک مسیر را جستجو میکنند : دایرکتوری اصلی (همان ریشه دامنه). اگر یه user-agent به آدرس www.example.com/robots.txt رفت و فایل ربات را پیدا نکرد ، اینطور در نظر میگیرد که این سایت فایل ربات ندارد و شروع به پردازش در صفحه (و یا تمامی سایت) می کند. حتی اگر فایل ربات وجود داشته باشد ولی در مسیر های دیگری مانند example.com/index/robots.txt و یا example.com/homepage/robots.txt قرار گرفته باشد ، توسط user-agent ها قابل شناسایی نیست و این طور در نظر میگیرند که سایت فایل ربات ندارد.

در کل اگر میخواهید اطمینان پیدا کنید که فایل ربات شما پیدا می شود ، آن را در مسیر main directory یا root domain قرار دهید.

چرا به فایل robots.txt نیاز دارید؟

فایل ربات ، خزنده ها را کنترل می کند که فقط به قسمت های مشخص شده دسترسی داشته باشند. در صورتی که اگر به صورت اتفاقی دسترسی ربات گوگل را به کل سایت disallow کنید می تواند خیلی برای سایت شما خطرناک باشد! چندین موقعیت وجود دارد که فایل ربات می تواند برای شما خیلی مفید باشد .

بعضی از آنها شامل :

جلوگیری از نمایش محتوای تکرای در نتیجه جستجو (SERP) . البته اغلب بهتر است برای این کار از متا ربات استفاده شود.

می توان با اجرای دستور disallow قسمتی از سایت خود را به صورت خصوصی نگه دارید (مانند قسمت مدیریت سایت)

مشخص کردن محل نقشه سایت

جلوگیری از ایندکس شدن فایل های خاص (pdf-image-و ...) توسط موتور های جستجو میتوان از crawler delay برای به تاخیر انداختن خزش ربات ها ، برای جلوگیری از overload شدن سرور در زمانی که خزنده ها به طور همزمان در حال پردازش قسمت های مختلف محتوا هستند.

چک کنید که آیا فایل ربات دارید؟

اگر مطمئن نیستید که فایل ربات دارید کافی است در انتهای آدرس دامنه عبارت /robots.txt را اضافه کنید و به این مسیر بروید. اگر در این مسیر فایل تکستی نمایش داده نشد شما فایل ربات ندارید.

چگونه یک فایل ربات (robots.txt) ایجاد کنیم؟

ایجاد فایل ربات بسیار کار راحتی است. شما می توانید به راحتی یک فایل txt ایجاد کنید و دستور هایی که نیاز دارید را در آن بنویسید و آن را در روت سایت آپلود کنید، و یا اینکه میتوانید از طریق مقاله نحوه ایجاد فایل ربات که مربوط به گوگل است ، دستورالعمل ها را دنبال کنید و یک فایل ربات ایجاد کنید. و برای تست کردن صحت در ایجاد فایل ربات می توانید از این ابزار استفاده کنید.

بهترین روش برای استفاده از فایل ربات در تکنیک های سئو

مطمئن شوید قسمتی از سایت را که میخواهید توسط خزنده ها پردازش شود را بلاک نکرده باشید.

لینک هایی که در صفحاتی قرار گرفته اند که توسط فایل ربات بلاک شده اند ، follow یا دنبال نخواهند شد. مگر اینکه این لینک ها در صفحاتی دیگری وجود داشته باشد که توسط فایل ربات مسدود نشده باشد. برای لینکی که از صفحه مسدود شده به مقصد دیگری هدایت میشود هیچ ارزش یا قدرتی در نظر گرفته نمی شود. اگر صفحه ای دارید که میخواهید امتیاز و قدرت آن را داشته باشید بهتر است برای مسدود سازی از روش های دیگری به جز فایل ربات استفاده کنید.

برای اینکه بخواهید قسمت های حساسی از سایت شما (مانند اطلاعات شخصی کابران) در نتیجه جستجو (SERP) نمایش داده نشود ، هیچ وقت از فایل ربات استفاده نکنید. چون ممکن است اطلاعات این صفحه از طریق صفحه های دیگر لینک شده باشد که با این حال با عبور از فایل ربات به این صفحات میتوان دسترسی پیدا کرد و در نتیجه ایندکس خواهند شد. اگر می خواهید صفحه را برای موتور جستجو مسدود کنید از روش های دیگری مانند استفاده از پسورد برای محافظت و یا اینکه اسنفاده از متای noindex .

بعضی از موتور های جستجو user-agent های متعددی دارند. مانند گوگل که از googlebot برای جستجو محتوا و از googlebot-image برای جستجوی تصاویر استفاده میکند. اکثر user-agent ها که از یک موتور جستجو هستند قوانین یکسانی را دنبال میکنند ، پس نیازی نیست که برای خزنده های متعدد از یک موتور جستجو دستور های جداگانه نوشت. اما توانایی انجام این کار این قابلیت را به شما می دهد که بتنوانید بهتر مطالب سایت خود را پردازش کنید.

موتور های جستجو فایل ربات را به صورت کش شده استفاده می کند. اما معمولا این فایل کش شده مرتب آپدیت می شود (حداقل روزی یک بار). اگر شما فایل را تغییر دادید و خواستید زودتر از زمان مقرر آپدیت شود ، میتوانید آن را توسط گوگل submit کنید.




در صورت مفید بودن این مطلب را به اشتراک بگذارید







دیدگاه خود را درباره این مطلب بنویسید: