اخیرا یکی از مشتریان سئو سایت ما سوالی درباره اینکه وقتی می گوییم فایل robots.txt شما بهینه نبود و ما این مشکل را حل کردیم، دقیقا از چه چیزی صحبت می کنیم داشت. خب مسلما در یک جلسه دو ساعته هم امکان توضیح دادن تمام جزئیات برای کسی که پیش زمینه ای در سئو ندارد، نیست و از آنجایی که محتوایی درباره بهینه سازی فایل robots.txt و اینکه اصلا این فایل چه هست و چه می کند در سایت نداشتیم تصمیم به نوشتن این مقاله گرفتم.
فایل robots.txt چیست؟
Robots.txt در واقع یک فایل متنی است که بوسیله آن صاحبان وبسایت ها یا به عبارتی وبمسترها به موتورهای جستجو مانند گوگل می گویند که رباتهای خزنده خود را به کدام صفحات بفرستند و کدام صفحات را نیز ایندکس نکنند.
این فایل در هاست سایت شما و در فولدر اصلی آن قرار می گیرد. معمولا فرمت پایه یک فایل robots.txt به شکل زیر است:
User-agent: [user-agent name]
Disallow: [URL string not to be crawled]
User-agent: [user-agent name]
Allow: [URL string to be crawled]
Sitemap: [URL of your XML Sitemap]
می توانید خطهای بیشتری برای اجازه دادن یا ندادن به ورود ربات های گوگل به این فایل اضافه کنید و یا نقشه سایت دیگری نیز تعریف کنید. اگر آدرس Url بخصوصی را disallow کردید، ربات های گوگل متوجه می شوند که نباید اطلاعات درون آنها را در ایندکس ذخیره کنند.
یک نمونه دیگر از فایل robots.txt
*:User-Agent
/Allow:/wp-content/uploads
/Disallow:/wp-content/plugins
/Disallow:/wp-admin
Sitemap: https://example.com/sitemap_index.xml
در مثال بالا ما به موتورهای جستجو اجازه بررسی فایل های درون فولدر wp-content/uploads را داده ایم. کسانی که از وردپرس برای طراحی سایت استفاده می کنند، می دانند که در این فولدر تمام فایل هایی که در سایت آپلود می کنیم مثل عکس و ویدئوها، قرار می گیرند.
در خط 3و 4 نیز به ربات های خزنده اجازه بررسی محتوای درون فولدر پلاگین ها و ادمین را ندادیم.
در نهایت در خط ششم، آدرس نقشه سایت را به گوگل و هم نوعانش نشان داده ایم.
فایل robots.txt شما یک ابزار قوی برای بهبود سئو سایت محسوب می شود، با این فایل می تونید دسترسی موتورهای جستجو به برخی محتواها را ببندید اما کارهای بهتری هم میشه با این فایل کرد، در ادامه بخوانید.
آیا برای سایت وردپرسی به فایل robots.txt احتیاج داریم؟
اگر شما هم طراحی سایت خود را با وردپرس انجام داده اید و هنوز فایل robots.txt ندارید، پس موتورهای جستجو همه جای سایت شما را ایندکس کرده اند (مگر اینکه با yoast seo دسترسی را بسته باشید اما منظور من فولدرهایی مثل uploads است). با افزونه yoast seo نیز نمی توانید دسترسی به این فولدرها را ببندید.
تا وقتی که سایت شما نوپا است و صفحات زیادی ندارید، نبودن این فایل مشکلی ایجاد نمی کند اما وقتی سایت شما گسترده تر و تعداد صفحات بیشتر شود، مدیریت crawl budget یا زمانی که گوگل برای ایندکس روزانه سایت شما اختصاص می دهد از اهمیت بالایی برخوردار می شود.
Crawl budget چیست؟
رباتهای گوگل سهم مشخصی را برای گشت و گذار و ایندکس مطالب هر سایت اختصاص می دهند. یعنی هربار که به سایت شما می آیند مقدار معینی صفحات را بازدید می کنند و اگر در این مدت تمام صفحات شما بازدید نشد، از سایت می روند و دفعه بعدی که برگشتند ادامه می دهند.
اگر این مدت را صرف بازدید صفحات بی اهمیت کنند، مطالب و صفحات اصلی شما سرعت ایندکس پایین تری خواهید داشت.
این مشکل با بستن دسترسی موتورهای جستجو به صفحاتی که نیازی نیست به آنها سر بزند، مانند برچسب ها، پوشه قالب، wp-admin، content و … حل می شود. با این کار دیگه موتورهای جستجو زمانی که روی سایت شما صرف می کنند یا همان crawl buget را فقط صفحات هدف و ارزشمند شما را ایندکس می کنند.
با نصب افزونه yoast seo و هسته وردپرس برخی دسترسی های حساس مانند پوشه wp-admin را به طور پیش فرض با یک خط کد در هد هر فایل می بندد.
مهم ترین کاربرد robots.txt
اگر از وردپرس برای طراحی سایت استفاده می کنید، حتما می دانید اگر قصد بستن دسترسی موتورهای جستجو به یک برگه یا نوشته دارید، بهترین گزینه افزونه yoast seo است، اما به طور کلی در CMS های دیگر غیر از وردپرس، بستن یک صفحه بخصوص در سایت با robots.txt به سادگی امکان پذیر است.
هرچند نوایندکس کردن یک صفحه برای پنهان کردن یک صفحه از دید عمومی ممکن نیست ولی اگر نمی خواهید در نتایج جستجو دیده شود، باید نوایندکس کنید.
اما اگر به هر دلیلی باید با robots.txt پیش بروید، فایل شما به این شکل باید نوشته شود:
*:User-agent
/ :Disallow
User-agent: Googlebot
/Disallow: /photos
User-agent: bingbot
/Disallow: /not-for-bing
کوچک و بزرگ نوشتن حروف disallow یا Allow اهمیتی ندارد اما توجه کنید آدرس url را دقیقا و عینا بنویسید، /photos/ با /Photos/ فرق خواهد داشت.
فایل robots.txt ایده آل به چه شکل است؟
بسیاری از سایت های محتوا محور بزرگ از یک فایل ساده استفاده می کنند، این سایت ها محتوای بسیار زیادی دارند اما فایل خود را اینگونه نوشته اند:
*:User-agent
/:Disallow
Sitemap: http://www.example.com/post-sitemap.xml
Sitemap: http://www.example.com/page-sitemap.xml
در واقع با این فایل ربات ها را به نقشه سایت خود هدایت کرده اند و حتما همه چیز را با نقشه سایت مدیریت می کنند.
نمونه فایل robots.txt در وردپرس
اما اگر سایت شما وردپرسی است، ما فایلی مانند نمونه زیر را پیشنهاد می کنیم:
*:User-Agent
/Allow: /wp-content/uploads
/Disallow: /wp-content/plugins
/Disallow: /wp-admin
Disallow: /readme.html
/Disallow: /refer
Sitemap: http://www.example.com/post-sitemap.xml
Sitemap: http://www.example.com/page-sitemap.xml
در خط اول به موتورهای جستجو اجازه بررسی تمام عکس ها و فایل های پوشه uploads را داده ایم، و هم چنین اجازه ایندکس کردن پوشه های پلاگین ها، ادمین و فایل های readme.html و لینک های ریدایرکت شده را فراهم کرده ایم.
وقتی سایت مپ را در این فایل به گوگل نشان دهید رباتها راه خود را پیدا می کنند.
حالا که همه چیز درباره یک فایل robots.txt را می دانید، با هم به مرحله بعدی آموزش برویم.
ساخت فایل robots.txt در وردپرس
یک راه بسیار ساده برای ساخت robots.txt در وردپرس پیش روی شماست.
با استفاده از افزونه yoast seo
اگر از yoast seo استفاده می کنید، از بخش سئو وارد ابزارها شوید، بر روی ویرایشگر فایل کلیک کنید.
در صفحه ای که باز می شود، یواست سئو به شما فایل robots.txt را نشان می دهد. به طور پیش فرض خبری از فایل robots.txt نیست و باید روی گزینه create robots.txt را بزنید.
با زدن این دکمه فایل پیش فرض ساخته می شود و دو خط زیر اضافه می شود:
*:User-agent
/Disallow: /wp-admin
Allow: /wp-admin/admin-ajax.php
همان طور که می بینید به طور پیش فرض اطلاعات ادمین از نگاه موتورهای جستجو دور نگه داشته می شود. می تونید با توجه به فایل ایده آل که بالاتر نشان دادیم، این بخش را پر کنید. فراموش نکنید تغییرات ایجاد شده را ذخیره کنید.
چطور فایل robots.txt را تست کنیم؟
مانند کدهای نشانه گذاری اسکیما که با ابزار گوگل تست می کنیم، تست کردن عملکرد فایل robots.txt نیز فکر بدی نخواهد بود. با وجود سایتهای فراوانی برای تست عملکرد این فایل، مثل همیشه پیشنهاد ما استفاده از ابزارهای google است.
برای اینکار میتوانید عبارت robot.txt tester را در گوگل جستجو کنید و وارد لینک support.google.com شوید.
نتیجه تست شما کمی زمان می برد تا در این بخش دیده شود اما برای بررسی ارورها و اخطارهای احتمالی حتما یکی دو روز آینده به این صفحه سر بزنید.
حرف آخر
هدف اصلی از بهینه سازی فایل robots.txt جلوگیری از دسترسی موتورهای جستجو به برخی صفحات که نمی خواهیم عمومی شوند، است. برای مثال فایل های موجود در پوشه پلاگین های وردپرس.
اگر وردپرس کار می کنید، فراموش نکنید با بلاک کردن دسترسی رباتها به صفحاتی مانند دسته بندی ها، برچسب ها و آنهایی که آرشیو شده اند سرعت خزیدن و ایندکس کردن موتورهای جستجو در سایت را افزایش می دهید. این کار را با متاتگ noindex انجام ندهید و فقط با فایل robots.txt باید انجام دهید.
امیدوارم با این مقاله متوجه شده باشید که چطور فایل robots.txt را برای موتورهای جستجو بهینه کنید. لطفا نظرات و تجربیات خود را بنویسید و به این مقاله امتیاز دهید.