
למה זה שימושי? לפעמים, יש דפים שהם דפים "סתם" ועדיף שהבוט של גוגל לא יחשיב את זה.
למשל, דף הרשמה לאתר, אפשר להגדיר אותו כסתמי מכיוון שאין שם תוכן שגוגל (או כל מנוע חיפוש אחר) "אוהב".
כך שאם צריך, תיהיה אפשרות שגוגל יפסח על דף זה.
מרבית מנועי החיפוש, כמו גוגל ו-Yahoo! מתייחסים לקובץ ה-Robots ומתייחסים למה שיש שם.
באתרים גדולים, יש את קובץ זה. פשוט נכנסים לאתר ומוסיפים ב-URL Robots.txt.
לדוגמה באטרף:
http://www.iatraf.co.il/robots.txt
איך מתחילים?
קודם כל, נפתח מסמך טקסט חדש. אפשר בכתבן או בכל תוכנת עריכה אחרת.
נשמור את הקובץ כך שהשם שלש הקובץ יהיה אך ורק: robots.txt
לאחר מכן נתחיל לרשום.
בתחילה, נרצה לכתוב למה מיועד הקטע הבא, כלומר אם להתייחס לבוט של גוגל, יאהו וכ'ו.
בשביל להגדיר רק לבוט של גוגל נרשום במסמך טקסט שיצרנו:
קוד:
User-agent: googlebot
לעומת זאת, אם נרצה להגדיר לכל הבוטים בכל מנועי החיפוש נרשום "*":
עד כה, רק נתנו גישה לבוטים. אבל מה עם להגדיר להם מה להוסיף לאינדקס ומה לא?
בשביל זה נשתמש ב-Disallow (לא מורשה), לדוגמה אם נרצה שכל מנועי החיפוש לא יוסיפו את הקובץ "login.php", נרשום כך:
קוד:
User-agent: *
Disallow: login.php
אם למשל נרצה שהבוטים לא יוסיפו תיקייה בשם "Admin" נרשום כך:
קוד:
User-agent: *
Disallow: /Admin/
אם נרצה שכל הבוטים לא יסרקו את האתר נרשום כך:
קוד:
User-agent: *
Disallow: /
ואם נרצה להפך, שכל הבוטים יוכלו לסרוק את הכל נרשום:
קוד:
User-agent: *
Disallow:
אם נרצה להגדיר בצורה שרירותית יותר, כמו למשל, רק הבוט של גוגל יכול לקרוא מכל האתר ושאר הבוטים לא יוכלו לקרוא את הקובץ "login.php" נרשום כך:
קוד:
User-agent: googlebot
Disallow:
User-agent: *
Disallow: login.php
נכון, יש בלבול בין הגדרת הבוט של גוגל להגדרת כל הבוטים בעזרת *.
ואם הוגדר לבוט ספציפי משהו, אז הוא יתעלם מכל שאר הדברים.
ולהלן השאלה הנדרשת:
"אם אני רוצה שמנוע החיפוש יוסיף את הכל, ואין לי בעיה עם שאר הקבצים. האם חובה להוסיף את הקובץ לאתר?".
לשם כך, גוגל ענו:
שורה תחתונה של הסרטון:
אומנם, לא חובה לשים את הקובץ.
אך שהבוט של גוגל יגיע, והדבר הראשון שיחפש הוא את הקובץ "robots.txt".
אם הקובץ לא נמצא השרת יחזיר שגיאת 404. והבוט אלול להתבלבל.
למרות שהסיכון בדירוג הוא 1%, עדיף ללכת על בטוח.