robots.txt הסבר?

  • הוסף לסימניות
  • #1
בעקבות שהאתר נטען לאט או נחסם והמשתמש מקבל דף שגיאה 500
חברת האחסון הוסגיטור שלחו מכתב שהם חסמו את האתר לכמה זמן בגלל רובוטים שסורקים את האתר בצורה מוגזמת.
הם שלחו את זה:
סורקים אינטרנט
סורק 29,079 / 62.73%: bing-bot
1,390 / שעה 03:00% סורק: Google-bot

דהיינו שבינג שולחים רובוט שמבקש לסרוק את האתר 29 אלף פעם
וגוגל שולחים רובוט שמבקש לסרוק 1390 פעם
וכל זה מעמיס על השרתים שלהם.


ולכן שלחו שיש צורך להוסיף לאתר קובץ robots.txt
עם ההסבר בקישור הזה
https://goo.gl/lyAF0w

שאלה בבקשה
א- לא הבנתי האם מטרת הקובץ הזה היא לחסום את האתר לגמרי לסורקים? אם לא אז מה כן?

ב- איך עושים קובץ כזה. מה כותבים?ו והיכן שמים אותו?
 
  • הוסף לסימניות
  • #3
וזו השאלה
אם הרובוטים לא יסרקו את האתרים אז גוגל יפנה לאתר גולשים?
אם כן מוכרח שצריך להגדיר שתהיה סריקה לאתר אבל עם מגבלות מסוימות השאלה אילו מגבלות להחיל על הרובוטים?
 
  • הוסף לסימניות
  • #4
בס"ד

מילון:
* אינקס / אינדוקס / לאנדקס - לסרוק תוכן ולשמור אותו בשרתים בצורה שקל ומהר לשלופו
* בוט - תוכנה אוטומטית לסריקת אתרים שסורקת ומאנדקסת את התוכן

ROBOTS.txt - האינטרס של כולם.
הבוטים של חברות גדולות כגון BING ו GOOGLE נותנים בך אמון שתרצה להפיע מנוע חיפוש וגם בטוחים שאתה תחסום מה שלא רלוונטי (לדוגמה מסך ה LOGIN בדרך כלל לא רלוונטי לאינדוקס באינטרנט) ולכן קובץ ה ROBOTS הומצא

ROBOTS.TXT זה קובץ שעוזר "לתאם ציפיות" בין הבוטים ולבין מנהלי אתרים.

האינטרס של מנהלי הבוטים למיניהם - שמה שלא רלוונטי אין טעם לסרוקו (כי זה לוקח זמן) ועדיף שהבוט שלי יהיה ממוקד בסריקת תוכן רלוונטי.

אם לחסום את הבוטים - יתכן לא תמצא באיטנרט או התוכן שנמצא לא יעודכן. ובגוגל תרד משמעותית במנוע חיפוש.

פתרונות שאפשר לעשות:
1. לתכנן מה נכון שיהיה קובץ הנ"ל
2. להשתמש עם שרתי CACHE כגון CloudFlare
3. לברר למה הספק לא יודע להתמודד מול סריקות של גוגל / בינג (שהרי זה היום סטאנדרט)

אם תרצה ללמוד יותר איך בוט עובד:
בעבר עבדך בנה CRAWLER / BOT שמטרתו לסרוק אתרים ולאנדקס - דרישת הלקוח שזה יהיה בשפת PHP ויהיה בסטנדרט עבודה עם בוטים היינו ידע לקרוא את קובץ הבוט.
אתה מוזמן לעיין: https://github.com/Korotkin-Solutions/PHP-Crawler/blob/master/libs/robots.php
 
  • הוסף לסימניות
  • #6
אקרא יותר מאוחר
בכל אופן מאחר והוסגטור מבקשים להוסיף קובץ חוסם רובוט
השאלה מה להגדיר לרובוט דהיינו שמצד אחד יסרוק מצד שני לא יעמיס על המערכת
שמעתי בינתיים שתי הצעות
א- לבקש שיסרוק רק פעם בשבוע (הבנתי שזה יכול להוריד את הדירוג של האתר בגוגל)
ב- לבקש שיסרוק סריקה אחת כל שניה. כך שלא יגרום לעומס על המערכת (לא כל כך הבנתי איך גוגל יתמודד עם זה. אם הוא רוצה לסרוק אלפי פעמים. אך הבנתי שיש רגילות של בעלי אתרים להגדיר כך)

השאלה בשני המקרים אם זה נכון ואם כן איך בדיוק לכתוב זאת בקוד?
 
  • הוסף לסימניות
  • #7
אם אתה רוצה שזה יסרוק פעם ב X זמן - זה לא קובץ ROBOTS.
קובץ ROBOTS הוא קובץ הנחיות לבוטים איכן (לא) לסרוק ולמי
כל בוט יש לו הגדרות משלו שאפשר להגדיר בקובץ בוטים לדוג' רוב הבוטים יודעים לקחת מהקובץ קישור ל SITEMAP ולחלק מה בוטים ידעים לקרוא "Crawl-delay" אך רובם אינו יודע לקרוא את הפרטמר הזה. כמו כן, איננו סטאנדרט

לדוגמה אם אני רוצה שגוגל יסרוק רק את קבצי HTML, וMSN יסרוק רק תקיית books

User-agent: Googlebot
<code>Allow</code>: /*.html$
<code>User-agent: msgbot</code>
<code>Allow: /books</code>

בשורה התחתונה
: אם רצונך שאתר יהיה קיים במנועי חיפוש, עדיף הגדרת בוטים בקובץ פתוחה.
 
  • הוסף לסימניות
  • #9
נכון. זה דרך ממשקי הניהול של בינג וגוגל, אתה יכול לתזמן את התדירות וזמנים.
 

פרוגבוט

תוכן שיווקי
פרסומת

פוסטים חדשים שאולי לא קראת....

הצטרפות לניוזלטר

איזה כיף שהצטרפתם לניוזלטר שלנו!

מעכשיו, תהיו הראשונים לקבל את כל העדכונים, החדשות, ההפתעות בלעדיות, והתכנים הכי חמים שלנו בפרוג!

לוח מודעות

הפרק היומי

הפרק היומי! כל ערב פרק תהילים חדש. הצטרפו אלינו לקריאת תהילים משותפת!


תהילים פרק כה

אלְדָוִד אֵלֶיךָ יי נַפְשִׁי אֶשָּׂא:באֱלֹהַי בְּךָ בָטַחְתִּי אַל אֵבוֹשָׁה אַל יַעַלְצוּ אֹיְבַי לִי:גגַּם כָּל קוֶֹיךָ לֹא יֵבֹשׁוּ יֵבֹשׁוּ הַבּוֹגְדִים רֵיקָם:דדְּרָכֶיךָ יי הוֹדִיעֵנִי אֹרְחוֹתֶיךָ לַמְּדֵנִי:ההַדְרִיכֵנִי בַאֲמִתֶּךָ וְלַמְּדֵנִי כִּי אַתָּה אֱלֹהֵי יִשְׁעִי אוֹתְךָ קִוִּיתִי כָּל הַיּוֹם:וזְכֹר רַחֲמֶיךָ יי וַחֲסָדֶיךָ כִּי מֵעוֹלָם הֵמָּה:זחַטֹּאות נְעוּרַי וּפְשָׁעַי אַל תִּזְכֹּר כְּחַסְדְּךָ זְכָר לִי אַתָּה לְמַעַן טוּבְךָ יי:חטוֹב וְיָשָׁר יי עַל כֵּן יוֹרֶה חַטָּאִים בַּדָּרֶךְ:טיַדְרֵךְ עֲנָוִים בַּמִּשְׁפָּט וִילַמֵּד עֲנָוִים דַּרְכּוֹ:יכָּל אָרְחוֹת יי חֶסֶד וֶאֱמֶת לְנֹצְרֵי בְרִיתוֹ וְעֵדֹתָיו:יאלְמַעַן שִׁמְךָ יי וְסָלַחְתָּ לַעֲוֹנִי כִּי רַב הוּא:יבמִי זֶה הָאִישׁ יְרֵא יי יוֹרֶנּוּ בְּדֶרֶךְ יִבְחָר:יגנַפְשׁוֹ בְּטוֹב תָּלִין וְזַרְעוֹ יִירַשׁ אָרֶץ:ידסוֹד יי לִירֵאָיו וּבְרִיתוֹ לְהוֹדִיעָם:טועֵינַי תָּמִיד אֶל יי כִּי הוּא יוֹצִיא מֵרֶשֶׁת רַגְלָי:טזפְּנֵה אֵלַי וְחָנֵּנִי כִּי יָחִיד וְעָנִי אָנִי:יזצָרוֹת לְבָבִי הִרְחִיבוּ מִמְּצוּקוֹתַי הוֹצִיאֵנִי:יחרְאֵה עָנְיִי וַעֲמָלִי וְשָׂא לְכָל חַטֹּאותָי:יטרְאֵה אוֹיְבַי כִּי רָבּוּ וְשִׂנְאַת חָמָס שְׂנֵאוּנִי:כשָׁמְרָה נַפְשִׁי וְהַצִּילֵנִי אַל אֵבוֹשׁ כִּי חָסִיתִי בָךְ:כאתֹּם וָיֹשֶׁר יִצְּרוּנִי כִּי קִוִּיתִיךָ:כבפְּדֵה אֱלֹהִים אֶת יִשְׂרָאֵל מִכֹּל צָרוֹתָיו:
נקרא  2  פעמים
למעלה