חסימת בוטים

  • הוסף לסימניות
  • #1
האם ואיך ניתן למנוע מזחלנים להעתיק תוכן טקסטואלי, (המדובר לא על מנועי החיפוש, אלא על בוטים שנבנים להעתקת תוכן), ועדיין לאפשר למנועי החיפוש לקרוא את האתר?


יצויין, כי זיהוי התנהגות חריגה בקריאת דפים מרובים בפרק זמן קצר וחסימת ה-IP - לא כל כך רלוונטית, בעידן שכל משתמשי נטפרי יושבים על כתובת IP אחת. האתר פונה לקהל הדתי חרדי.
 
  • הוסף לסימניות
  • #2
אני מסתובב לפעמים באתרים של פרילנס, ורואה שם הרבה פרויקטים של פרסינג.
התרשמתי שאין דבר העומד בפני הרצון. מקסימום אתה יכול להקשות קצת את העבודה של העוסקים בתחום. אבל תמיד יוכלו לסרוק אותך ולקבל ולהוציא את כל התוכן הדרוש לקובץ אקסל מסודר.
 
  • הוסף לסימניות
  • #3
מכיר את התחום קצת, כמו שאמר ידידינו אין משהו שבאמת יוכל לחסום מישהו שתפר פתרון לאתר שלך, אתה להקשות על השגת פוסטים על ידי שימוש בטעינה שלהם עם js ועוד כל מיני קומבינות דומות אבל עדין זאת רק מהמורה בדרך ולא באמת משהו שיחסום אותם.
 
  • הוסף לסימניות
  • #4
חוק מס' 1 באבטחת מידע: "הכל פריץ"

ישנם טכניקות למנוע בוטים להיכנס. זה כל-כך תלוי בהרבה פרמטרים. אם יש שאלה קונקרטית. תרים טלפון אשמח לחשוב ביחד איתך
050-414-6444


בנוסף אם תרצה לעיין בקוד איך הוא עושה CRAWL קוד של אחד הBOTים שיצרתי
https://github.com/Korotkin-Solutions/PHP-Crawler
 
  • הוסף לסימניות
  • #6
  • הוסף לסימניות
  • #7
נכתב ע"י שמואל גרינשטיין;1927410:
תודה. חידשת לי.

בבסיס, או בפרימיום? איפה זה נמצא בתיעוד שלהם?
צודק טעות שלי, זה לא מובנה ככה, אבל יש שמה הוראות איך לעשות לפחות משהו:
https://support.cloudflare.com/hc/e...can-I-stop-bad-bots-from-stealing-my-content-

ופה כתוב שבעזרת חוקים אישיים לחומת אש (בפרימיום) אז אפשר לחסום עוד יותר:
https://support.cloudflare.com/hc/en-us/articles/200171416-How-do-I-block-bots-and-crawlers-
 
  • הוסף לסימניות
  • #8
אם לסכם את האשכול הזה בנימה אופטימית, אז כך:

אם אתה לא רוצה שיגנבו ממך תוכן, אל תפרסם אותו ברשת.


כי אחרי הכל, גם אם נחסום ברמת השרת, עם חומת אש וכו', עדיין אפשר לארגן רשת של עכבישים, ולדמות ביקור של גולשים מזדמנים וכדו'. אז כמו שאמרו trew ויהודלה, הכל פריץ, ואם מישהו תפר משהו בשבילך, קשה עד בלתי אפשרי למנוע ממנו.
 
  • הוסף לסימניות
  • #9
על מה אתה רוצה להגן? על זכיות יוצרים? נ
או שגוגל יזהה את תוכן המקורי כמקור ראשון? ולא יסרוק קודם את תוכן הגנוב?
 
  • הוסף לסימניות
  • #10
נכתב ע"י אחד פלוס;1928537:
על מה אתה רוצה להגן? על זכיות יוצרים? נ
או שגוגל יזהה את תוכן המקורי כמקור ראשון? ולא יסרוק קודם את תוכן הגנוב?

על התוכן. מידע שאמור לגרום לטרפיק מטורף באתר. ואם הוא יועתק ויקומו עוד אתרי מידע כדוגמתו, האתר יאבד את היחודיות שלו, והטרפיק יתחלק בין המתחרים.
 
  • הוסף לסימניות
  • #11
אז תצטרך לעקוב אחרי הגנבים, על ידי מגוון כלים חינמיים , ולשלוח להם הזהרות כל פעם. (לדוגמא יש אחד כזה בקישור שהבאתי למעלה בקלאוד פלייר).
 
  • הוסף לסימניות
  • #12
נכתב ע"י שמואל גרינשטיין;1928633:
על התוכן. מידע שאמור לגרום לטרפיק מטורף באתר. ואם הוא יועתק ויקומו עוד אתרי מידע כדוגמתו, האתר יאבד את היחודיות שלו, והטרפיק יתחלק בין המתחרים.

וההתמקדות הוא דווקא על בוטים או גם על ידי מעשי בני אדם

יש מגוון פתרונות החל מלרשום את התוכן בזכויות יוצרים הכנסת קישורים בטקסט באופן כשמעתיקים רואים מאיפה טקסט המקורי
 
  • הוסף לסימניות
  • #13
זה לא תוכן עם זכויות יוצרים. ולא ניתן להוכיח גניבה. מדובר על מאגר מידע שנאסף בדי עמל.
 
  • הוסף לסימניות
  • #14
תלוי במקרה, אבל ליצור קובץ פידיאף על דף ממותג שיהיה ניתן להורדה באתר, (אחרי תצוגה של חלק קטן מהתוכן) או אחרי הרשמה לרשימת תפוצה.

אפשר גם כן ליצור לינקים שקופים/ או הרבה מלל זבל כמו שכתבו מאחורי ואז כשמעתיקים ומשנים צבע טקסט אז כל הטקסט לא שמיש, (ואם יש לינקים אז לפחות אתה מרויח קידום..)
הבעיה היא שאז גם ידידינו גוגל כנראה יקרא את הטקס כולל השקוף.
 
  • הוסף לסימניות
  • #16
א.) אם חלק חשוב מהתוכן בכל דף ייטען בעזרת אג'קס באירוע לחיצת עכבר (או אירוע מבוסס משתמש אחר), זה יכול להקשות משמעותית על סקרייפינג.

ב.) הגבלת גישה למשתמשים רשומים בלבד (עם בדיקת קוקיז ו/או local-storage) גם כן יכולה להקשות משמעותית.

ג.) הצגה של מספרי טלפון ו/או נתונים אחרים כתמונה (ניתן לרנדר טקסט לתמונה בצד השרת בעזרת ספריות מתאימות קליק קליק).

ד.) מספרי טלפון אפשר גם להסתיר מאחורי מרכזיית מספרים וירטואליים ששייכת לבעל האתר - מדובר בהוצאה לא גדולה כל כך, שיש לה יתרונות נלווים בצידה.

שילוב של כמה מהאמצעים האלה יחד יכול ליצור מידת קושי כזו שתחייב מאמצים גדולים והשקעה ניכרת של משאבים ובכך תמזער את הסיכון לגניבת המידע.
 
  • הוסף לסימניות
  • #17
יש כבר ספריות גם לזה
1. https://github.com/makinacorpus/spynner
2. כנ"ל
3. בגלל שזה עדין יצטרך להראות כמשהו נורמלי לא חושב שתהיה בעיה לעשות OCR
4. לא מכיר את הטכניקה, יהיה מעניין לבדוק :)

בכל אופן זה אכן משהו שיכול לאתגר את הבוט, רק שים לב שמי שהחליט לתפור פתרון לאתר שלך יהיה קשה למנוע ממנו לעשות את זה
 
  • הוסף לסימניות
  • #18
שים לב, לא כתבתי שהטכניקות האלה יכולות למנוע סקרייפינג לחלוטין.
גם סורגים בבית לא יכולים למנוע פריצות.

אבל שילוב של שניים או שלושה פתרונות כנ"ל יכולים להקשות על שאיבת המידע במידה כזאת שתוריד את המוטיבציה משמעותית.

אפשר תמיד גם לשכלל את העניין - למשל, אם כבר הגבלנו את התוכן למשתמשים רשומים, עם בדיקת קוקי, זה מאפשר לנו גם לעקוב אחרי דפוס הגלישה של המשתמש, ואם זיהינו שהוא מבקר ביותר מX דפים ב10 דקות, או Y דפים בשעה, לחסום את החשבון שלו.

אם הגורם העוין צריך ליצור בוט ש:
- מתחבר כמשתמש רשום ושומר קוקיז
- לומד את מגבלת הבקשות המורשות
- מדמה אירועי משתמש בעזרת דפדפן וירטואלי
- מפענח תמונות בOCR
הסיכוי שמישהו ישקיע כאלה מאמצים לפיתוח פתרון טכנולוגי מתאים, קטן מאוד.
 

פרוגבוט

תוכן שיווקי
פרסומת

פוסטים חדשים שאולי לא קראת....

הצטרפות לניוזלטר

איזה כיף שהצטרפתם לניוזלטר שלנו!

מעכשיו, תהיו הראשונים לקבל את כל העדכונים, החדשות, ההפתעות בלעדיות, והתכנים הכי חמים שלנו בפרוג!

לוח מודעות

הפרק היומי

הפרק היומי! כל ערב פרק תהילים חדש. הצטרפו אלינו לקריאת תהילים משותפת!


תהילים פרק כה

אלְדָוִד אֵלֶיךָ יי נַפְשִׁי אֶשָּׂא:באֱלֹהַי בְּךָ בָטַחְתִּי אַל אֵבוֹשָׁה אַל יַעַלְצוּ אֹיְבַי לִי:גגַּם כָּל קוֶֹיךָ לֹא יֵבֹשׁוּ יֵבֹשׁוּ הַבּוֹגְדִים רֵיקָם:דדְּרָכֶיךָ יי הוֹדִיעֵנִי אֹרְחוֹתֶיךָ לַמְּדֵנִי:ההַדְרִיכֵנִי בַאֲמִתֶּךָ וְלַמְּדֵנִי כִּי אַתָּה אֱלֹהֵי יִשְׁעִי אוֹתְךָ קִוִּיתִי כָּל הַיּוֹם:וזְכֹר רַחֲמֶיךָ יי וַחֲסָדֶיךָ כִּי מֵעוֹלָם הֵמָּה:זחַטֹּאות נְעוּרַי וּפְשָׁעַי אַל תִּזְכֹּר כְּחַסְדְּךָ זְכָר לִי אַתָּה לְמַעַן טוּבְךָ יי:חטוֹב וְיָשָׁר יי עַל כֵּן יוֹרֶה חַטָּאִים בַּדָּרֶךְ:טיַדְרֵךְ עֲנָוִים בַּמִּשְׁפָּט וִילַמֵּד עֲנָוִים דַּרְכּוֹ:יכָּל אָרְחוֹת יי חֶסֶד וֶאֱמֶת לְנֹצְרֵי בְרִיתוֹ וְעֵדֹתָיו:יאלְמַעַן שִׁמְךָ יי וְסָלַחְתָּ לַעֲוֹנִי כִּי רַב הוּא:יבמִי זֶה הָאִישׁ יְרֵא יי יוֹרֶנּוּ בְּדֶרֶךְ יִבְחָר:יגנַפְשׁוֹ בְּטוֹב תָּלִין וְזַרְעוֹ יִירַשׁ אָרֶץ:ידסוֹד יי לִירֵאָיו וּבְרִיתוֹ לְהוֹדִיעָם:טועֵינַי תָּמִיד אֶל יי כִּי הוּא יוֹצִיא מֵרֶשֶׁת רַגְלָי:טזפְּנֵה אֵלַי וְחָנֵּנִי כִּי יָחִיד וְעָנִי אָנִי:יזצָרוֹת לְבָבִי הִרְחִיבוּ מִמְּצוּקוֹתַי הוֹצִיאֵנִי:יחרְאֵה עָנְיִי וַעֲמָלִי וְשָׂא לְכָל חַטֹּאותָי:יטרְאֵה אוֹיְבַי כִּי רָבּוּ וְשִׂנְאַת חָמָס שְׂנֵאוּנִי:כשָׁמְרָה נַפְשִׁי וְהַצִּילֵנִי אַל אֵבוֹשׁ כִּי חָסִיתִי בָךְ:כאתֹּם וָיֹשֶׁר יִצְּרוּנִי כִּי קִוִּיתִיךָ:כבפְּדֵה אֱלֹהִים אֶת יִשְׂרָאֵל מִכֹּל צָרוֹתָיו:
נקרא  2  פעמים
למעלה