דיגיטל וטק

שערוריית הבינה המלאכותית: חברות מובילות מואשמות בגניבת תכנים

חברות בינה מלאכותית מובילות עומדות בפני האשמות חמורות על איסוף בלתי חוקי של תכנים מאתרי אינטרנט לצורך אימון טכנולוגיות שלהן. השימוש בכלים שמפרים את פרוטוקול robots.txt מעורר דאגה בקרב בעלי אתרים ומפרסמים, שחוששים מפגיעה בזכויות היוצרים שלהם

רפאל בן זקרי | 23/6/2024 20:34

חברות בינה מלאכותית בולטות ניצבות במרכז פרשיה המאשימה אותן באיסוף תכנים בלתי חוקי מאתרי אינטרנט לצורך אימון הטכנולוגיות שלהן, ומעוררות דאגה בקרב מפרסמים ובעלי אתרים, שחוששים מפגיעה בזכויות היוצרים שלהם ובתעבורת האתר.

לפי הטענות, החברות מתעלמות מהוראות ופרוטוקולים מקובלים וידועים וממשיכות לאסוף מידע מאתרי אינטרנט לאימון הטכנולוגיות שלהן. פעולה זו, הידועה בשם "scraping" (איסוף מידע אוטומטי), מתבצעת באמצעות כלים ותוכנות הסורקים את האינטרנט ומעתיקים תכנים מאתרים שונים.

Perplexity, המציעה מנוע חיפוש מבוסס בינה מלאכותית, נמצאת במרכז המחלוקת לאחר ש-Forbes האשים אותה בגניבת תכנים ופרסומם מחדש. גם Wired דיווח כי Perplexity מתעלמת מהוראות ה-robots.txt ואוספת מידע מאתרים. ה-robots.txt הוא קובץ המספק הנחיות לתוכנות אוטומטיות (רובוטים) על אילו דפים באתר הן רשאיות לגשת. פרוטוקול זה נמצא בשימוש מאז 1994, אך הציות לו אינו חובה.

רויטרס דיווחה כי קיבלה מכתב מ-TollBit, סטארטאפ המחבר בין מפרסמים לחברות AI, המזהיר כי "סוכני AI ממקורות רבים מתעלמים מפרוטוקול robots.txt כדי לאסוף תכנים מאתרים." TollBit לא ציינה שמות של חברות ספציפיות, אך Business Insider דיווח כי גם OpenAI ו-Anthropic, יוצרי הצ'אטבוטים ChatGPT ו-Claude בהתאמה, מתעלמים מהוראות אלו.

במהלך התחקיר, Wired גילה שמחשב הפועל על שרת אמזון ומנוהל על ידי Perplexity, התעלם מהוראות ה-robots.txt של האתר שלהם. כדי לאמת זאת, Wired הזין כותרות מאמרים או תיאורים קצרים לכלי של החברה, שהפיק תוצאות המשכתבות את המאמרים שלהם "עם מעט ייחוס." במקרים מסוימים, הכלי אף יצר סיכומים שגויים.

בראיון ל-Fast Company, מנכ"ל Perplexity, ארוינד סריניבס, הכחיש כי החברה מתעלמת מהוראות robots.txt אך הודה כי היא משתמשת באיסוף מידע של צד שלישי שעשוי להתעלם מהפרוטוקול. סריניבס טען כי פרוטוקול robots.txt אינו מסגרת חוקית וכי ייתכן שצריך להקים מערכת יחסים חדשה בין מפרסמים לחברות AI.

עוד ב-

נכנעת לביקורות? מיקרוסופט משביתה את פיצ'ר ה-AI החדש שלה

לכתבה המלאה

רק בחודש שעבר גוגל היה נתונה לביקורת רבה סביב כלי החיפוש שלה ששילב בינה מלאכותית והציג תוצאות שגויות ומוזרות בשל איסוף מידע שגוי מאתרים שונים. כעת, הפרשיה החדשה הזו מעלה שאלות חשובות לגבי האתיקה והחוקיות של איסוף מידע על ידי חברות בינה מלאכותית, ומדגיש את הצורך בדיון ציבורי ורגולציה בתחום זה. המחלוקת סובבת סביב שאלות של זכויות יוצרים ואתיקה, כאשר יוצרי תוכן רבים טוענים כי החברות הללו מפרות את זכויותיהם על ידי שימוש בתכנים שלהם ללא אישור.