شرکتهای هوش مصنوعی مشغول جمعآوری غیرمجاز اطلاعات از سایتها هستند
شرکتهای هوش مصنوعی مشغول جمعآوری غیرمجاز اطلاعات از سایتها هستند
به گزارش نیوزلن و به نقل از انگجت، اندکی پس از آنکه فوربس این شرکت را به سرقت خبرش و بازنشر آن در پلتفرمهای مختلف متهم کرد، وایرد گزارش داد که پرپلیکسیتی «پروتکل عدمشمول روباتها»، یا Robots.txt، را نادیده گرفته است و به جمعآوری غیرمجاز اطلاعات (اسکرپینگ) از وبسایت آن و سایر رسانههای شرکت Condé Nast پرداخته است. وبسایت فناوری The Shortcut نیز این شرکت را متهم کرد که به طور غیرمجاز از مطالب آن اطلاعات جمعآوری کرده است.
اکنون، رویترز گزارش داده است که پرپلیکسیتی تنها شرکت هوش مصنوعی نیست که در حال دور زدن فایلهای Robots.txt است و به اسکرپینگ وبسایتها برای دریافت محتوا برای آموزش فناوریهایش میپردازد.
شایان ذکر است که فایل robots.txt حاوی دستورالعملهایی برای خزندههای وب است که بدانند مجازند به چه صفحههایی دسترسی پیدا کنند و به چه صفحههایی نه. این پروتکل از سال 1994 برای استفاده توسعهدهندگان وب موجود بوده است، اما پیروی از آن کاملاً داوطلبانه است.
وبسایت Business Insider میگوید که متوجه شده است که Openai و Anthropic – به عنوان سازندههای، به ترتیب، چتباتهایChatGPT و Claude – نیز در حال دور زدن سیگنالهای robots.txt هستند. هر دو شرکت پیش از این اعلام بودند که آنها به دستورالعملهای “do not crawl” که وبسایتها در فایلهای Robots.txt خود قرار دادهاند احترام میگذارند.
وبسایت Wired، در طی تحقیقاتش، کشف کرد که یک ماشین در یک سرور آمازون «که مطمئناً توسط پرپلکسیتی اداره میشود» در حال دور زدن دستورالعملهای Robots.txt وبسایتش است. برای چک کردن اینکه آیا پرپلکسیتی در حال اسکریپینگ محتوایش است یا نه، وایرد با عناوینی از مقالات یا مطالب کوتاهش که اخبارش را توصیف میکردند در دسترس ابزار این شرکت قرار داد. این ابزار به نتایجی رسید که مطالب وایرد را «با حداقل انتساب» بازنویسی کرده بود.