Strava IPO前宣战:严厉打击数据爬取!

### 编者按:在AI大模型疯狂吞噬数据的浪潮中,互联网的“共享精神”正面临前所未有的挑战。从无视robots.txt到绕过API规则,AI公司对数据的贪婪索取已迫使平台方竖起高墙。这不,全球知名运动社交平台Strava也加入了“反爬”大军——收紧网页权限、对开发者收费、甚至调整API接口。这背后不仅是数据安全的博弈,更是一场关于AI训练数据来源的伦理辩论。当“公开互联网”变成“收费数据池”,我们该如何平衡技术创新与数据主权?Strava的CEO直言:AI无差别爬取,可能成为公共互联网的丧钟。本文深度解析Strava的最新举措,揭示AI公司与平台方之间的暗战真相。

随着AI模型对训练数据的需求日益膨胀,科技公司已演变为“数据饕餮”。为满足需求,许多AI初创企业公然违背互联网长期约定俗成的规则——比如尊重robots.txt文件(该文件会向自动化爬虫指示网站禁区)——转而疯狂抓取数据。这迫使网站不得不收紧数据访问权限,部分平台甚至与AI公司签订授权协议。健身社交平台Strava近期也加入了这场“数据保卫战”:限制网站访问权限,并对开发者收取费用。

为阻止数据爬取,Strava正加强网站安全措施,今后仅允许认证用户查看特定数据。此前,用户无需登录即可浏览公开个人资料和健身俱乐部清单等详细信息。如今,平台将所有数据置于认证机制之后,以防被AI未经授权抓取。

在API接入方面,开发者原本可通过免费分级计划在Strava上构建应用——先申请基础访问权限,随应用规模增长再逐步升级。但现在,平台对所有开发者统一收取每月11.99美元的费用(不过据称价格可能因地区而异)。

Strava表示,其开发者社区已从去年的18.5万人增长至今年24.1万人,平台将继续给予支持。为此,Strava计划新增对模型上下文协议(MCP)的支持。这一新兴标准能让AI助手和应用以结构化方式访问外部数据,使Strava能更精准地控制分享内容和方式。

平台还计划淘汰部分API端点(这些离散接口允许外部应用拉取俱乐部详情等特定数据),以保护用户隐私。事实上,Strava早在2024年就收紧了API规则:禁止将其用于AI训练,并限制第三方应用展示其他用户数据。当时这些举措曾引发开发者强烈反弹,称其应用将遭受重创。

虽然部分开发者可能接受订阅费用,但某些API端点的弃用仍可能影响依赖型应用。Strava给予开发者90天缓冲期以应对调整。

在与TechCrunch的对话中,Strava CEO迈克尔·马丁直言,AI无节制的数据爬取可能敲响公共互联网的丧钟。他说:“AI公司对训练数据永无止境的需求,正导致它们疯狂爬取公开网页,这严重拖累了网站整体性能。过去几个月,我们多次遭遇性能下降甚至瘫痪的情况。更严重的是,它们不仅爬取公开页面,还无视API条款,企图通过接口窃取数据。”

马丁透露,Strava已拒绝多家顶级AI实验室的数据授权请求。他特别点名AI搜索公司Perplexity,称该初创公司在被拒绝后,仍通过聚合服务隐藏爬取源头。这与Perplexity此前类似的违规行为如出一辙。

马丁还指出,一些通过“意念编程”(vibe-coded)开发的劣质应用带来额外负担:其API调用结构混乱,给Strava系统造成不成比例的负载。这并非孤例——去年Meta封禁WhatsApp上第三方聊天机器人时,也提出过类似的系统过载问题。

时间节点或许并非巧合——Strava今年早些时候已秘密提交IPO申请,此次数据防御举措,可能意在向潜在投资者展示其对数据管理的严格把控。当被问及与Reddit 2024年API限制事件对比时,马丁迅速回应:与Reddit按调用次数收费(导致多数开发者无力承受)不同,Strava选择统一定价,意在维护开发者生态的完整性。

他强调:“我们希望用户感受到自己对数据的拥有权,并对我们的管控方式感到安心。同时,我们也希望开发者能持续繁荣成长。”

本文由吉伊网原创发布,未经许可,不得转载!
本文链接:http://www.jkiyi.com/kx/57449.html

联系我们

在线咨询:

邮件:sooting2000@qq.com