Strava IPO前宣战：严厉打击数据爬取！

### 编者按：在AI大模型疯狂吞噬数据的浪潮中，互联网的“共享精神”正面临前所未有的挑战。从无视robots.txt到绕过API规则，AI公司对数据的贪婪索取已迫使平台方竖起高墙。这不，全球知名运动社交平台Strava也加入了“反爬”大军——收紧网页权限、对开发者收费、甚至调整API接口。这背后不仅是数据安全的博弈，更是一场关于AI训练数据来源的伦理辩论。当“公开互联网”变成“收费数据池”，我们该如何平衡技术创新与数据主权？Strava的CEO直言：AI无差别爬取，可能成为公共互联网的丧钟。本文深度解析Strava的最新举措，揭示AI公司与平台方之间的暗战真相。

随着AI模型对训练数据的需求日益膨胀，科技公司已演变为“数据饕餮”。为满足需求，许多AI初创企业公然违背互联网长期约定俗成的规则——比如尊重robots.txt文件（该文件会向自动化爬虫指示网站禁区）——转而疯狂抓取数据。这迫使网站不得不收紧数据访问权限，部分平台甚至与AI公司签订授权协议。健身社交平台Strava近期也加入了这场“数据保卫战”：限制网站访问权限，并对开发者收取费用。

为阻止数据爬取，Strava正加强网站安全措施，今后仅允许认证用户查看特定数据。此前，用户无需登录即可浏览公开个人资料和健身俱乐部清单等详细信息。如今，平台将所有数据置于认证机制之后，以防被AI未经授权抓取。

在API接入方面，开发者原本可通过免费分级计划在Strava上构建应用——先申请基础访问权限，随应用规模增长再逐步升级。但现在，平台对所有开发者统一收取每月11.99美元的费用（不过据称价格可能因地区而异）。

Strava表示，其开发者社区已从去年的18.5万人增长至今年24.1万人，平台将继续给予支持。为此，Strava计划新增对模型上下文协议（MCP）的支持。这一新兴标准能让AI助手和应用以结构化方式访问外部数据，使Strava能更精准地控制分享内容和方式。

平台还计划淘汰部分API端点（这些离散接口允许外部应用拉取俱乐部详情等特定数据），以保护用户隐私。事实上，Strava早在2024年就收紧了API规则：禁止将其用于AI训练，并限制第三方应用展示其他用户数据。当时这些举措曾引发开发者强烈反弹，称其应用将遭受重创。

虽然部分开发者可能接受订阅费用，但某些API端点的弃用仍可能影响依赖型应用。Strava给予开发者90天缓冲期以应对调整。

在与TechCrunch的对话中，Strava CEO迈克尔·马丁直言，AI无节制的数据爬取可能敲响公共互联网的丧钟。他说：“AI公司对训练数据永无止境的需求，正导致它们疯狂爬取公开网页，这严重拖累了网站整体性能。过去几个月，我们多次遭遇性能下降甚至瘫痪的情况。更严重的是，它们不仅爬取公开页面，还无视API条款，企图通过接口窃取数据。”

马丁透露，Strava已拒绝多家顶级AI实验室的数据授权请求。他特别点名AI搜索公司Perplexity，称该初创公司在被拒绝后，仍通过聚合服务隐藏爬取源头。这与Perplexity此前类似的违规行为如出一辙。

马丁还指出，一些通过“意念编程”（vibe-coded）开发的劣质应用带来额外负担：其API调用结构混乱，给Strava系统造成不成比例的负载。这并非孤例——去年Meta封禁WhatsApp上第三方聊天机器人时，也提出过类似的系统过载问题。

时间节点或许并非巧合——Strava今年早些时候已秘密提交IPO申请，此次数据防御举措，可能意在向潜在投资者展示其对数据管理的严格把控。当被问及与Reddit 2024年API限制事件对比时，马丁迅速回应：与Reddit按调用次数收费（导致多数开发者无力承受）不同，Strava选择统一定价，意在维护开发者生态的完整性。

他强调：“我们希望用户感受到自己对数据的拥有权，并对我们的管控方式感到安心。同时，我们也希望开发者能持续繁荣成长。”

本文由吉伊网原创发布，未经许可，不得转载！
本文链接：http://www.jkiyi.com/kx/57449.html