2024年2月,Reddit与搜索巨头b谷歌达成了一项价值6000万美元的协议,允许这家搜索巨头使用该平台上的数据来训练其人工智能模型。值得注意的是,讨论中没有Reddit用户,他们的数据正在被出售。
这笔交易反映了现代互联网的现实:大型科技公司几乎拥有我们所有的在线数据,并决定如何处理这些数据。不出所料,许多平台将其数据货币化,而如今实现这一目标的最快方式是将其出售给人工智能公司,这些公司本身就是大型科技公司,利用这些数据来训练更强大的模型。
去中心化平台Vana最初是麻省理工学院的一个班级项目,其使命是将权力交还给用户。该公司创建了一个完全由用户拥有的网络,允许个人上传自己的数据,并管理这些数据的使用方式。人工智能开发人员可以向用户推销新模型的想法,如果用户同意为培训贡献他们的数据,他们就可以在模型中获得一定比例的所有权。
这个想法是让每个人都能参与到人工智能系统中,这些系统将越来越多地塑造我们的社会,同时也会释放新的数据池来推进这项技术。
Vana的联合创始人安娜·卡兹劳斯卡斯(Anna Kazlauskas)说:“这些数据是创建更好的人工智能系统所需要的。”“我们创建了一个去中心化的系统,以获取更好的数据——如今这些数据都在大型科技公司内部——同时仍让用户保留最终所有权。”
从经济学到b区块链
很多高中生的卧室墙上都有流行明星或运动员的照片。卡兹劳斯卡斯有一张美国前财政部长珍妮特·耶伦的照片。
卡兹劳斯卡斯来到麻省理工学院时,确信自己会成为一名经济学家,但她最终成为2015年加入麻省理工学院比特币俱乐部的五名学生之一,这段经历让她进入了区块链和加密货币的世界。
在麦格雷戈公寓的宿舍里,她开始挖掘加密货币以太坊。她甚至偶尔会在校园的垃圾箱里搜寻废弃的电脑芯片。
卡兹劳斯卡斯说:“它让我对计算机科学和网络相关的一切都产生了兴趣。“从区块链的角度来看,这涉及到分布式系统,以及它们如何将经济权力转移给个人,以及人工智能和计量经济学。”
Kazlauskas在前媒体实验室的Emergent Ventures课程上遇到了当时就读于哈佛大学的Art Abal,两人决定研究获取数据以训练人工智能系统的新方法。
“我们的问题是:如何让大量的人使用更多的分布式网络为这些人工智能系统做出贡献?”外籍教练回忆说。
Kazlauskas和Abal试图解决目前的现状,即大多数模型都是通过从互联网上收集公共数据来训练的。大型科技公司也经常从其他公司购买大型数据集。
卡兹劳斯卡斯毕业后在金融公司Celo工作的经历,启发了两位创始人多年来不断发展的方法。但卡兹劳斯卡斯认为,她在麻省理工学院的时光帮助她思考了这些问题,Emergent Ventures的讲师拉梅什·拉斯卡尔(Ramesh Raskar)今天仍在帮助瓦娜思考人工智能研究问题。
卡兹劳斯卡斯说:“能有一个开放式的机会去建造、破解和探索,真是太棒了。“我认为麻省理工学院的精神非常重要。这只是关于创造东西,看看什么是可行的,然后继续迭代。”
如今,Vana利用了一条鲜为人知的法律,该法律允许大多数大型科技平台的用户直接导出他们的数据。用户可以将这些信息上传到Vana的加密数字钱包中,并在他们认为合适的时候将其用于训练模型。
人工智能工程师可以为新的开源模型提出建议,人们可以汇集他们的数据来帮助训练模型。在区块链世界中,数据池被称为数据dao,它代表分散的自治组织。数据还可以用来创建个性化的人工智能模型和代理。
在Vana中,数据以保护用户隐私的方式使用,因为系统不会暴露可识别的信息。一旦创建了模型,用户就拥有了所有权,这样每次使用模型时,他们都会根据自己的数据对模型的帮助程度获得相应的奖励。
Kazlauskas说:“从开发者的角度来看,现在你可以构建这些高度个性化的健康应用程序,这些应用程序可以准确地考虑到你吃了什么,你怎么睡,你怎么锻炼。”“由于大型科技公司的围墙花园,这些应用在今天是不可能实现的。”
众包、用户拥有的AI
去年,一位机器学习工程师提议使用Vana的用户数据来训练一个可以生成Reddit帖子的人工智能模型。超过14万Vana用户贡献了他们的Reddit数据,其中包括帖子、评论、消息等。用户决定使用模型的条件,并在模型创建后保持模型的所有权。
Vana利用来自社交媒体平台X的用户贡献数据实现了类似的举措;来自Oura rings等来源的睡眠数据;和更多。还有一些合作将数据池结合起来,以创建更广泛的人工智能应用。
卡兹劳斯卡斯解释说:“假设用户拥有Spotify数据、Reddit数据和时尚数据。“通常情况下,Spotify不会与这类公司合作,实际上也有相关规定。但如果用户授予访问权限,他们就可以这样做,所以这些跨平台数据集可以用来创建真正强大的模型。”
Vana拥有超过100万用户和20多个实时数据dao。用户已经在Vana的系统上提出了300多个额外的数据池,Kazlauskas说,许多数据池将在今年投入生产。
卡兹劳斯卡斯表示:“我认为,广义人工智能模型、个性化医疗和新的消费者应用领域都有很多前景,因为一开始很难将所有这些数据结合起来或访问它们。”
数据池使用户群体能够完成一些即使是最强大的科技公司今天也难以做到的事情。
“如今,大型科技公司已经建立了这些数据护城河,所以最好的数据集不是任何人都能获得的,”卡兹劳斯卡斯说。“这是一个集体行动的问题,我的数据本身并不那么有价值,但拥有数万或数百万人的数据池确实很有价值。Vana允许建造这些游泳池。这是一个双赢的局面:用户可以从人工智能的崛起中受益,因为他们拥有这些模型。这样就不会出现没有一家公司控制全能人工智能模型的情况。你得到了更好的技术,但每个人都受益。”
作者:Zach Winn | MIT News
链接:https://news.mit.edu/2025/vana-lets-users-own-piece-ai-models-trained-on-their-data-0403
著作权归作者所有。
声明:海森大数据刊发或者转载此文只是出于传递、分享更多信息之目的,并不意味认同其观点或证实其描述。若有来源标注错误或侵犯了您的合法权益,请作者与本网联系,我们将及时更正、删除,谢谢。电话:152 6451 3609,邮箱:1027830374@qq.com