千亿美元买照片-用于AI模型训练-科技巨头疯狂投资
编号:26758 分类:互联网资讯 阅读: 时间:2024-04-13

科技巨头疯狂投入数十亿美元购买照片,用以训练AI模型,这一行为引发了广泛讨论。据路透社报道,苹果公司正与图像托管网站Photobucket协商,欲获得其庞大的约130亿张图片和视频库,以供AI模型训练之用。不仅苹果,其他硅谷巨头亦在寻求与Photobucket达成协议,甚至愿意花费数十亿美元购买这些素材。Reddit、Youtube等知名网站也成为这些科技公司的抢购目标。Photobucket成立于2003年,曾是用户个人相册的常用网站,在巅峰期拥有7000万用户,并声称在2007年已有超过28亿张图片上传。虽然网站功能类似如今流行的在线相册App,但随着竞争对手逐渐崭露头角,其影响力下降。苹果购买Photobucket图片的主要目的在于提高生成式AI的水平,此前该公司还与Shutterstock达成数百万张图片授权协议。网友对于Photobucket数据隐私和照片质量问题表示担忧,有人质疑使用可能存在错误的图片是否会影响AI生成结果。尽管大多数网友反对这一做法,但为了获取高质量的互联网数据,科技公司不得不冒险购买数据,因为这类数据可能在未来几年内枯竭。

多年前,科技巨头就已经面临训练语料不足的问题。OpenAI在训练GPT-4时遇到英文文本资料缺失,推出名为Whisper的语音识别工具,转录Youtube视频音频以生成对话文本。这一行为被指违反了Youtube的隐私规则,也不是OpenAI第一次因偷取数据而受到指责。其他科技公司也通过各种手段获取训练数据,谷歌甚至将使用公开信息训练AI写入隐私细则中。随着OpenAI版权问题日益突出,科技公司不得不选择付费购买训练数据。对于AI模型来说,即使130亿的数据量可能仍无法满足需求。研究机构Epoch指出,科技公司使用数据的速度已超过数据生产速度,最快在2026年耗尽互联网高质量数据。2020年GPT-3使用了3000亿个Token的训练数据,2024年或许会迎来新的挑战。

网址推荐 网址推荐