千亿美元买照片-用于AI模型训练-科技巨头疯狂投资

编号：26758 分类：互联网资讯阅读：次时间：2024-04-13

科技巨头疯狂投入数十亿美元购买照片，用以训练AI模型，这一行为引发了广泛讨论。据路透社报道，苹果公司正与图像托管网站Photobucket协商，欲获得其庞大的约130亿张图片和视频库，以供AI模型训练之用。不仅苹果，其他硅谷巨头亦在寻求与Photobucket达成协议，甚至愿意花费数十亿美元购买这些素材。Reddit、Youtube等知名网站也成为这些科技公司的抢购目标。Photobucket成立于2003年，曾是用户个人相册的常用网站，在巅峰期拥有7000万用户，并声称在2007年已有超过28亿张图片上传。虽然网站功能类似如今流行的在线相册App，但随着竞争对手逐渐崭露头角，其影响力下降。苹果购买Photobucket图片的主要目的在于提高生成式AI的水平，此前该公司还与Shutterstock达成数百万张图片授权协议。网友对于Photobucket数据隐私和照片质量问题表示担忧，有人质疑使用可能存在错误的图片是否会影响AI生成结果。尽管大多数网友反对这一做法，但为了获取高质量的互联网数据，科技公司不得不冒险购买数据，因为这类数据可能在未来几年内枯竭。

多年前，科技巨头就已经面临训练语料不足的问题。OpenAI在训练GPT-4时遇到英文文本资料缺失，推出名为Whisper的语音识别工具，转录Youtube视频音频以生成对话文本。这一行为被指违反了Youtube的隐私规则，也不是OpenAI第一次因偷取数据而受到指责。其他科技公司也通过各种手段获取训练数据，谷歌甚至将使用公开信息训练AI写入隐私细则中。随着OpenAI版权问题日益突出，科技公司不得不选择付费购买训练数据。对于AI模型来说，即使130亿的数据量可能仍无法满足需求。研究机构Epoch指出，科技公司使用数据的速度已超过数据生产速度，最快在2026年耗尽互联网高质量数据。2020年GPT-3使用了3000亿个Token的训练数据，2024年或许会迎来新的挑战。

标签：网站、训练、 OpenAI、图片、网友、隐私、隐私、模型、巨头、 OpenAI、苹果公司、照片、数据、数据、英伟达、

本文地址： https://blogs.03hz.cn/hlwzxwz/26758.html

上一篇：04月30日每天60秒读懂全世界星期二

下一篇：利用在线图床更好地管理您的图片资源