在OpenAI引领的多模态时代专一语音的ElevenLabs如何生活 (在openai上班学术氛围)

编号：2812 分类：互联网资讯阅读：次时间：2024-03-01

2024年2月，OpenAI的视觉大模型Sora横空入世，这是一个历史性的里程碑，视觉生成畛域将有一次性大的技术和商业反派。

在Sora颁布几天后，AI语音守业公司为Sora的展示视频成功了精准婚配的配音，AI视频以假乱真的制造链条成功了闭环。这些视频应用他们行将上线的AISoundEffects性能制造，该性能可以让用户输入Prompt智能生成声响。

中国舞龙扮演，敲锣打鼓人声鼎沸（视频:Sora，音频:ElevenLabs）

2022年创立的ElevenLabs在6个月时期内延续取得两轮融资，在2024年1月的8000万美元B轮融资中，它的估值增长了10倍，到达了11亿美元。

在A轮和B轮的两轮投资中，领投方都是a16z、前GitHub首席口头官NatFriedman和前苹果人工智能DanielGross。A轮的参投方包括Instagram联结开创人MikeKrieger、Oculus联结开创人BrendanIribe、DeepMind及InflectionAI联结开创人MustafaSuleyman;B轮投资的参投方包括SVAngel、红杉资本、BroadLightCapital和CredoVentures。

ElevenLabs的联结开创人兼CEOMatiStaniszewski示意:新融资将用于继续构建ElevenLabs的声响人工智能钻研中心，并推出一系列产品，以支持特定市场垂直畛域，如出版、游戏、文娱和对话运行。

假设您对人工智能的新浪潮有兴味，有见地，有守业志愿，欢迎扫码参与阿尔法小助理，备注您的姓名+职位，与咱们深度衔接。

来自波兰的开创人用文本-语音模型成功声响克隆

ElevenLabs由前谷歌机器学习工程师PiotrDabkowski和前Palantir部署战略师MatiStaniszewski（CEO）在2022年创立，他们是童年的朋友，出生和生善于波兰，都在英国成功了大学教育。其中MatiStaniszewski毕业于帝国理工大学，曾经两次守业，而PiotrDabkowski的本科和硕士区分毕业于牛津和剑桥大学。

当新一轮AI浪潮萌芽时，他们选择一同守业，基于对儿时本国电影配音优良品质的痛苦回想，这对伙伴选择搭建一个由人工智能驱动的高品质音频平台，于是ElevenLabs降生了。

在初期阶段，ElevenLabs仰仗文本到语音模型ElevenMultilingual惹起群众留意，这个模型能分解听起来自然的英语AI声响。随后，该模型扩展到ElevenMultilingualv1和v2，引入了对更多言语的支持，包括波兰语、德语、西班牙语、法语、意大利语、葡萄牙语和印地语等。

同时，ElevenLabs还开发了一个产品—声响试验室，用户可以在其中克隆自己的声响或生成全新的分解声响（经过随机采样声响参数）。这使他们能够将自己选用的文本，如播客剧本，转换成他们偏好的声响和言语的音频内容。

ElevenLabs开创人MatiStaniszewski在接受采访时示意:ElevenLabs的技术结合了高低文看法和高紧缩技术，以提供超真切的语音。该公司的专有模型不是一句句地生成语句，而是建设无了解单词相关的基础上，并依据更宽泛的高低文调整语音输入。它也没有硬编码的特色，这象征着它可以在生成语音时灵活预测数千种声响特色。

依据MarketUS的数据，音频类工具的环球市场规模在2022年为12亿美元，估量到2032年将凑近50亿美元，复合年增长率高于15.40%。

ElevenLabs具有AI时代守业公司的组织特色，在B轮融资时，它的团队仅包括40名远程上班人员，取得新融资后，他们方案将团队逐渐扩展到100人。

延续两轮领投ElevenLabs的投资机构a16z示意:咱们坚信生成式人工智能工具将彻底扭转创意套件—经过让专业人士创作出更多高品质的内容，监禁更多发明力，并且由于工具更易于经常使用、更直观，使得少量全新的创作者得以赋能。咱们很快乐能参与ElevenLabs董事会，并与NatFriedman和DanielGross共同领投他们。

ElevenLabs开创人MatiStaniszewski总结道:咱们的雄心依然不变—经过打破言语和沟通阻碍，扭转咱们与内容的互动形式。咱们正在构建技术，使内容逾越言语和声响，让每团体都能与关键的消息和故事建设咨询。咱们到目前为止的进度证实了咱们敬业的团队和投资者的价值，只管这仅仅是咱们旅程的开局，但咱们共同在塑造无阻碍和沟通未来的路线。

模型之外，牢靠性和可控性是赢取客户的关键

关于影视，游戏，媒体等行业的开发者和创意上班者，将高品质的声响融入他们的作品不时是耗时且老本高昂的。

只管文本转语音（TTS）技术曾经存在了几十年，然而此前的技术分解的语音呆板且分解感重。想要取得共性化和明晰的语音，依然须要专业设施，专业配音演员，例如大局部游戏设计师只能累赘得起关键角色的配音演员，所以让非玩家角色坚持缄默。

ElevenLabs努力于扭转这一现状，经过其专有的语音分解、声响设计和克隆技术，让每个程序都领有声响。经过几次点击，他们的先进语音AI基础模型能够生成听起来极端凑近人声的语音，具有适当的进度、语和谐呼吸节拍。用户甚至可以从30秒的音频片段中克隆自己的声响。

ElevenMultilingual基础模型

ElevenLabs的技术基础是先进语音AI基础模型，它被命名为ElevenMultilingual，在2023年8月，它被更新到V2版本。ElevenLabs剖析了人类语音的标志，构建了新的机制来了解高低文和在语音生成中传播情感，以及分解新的、共同的声响。

经过ElevenMultilingualv2，当文本输入到ElevenLabs的文本到语音平台时，新模型可以智能识别近30种书面言语，并以史无前例的实在性生成这些言语的语音。这些言语包括了环球上被经常使用最多的言语，当然也包括中文。

岂但可以用文字生成语音，还可以语音生成语音

它的语音分解（SPEECHSYNTHESIS）产品包括一系列弱小性能。

TexttoSpeech和SpeechtoSpeech都是针对普通团体用户的，其中SpeechtoSpeech是新推出的性能，它可以让用户在声响稳固性，声响明晰度和声响格调上启动调理。

在VoiceLab中声响克隆，仅需很短的样本，就能克隆用户的声响，并且很快就能听到结果。不过这是一个不要钱性能，它雷同分团体版和专业版。

Projects则是一个针对专业用户和商业/机构用户的性能，它能够支持更长的文本和准确编辑，用户可以用它制造有声书等面向商业化的作品。目前这特性能的客户包括了Storytel、《华盛顿邮报》、莱茵邮报、Curio等。

Dubbing是与影视行业更贴近的，它能够智能为视频/音频配音，并能够极速翻译，由于ElevenMultilingualV2模型的才干，它能够支持29种言语。

针对更专业的用户，它还有DubbingStudio，让用户可以对配音启动更精细的控制和制造。

针对企业客户，ElevenLabs也有自己的API，繁难这些客户将AI音频才干嵌入自己的产品和运行中。例如此前咱们具体引见过的Inworld（请参考:融资5000万估值5亿美元，智能助手的先驱用AI让游戏NPC拥无情感和记忆|AlphaFounders），就应用ElevenLabs的产品为自己的AINPC削减了声响性能，让玩家的沉迷感更强。此外，ElevenLabs也与电影制造人NikShaw合力打造动漫作品，与Y7联手制造科幻电影。

客户与商业形式

ElevenLabs在商业化上是团体用户和企业客户两手抓的战略。

针对团体用户，它有不要钱的服务引流（目前曾经有超越百万的注册用户），而后针对不同专业水平的团体用户不要钱，推出了Starter(每月1-5美元)，Creator(每月11-22美元)，IndependentPublisher(每月99美元)三档不要钱。

针对企业用户，有GrowingBusiness（每月330美元）和Enterprise(按需定制不要钱)。它会依照性能和用量来区分不等同级的会员。

在2023年，扩展了B2B方面的商业投入和协作。目前在出版、游戏、媒体和垂直对话式AI公司等畛域积攒了不少标杆客户。

出版畛域:Storytel、《华盛顿邮报》、《莱茵邮报》、Curio

对话式AI:FlowGPT、SimpleTalkAI、Ollang、VoiceDrop、Vana

媒体与文娱:WondershareFilmora、FuturiMedia、TheSoulPublishing

游戏行业:ParadoxInteractive、网易、Inworld

用安保措施和语音库市场应答争议

ElevenLabs目前是AI音频畛域的领头羊，它也面临着的争议，这争议关键来自两个方面。

是担忧不法分子应用ElevenLabs的技术作恶，例如克隆名人的声响而后伪造视频或音频颁布一些相似暴力要挟、种族主义等有争议的内容。而且目前ElevenLabs生成的声响也能经过银行的声响验证。

ElevenLabs对此的应答是引入一系列安保措施，例如将声响克隆限度在付费账户中，制止重复违犯其服务条款的用户。他们还一种新的AI检测工具，能够检测上行的音频样本中能否蕴含来自ElevenLabs的AI生成内容。

第二是有人担忧ElevenLabs抢了配音演员的饭碗，就像好莱坞的演员担忧被AI视频生成抢饭碗一样。ElevenLabs的应答是推出语音库市场（VoiceLibrarymarketplace）。

语音库市场为用户提供一个安保的平台，让他们能够从自己的AI版本声响中取得支出。用户可以创立他们的专业AI语音正本，启动验证，并经过语音库分享。当其余用户经常使用这些经过验证的声响时，原始创作者将取得报酬。

多模态模型和大公司会把ElevenLabs们拍在沙滩上么?

当OpenAI的GPT-4V产生后，各种多模态AI模型涌现，Sora的产生，也让越来越多的人以为多模态模型是走向AGI（通用人工智能）的正确路线。那么随着多模态模型支持的模态越来越多，繁多模态的AI语音模型会不会失去存在的价值?

从技术上看，多模态或许比繁多模态好，然而从商业上却不必定，由于繁多模态在可控性和老本上会比多模态更好些（至少在近几年），这给了守业者们守业空间。

此外，AI语音只管不像AI视觉那样光鲜，但它仍有泛滥的运行场景。例如影视配音（文首曾经展现），游戏配音，有声书，资讯，播客，会议转录等。

所以ElevenLabs其实有不少竞争对手，例如Papercup、Deepdub、Acapela、Respeecher和Voice.ai等守业公司，以及Amazon和OpenAI这些上游公司。那么面对资金更短缺，人才更集中的Amazon和OpenAI，ElevenLabs会被"拍在沙滩上"么?

上游的公司要在关键畛域确保自己的指导位置，打破技术，建设平台，也会做垂类运行，但更注重吸引广阔开发者介入，而不是有点打破就摊大饼，把运行都做完。这一点，在之前的文章中就剖析过（请参考:ChatGPT守业:狮子和土狼一同奔向黑暗|投资人说）。

ElevenLabs有自己的模型，有针对团体和大公司的产品，还有语料库市场运谋生态。目前AI的商业格式还未定局，这种既把握底层技术又领有商业场景的公司，会在未来的开展中领有自己的一席之地。

AiBase副业搞钱交换群

欢迎大家参与AiBase交换群，扫码进入，畅谈AI赚钱心得，共享最新行业灵活，发现潜在协作同伴，迎接未来的赚钱时机！。

（揭发）

AI正版系统源码介绍：小狐狸GPT-AI付费创作系统+开源可二开+私有常识库+聚合15家干流AI接口

标签： ElevenLabs、

本文地址： https://blogs.03hz.cn/hlwzxwz/2812.html

上一篇：04月30日每天60秒读懂全世界星期二

下一篇：利用在线图床更好地管理您的图片资源

网址推荐

金融课程_金融培训_金融教育_爱死磕金融教育网

山东电梯,淄博家用电梯,淄博别墅电梯-山东楼宇设备

上海嘉果食品有限公司

湖北江南专用特种汽车有限公司

无边泳池_亚克力游泳池生产厂家_透明泳池_玻璃泳池_别墅游泳池_空中泳池_亚克力大型鱼缸厂家_订做大型鱼缸_深圳市铭辉实业科技发展有限责任公司

国内工程,国外工程,索道工程,装饰工程,机械制造,钢结构工程_山东泰安建筑工程集团有限公司

中国农学会

首页-常州双皖机械有限公司

柔情编程学习-编程知识资讯

仁和会计官方网站,仁和会计教育,专业会计培训,从业会计培训行业22年,全国连锁直营校区,行业的知名企业

免费福利活动分享第一平台够平有奖活动网

青浦之家