在OpenAI引领的多模态时代 专一语音的ElevenLabs如何生活 (在openai上班学术氛围)
编号:2812 分类:互联网资讯 阅读: 时间:2024-03-01

2024年2月,OpenAI的视觉大模型Sora横空入世,这是一个历史性的里程碑,视觉生成畛域将有一次性大的技术和商业反派。

在Sora颁布几天后,AI语音守业公司为Sora的展示视频成功了精准婚配的配音,AI视频以假乱真的制造链条成功了闭环。这些视频应用他们行将上线的AISoundEffects性能制造,该性能可以让用户输入Prompt智能生成声响。

中国舞龙扮演,敲锣打鼓人声鼎沸(视频:Sora,音频:ElevenLabs)

2022年创立的ElevenLabs在6个月时期内延续取得两轮融资,在2024年1月的8000万美元B轮融资中,它的估值增长了10倍,到达了11亿美元。

在A轮和B轮的两轮投资中,领投方都是a16z、前GitHub首席口头官NatFriedman和前苹果人工智能DanielGross。A轮的参投方包括Instagram联结开创人MikeKrieger、Oculus联结开创人BrendanIribe、DeepMind及InflectionAI联结开创人MustafaSuleyman;B轮投资的参投方包括SVAngel、红杉资本、BroadLightCapital和CredoVentures。

ElevenLabs的联结开创人兼CEOMatiStaniszewski示意:新融资将用于继续构建ElevenLabs的声响人工智能钻研中心,并推出一系列产品,以支持特定市场垂直畛域,如出版、游戏、文娱和对话运行。

假设您对人工智能的新浪潮有兴味,有见地,有守业志愿,欢迎扫码参与阿尔法小助理,备注您的姓名+职位,与咱们深度衔接。

来自波兰的开创人用文本-语音模型成功声响克隆

ElevenLabs由前谷歌机器学习工程师PiotrDabkowski和前Palantir部署战略师MatiStaniszewski(CEO)在2022年创立,他们是童年的朋友,出生和生善于波兰,都在英国成功了大学教育。其中MatiStaniszewski毕业于帝国理工大学,曾经两次守业,而PiotrDabkowski的本科和硕士区分毕业于牛津和剑桥大学。

当新一轮AI浪潮萌芽时,他们选择一同守业,基于对儿时本国电影配音优良品质的痛苦回想,这对伙伴选择搭建一个由人工智能驱动的高品质音频平台,于是ElevenLabs降生了。

在初期阶段,ElevenLabs仰仗文本到语音模型ElevenMultilingual惹起群众留意,这个模型能分解听起来自然的英语AI声响。随后,该模型扩展到ElevenMultilingualv1和v2,引入了对更多言语的支持,包括波兰语、德语、西班牙语、法语、意大利语、葡萄牙语和印地语等。

同时,ElevenLabs还开发了一个产品—声响试验室,用户可以在其中克隆自己的声响或生成全新的分解声响(经过随机采样声响参数)。这使他们能够将自己选用的文本,如播客剧本,转换成他们偏好的声响和言语的音频内容。

ElevenLabs开创人MatiStaniszewski在接受采访时示意:ElevenLabs的技术结合了高低文看法和高紧缩技术,以提供超真切的语音。该公司的专有模型不是一句句地生成语句,而是建设无了解单词相关的基础上,并依据更宽泛的高低文调整语音输入。它也没有硬编码的特色,这象征着它可以在生成语音时灵活预测数千种声响特色。

依据MarketUS的数据,音频类工具的环球市场规模在2022年为12亿美元,估量到2032年将凑近50亿美元,复合年增长率高于15.40%。

ElevenLabs具有AI时代守业公司的组织特色,在B轮融资时,它的团队仅包括40名远程上班人员,取得新融资后,他们方案将团队逐渐扩展到100人。

延续两轮领投ElevenLabs的投资机构a16z示意:咱们坚信生成式人工智能工具将彻底扭转创意套件—经过让专业人士创作出更多高品质的内容,监禁更多发明力,并且由于工具更易于经常使用、更直观,使得少量全新的创作者得以赋能。咱们很快乐能参与ElevenLabs董事会,并与NatFriedman和DanielGross共同领投他们。

ElevenLabs开创人MatiStaniszewski总结道:咱们的雄心依然不变—经过打破言语和沟通阻碍,扭转咱们与内容的互动形式。咱们正在构建技术,使内容逾越言语和声响,让每团体都能与关键的消息和故事建设咨询。咱们到目前为止的进度证实了咱们敬业的团队和投资者的价值,只管这仅仅是咱们旅程的开局,但咱们共同在塑造无阻碍和沟通未来的路线。

模型之外,牢靠性和可控性是赢取客户的关键

关于影视,游戏,媒体等行业的开发者和创意上班者,将高品质的声响融入他们的作品不时是耗时且老本高昂的。

只管文本转语音(TTS)技术曾经存在了几十年,然而此前的技术分解的语音呆板且分解感重。想要取得共性化和明晰的语音,依然须要专业设施,专业配音演员,例如大局部游戏设计师只能累赘得起关键角色的配音演员,所以让非玩家角色坚持缄默。

ElevenLabs努力于扭转这一现状,经过其专有的语音分解、声响设计和克隆技术,让每个程序都领有声响。经过几次点击,他们的先进语音AI基础模型能够生成听起来极端凑近人声的语音,具有适当的进度、语和谐呼吸节拍。用户甚至可以从30秒的音频片段中克隆自己的声响。

ElevenMultilingual基础模型

ElevenLabs的技术基础是先进语音AI基础模型,它被命名为ElevenMultilingual,在2023年8月,它被更新到V2版本。ElevenLabs剖析了人类语音的标志,构建了新的机制来了解高低文和在语音生成中传播情感,以及分解新的、共同的声响。

经过ElevenMultilingualv2,当文本输入到ElevenLabs的文本到语音平台时,新模型可以智能识别近30种书面言语,并以史无前例的实在性生成这些言语的语音。这些言语包括了环球上被经常使用最多的言语,当然也包括中文。

岂但可以用文字生成语音,还可以语音生成语音

它的语音分解(SPEECHSYNTHESIS)产品包括一系列弱小性能。

TexttoSpeech和SpeechtoSpeech都是针对普通团体用户的,其中SpeechtoSpeech是新推出的性能,它可以让用户在声响稳固性,声响明晰度和声响格调上启动调理。

在VoiceLab中声响克隆,仅需很短的样本,就能克隆用户的声响,并且很快就能听到结果。不过这是一个不要钱性能,它雷同分团体版和专业版。

Projects则是一个针对专业用户和商业/机构用户的性能,它能够支持更长的文本和准确编辑,用户可以用它制造有声书等面向商业化的作品。目前这特性能的客户包括了Storytel、《华盛顿邮报》、莱茵邮报、Curio等。

Dubbing是与影视行业更贴近的,它能够智能为视频/音频配音,并能够极速翻译,由于ElevenMultilingualV2模型的才干,它能够支持29种言语。

针对更专业的用户,它还有DubbingStudio,让用户可以对配音启动更精细的控制和制造。

针对企业客户,ElevenLabs也有自己的API,繁难这些客户将AI音频才干嵌入自己的产品和运行中。例如此前咱们具体引见过的Inworld(请参考:融资5000万估值5亿美元,智能助手的先驱用AI让游戏NPC拥无情感和记忆|AlphaFounders),就应用ElevenLabs的产品为自己的AINPC削减了声响性能,让玩家的沉迷感更强。此外,ElevenLabs也与电影制造人NikShaw合力打造动漫作品,与Y7联手制造科幻电影。

客户与商业形式

ElevenLabs在商业化上是团体用户和企业客户两手抓的战略。

针对团体用户,它有不要钱的服务引流(目前曾经有超越百万的注册用户),而后针对不同专业水平的团体用户不要钱,推出了Starter(每月1-5美元),Creator(每月11-22美元),IndependentPublisher(每月99美元)三档不要钱。

针对企业用户,有GrowingBusiness(每月330美元)和Enterprise(按需定制不要钱)。它会依照性能和用量来区分不等同级的会员。

在2023年,扩展了B2B方面的商业投入和协作。目前在出版、游戏、媒体和垂直对话式AI公司等畛域积攒了不少标杆客户。

出版畛域:Storytel、《华盛顿邮报》、《莱茵邮报》、Curio

对话式AI:FlowGPT、SimpleTalkAI、Ollang、VoiceDrop、Vana

媒体与文娱:WondershareFilmora、FuturiMedia、TheSoulPublishing

游戏行业:ParadoxInteractive、网易、Inworld

用安保措施和语音库市场应答争议

ElevenLabs目前是AI音频畛域的领头羊,它也面临着的争议,这争议关键来自两个方面。

是担忧不法分子应用ElevenLabs的技术作恶,例如克隆名人的声响而后伪造视频或音频颁布一些相似暴力要挟、种族主义等有争议的内容。而且目前ElevenLabs生成的声响也能经过银行的声响验证。

ElevenLabs对此的应答是引入一系列安保措施,例如将声响克隆限度在付费账户中,制止重复违犯其服务条款的用户。他们还一种新的AI检测工具,能够检测上行的音频样本中能否蕴含来自ElevenLabs的AI生成内容。

第二是有人担忧ElevenLabs抢了配音演员的饭碗,就像好莱坞的演员担忧被AI视频生成抢饭碗一样。ElevenLabs的应答是推出语音库市场(VoiceLibrarymarketplace)。

语音库市场为用户提供一个安保的平台,让他们能够从自己的AI版本声响中取得支出。用户可以创立他们的专业AI语音正本,启动验证,并经过语音库分享。当其余用户经常使用这些经过验证的声响时,原始创作者将取得报酬。

多模态模型和大公司会把ElevenLabs们拍在沙滩上么?

当OpenAI的GPT-4V产生后,各种多模态AI模型涌现,Sora的产生,也让越来越多的人以为多模态模型是走向AGI(通用人工智能)的正确路线。那么随着多模态模型支持的模态越来越多,繁多模态的AI语音模型会不会失去存在的价值?

从技术上看,多模态或许比繁多模态好,然而从商业上却不必定,由于繁多模态在可控性和老本上会比多模态更好些(至少在近几年),这给了守业者们守业空间。

此外,AI语音只管不像AI视觉那样光鲜,但它仍有泛滥的运行场景。例如影视配音(文首曾经展现),游戏配音,有声书,资讯,播客,会议转录等。

所以ElevenLabs其实有不少竞争对手,例如Papercup、Deepdub、Acapela、Respeecher和Voice.ai等守业公司,以及Amazon和OpenAI这些上游公司。那么面对资金更短缺,人才更集中的Amazon和OpenAI,ElevenLabs会被"拍在沙滩上"么?

上游的公司要在关键畛域确保自己的指导位置,打破技术,建设平台,也会做垂类运行,但更注重吸引广阔开发者介入,而不是有点打破就摊大饼,把运行都做完。这一点,在之前的文章中就剖析过(请参考:ChatGPT守业:狮子和土狼一同奔向黑暗|投资人说)。

ElevenLabs有自己的模型,有针对团体和大公司的产品,还有语料库市场运谋生态。目前AI的商业格式还未定局,这种既把握底层技术又领有商业场景的公司,会在未来的开展中领有自己的一席之地。

AiBase副业搞钱交换群

欢迎大家参与AiBase交换群,扫码进入,畅谈AI赚钱心得,共享最新行业灵活,发现潜在协作同伴,迎接未来的赚钱时机!。

(揭发)

AI正版系统源码介绍:小狐狸GPT-AI付费创作系统+开源可二开+私有常识库+聚合15家干流AI接口

网址推荐 网址推荐