Meta's Voicebox Shines in Speech Synthesis

[{"selector":"#anim-bbfc8f48-2224-4c17-a680-8d11295eb14f [data-leaf-element=\"true\"]","keyframes":{"transform":["translate(0%, 0%) scale(1)","translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"forwards"}] [{"selector":"#anim-98889c13-8e06-4826-ae46-9eff01f33588","keyframes":{"opacity":[0,1]},"delay":0,"duration":2000,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-98171e7a-7b27-478a-ac5b-a279d3e3b504","keyframes":{"transform":["translate3d(-115.55555%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-0a21a53a-5ea6-4863-8afc-30e66afc5f1a","keyframes":{"opacity":[0,1]},"delay":2000,"duration":2000,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-a286c2d5-201b-407e-968a-2838a0a7ba5b","keyframes":{"transform":["translate3d(0px, 238.88892%, 0)","translate3d(0px, 0px, 0)"]},"delay":2000,"duration":2000,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] Trained on over 50,000 hours of audio data, Voicebox outperforms previous TTS benchmarks. Meta has introduced Voicebox, a sophisticated speech generation model excelling in text-to-speech (TTS) synthesis across six languages and demonstrating superior noise elimination capabilities

[{"selector":"#anim-4517397a-54d0-41ac-b129-9f36797541b3 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate(0%, 0%) scale(1.5)","translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"forwards"}] [{"selector":"#anim-bed9255f-9254-4cf8-8bc5-29066943a18d","keyframes":{"opacity":[0,1]},"delay":2000,"duration":2000,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-a79cb669-a093-46d0-a081-3a36e6e960d2","keyframes":{"transform":["translate3d(0px, 212.69841%, 0)","translate3d(0px, 0px, 0)"]},"delay":2000,"duration":2000,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-2741455d-fc9c-48a7-a0e7-ae713ba36cd2","keyframes":{"opacity":[0,1]},"delay":0,"duration":2000,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-a8b95bd2-491d-4455-ab59-3aa039b88811","keyframes":{"transform":["translate3d(115.23810%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] It predicts masked sections in audio inputs, allowing tasks like noise removal and cross-lingual style transfer. Voicebox, utilizing a flow-matching architecture, distinguishes itself from autoregressive models.

[{"selector":"#anim-9f24bac7-3efc-4396-91d8-8cf996cd6157 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate(0%, 0%) scale(1)","translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"forwards"}] [{"selector":"#anim-51a6df83-dc31-43a2-8f2a-da80273cce50","keyframes":{"opacity":[0,1]},"delay":2000,"duration":2000,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-e83e520f-36c8-4ce2-a640-2a23af94879e","keyframes":{"transform":["translate3d(0px, 920.98807%, 0)","translate3d(0px, 0px, 0)"]},"delay":2000,"duration":2000,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-07a71b72-a7ba-4253-a91d-4dd1a805d573","keyframes":{"opacity":[0,1]},"delay":0,"duration":2000,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-b3735192-1978-48f8-9fd5-f2b86550264b","keyframes":{"transform":["translate3d(-115.2381%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] Meta refrains from open-sourcing Voicebox, citing safety concerns. Despite training on audiobooks in multiple languages,

[{"selector":"#anim-63e44a5d-3adc-4228-a5cb-07a80917fcb1 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate(0%, 0%) scale(1.5)","translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"forwards"}] [{"selector":"#anim-81840d6c-923e-4883-8f22-c233dd66201f","keyframes":{"opacity":[0,1]},"delay":2000,"duration":2000,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-affde2a6-b092-4e0b-9ab0-fee06ac81179","keyframes":{"transform":["translate3d(0px, 611.61629%, 0)","translate3d(0px, 0px, 0)"]},"delay":2000,"duration":2000,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-189355a2-d3ff-4b1f-8398-4aa088f30558","keyframes":{"opacity":[0,1]},"delay":0,"duration":2000,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-e780e968-0f15-43d9-9acc-61bcefa5718e","keyframes":{"transform":["translate3d(115.55555%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] Voicebox, trained for specific tasks, exhibits in-context learning for style transfer and noise removal. To balance openness and responsibility, Meta shares audio samples and a detailed research paper.

[{"selector":"#anim-bfe5c3c5-41a0-491c-80e6-942d11663a27 [data-leaf-element=\"true\"]","keyframes":{"transform":["translate(0%, 0%) scale(1)","translate(0%, 0%) scale(1)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(.3,0,.55,1)","fill":"forwards"}] [{"selector":"#anim-6f99b393-7c32-43fb-8c19-e0decbe5aaa8","keyframes":{"opacity":[0,1]},"delay":2000,"duration":2000,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-726a085d-825f-47a6-a448-28d86c75d7b5","keyframes":{"transform":["translate3d(0px, 387.11752%, 0)","translate3d(0px, 0px, 0)"]},"delay":2000,"duration":2000,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-d82d502d-cd95-47a2-94cc-1322b33617b2","keyframes":{"opacity":[0,1]},"delay":0,"duration":2000,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] [{"selector":"#anim-eca6505d-b9dd-490e-abfa-bfe128b955db","keyframes":{"transform":["translate3d(-115.2381%, 0px, 0)","translate3d(0px, 0px, 0)"]},"delay":0,"duration":2000,"easing":"cubic-bezier(0.2, 0.6, 0.0, 1)","fill":"both"}] Discussions explore Meta's decision, considering the model's potential replication with abundant training data from audiobooks, podcasts, and broadcast archives. For safety, Meta introduces a classifier detecting synthesized speech, reaffirming its commitment to ethical AI development.

Meta's Voicebox Shines in Speech Synthesis

More Stories

Sound of Text