在當(dāng)今科技飛速發(fā)展的時(shí)代,AI 在文本到語音TTS領(lǐng)域取得了令人矚目的成果。從阿里發(fā)布的 FLUX.1-Turbo-Alpha,到各種新型的 TTS 系統(tǒng),不斷刷新著人們對(duì)語音技術(shù)的認(rèn)知。
Meta 首席人工智能科學(xué)家 Yann LeCun 對(duì)人工智能威脅論表示質(zhì)疑,而特斯拉人形機(jī)器人 Optimus 現(xiàn)場(chǎng)做飲料且被證實(shí)有人遠(yuǎn)程控制。實(shí)驗(yàn)還發(fā)現(xiàn),即使少量合成數(shù)據(jù)也可能導(dǎo)致模型崩潰,規(guī)模越大越嚴(yán)重。同時(shí),AI 醫(yī)療建議存在安全隱患,上海交大團(tuán)隊(duì)則開發(fā)了相關(guān)算法和預(yù)警平臺(tái)。報(bào)告顯示,AI 服務(wù)器在全球服務(wù)器市場(chǎng)占比頗高。
眾多 TTS 系統(tǒng)各有特色。如 F5-TTS 簡化了傳統(tǒng)模型的復(fù)雜性,結(jié)合 ConvNeXt 和 DiT 提升了效果。智譜技術(shù)團(tuán)隊(duì)開源的 CogView3 系列模型能力上線“智譜清言”App。OpenAI 推出新基準(zhǔn)評(píng)估 AI 能力,Kaggle 提供多種比賽衡量參與者水平。
在 TTS 模型方面,有像 ChatTTS 這樣支持中英文對(duì)話、能生成自然流暢語音的模型,還有字節(jié)開發(fā)的 Seed-TTS,以及 Fish Speech 等,它們?cè)谡Z音質(zhì)量、屬性控制和多樣性上表現(xiàn)出色。此外,還有能克隆語音及修改音頻文本的 VoiceCraft,具有情緒控制功能的 EmotiVoice 等。
這些 TTS 系統(tǒng)不僅在功能上不斷創(chuàng)新,應(yīng)用場(chǎng)景也日益廣泛,涵蓋了有聲讀物、虛擬助手、視頻配音等多個(gè)領(lǐng)域。
點(diǎn)擊展開全文
打開APP,閱讀體驗(yàn)更佳
Copyright 2024 //m.feilys.com/ 版權(quán)所有 浙ICP備16022193號(hào)-1 網(wǎng)站地圖