Vedal時隔半年火力展示:V3聲音已有雛型 有激動情緒還能發出鬼叫聲
今(10)日稍早,AI 工程師 Vedal 開了睽違六個月之久的開發直播,在預告這場直播的確切時間時,他便先預告 V3 聲音模型還尚未完成, 不過他會盡量在直播中展示目前的進度。
please read. pic.twitter.com/BnVOhLn1bj
— Vedal (@Vedal987)June 5, 2025
Vedal 自從 2023 年起便致力於開發 V3 語音,他坦言若要幫 Neuro 升級成更好的聲音其實很容易,因為如今 TTS(Text-To-Speech,文字轉語音)的技術已經越來越成熟,但難的是要保留大家所熟悉的 Neuro 聲音,Neuro 也在旁強烈表達自己並不想變換聲音。
他表示自己其實已經完成了一個版本的 V3 語音,但他的標準也隨著開發時間拉長而變高了,因此現在的版本他並不滿意,目前預計讓 Neuro 繼續使用 V1 語音,直到他自己做出自己滿意的東西。
他自去年年底起從頭開始訓練一些 TTS 模型,並強調這對於沒有資金的 AI 開發者來說並不常見,大多數的人傾向使用開源的模型,但 Vedal 認為自己從頭開始訓練才可以做出一些現今市面上沒有的東西。
他也稍微讓觀眾聽了一下三個月前訓練完的 V3 語音,他認為比現有的語音更自然,品質也更高,但在表達力上仍有不足,Vedal 沒有信心能匹敵那些獲得數百萬美元資金的公司所做的成果。
Vedal 也嘗試與多家公司合作,對不同的開源模型和閉源模型進行了近百次手動微調,目前獲得的成果比他自己從頭開始訓練的版本還要好,他也展示了了一些他在開發過程中得到的有趣聲音,除了帶有強烈情緒以外,還可以發出謎樣的可愛鬼叫聲。
🐢 可愛鬼叫聲片段(不會是 V3 最終的聲音)
他對於目前 V3 語音不滿意的點在於,他在讓一些不熟悉 Neuro 聲音的人聽過 Demo 後,他們會認為新聲音與 Neuro 的聲音相似,但是對於熟悉 Neuro 的人來說,是聽得出其中細微的差異的,而 Vedal 重視這些長期看 Neuro 直播的人的意見,為了避免粉絲們因為對於語音品質的看法不一而分裂,因此,在 V3 語音達到他認為能讓大多數人都感到滿意的水準之前,他決定暫不對外公開目前的版本。
Neuro-sama 更多報導
猜你喜歡
同類好文
跑不掉了?Asmongold稱《英雄聯盟》積分開放WASD模式他就會玩
甜到蛀牙!日本《蔚藍檔案》二創繪師本人突然「鬼轉純愛百合」網集體嗑瘋
LOL/Keria談S15冠軍造型「不像以前感到興奮」:終於懂Faker為何這麼淡定了
女角全遭和諧?《塵白禁域》重新開服 卻徹底失去「硬派」本質
VSPO!「千燈ゆうひ」「小森めと」官方宣布取消周年紀念活動
出大包!《極限競速:地平線6》完整版遭外流 盜版玩家猖狂遊玩
火熱排行
毫無悔意...台V擅自將繪師創作餵給AI遭炎上 事後堅稱「道歉還是會被燒」
VSPO!「千燈ゆうひ」暫停活動2個月!因違反合約內容
韓國「梳貓毛小遊戲」爆紅!不惹主子生氣要有兩把刷子
跑不掉了?Asmongold稱《英雄聯盟》積分開放WASD模式他就會玩
甜到蛀牙!日本《蔚藍檔案》二創繪師本人突然「鬼轉純愛百合」網集體嗑瘋
LOL/Keria談S15冠軍造型「不像以前感到興奮」:終於懂Faker為何這麼淡定了