TTS

欧洲菊苣 2024-08-08 16:22 18次浏览 0 条评论 taohigo.com

晚上不睡覺,早上不起床……更新一下

1. 介紹TTS,概述它是如何工作的

TTS是Text To Speech的縮寫,即“從文本到語音”,是人機對話的一部分,讓機器能夠說話。它是同時運用語言學和心理學的傑出之作,在內置芯片的支持之下,通過神經網絡的設計,把文字智能地轉化為自然語音流。TTS技術對文本文件進行實時轉換,轉換時間之短可以秒計算。【百科】

TTS(語音合成)是一種技術,可以將文字轉換為語音。它的基本原理是使用計算機程序來模擬人類的聲音,並將文字轉換為聲音,從而生成可以被人們聽到的語音信號。TTS技術可以在一些不同的領域中使用,如虛擬助手、汽車導航系統和智能手機app等。它還可以用於改善無障礙訪問性,通過將來自屏幕閱讀器的文本轉換為語音來幫助視障人士獲取網頁內容。

近幾年,TTS技術已經取得瞭長足的進步。一些新技術(如神經網絡)、處理器技術(如gpu)和新的數據集(如LibriSpeech)都為TTS技術提供瞭強有力的支持。此外,新的開源工具和庫也為開發人員提供瞭更多的方便,這使得他們能夠更容易地在不同的平臺上運行TTS應用程序。【AI合成】

2. 分享個人經驗和使用體驗

說到TTS,那我們就不難聯想到它的逆運算,將語音轉為文本的程序,語音識別,個人感覺訊飛的語音輸入法是比較強的,他還支持自定義個人語音詞庫:“上傳成功,語音服務器學習5-10s後即可生效”,隨著你輸入的文本越來越多,為個人語音詞庫添加的詞條越多,輸入法識別的整體準確度將以正相關提升。

回到討論的主題,

本人使用TTS有如下場景:

,護眼不護耳的聽小說模式

一個有趣的現象,聽書貌似能降低理解的難度,以及加強對文本的印象,拿百年孤獨舉例,那些讓人頭疼人名在機器不斷反復的朗讀當中,既然產生瞭非常簡單,直觀而且深刻的記憶,[美人兒蕾梅黛絲][奧雷裡亞諾佈恩迪亞上校][何塞阿爾卡蒂奧佈恩迪亞],(張口就來,仿佛成為某種肌肉記憶)

至於為什麼……聽覺在大腦留存的記憶時間會久一些嗎,或者他的理解機制,讓他不一樣一些嗎?當然也有可能是一個最簡單的,聽起來會慢一些,所以有更多的時間去理解。看也許可以做到一目十行,但想要一聽十行,那得多少倍速,應該隻剩下高頻尖叫瞭吧,反正我是啥也聽不懂瞭。

這大概算是某種懶人學習法吧,比起主動的用眼睛去獲取,被動的聽機器念給你聽,是更加偷懶的做法呢。[眼睛可以選擇閉上,而耳朵卻不能,無休止的幹活]

,難度介於我可以簡單看懂和需要親自朗讀才能弄懂之間的聽教材模式

標準的epub或者其他可復制粘貼的文本格式是非常適合朗讀的,但是對於數學教材裡面包含的公式沒有辦法很好的兼容epub,

閱讀器選擇靜讀天下就不錯,當然也有其他很優秀的軟件。靜讀天下支持連接TTS語音引擎,支持設置朗讀的時長。

我不確定人類的認知是否都符合這樣的規律,當一段文本[晦澀艱深的教材]通過眼睛看很難理解其含義的時候,聽一遍會讓事情變得簡單許多,或者再多花一點力氣,你讀一遍的理解程度會更好一些,我目前還沒有專門去查過相關的論文,我不知道這樣的事情對其他人是否適用,所以隻是經驗之談,暫時沒有數據支持。

更新一個最近學到的觀念,如果我們把對於認知效率的影響因素隻關註在註意這件事情上,那麼輸入速率和你思維的處理速率相當的話,聽起來會更簡單的專註或者說堅持,當然也隻是聽起來。

,TTS,是機器或者叫人工智能向外表達的一部分,文本轉語音是他說話的嘴[機器的嘴,騙人的鬼]。

【設想】

我們隨便找一本書,或者更具體一點,一本教材[程序設計導論],如果他沒有合適的電子版[epub、mobi、azw3],可以掃描一下,或者找到他的PDF版本[當然也可能是掃描版的],做OCR的光學識別[可以用ABBYY],考慮到過程會出現錯誤的文字,這些文本不妨拿大語言模型[比如ChatGPT]校對一下,我們就得到瞭這本書的文字版本,將以上得到的文本,輸入給大語言模型理解,按照指定的方式,在誤差可以忍受的范圍內[現階段的大語言模型有不小的概率會胡說八道],為他補充更多的細節信息,或者做一定程度的增刪改查,以便於理解,經過以上操作,也許我們就可以得到想要的講稿版文本(如果不滿意就反復迭代),接下來就是交給語音合成的任務瞭,最後我們將會得到,當當當當!關於這本書的完整的語音課程,其實配合上文本轉視頻也可以變成視頻課,但就目前而言,那個視頻生成效果太普通瞭,而且由於視頻素材是隨機選的,那看起來亂七八糟的。這樣的課程可以自定義教學風格嗎?應該可以。這樣的課程會比傳統的課程更有效嗎?我不知道。他有什麼意義呢?好玩。[小時候看小說,我就經常在想,有沒有把小說變成動漫的軟件,直到現在瞭,他也沒有實現]

大語言模型還可以作為你的24小時不會不厭煩的助教,任何你覺得問老師或者問同學會顯得你無知,或者嘲笑你的問題,都可以大膽的去問他,隨著語言模型向提高專業化程度發展,我覺得他會是一個很棒的教育輔助者。

push機器幹活,希望你不要產生罪惡感,目前來說他們大都還隻是程序。

實在忍不住想配一張疑犯追蹤的圖

其他補充場景

,校對文本,沒錯,你沒有聽錯。

相比於閱讀的時候看著去校對文本,聽文本更容易發現其中的錯誤。[當然必須得承認兩者所花費的時間是完全不一樣]

視覺上人們更容易,自動補全錯誤,特別是在高速閱讀的時候,這樣就達不到校驗的準確性要求瞭。作為對比,聽到一個念的古怪的詞,會非常刺耳[該不會隻有我覺得刺耳吧orz]。

,[聽小說puls]——聽論文

你問為什麼要聽論文?呃,或許,有可能,瘋狂迷戀著論文作者,要用耳朵膜拜大神輸出的每一個字符/癡漢迷弟臉為男神打call

【關於各傢的合成技術】

,百度的語音合成……最新的技術沒有體驗,之前給anki導入語音的時候用過百度的語音合成接口,機械感比較強,而且好像隻有一個聲音,現在最新的沒有試過,不做評價。

,訊飛的語音轉文字做的確實還不錯,但是文本轉語……沒有用微軟的接口之前,一直是用訊飛的離線版本,離線的效果,能聽,速度還行,就感覺是一個字一個字拼出來的。

,用瞭很久,還是感覺微軟的合成聲音是質量最好的,當然在線的服務耗流量靠網絡

,說起來知乎也有一個朗讀功能,但是隻能朗讀文章的內容,而不能朗讀逼乎問答,而且語音效果很垃圾,拼湊合成的音感超級不自然。隻能說湊合。what?知乎居然把朗讀的音頻緩存到本地,我說這破知乎怎麼這麼占內存。差評!

【喜聞樂見的軟件推薦環節】

■ TTS Server [點擊跳轉至github]

酷安大佬開發的,超級棒,有意見或者bug可以到酷安和作者提,更新速度非常快,吹爆。軟件設置的非常用心,各個地方都是細節。

本來我們就可以看書,花點力氣,我們可以找到全球最大的開放式圖書館“ Z library”,如果想要學會什麼大可以看書就好,我覺得這樣說也沒有錯,所以這樣的人工智能授課,真的會對教育有更好的正面效應嗎?我不知道,我也無法保證,在我個人的私心看來他很好玩,並且能輔助我的學習。

就像線上教育唾手可得之前,人們也在吹噓著他的普及會帶來的,改善教育至極大的公平,貌似並沒有在我們的生活中有多大的體現。人們因為希望而活著,所以不由得美化瞭未來怎樣怎樣。

更詳細的在技術上的細節討論,我剛剛在網絡檢索的時候找到瞭許多資料,在github上面也已經有許多項目可供參考和測試。再往後面的操作內容已經超出我目前的能力范疇,文章大概不會再更新,或者不會再往這些方向更新。

如果還有繼續想獲取更多信息的讀者,可以參考下面的鏈接。

開源TTS(Text To Speah)的選擇和使用

ChineseTtsTflite

tts-demo

TensorFlowASR

什麼?語音合成開源代碼不會跑,follow me!

一篇文章教你語音合成入門,訓練一個中文語音tts

這個可以算是意外的驚喜吧,其實挺好的,大傢都會做這些東西,整個“行業水平”在被推著往前走瞭。

OCR識別的模型,準確度越來越提高,開源模型也有很多小型,但是準確度還不錯的。這技術對我們來說觸碰到的門檻變得越來越低,我現在可以用一臺輕薄本跑PDF識別,漢字的識別準確度相當高,而且還能支持識別排版,當然這個識別準確度還是不如我的腦子好使哈哈哈。

現在TTS語音合成也不隻是百度和訊飛可以做,我完全可以在自己的電腦上搭一個簡單的,個性化的,自己想怎麼優化就怎麼優化的。

我想起那個時間段,電視上的廣告全都是可以說話的智能手機。我試過用藍牙來橋接移動網絡,失敗瞭,但是意外發現我那臺老機器也可以發出聲音,那感覺還挺好玩的,當然馬上就覺得失望瞭,因為機器的聲音太重瞭。

技術會被壟斷在大頭們手裡嗎?我不知道,我希望不要這樣。以及我相信人們不會放棄去尋求找到為什麼的答案,那是一種樂趣,很好玩。

咳咳,既然技術都開發好瞭,咱們就負責測評,提出要求和意見,push他們繼續幹活[共同進步]。

技術細節整活咱就不整瞭,沒那能耐,這數學已經讓我得考慮自己的發餘量瞭……我可是要成為傢裡頭發最茂盛的男人,哦耶。早睡早起,不再熬夜。你放屁……

哎呀,手滑瞭一下,點發佈瞭,這草稿還沒寫完……