语音

All posts tagged 语音

之前试过 Google 的 NotebookLM AI 笔记本(能这么叫吗?)能从上传的 PDF 文档中整理出内容、生成提问,甚至于生成谈话播客内容的音频。可惜,我之前的尝试的时候,只能生成英语对话。于是我就想到,能不能用 ChatGPT 来试试看生成播客的文字稿呢?而内容,我则选择了 Wikipdia 上的条目。

我先尝试了日本 Falcom 这个条目。当然,在此之前,我告诉 ChatGPT 的指示是:



我看到别的AI能帮助用户生成播客。不过目前你不具备同时模仿2人对话配音的功能。所以我想让你尝试帮我写播客文字稿,模仿一期播客节目中的2位或多位主持人在对谈。我想以Wikipedia的页面的一个个词条作为每一期博客的谈话内容、题材,以轻松的方式向播客收听者介绍该词条的所涉及的知识。当然,如果你觉得需要多个Wikipedia页面的话,也可以。不过,我想先知道,如果你要访问Wikipedia的话,我贴给你URL就好,还是要贴给你页面内的文字内容?


此外,我也询问了 ChatGPT ,这样使用并衍生出新的别的形式的作品,是否符合 Wikipedia 的规范。得到 ChatGPT 的回答是:

继续阅读

昨天玩了一下ChatTTS这款新出的AI语音合成软件,其特点是:能够表达出自然的停顿、语气词、笑声等等。在上周得知这款软件后,我就开始形成了一个想法:那些在人们的语言中本来或许被认为是「负面要素」或「噪讯」的东西,或许在现在,却能够成为一个人的个人特征。

我想到的有:

思考停顿词。比如:「嗯……啊……这个……那个……OK」等等词汇,有些人确实努力一边思考一边交谈,就会产生这样的习惯性停顿词。

口吃。这个也是一种停顿或者短促重复的现象。

方言。这个就更值得一说了,它不仅反映了地域,还能反映出生活年代的特征。比如上海话里有「尖团音」,但据说这是一种比较老派的上海口音。我记得之前看到一档G僧东的节目,或许是《好叫好伐》,里面就提到一位年轻人叫出租车时,在电话里用带有「尖团音」的上海话与司机交谈。等到司机把车开到他面前时,却觉得眼前的小伙子与之前联络的不是同一个人:刚才接电话的明明应该是一位老先生呀?

此外,还有非母语表达错误。在学习第二语言时,总会多多少少会有一些因为学得不够扎实,或没有形成一种语言习惯。故而一旦用到了那几个外语的词汇、语法现象,人就会无意识地将声音放轻、模糊,因为没有自信。或是干脆说错了。据说汉语的母语者在说日语时,比较容易在日语的形容词与名词之间加上「の」(的)。在日语里,其实形容词与名词之间是不需要「的」。例如「美しい花」。而汉语学习者因为习惯了「美丽的花」,就容易错误地说成「美しいの花」。

以上这4点,是我想到的4个个人说话的特征。并且我想它们应该并非随机出现的,而是有一定规律的。比如思考停顿词和口吃,我想应该是总会卡在那几个发音上或者思考命题上——也就是说,有其脑部结构的生理原因。而方言与非母语表达错误,也应该是与个人学习母语经历,及个人的外语学习经历有关,也非随机出现的。

这样一来,即便ChatTTS能够产生出一些模仿人类语气词、叹息等的语言,但或许在短时间内(3~5年?)它应该还不能模仿到具体某个普通人的这些个人语言特征——因为没有足够多的训练、学习数据。这便让我想到了一天世界播客在前几期(懒得找具体是哪一期了,请见谅。大约是2024年4月或5月的某一期)谈到口语文化时提到的一个观念:一个人的声音是一个人不可剥夺的特征(残酷暴力手段除外)。

你有没有作过这样的脑内补完式的尝试?在大脑里回忆起不同人的声音,想象着用他们的声线说出同一句话,你会在脑海内听见不同的声音。

比如你想着你母亲对你说:“早上好”,及你的同学对你说“早上好”,虽然都只是由你一个人在脑内补完的,但却似乎能“听”到他们两人以各自不同的声音说话,并且他们实际上并没有说过这些话。
这样看来,我们回忆(或者说在脑中设想)的内容不仅仅是语言本身,还可以带上不同的语音。甚至于,你可以模拟出没有特定的人物对象,只有一些特征的声音,比如你想象一下“一个粗哑嗓门的男人”对你说“早上好”,那么你一定也能“听见”这个声音的吧?
于是我来YY一下:如果科学技术发展到一定水平,能把这种脑内补完而听到的“语音”采集下来,那么一个人——只要他的脑内补完功能足够强大且足够稳定——他就可以代替一群声优的工作,甚至他可以一个人输出多个人对话时的语音!

会有这么神奇的事吗?大家还是脑内补完一下吧。