昨天玩了一下ChatTTS这款新出的AI语音合成软件,其特点是:能够表达出自然的停顿、语气词、笑声等等。在上周得知这款软件后,我就开始形成了一个想法:那些在人们的语言中本来或许被认为是「负面要素」或「噪讯」的东西,或许在现在,却能够成为一个人的个人特征。
我想到的有:
思考停顿词。比如:「嗯……啊……这个……那个……OK」等等词汇,有些人确实努力一边思考一边交谈,就会产生这样的习惯性停顿词。
口吃。这个也是一种停顿或者短促重复的现象。
方言。这个就更值得一说了,它不仅反映了地域,还能反映出生活年代的特征。比如上海话里有「尖团音」,但据说这是一种比较老派的上海口音。我记得之前看到一档G僧东的节目,或许是《好叫好伐》,里面就提到一位年轻人叫出租车时,在电话里用带有「尖团音」的上海话与司机交谈。等到司机把车开到他面前时,却觉得眼前的小伙子与之前联络的不是同一个人:刚才接电话的明明应该是一位老先生呀?
此外,还有非母语表达错误。在学习第二语言时,总会多多少少会有一些因为学得不够扎实,或没有形成一种语言习惯。故而一旦用到了那几个外语的词汇、语法现象,人就会无意识地将声音放轻、模糊,因为没有自信。或是干脆说错了。据说汉语的母语者在说日语时,比较容易在日语的形容词与名词之间加上「の」(的)。在日语里,其实形容词与名词之间是不需要「的」。例如「美しい花」。而汉语学习者因为习惯了「美丽的花」,就容易错误地说成「美しいの花」。
以上这4点,是我想到的4个个人说话的特征。并且我想它们应该并非随机出现的,而是有一定规律的。比如思考停顿词和口吃,我想应该是总会卡在那几个发音上或者思考命题上——也就是说,有其脑部结构的生理原因。而方言与非母语表达错误,也应该是与个人学习母语经历,及个人的外语学习经历有关,也非随机出现的。
这样一来,即便ChatTTS能够产生出一些模仿人类语气词、叹息等的语言,但或许在短时间内(3~5年?)它应该还不能模仿到具体某个普通人的这些个人语言特征——因为没有足够多的训练、学习数据。这便让我想到了一天世界播客在前几期(懒得找具体是哪一期了,请见谅。大约是2024年4月或5月的某一期)谈到口语文化时提到的一个观念:一个人的声音是一个人不可剥夺的特征(残酷暴力手段除外)。



