昨天玩了一下ChatTTS这款新出的AI语音合成软件,其特点是:能够表达出自然的停顿、语气词、笑声等等。在上周得知这款软件后,我就开始形成了一个想法:那些在人们的语言中本来或许被认为是「负面要素」或「噪讯」的东西,或许在现在,却能够成为一个人的个人特征。
我想到的有:
思考停顿词。比如:「嗯……啊……这个……那个……OK」等等词汇,有些人确实努力一边思考一边交谈,就会产生这样的习惯性停顿词。
口吃。这个也是一种停顿或者短促重复的现象。
方言。这个就更值得一说了,它不仅反映了地域,还能反映出生活年代的特征。比如上海话里有「尖团音」,但据说这是一种比较老派的上海口音。我记得之前看到一档G僧东的节目,或许是《好叫好伐》,里面就提到一位年轻人叫出租车时,在电话里用带有「尖团音」的上海话与司机交谈。等到司机把车开到他面前时,却觉得眼前的小伙子与之前联络的不是同一个人:刚才接电话的明明应该是一位老先生呀?
此外,还有非母语表达错误。在学习第二语言时,总会多多少少会有一些因为学得不够扎实,或没有形成一种语言习惯。故而一旦用到了那几个外语的词汇、语法现象,人就会无意识地将声音放轻、模糊,因为没有自信。或是干脆说错了。据说汉语的母语者在说日语时,比较容易在日语的形容词与名词之间加上「の」(的)。在日语里,其实形容词与名词之间是不需要「的」。例如「美しい花」。而汉语学习者因为习惯了「美丽的花」,就容易错误地说成「美しいの花」。
以上这4点,是我想到的4个个人说话的特征。并且我想它们应该并非随机出现的,而是有一定规律的。比如思考停顿词和口吃,我想应该是总会卡在那几个发音上或者思考命题上——也就是说,有其脑部结构的生理原因。而方言与非母语表达错误,也应该是与个人学习母语经历,及个人的外语学习经历有关,也非随机出现的。
这样一来,即便ChatTTS能够产生出一些模仿人类语气词、叹息等的语言,但或许在短时间内(3~5年?)它应该还不能模仿到具体某个普通人的这些个人语言特征——因为没有足够多的训练、学习数据。这便让我想到了一天世界播客在前几期(懒得找具体是哪一期了,请见谅。大约是2024年4月或5月的某一期)谈到口语文化时提到的一个观念:一个人的声音是一个人不可剥夺的特征(残酷暴力手段除外)。
要是针对训练下应该就可以了吧,这种好像没什么技术上的困难。(笑)
既然能被训练,那就从平时就要注意,尽量少讲个人的语音发到网上咯。
就像现在专家建议个人在拍摄「Yeah〜」手势的时候,注意应该避免将大拇指过于清晰的照片发到网上,可能泄漏指纹。
以后个人的说话习惯、特征等「声纹」(<-可以这么说吗?)也应该要注意保护起来咯。 其实,据说有些输入法还能记录个人的打字习惯(记录本地打字习惯后上传到网上)。我再举个更古老的,计算机诞生之前的例子,就是用文风、用词等分析法去分析《红楼梦》后面的几回(忘了,好像是80回以后?)是不是原作者曹雪芹所写。这些也都是会泄漏个人信息特征的指标。
诈骗犯先找你多多交流,
然后根据你的发言针对训练,
ai配音,ai换脸,针对学习个人语言特征,
以后和家里人要商量暗号了,否则以后打视频电话都不能确定是不是我了。