【随便写写的音频专栏】六、简单的AI语音合成混音案例分析

来源: 哔哩哔哩

前言

在看这篇之前,希望你已经看过前面的几篇内容,了解基本的操作,但并不需要你了解的特别深入,你可以通过之后的一些案例来进一步学习。此次分析的工程是我之前做的一个简单的AI语音合成视频。需要注意的是:AI合成的语音与传统的人声干声的混音略有不同,下面会提及。链接如下:

/video/BV1JX4y1s7dx


(资料图)

一、AI合成与假立体声(选看)

单声道、双声道和全景声是什么:

对声音的体积感的探索由来已久,最早可以追寻至文艺复兴时期,威尼斯乐派通过在建筑内将合唱团分为左右两组,从而借助建筑的回声达到立体声的效果。在此之前的演出均是将合唱团安排在正中间,其声音的立体感便大打折扣。

而对于现代的回放设备,同样经历了一个由单声道到双声道,最后发展出了现在的全景声。我想你应该已经理解了单声道和双声道的意思,单声道只有一个声音在正中间播放双声道有两个声音在左右大概各30度的位置播放

在这一基础上继续发展,便有了、等声道的360度环绕声,以及最低声道标准的全景声。这里的小数点表达的是分割符的意思,并不是小数,指的是音箱数量,即环绕一圈的5只音箱和1个低音音箱构成的环绕声系统,即环绕一圈的7只音箱和1只低音音箱和头顶的2只音箱构成的全景声系统。

近几年,厂家开始推出全景声制作的相关插件、渲染器,使全景声混音真正可行性,并且因为苹果对于空间音频的推广,在国外全景声混音作品日益增加。但遗憾的是,全景声在目前国内的市场认可度并不高,国内相当多的混音师对全景声技术也并不感冒,所以你甚至很难在网络上找到全景声混音的相关内容。

假立体声是什么:

前面提到立体声是由双声道构建的,但并不是双声道就一定会有很强的立体感。用两个单声道的音频同样可以做成立体感,这就是被称为假立体声的手法。其声学原理在于:信号差,即左右声道的信号差越大,立体感越强

也就是说,基于这个原理,将两轨单声道音频稍微各往左右打一点,然后扩大两者之间的信号差即可,这也是几乎所有的image声像类效果器的基本原理。

给AI语音合成的一些建议(选看):

在这个视频中,我使用的是称为RVC变声器的技术,它可以加载人声音色,再通过给它的人声干声推理出新的人声音频。

干声提取与处理:

我使用的是UVR5来提取人声,但提取出的人声不能直接使用,因为仍然会混有很大的混响,会影响AI模型的推理。所以需要使用去混响插件,此外我还用EQ做了高切(保证人声的主要频率范围完整即可,并且用门限器去除产生的杂音。据我实践得出的结论,对于很多AI模型而言,干音的高频会极大的干扰其推理的效果,但高切后推理出的音频并不会缺失高频。

假立体声:

用AI合成出来的音频为单声道,而推理过程会需要提供一些参数,所以提供微调这些参数,就可以得到两个天然存在信号差的单声道音频。然后通过调整其声像,就可以得到立体感十足的声音了。

这个做法目前看来应该是b站首发,并不是说假立体声是什么新鲜的手法,而是指的我所见过的绝大多数AI语音合成作品,其声音都是中置的单声道而缺乏立体感。

值得一提的是,立体感以及声音的宽度并非越大越好,你当然可以通过调整伴奏,来为人声让出更多的空间。但是最重要的是人声要和伴奏契合

二、手术EQ与clip gain(必看)

希望你已经看到eq扫频和自动化的内容了。clip gain则是对音频本身的音量包络线进行处理,控制音量不要忽高忽低,更好进入地压缩。值得一提的是,这种做法调整的音量会经过该轨道所有的效果器,而自动化是在经过了效果器后再调整音量。

对声音中不好听的频段,可以通过扫频的方式确定并衰减它,这就是常说的手术eq,因为就像是在做一些精细的摘除手术一样。很多多段的eq插件也是做这个用的,因为往往会有多个频段需要去调整,一般三、四段eq就足够了。

三、伴奏的人声让位(必看)

人声让位在这类混音中可以说是最重要的手法了。有多种方式可以让伴奏为人声空出位置,比如在时间、响度、频率上,你可以对伴奏在人声的重要频率上进行衰减(可以通过侧链再用eq match的功能快速寻找到这些频段),也可以通过侧链压缩的方式在时间和响度上对人声进行避让。

四、人声eq与压缩(必看)

传统做法通常会先用eq,再用压缩,因为你在eq中改变的虽然是某个频段的音量,但还是会影响整体输出的音量大小,所以接下来用压缩控制音量就显得是一件十分自然的事情。但实际上在数字时代,daw完全可以先压缩再用eq,虽然这并不常用。

五、总线的处理(选看)

虽然这个视频并没有在总线做什么,但其实可以在总线上稍微做一下eq和染色等,比如前一个视频当中,我在总线上加了一个磁带模拟的效果器。

对于这类视频,在调整好伴奏和人声的比例后,可以通过限幅器将响度提升至-14lufs。当然也可以略大一些,但我一般并不建议上次b站的视频响度超过-10lufs。

封面来源:重返未来1999

标签:

精彩放送

热文