谈谈语音识别与人声的物理原理，以及真声假声头声混声等概念

来自：更新日期：早些时候

~ 继续最近的话题。知乎有不少语音识别的文章，但主要是黑箱子端对端，没涉及背后的物理过程。

其实，人类的发声过程很有意思，在此我们从物理的第一性原理谈谈这些问题，也可以更好地理解唱歌中涉及的各种名词。

1. 频谱，与元音、辅音的来源

声音来自于振动。重要的方法是频谱分析（傅里叶分析），就是把声音拆成各个频率组分：

那么请看下面的三张频谱图，来自于我写的微信小程序“声音精灵”，大家在微信可以搜到：

这是“MA”音（竖格对应的频率是20到20000Hz）：

这是“MI”音：

这是“MU”音：

这几个音的音高（基频，对应的是红圈标记的峰中最左边的峰）差不多，都是130Hz左右，但为什么我们可以分辨出是不同的音？其实是来自于声音的共振峰（formant）的位置区别。

这里的元音A在700Hz和1400Hz特别高，元音I在2000Hz和3500Hz特别高，元音U的峰不明显（因为对应的频率比较低）。大家感兴趣可以测测自己的共振峰频率，每个人会不一样，但都会差不多。

如下图所示，共振峰的区别，是因为我们在发不同元音时，会灵活地变动各个腔体的体积和形状，从而改变共振的情况，塑造出想要的频谱。这一切都是我们下意识完成的，可见人的发声是可以千变万化的。

声带本身振动产生的频谱，是很简单的，但经过腔体的塑造就可以形成不同的元音，甚至不同的音色。

上面分析的是元音。辅音是如何来的呢？辅音是来自于发声在时间上的变化，需要在声谱图（spectrogram）才能看见，熟手可以直接从声谱图看出在说什么：

语音识别，自然也可以在这样的声谱图上完成。不过算声谱图的计算量比较大，所以大家会用一些偷懒的方法，或者直接在原始波形上进行识别。

2. 真声，假声，头声，混声，边缘化，咽音，闭合

各种唱歌的发声概念，在频谱图上也有清晰的反应。小程序“微信精灵”有一个“真实度”评分，反应的就是泛音的多少。

通常来说，真实度越高，发声的质量就越高。当然，有时我们也会用偏假的声音实现特殊的感情效果。

真声的特点是泛音多（高峰多），频率低。推荐大家体会一下把真实度唱到2以上的感觉，这可以称为较好的“胸声”，通常需要稍大一些的音量才能做到，请离手机远一些，保证录音的音量不超限：

假声的特点是泛音少（高峰少），所以“真实度”低。例如，这是纯假声的高音“A”，只有基频和“A"的共振峰较高：

如果更高一些，就连“A”的共振峰都消失了，“真实度”极低，因为共振峰必须是基频的倍数，659*2已经超过了“A”对应的共振峰的高度：

怎么把假音变得更“实”？前面说过，“i”对应的共振峰很高，所以许多初级高音爱好者会研究把“i”这个音加进假声，让声音更“实”。这属于声带的边缘化技术。例如这是一个加了“i”的假声，在后面的峰翘起来：

边缘化的极端情形是“咽音”，听上去有点像唱戏，民族唱法会用到，在流行歌中也可以适量加。不过，虽然这些方法会令假声“实”一些，但还是显得尖锐，单靠这些方法是无法实现混声。

混声，是练声的重要目标，可以让高音仿佛没有换声点，而且音色优美纯净又有厚度，例如近年林俊杰的混声技术很好，李健轻唱的音色也是混声。

举例，在下面的视频中，从40秒开始的高音的部分，林俊杰的声音非常顺滑，令女声的声音都相对显得粗糙了，这就是典型的混声。

混声高音的频谱如下图，泛音和真声一样丰富（有多个很高的峰），而且频率可以很高（这是安卓机录的，可以看到两端的高低音被砍掉了，建议大家用iPhone录音）：

优质的混声，“真实度”评分可以达到2以上。如果你能做到，就一定是“闭合”高手。

因为混声的发声原理是通过气流的伯努利效应、肌肉的控制、腔体的配合，将声带几乎闭合，让嗓子成为像笛/管一般的乐器。乐器的特点就是泛音丰富，声音悠扬动听。

听上去简单，实际是很有难度的。如果你能做到，会有“在嗓子里找到了一个支点的感觉”，然后在没到换声点的时候就可以转成混声，从而可以轻松地直接通过换声点，实现音色的统一，且音色的听感很好。

比混声简单的是头声。头声的频率更高，泛音没那么丰富，但也不错：

最后还有哨音（海豚音）。哨音也是通过闭合实现，如果看频谱是假声，不过这可能只是因为基频太高，所以难以出现共振峰。哨音的频率可以高破天际：

3. 总结

以上我们介绍了常用的发声知识。大家可在微信搜索“声音精灵”小程序，直观地了解自己的发声属于什么类型，发声的质量如何。

未来还会加入AI辅助练声，和更多有趣的功能（例如与歌手/他人的声音比对，与歌曲比对，找到问题所在）。大家如果觉得好用，请多多推荐给朋友吧。

谈谈语音识别与人声的物理原理，以及真声假声头声混声等概念视频

相关评论：

14746864237：最新版格式工厂的人声分离在哪里?
何艺彭或者需要提取人声以进行后续处理时，人声分离功能可以大大提高工作效率。它在音乐制作、语音识别、语音增强等领域都有广泛的应用。除了人声分离，格式工厂还提供了许多其他音频处理功能，如音频转码、音频剪辑、音频合并等。这些功能的结合能够满足用户对音频处理的各种需求，提供更加便捷和高效的音频处理体验。

14746864237：视频如何去掉人声保留背景音乐
何艺彭在抖音APP上传视频后，点击选择音乐；在弹出的音乐窗口点击音量；可以调整原声和配乐的音量，将原声调到0即可消除原声。音乐是一种艺术形式和文化活动，其媒介是按时组织的、有规律的声波(机械波的一种)。怎么能够真正做到去除视频里的人声,保留背景音乐用视频音频分离软件把音频导出出来之后，再运行消除人声...

14746864237：华为FreeBuds3无线耳机功能介绍华为FreeBuds3的ANC智能降噪等特色功能...
何艺彭搭载骨传导传感器的华为FreeBuds 3此次就推出了全新的骨声纹识别功能,将骨传导+声纹识别投入实际应用。了解了原理,接下来就是实战操作。一起来实际体验下华为FreeBuds 3搭配全新的骨声纹识别,究竟都有哪些用途和怎样的使用体验。三、骨声纹体验:语音识别+语音控制安全与方便二者兼顾使用华为FreeBuds 3和一台手机,...

14746864237：分离背景音乐和人声的软件
何艺彭1、《伴奏》这款软件是可以做到将人声和伴奏分离的，它主要用于分离人声。由于这个软件系统的强大，可以将人声分离到无损音质，无论是美声唱法还是民族唱法，形容这款软件去分离的话，都可以保证还原度极高。2、《5sing原创音乐》如果用户使用了这款APP，是可以做到将伴奏和人声分开的。这款APP的伴奏分离...

14746864237：怎么把视频里的人声与背景音乐分开
何艺彭把视频里的人声与背景音乐分开的步骤如下：1、把自己所需处理的视频拉到Au轨道上。2、按Ctrl+A键选中音频。3、点击菜单栏的效果，选择立体声声像，点击提取中置声道。4、点击预设，选择移除人声，就保留着伴奏。5、点击预设，选择无伴奏和声来降低伴奏声音，增强人声，选好后点应用。6、生成新的音频...

14746864237：语音控制智能家居优缺点
何艺彭加之中国的语系、方言、口音相当多，再加上中文的多语义性，导致语音识别率能力不高。同时，在语义识别上，也存在上下文的关联带来识别的学习难、定位难和建立模型难等问题。智能家居语音控制原理语音控制技术语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术，与机器进行语音...

14746864237：au分离背景音乐和人声的方法是什么?
何艺彭au分离背景音乐和人声具体操作方法如下：电脑：华为笔记本。系统：win10。软件：Adobe Audition CS6。1、首先，把自己需要处理的那首歌copy到桌面，再拉到Au轨道上。2、然后Ctrl+A选中音频。3、然后点击效果-立体声声像-提取中置声道。4、在预设中选择移除人声，就保留着伴奏。5、在预设中选择无伴奏和声...

14746864237：mp3中的背景音乐和人声分离?用什么软件
何艺彭世界上迄今为止还没有一款软件，能够完美的从已经和乐队多声部合成并含有人声的立体声音频中分离出人声和乐队的分轨。目前排名比较靠前的是HIT·n·MIX：可以将立体声音频（包括mp3）里的乐器和人声的音符识别出来，并能移动和分离。操作和简单，导入音频（包括mp3）就分离声部,每个声部还有专门不同的...

14746864237：小米手机识别不了人声
何艺彭可以尝试升级一下手机系统或者清除语音助手的数据拓展资料:语音识别不能用了可能是以下原因：1、手机缺少语音引擎导致不能用，可以进入手机自带的应用商店，搜索下载一款语音引擎，并安装到手机上即可。2、语音识别软件未获取录音权限导致不能使用，可以进入手机的安全中心——授权管理——应用权限管理——在...

14746864237：iphone手机麦克风的陈列用到几个麦克风?
何艺彭不仅如此，麦克风阵列处理信号的质量还无法定义标准。因为当前的语音识别基本都是深度学习训练的结果，而深度学习有个局限就是严重依赖于输入训练的样本库，若处理后的声音与样本库不匹配则识别效果也不会太好。从这个角度应该非常容易理解，物理世界的信号处理也并非越是纯净越好，而是越接近于训练样本库的...

喜物网dongwu.xikan.tv

谈谈语音识别与人声的物理原理，以及真声假声头声混声等概念

相关主题精彩