音频知识详解

公司最近在深圳组建一个声学团队,主攻降噪及编码算法研究,本文由此而发,整理了一些内容。

一、引言

现实生活中,声波无处不在,有些是我们能听到,有些是我们听不到。我们听到的声音都是时间连续的,我们称为这种信号叫模拟信号。模拟信号需要进行数字化以后才能在计算机中使用。

目前我们在计算机上进行音频播放都需要依赖于音频文件。音频文件的生成过程是将声音信息采样、量化和编码产生的数字信号的过程,人耳所能听到的声音,最低的频率是从20Hz起一直到最高频率20KHZ,因此音频文件格式的最大带宽是20KHZ。根据奈奎斯特的理论,只有采样频率高于声音信号最高频率的两倍时,才能把数字信号表示的声音还原成为原来的声音,所以音频文件的采样率一般在40~50KHZ,比如最常见的采样率44.1KHZ。

二、音频基本概念

采样:波是无限光滑的,采样的过程就是从波中抽取某些点的频率值,就是把模拟信号数字化。

采样频率:单位时间内对模拟信号的采样次数。采样频率越高,声音的还原就越真实越自然,当然数据量就越大。采样频率一般共分为22.05KHz、44.1KHz、48KHz三个等级。8KHz – 电话所用采样率, 对于人的说话已经足够,22.05KHz只能达到FM广播的声音品质(适用于语音和中等品质的音乐),44.1KHz则是是最常见的采样率标准,理论上的CD音质界限,48KHz则更加精确一些(对于高于48KHz的采样频率人耳已无法辨别出来了,所以在电脑上没有多少使用价值)。

小知识点:

  • 5kHz的采样率仅能达到人们讲话的声音质量
  • 11kHz的采样率是播放小段声音的最低标准,是CD音质的四分之一
  • 22kHz采样率的声音可以达到CD音质的一半,目前大多数网站都选用这样的采样率
  • 44kHz的采样率是标准的CD音质,可以达到很好的听觉效果

采样位数(也成量化级、样本尺寸、量化数据位数):每个采样点能够表示的数据范围。采样位数通常有8bits或16bits两种,采样位数越大,所能记录声音的变化度就越细腻,相应的数据量就越大。8位字长量化(低品质)和16位字长量化(高品质),16 bit 是最常见的采样精度。

量化:将采样后离散信号的幅度用二进制数表示出来的过程称为量化,日常生活所说的量化,就是设定一个范围或者区间,然后看获取到的数据在这个条件内的收集出来。

PCM: PCM(Pulse Code Modulation),即脉冲编码调制,对声音进行采样、量化过程,未经过任何编码和压缩处理。PCM数据是最原始的音频数据完全无损,所以PCM数据虽然音质优秀但体积庞大,为了解决这个问题先后诞生了一系列的音频格式,这些音频格式运用不同的方法对音频数据进行压缩,其中有无损压缩(ALAC、APE、FLAC)和有损压缩(MP3、AAC、OGG、WMA)两种。

编码:采样和量化后的信号还不是数字信号,需要将它转化为数字编码脉冲,这一过程称为编码。模拟音频进采样、量化和编码后形成的二进制序列就是数字音频信号。

声道数:声道数是指支持能不同发声的音响的个数,它是衡量音响设备的重要指标之一。

  • 单声道的声道数为1个声道
  • 双声道的声道数为2个声道
  • 立体声道的声道数默认为2个声道
  • 立体声道(4声道)的声道数为4个声道

码率:(也成位速、比特率)是指在一个数据流中每秒钟能通过的信息量,代表了压缩质量。比如MP3常用码率有128kbit/s、160kbit/s、320kbit/s等等,越高代表着声音音质越好。MP3中的数据有ID3和音频数据组成,ID3用于存储歌名、演唱者、专辑、音轨等我们可以常见的信息。
MP3格式中的码率(BitRate)代表了MP3数据的压缩质量,现在常用的码率有128kbit/s、160kbit/s、320kbit/s等等,这个值越高声音质量也就越高。MP3编码方式常用的有两种”固定码率”(Constant bitrate,CBR)和”可变码率”(Variable bitrate,VBR)。

公式:码率 = 采样率 * 采样位数 * 声道数
例如:如果是CD音质,采样率44.1KHz,采样位数16bit,立体声(双声道),
码率 = 44.1 * 1000 * 16 * 2 = 1411200bps = 176400Bps,那么录制一分钟的音乐,大概176400 * 1 * 60 / 1024 / 1024 = 10.09MB。

音频帧:音频数据是流式的,本身没有明确的一帧帧的概念,在实际的应用中,为了音频算法处理/传输的方便,一般约定俗成取2.5ms~60ms为单位的数据量为一帧音频。这个时间被称之为“采样时间”,其长度没有特别的标准,它是根据编解码器和具体应用的需求来决定的。

三、音频均衡器参数

3.1 均衡器的调整方法

  • 超低音: 20Hz-40Hz,适当时声音强而有力。能控制雷声、低音鼓、管风琴和贝司的声音。过度提升会使音乐变得混浊不清
  • 低音: 40Hz-150Hz,是声音的基础部份,其能量占整个音频能量的70%,是表现音乐风格的重要成份。适当时,低音张弛得宜,声音丰满柔和,不足时声音单薄,150Hz,过度提升时会使声音发闷,明亮度下降,鼻音增强
  • 中低音: 150Hz-500Hz,是声音的结构部分,人声位于这个位置,不足时,演唱声会被音乐淹没,声音软而无力,适当提升时会感到浑厚有力,提高声音的力度和响度。提升过度时会使低音变得生硬,300Hz处过度提升3-6dB,如再加上混响,则会严重影响声音的清晰度
  • 中音: 500Hz-2KHz,包含大多数乐器的低次谐波和泛音,是小军鼓和打击乐器的特征音。适当时声音透彻明亮,不足时声音朦胧。过度提升时会产生类似电话的声音
  • 中高音: 2KHz-5KHz,是弦乐的特征音(拉弦乐的弓与弦的摩搡声,弹拔乐的手指触弦的声音某)。不足时声音的穿透力下降,过强时会掩蔽语言音节的识别
  • 高音: 7KHz-8KHz,是影响声音层次感的频率。过度提升会使短笛、长笛声音突出,语言的齿音加重和音色发毛
  • 极高音: 8KHz-10KHz 合适时,三角铁和立*的金属感通透率高,沙钟的节奏清晰可辨。过度提升会使声音不自然,易烧毁高频单元

3.2 平衡悦耳的声音

  • 150Hz以下(低音)应是丰满、柔和而富有弹性
  • 150Hz-500Hz(中低音)应是浑厚有力百不混浊
  • 500Hz-5KHz(中高音)应是明亮透彻而不生硬
  • 5KHz以上(高音)应是纤细,园顺而不尖锐刺耳

整个频响特性平直时:声音自然丰满而有弹性,层次清晰园顺悦耳。频响多峰谷时:声音粗糙混浊,高音刺耳发毛,无层次感扩声易发生反馈啸叫。

四、音频编码

音频通常会涉及封装格式及编码,有些人可能不好理解,这里打个比方:封装格式和编码的关系,就是酒瓶与酒的关系差不多,而播放器就是开酒器。为了可以喝更好的酒,最好先了解酒是什么酒,酒瓶是什么酒瓶,怎么使用开酒器开酒瓶,码率或者可以比喻做酒的原料。对于同一个酒瓶和做同一种酒的情况下,如果原料太少,又要要求用酒把酒瓶灌满,此时只好兑水了,酒的品质就会变差了。然而,如果原料太多,又会造成原料浪费。所以要做好酒,我们就需要充足的原料。

4.1 PCM编码(原始数字音频信号流)

类型:Audio
制定者:ITU-T
所需频宽:1411.2 Kbps
特性:音源信息完整,但冗余度过大
优点:音源信息保存完整,音质好
缺点:信息量大,体积大,冗余度过大
应用领域:voip
版税方式:Free
备注:在计算机应用中,能够达到最高保真水平的就是PCM编码,被广泛用于素材保存及音乐欣赏,CD、DVD以及我们常见的WAV文件中均有应用。因此,PCM约定俗成了无损编码,因为PCM代表了数字音频中最佳的保真水准,并不意味着PCM就能够确保信号绝对保真,PCM也只能做到最大程度的无限接近。要算一个PCM音频流的码率是一件很轻松的事情,采样率值×采样大小值×声道数bps。一个采样率为44.1KHz,采样大小为16bit,双声道的PCM编码的WAV文件,它的数据速率则为 44.1K×16×2 =1411.2Kbps。我们常见的Audio CD就采用了PCM编码,一张光盘的容量只能容纳72分钟的音乐信息。

4.2 WMA(Windows Media Audio)

类型:Audio
制定者:微软公司
所需频宽:320~112kbps(压缩10~12倍)
特性:当Bitrate小于128K时,WMA几乎在同级别的所有有损编码格式中表现得最出色,但似乎128k是WMA一个槛,当Bitrate再往上提升时,不会有太多的音质改变。
优点:当Bitrate小于128K时,WMA最为出色且编码后得到的音频文件很小。
缺点:当Bitrate大于128K时,WMA音质损失过大。WMA标准不开放,由微软掌握。
应用领域:voip
版税方式:按个收取
备注:WMA的全称是Windows Media Audio,它是微软公司推出的与MP3格式齐名的一种新的音频格式。由于WMA在压缩比和音质方面都超过了MP3,更是远胜于RA(Real Audio),即使在较低的采样频率下也能产生较好的音质,再加上WMA有微软的Windows Media Player做其强大的后盾,所以一经推出就赢得一片喝彩。

4.3 MPEG-1 audio layer 1

类型:Audio
制定者:MPEG
所需频宽:384kbps(压缩4倍)
特性:编码简单,用于数字盒式录音磁带,2声道,VCD中使用的音频压缩方案就是MPEG-1层Ⅰ。
优点:压缩方式相对时域压缩技术而言要复杂得多,同时编码效率、声音质量也大幅提高,编码延时相应增加。可以达到“完全透明”的声音质量(EBU音质标准)
缺点:频宽要求较高
应用领域:voip
版税方式:Free
备注:MPEG-1声音压缩编码是国际上第一个高保真声音数据压缩的国际标准,它分为三个层次:

  • 层1(Layer 1):编码简单,用于数字盒式录音磁带
  • 层2(Layer 2):算法复杂度中等,用于数字音频广播(DAB)和VCD等
  • 层3(Layer 3):编码复杂,用于互联网上的高质量声音的传输,如MP3音乐压缩10倍

4.4 MUSICAM(MPEG-1 audio layer 2,即MP2)

类型:Audio
制定者:MPEG
所需频宽:256~192kbps(压缩6~8倍)
特性:算法复杂度中等,用于数字音频广播(DAB)和VCD等,2声道,而MUSICAM由于其适当的复杂程度和优秀的声音质量,在数字演播室、DAB、DVB等数字节目的制作、交换、存储、传送中得到广泛应用。
优点:压缩方式相对时域压缩技术而言要复杂得多,同时编码效率、声音质量也大幅提高,编码延时相应增加。可以达到“完全透明”的声音质量(EBU音质标准)
应用领域:voip
版税方式:Free
备注:同MPEG-1 audio layer 1

4.5 MP3(MPEG-1 audio layer 3)

类型:Audio
制定者:MPEG
所需频宽:128~112kbps(压缩10~12倍)
特性:编码复杂,用于互联网上的高质量声音的传输,如MP3音乐压缩10倍,2声道。MP3是在综合MUSICAM和ASPEC的优点的基础上提出的混合压缩技术,在当时的技术条件下,MP3的复杂度显得相对较高,编码不利于实时,但由于MP3在低码率条件下高水准的声音质量,使得它成为软解压及网络广播的宠儿。
优点:压缩比高,适合用于互联网上的传播
缺点:MP3在128KBitrate及以下时,会出现明显的高频丢失
应用领域:voip
版税方式:Free
备注:同MPEG-1 audio layer 1

4.6 AAC(Advanced Audio Coding ,先进音频编码)

类型:Audio
制定者:MPEG
所需频宽:96-128 kbps
特性:AAC可以支持1到48路之间任意数目的音频声道组合、包括15路低频效果声道、配音/多语音声道,以及15路数据。它可同时传送16套节目,每套节目的音频及数据结构可任意规定。
AAC主要可能的应用范围集中在因特网网络传播、数字音频广播,包括卫星直播和数字AM、以及数字电视及影院系统等方面。AAC使用了一种非常灵活的熵编码核心去传输编码频谱数据。具有48个主要音频通道,16 个低频增强通道,16 个集成数据流, 16 个配音,16 种编排。
优点:支持多种音频声道组合,提供优质的音质
缺点:-
应用领域:voip
版税方式:一次性收费
备注:AAC于1997年形成国际标准ISO 13818-7。先进音频编码(Advanced Audio Coding–AAC)开发成功,成为继MPEG-2音频标准(ISO/IEC13818-3)之后的新一代音频压缩标准。
在MPEG-2制订的早期,本来是想将其音频编码部分保持与MPEG-1兼容的。但后来为了适应演播电视的要求而将其定义成为一个可以获得更高质量的多声道音频标准。理所当然地,这个标准是不兼容MPEG-1的,因此被称为MPEG-2AAC。换句话说,从表面上看,要制作和播放AAC,都需要使用与MP3完全不同的工具。

4.7 GSM-AMR(Adaptive Multi-Rate)

类型:Audio
制定者:飞利浦
所需频宽:8Kbps(4.75 Kbps~12.2 Kbps)
特性: 可以对语音进行替换和消音,平滑噪音,支持间断式传输,对语音进行动态侦查。能在各种网络条件下提供优质的语音效果。
优点:音质出色
缺点:
应用领域:GSM
版税方式:按个收费
备注:GSM-ASM是一种广泛使用在GPRS和W-CDMA网络上的音频标准。在规范ETSI GSM06.90中对GSM-AMR进行了定义。AMR语音编码是GSM 2+和WCDMA的默认编码标准,是第三代无线通讯系统的语音编码标准。GSM-AMR标准基于ACELP(代数激励线性预测)编码。它能在广泛的传输条件下提供高品质的语音效果。

4.8 EVRC(Enhanced Variable Rate Coder,增强型可变速率编码器)

类型:Audio
制定者:美国Qualcomm通信公司(即高通)
所需频宽:8Kbps或13Kbps
特性:支持三种码率(9.6 Kbps, 4.8 Kbps 和 1.2 Kbps),噪声抑制,邮件过滤。能在各种网络条件下提供优质的语音效果。
优点:音质出色
缺点:
应用领域:CDMA
版税方式:按个收费
备注:EVRC编码广泛使用于CDMA网络。EVRC标准遵循规范TIA IS-127的内容。EVRC编码基于RCELP(松弛码激励线性预测)标准。该编码可以以Rate 1(171bits/packet),Rate 1/2(80bits/packet)或是Rate 1/8(16bits/packet)的容量进行操作。在要求下,它也能产生空包(0bits/packet)。

4.9 ADPCM(自适应差分PCM)

类型:Audio
制定者:ITU-T
所需频宽:32Kbps
特性:ADPCM(adaptive difference pulse code modulation)综合了APCM的自适应特性和DPCM系统的差分特性,是一种性能比较好的波形编码。它的核心想法是:
利用自适应的思想改变量化阶的大小,即使用小的量化阶(step-size)去编码小的差值,使用大的量化阶去编码大的差值;
使用过去的样本值估算下一个输入样本的预测值,使实际样本值和预测值之间的差值总是最小。
优点:算法复杂度低,压缩比小(CD音质>400kbps),编解码延时最短(相对其它技术)
缺点:声音质量一般
应用领域:voip
版税方式:Free
备注:ADPCM (ADPCM Adaptive Differential Pulse Code Modulation), 是一种针对 16bit (或者更高) 声音波形数据的一种有损压缩算法, 它将声音流中每次采样的 16bit 数据以 4bit 存储, 所以压缩比 1:4. 而压缩/解压缩算法非常的简单, 所以是一种低空间消耗,高质量声音获得的好途径。