音频的存储是一门复杂的学问。用数字记录声音面临着一大问题——速度与精度的权衡。如果用少量的信息存储声音,那么音频传输的速率会提高;而如果用大量的信息记录,精度就会下降。
实用主义的思想要求我们找到人耳对声音的最高分辨能力。并据此设计出合适的音质,以至于其信息量不大而又能让你听不出来问题。
本文主要从实用角度阐述CD音质(16bits, 44.1kHz)的必要性和充分性。
-
在第二章,我们介绍数字音频存储中的相关概念。
-
第三章我们介绍(44.1kHz)采样频率的意义。
-
第四章我们解析(16bits)量化的内涵。
-
最后一章我们简要总结全文并延申相关知识。
在自然世界里,只有模拟信号(Analog Signal)。模拟信号,其实”模拟“的就是自然世界里的事情。
学过初中物理的我们知道,如果你用麦克风记录你的歌喉,实际上是麦克风上的
振动膜
被你的声带带着振动。如此的振动,
在时间上是连续
的。
实际上,这些振动可以看成是一个
关于时间的连续函数
。而学过初中数学的我们直到,
函数的表示方法
只有三种:_______ 、_______ 和 ________
1
。
(你上网课上疯了?)
我们先讲
解析式法
:因为自然世界中的声音千奇百怪,你并不总能找到一个能对应你要记录的声波的解析式,所以我们第一个抛弃这种想法
。
但是图像法和列表法却都被我们采用过:
图像法
:最早记录声音的是爱迪生的留声机,它的本质原理可以看成是图像法——把声音(振动)刻在盘子(唱片)上。然后读取的时候再把唱针放在唱片上读出原来的振动。
(图源百度图片,希望没有侵权)
列表法
:我们知道列表法的缺点是列出来的点总是有限的,也就是你再怎么列点,也只是取了整个函数的很小一部分。但是,只要功夫深,我们就能让人有一种”嗯~,确实是连续的“感觉。
这样,我们就引出了信号与系统中的“列表法”——
采样
(Sampling)。所列表中的每一列,就是一个采集到的“样”。
列表法的结果也就是我们的
数字信号
(Digital Signal),我们存储这些数量庞大的离散的数值,来记录声音的形状。
下一章我们讲讨论列表法到底要列几个点,也即
采样频率
。
采样频率(Sampling Frequency)是一个老生常谈的话题了。
为了使数据量尽可能小,我们希望每秒钟采集的信号数尽可能少
3
;但是,我们还得同时保证采集出来的样本数尽可能多,以维持信号的
完整性
。
我们在这里讨论
完整性
时,我们更多的是讨论高频信号的保留度
——如果你的采样频率过低,你会将一个高频信号认成低频信号。设想一个例子:你的采样频率是80Hz,也就是说你每1/80秒就观察一次这个模拟信号并记录它的值。但是你采样的目标里有一个频率为81Hz的信号。通俗地讲就是,当你下一眼看回来的时候,这个信号已经跑了一圈多一点了,但你会觉得它只跑了一点点(1/80圈)
。
如下图是一个本为81Hz但在80Hz采样频率下被当作是1Hz的信号:
这样一来,我们必须舍去高于采样频率的信号,因为我们不能将它与频率内的信号区分开来。故在实操中,我们用低通滤波器(Low-pass Filter)先对模拟信号滤波,丢掉会混进低频部分的高频信号,再进行采样。
值得一提的是,新竹清华大学的刘奕汶教授称这种现象或可用作“传音入密”。即当信号的频率范围不确定的时候,被滤波器过滤的信号其实可能暗藏着真正的信息。
至此为止,我们只说明了:
采样频率必须不小于信号中最高的频率
。
然而,
奈奎斯特采样定理
(Nyquist’s Sampling Thereom)告诉我们,要完整地恢复信号,(更严格地,)采样频率还必须
大于信号中最高频率的两倍
。
奈奎斯特定理表示,如果被采样信号中有
大于采样频率一半
的信号,那么它们也会被重构成低于采样频率一半的信号,这种现象被称为“混叠”。(前面81Hz的例子也属于混叠
)。
我们都知道
人的听觉范围是20Hz~20,000Hz
,也即我们无法听到频率高于2万赫兹的声音。所以这个上限
乘上两倍
(再加上一些冗余,)就得到了我们的44100Hz. 所以理论上讲,这个采样频率保留了你生命中能听见的最“高亢”的部分(或者是最尖锐的部分,这取决于你怎么理解)。
另外,为了保证通话顺畅,
电话一般是采用8kHz的采样频率
。注意,键盘上的大字组C8(88键钢琴最高音)的频率是4186Hz. 鉴于你一般不会在电话里唱海豚音,工程师们认为8000的采样频率足够了。
尽管有学者认为人听不见的高频率也会对音质产生影响,但实打实地说,一般认为保留住 22.05kHz(44.1kHz / 2)的频率足够保证音质优秀了。
学过大学计算机(基础)的我们知道,比特(bit)的意思是0或1中的一种取值,是信息量的单位。每多一个比特,意味着信息量就翻了一番。
但为什么音乐的存储要用到比特?我们之前说声音是时间的连续函数,也就是说值域是连续的,其值有可能取到任何的有理数/无理数。但是计算机存储数据是必须要离散的,例如:C语言的int,float,double;Matlab的Single,Double等。这些存储格式都有各自的比特数,如,float 32bits; double 64bits 等。这就相当于在数轴上画上了刻度(
2
n
个刻度),计算机里的数字只能在这些刻度上取。
而把信号中连续的取值强行“掰”到给定的刻度上,就要求我们
四舍五入
。这个过程叫做
量化
(Quantization). 例如,我们用8个bits=128个刻度来刻画一个信号,如图:
四舍五入丢掉的精度,就是量化过程产生的噪声。
我们回顾一下刚才那张图里四舍五入舍去的数值:
注意,因为四舍五入的原理,这里的纵坐标是-0.5到0.5之间。
反过来理解,量化得到的结果就是:
把上面这张图的数值取相反数后加在原信号上
。其本质就是噪声
7
。
那么问题来了:我们需要精确到多少以保证噪声很小(以至于实际上我们没法听见)呢?
这里我们要引入分贝(dB)的概念。
分贝(dB)本质上是一个比值,衡量两个单位相同的数字之间的关系。比如当我们说小区里的
噪音有32分贝
,意思就是说噪声
比我们能听见的最小声音高32个标准
。
接下来我们定义这个
标准
:
声音的本质是振动,音量取决于振幅。为了使数字更好看,科学家们将两种声波振幅的比值按以下公式写成分贝数:
d
B
=
2
0
∗
l
o
g
1
0
A
2
A
1
其中A1和A2分别是两个声音的振幅,且有A1大于等于A2。
所以如果两个声音的音量相同,我们会用0dB来表示。
据美国职业安全卫生管理局(OSHA)规定,人耳最大可以承受连续8小时85分贝的声音强度,而无负面影响。就是说,我们可以近似认为人可以长时间听
比自己刚好听不见的声音大85分贝
的声音。
所以,我们的音乐设计标准就是,
让量化噪音比播放器的最大声音小85分贝以上
。接下来的重点是揭示量化位数和噪音分贝数的关系。
先上结论:
每增加1个比特的量化位数则噪音(相对最大音量)减少6dB
证明:不难看出,每增加1个比特的量化位数,则信息量翻一番,量化误差缩小一半。即噪音振幅缩减为原来的一半。故在最大音量不变的情况下,根据上面对分贝的定义,每增加1个比特,噪音会减小6dB。
接着用数学归纳法:如果只用1个比特来表示振幅,那么误差最大是最大振幅的一半,即噪音只比真实信号低6dB。得到
如果总共使用16 bits进行量化,噪音将比乐音小96dB。
换言之:能忍受96dB的乐音的你,才刚好能听见量化噪音。
在本文里,我们讨论了CD音质两个标准和其存在的意义:
而对于绝大多数人而言,44.1kHz 和 16bits 这两项标准已经能达到纯净音乐的标准了。
通过简单的计算我们我们就知道这个标准每秒钟需要传送的信息,即
比特率
是:44.1kHz * 16bits * 2 channels =
1411.2 kbps
. 换算成网速常用的表示就是 176.4 kB/s.
尽管这个信息量并不算大,但是对于速度的追求是无止境的~ 科学家和工程师们研究了许多有损和无损的压缩方法,将音频压缩到更低的比特率
9
。
所以我们的结论是:对于一般人,CD音质足以达到“好音乐”的标准。
作者 :刘熹*kitter这里是maxzone小课堂 今天给大家谈谈音频文件的采样率和
bit
率以及码率如果大家经常在电脑上听歌或者录音,那么你一定会经常看到如下的一些描述比如
44.1
khz
16
bit
128kbps那么其中的
44.1
khz
是指采样率
16
bit
是指比特率或者
bit
率128kbps这个是指的编码的码率...
指人耳可以听到的声音频率在20HZ~20
kHz
之间的声波,称为音频。
说出的声音
我们习惯了声音,但是并不知道声音是什么,声音其实就是声波吧,本质是一种波。声音是一种具有固定频段的波。
人的说话频率基本上为300Hz-3400Hz,但是人耳朵听觉频率基本上为20Hz-20000Hz。
人说出的这种具有固定频段的波,经过特定传感器的采集,可以将现实世界中的波转换成模拟电信号,然后经过采样、量化、编码的处理可以将模拟电信号转换成数字电信号。
传感器可以感受波的波动,将这种波动转变成电信号的波动,看
脉冲编码调制
模拟信号的切细规则是
CD
格式。
“采样频率为
44.1
kHz
,量化位数为
16
位”是指以每秒次执行采样,然后以位精度(从2到
16
的幂级数)读取电平。运作方式。采样也称为,但是采样首先出现,没有采样就无法进行量化。数据比特率:1秒时间内的比特数目,用于衡量音频数据单位时间内的容量大小。以
CD
的
音质
为例:而对于
CD
音质
的数据,比特率是多少呢?
那么1分钟,这类
CD
音质
的数据
需要
占据多大的存储空间呢
这世界变化真快啊,想当年
CD
横空出世,打得包括黑胶唱片,盒式录音带等模拟音乐载体满地找牙的情景,仿佛就是昨天发生的事儿一样,而如今,
CD
也行将末路,风光不再。
CD
唱片从问世之初就饱受争议,因为
CD
是数码产品,有所谓的“数码声”,使听惯了模拟系统声音的人们感觉有些不习惯,随着
CD
编解码技术的发展,早期产品的生硬的听感被逐渐改善,人们也逐渐习惯了数码音乐清晰干净的品质,可随之而来的就是更高规格的所谓数...
Perhaps the most popular sample rate used in digital audio, especially for music content, is
44.1
kHz
, or 44,100 samples per second. The short answer as to why it is so popular is simple; it was the sample rate chosen for the Compact Disc and, thus, is the
自然界中的声音非常复杂,波形极其复杂,通常我们采用的是脉冲代码调制编码,即PCM编码。PCM通过抽样、量化、编码三个步骤将连续变化的模拟信号转换为数字编码。 1、什么是采样率和采样大小(位/
bit
)? 声音其实是一种能量波,因此也有频率和振幅的特征,频率对应于时间轴线,振幅对应于电平轴线。波是无限光滑的,弦线可以看成由无数点组成,由于存储空间是相对有限的,数字编码过程中,必须对弦线的点进行
根据奈奎斯特定理(Nyquist Theorem),取样频率两倍大于被取样讯号的最大频率,即可重构出原始的被取样讯号。但实际上,重构出原始讯号所用来抗混叠(Anti-Aliasing)、消除某频率以上讯号的低通滤波器(Low Pass Filter)并非是理想的,它有个过渡频宽(Transition Band)会导致在这个频宽内的讯号仍被衰减通过。因此,如果取样频率不足于被取样讯号...
根据奈奎斯特采样理论,采样频率必须是信号最高频率的两倍,才能保证较好地还原原始信号。音频信号的频率一般达到20Hz,而人耳收听的范围大约是20Hz到23
kHz
以下。为了满足人耳的听觉要求,
需要
保留到20
kHz
左右的音频信号,20
kHz
×2 = 40
kHz
,再考虑到一定的余量,所以最终采用了
44.1
kHz
作为常见的采样率。