声音的生成,源于万物的振动。这种振动在空气中产生波动,形成共鸣之声,再由大气的传播,最终触动人的听觉,展现出一种物理现象。
声音的三要素是响度、音调和音色。
响度与声音震动的幅度紧密相关。当我们用力发声时,鼓膜的震动幅度增大,进而产生更为响亮的声音。
音调主要受频率影响。声波的频率越高,音调也就越高。
音色则是在同样的音调(频率)和响度(振幅)下,不同乐器的独特表现。例如,钢琴和小提琴的声音虽然都可以达到同样的音调和响度,但它们的音色不同,因此我们能够轻易地区分它们。
声音的传播依赖于固体、液体和气体等介质,但传播的速度会因介质的不同而有所差异。在真空中,声音是无法传播的。
对于自然界的声音(模拟信号),我们进行采样。采样过程是根据奈奎斯特定理在时间轴上对信号进行数字化。即按照一定的时间间隔△t,在模拟信号x(t)上逐点捕捉其瞬时值。采样率越高,声音的还原度就越高,质量也就越好,但同时也会占用更多的存储空间。
量化过程则是用有限个幅度值来近似原来连续变化的幅度值,将模拟信号的连续幅度转变为具有一定间隔的离散值。
编码则是按照特定的规律,将量化后的值用二进制数字表示,再转化为二值或多值的数字信号流。这样的数字信号可以通过电缆、卫星通道等数字线路进行传输。在接收端,经过与上述模拟信号数字化过程相反的操作,再经过后置滤波,即可恢复成原来的模拟信号。这一系列数字化的过程被称为脉冲编码调制。
当我们描述一段脉冲编码调制(PCM)数据时,通常会涉及到几个关键的量化指标:采样率、位深度、字节序和声道数。
采样率指的是每秒钟采样的次数,单位为赫兹。位深度则表示用多少个二进制位来描述采样数据,通常为16bit。
关于字节序,这是指当数据类型占用的内存超过1个字节时,数据在内存中的存储顺序。为了确保数据处理的高效性,通常采用小端存储的方式。
声道数则表示支持的不同发声声音的音响数量。例如,单声道只有一个音响支持发声,而双声道则有两个。
以CD音质为例,其量化格式为2字节,采样率为44100赫兹,声道数为2。这些信息共同决定了CD的音质。计算得知,在1分钟的时间里,CD音质的存储空间占用约为10.09MB,这表明直接存储这样的音频文件其实需要相当大的存储空间。