数字音频基础知识

帖子详情

第一章数字音频基础知识
主要内容
声音基础知识
认识数字音频
数字音频专业知识
第1节声音基础知识
1.1 声音的产生
声音是由振动产生的。物体振动停止，发声也停止。当振动波传到人耳时，人便听到了声音。
人能听到的声音，包括语音、音乐和其它声音（环境声、音效声、自然声等），可以分为乐音和噪音。
乐音是由规则的振动产生的，只包含有限的某些特定频率，具有确定的波形。
噪音是由不规则的振动产生的，它包含有一定范围内的各种音频的声振动，没有确定的波形。
1.2 声音的传播
声音靠介质传播，真空不能传声。
介质：能够传播声音的物质。
声音在所有介质中都以声波形式传播。
音速
声音在每秒内传播的距离叫音速。
声音在固体、液体中比在气体中传播得快。
15ºC 时空气中的声速为340m/s 。
1.3 声音的感知
外界传来的声音引起鼓膜振动经听小骨及其他组织传给听觉神经，听觉神经再把信号传给大脑，这样人就听到了声音。
双耳效应的应用：立体声
人耳能感受到（听觉）的频率范围约为20Hz~
20kHz，称此频率范围内的声音为可听声(audible sound)或音频(audio)，频率<20Hz声音为次声，频率>20kHz声音为超声。
人的发音器官发出的声音（人声）的频率大约是80Hz～3400Hz。人说话的声音（话音voice / 语音speech）的频率通常为300Hz～3000 Hz（带宽约3kHz）。
传统乐器的发声范围为16Hz (C2)～7kHz(a5)，如钢琴的为27.5Hz (A2)～4186Hz(c5)。
1.4 声音的三要素
声音具有三个要素：
音调、响度（音量/音强）和音色
人们就是根据声音的三要素来区分声音。

音调（pitch ）
音调：声音的高低（高音、低音），由“频率”（frequency）决定，频率越高音调越高。
声音的频率是指每秒中声音信号变化的次数，用Hz 表示。例如，20Hz 表示声音信号在1 秒钟内周期性地变化20 次。
高音：音色强劲有力，富于英雄气概。擅于表现强烈的感情。
低音：音色深沉浑厚，擅于表现庄严雄伟和苍劲沉着的感情。
响度（loudness ）
响度：又称音量、音强，指人主观上感觉声音的大小，由“振幅”（amplitude）和人离声源的距离决定，振幅越大响度越大，人和声源的距离越小，响度越大。（单位：分贝dB）
音色（music quality）
音色：又称音品，由发声物体本身材料、结构决定。
每个人讲话的声音以及钢琴、提琴、笛子等各种乐器所发出的不同声音，都是由音色不同造成的。

1.5 声道
声道（sound channel / track）是分开录音然后结合起来以便同时听到的一段声音。
早期的声音重放（playback/ reproduction ）技术落后，只有单一声道（mono / monophony ），只能简单地发出声音（如留声机、调幅AM 广播）；
后来有了双声道的立体声（stereo ）技术（如立体声唱机、调频FM 立体声广播、立体声盒式录音带、激光唱盘CD-DA ），利用人耳的双耳效应，感受到声音的纵深和宽度，具有立体感。
现在又有了各种多声道的环绕声（surround sound）重放方式（如4.1、5.1、6.1、7.1声道），将多只喇叭（扬声器speaker）分布在听者的四周，建立起环绕聆听者周围的声学空间，使听者感受到自己被声音包围起来，具有强烈的现场感（如电影院、家庭影院、DVD-Audio、SACD、DTS-CD、HDTV）。
第2节认识数字音频
2.1 模拟信号
音频信号是典型的连续信号，不仅在时间上是连续的，而且在幅度上也是连续的。在时间上“连续”是指在任何一个指定的时间范围里声音信号都有无穷多个幅值；在幅度上“连续”是指幅度的数值为实数。
我们把在时间（或空间）和幅度上都是连续的信号称为模拟信号(analog signal)。
2.2 数字信号
在某些特定的时刻对这种模拟信号进行测量叫做采样(sampling)，在有限个特定时刻采样得到的信号称为离散时间信号。采样得到的幅值是无穷多个实数值中的一个，因此幅度还是连续的。把幅度取值的数目限定为有限个的信号就称为离散幅度信号。
我们把时间和幅度都用离散的数字表示的信号就称为数字信号(digital signal)。
从模拟信号到数字信号的转换为模数转换，记为A/D(Analog-to-Digital)；
从数字信号到模拟信号的转换为数模转换，记为D/A(Digital-to-Analog)。
第3节
数字音频专业知识
人们日常生活听到的各种声音信息是典型的连续信号，它不仅在时间上连续，而且在幅度上也连续，我们称之为模拟音频。在数字音频技术产生之前，我们只能用磁带或胶木唱片来存储模拟音频，随着技术的发展，声音信号逐渐过渡到了数字化存储阶段，可以用计算机等设备将它们存储起来。
3.1 模拟音频的数字化
对于计算机来说，处理和存储的只可以是二进制数，所以在使用计算机处理和存储声音信号之前，我们必须使用模数转换（A/D）技术将模拟音频转化为二进制数，这样模拟音频就转化为数字音频了。所谓模数转换就是将模拟信号转化为数字信号，模数转换的过程包括采样、量化和编码三个步骤。模拟音频向数字音频的转换是在计算机的声卡中完成的。
3.2 采样
采样是指将时间轴上连续的信号每隔一定的时间间隔抽取出一个信号的幅度样本，把连续的模拟量用一个个离散的点表示出来，使其成为时间上离散的脉冲序列。
每秒钟采样的次数称为采样频率，用f表示；样本之间的时间间隔称为取样周期，用T表示，T=1/f。例如：CD的采样频率为44.1kHz，表示每秒钟采样44100次。
常用的采样频率有8kHz、11.025Hz、22.05kHz、15kHz、44.1kHz、48kHz等。
在对模拟音频进行采样时，取样频率越高，音质越有保证；若取样频率不够高，声音就会产生低频失真。
那么怎样才能避免低频失真呢？
著名的采样定理（Nyquist 定理）中给出有明确的答案：要想不产生低频失真，采样频率至少应为所要录制的音频的最高频率的2 倍。例如，电话话音的信号频率约为3.4 kHz ，采样频率就应该≥6.8 kHz ，考虑到信号的衰减等因素，一般取为8kHz 。

3.3 量化
量化是将采样后离散信号的幅度用二进制数表示出来的过程。
每个采样点所能表示的二进制位数称为量化精度，或量化位数。
量化精度反映了度量声音波形幅度的精度。例如，每个声音样本用16位(2字节)表示，测得的声音样本值是在0～65536的范围里，它的精度就是输入信号的1/65536。
常用的采样精度为8bit/s、12 bit/s、16bit/s、20bit/s、24bit/s等。
采样频率、采样精度和声道数对声音的音质和占用的存储空间起着决定性作用。
我们希望音质越高越好，磁盘存储空间越少越好，这本身就是一个矛盾。必须在音质和磁盘存储空间之间取得平衡。数据量与上述三要素之间的关系可用下述公式表示：
3.4 编码
采样和量化后的信号还不是数字信号，需要把它转换成数字编码脉冲，这一过程称为编码。最简单的编码方式是二进制编码，即将已经量化的信号幅值用二进制数表示，计算机内采用的就是这种编码方式。
模拟音频经过采样、量化和编码后所形成的二进制序列就是数字音频信号，我们可以将其以文件的形式保存在计算机的存储设备中，这样的文件通常称之为数字音频文件。
PCM编码
PCM（Pulse Code Modulation）,即脉冲编码调制，指模拟音频信号只经过采样、模数转换直接形成的二进制序列，未经过任何编码和压缩处理。PCM编码的最大的优点就是音质好，最大的缺点就是体积大。在计算机应用中，能够达到最高保真水平的就是PCM编码，常见的WAV文件中就有应用。
3.5 音频压缩
音频压缩属于数据压缩的一种，是减小数字音频信号文件大小（数据比率）的过程。
一般数据的压缩方法对于音频数据不利，很少能将源文件压缩到87%以下。
音频压缩算法：无损压缩算法和有损压缩算法
无损压缩是对未压缩音频进行没有任何信息/ 质量损失的压缩机制。
有损压缩是尽可能多得从原文件删除没有多大影响的数据，有目的地制成比原文件小多的但音质却基本一样。
一般来说，无损压缩比率在源文件的50–60% 左右，而有损压缩可以达到原文件的5–20% 。
3.6 常见的数字音频文件格式
常见的数字音频文件格式有很多，每种格式都有自己的优点、缺点及适用范围。
CD格式——天籁之音
CD音轨文件的后缀名为：cda
标准CD格式是44.1K的采样频率，速率88K/秒，16位量化位数，近似无损的。
CD光盘可以在CD唱机中播放，也能用电脑里的各种播放软件来重放。一个CD音频文件是一个＊.cda文件，这只是一个索引信息，并不是真正的包含声音信息，所以不论CD音乐的长短，在电脑上看到的“＊.cda文件”都是44字节长。
WAV格式——无损的音乐
WAV为微软公司开发的一种声音文件格式。
标准格式化的WAV文件和CD格式一样，也是44.1K的取样频率，16位量化位数，声音文件质量和CD相差无几！
特点：音质非常好，被大量软件所支持。
适用于：多媒体开发、保存音乐和原始音效素材。
MP3格式——流行的风尚
全称Moving Picture Experts Group Audio Layer III），是当今较流行的一种数字音频编码和有损压缩格式。
是ISO标准MPEG1和MPEG2第三层(Layer 3)，采样率16-48kHz，编码速率8K-1.5Mbps。
特点：音质好，压缩比比较高，被大量软件和硬件支持，应用广泛。
适用于：适合用于一般的以及比较高要求的音乐欣赏。

MIDI——作曲家的最爱
MIDI（Musical Instrument Digital Interface）乐器数字接口。
MIDI数据不是数字的音频波形，而是音乐代码或称电子乐谱。
MIDI文件每存1分钟的音乐只用大约5～10KB。
MID文件主要用于原始乐器作品，流行歌曲的业余表演，游戏音轨以及电子贺卡等。＊.mid文件重放的效果完全依赖声卡的档次。
普通的声音文件，如wav文件，是计算机直接把声音信号的模拟信号经过取样——量化处理，不经压缩处理，变成与声音波形对应的数字信号。
而MIDI文件则不是直接记录乐器的发音，而是记录了演奏乐器的各种信息或指令，如用哪一种乐器，什么时候按某个键，力度怎么样等等，至于播放时发出的声音，那是通过播放软件或者音源的转换而成的。因此MIDI文件通常比声音文件小得多，一首乐曲，只有十几K或几十K，只有声音文件的千分之一左右，便于储存和携带。
WMA格式——最具实力的敌人
WMA (Windows Media Audio) 由微软开发。
音质要强于MP3格式，更远胜于RA格式，它以减少数据流量但保持音质的方法来达到比MP3压缩率更高的目的，WMA的压缩率一般都可以达到1：18左右。
内置了版权保护技术，可以限制播放时间和播放次数甚至于播放的机器等等。
WMA格式在录制时可以对音质进行调节。同一格式，音质好的可与CD媲美，压缩率较高的可用于网络广播。
Ra格式——流动的旋律
RealAudio主要适用于在网络上的在线音乐欣赏，现在大多数的用户仍然在使用56Kbps或更低速率的Modem，所以典型的回放并非最好的音质。有的下载站点会提示你根据你的Modem速率选择最佳的Real文件。
APE格式
一种新兴的无损音频编码，可以提供50-70%的压缩比，APE的文件大小大概为CD的一半，APE可以节约大量的资源。
APE可以做到真正的无损，而不是听起来无损，压缩比也要比类似的无损格式要好。
特点：音质非常好。
适用于：最高品质的音乐欣赏及收藏
3.7 音频格式的转换
声音的来源十分广泛，我们收集到的各种声音文件的格式也常常多种多样。由于播放环境等因素的影响，并不是所有音频格式都能被很好支持的，这就需要对音频文件格式进行转换。
能够实现音频格式转换的工具很多，如Audio Converter、千千静听、Gold Wave等，每种软件都有自己的特点，操作方法也略有不同。

版权：言论仅代表个人观点，不代表官方立场。转载请注明出处：http://mv.mv999.net/forum/1743.html

# 知识

发表评论

1 条评论

MV999.NET

2023年2月18日下午11:56 回复

无损压缩格式音频格式概述

Quote:
　　所谓无损压缩音频格式，顾名思义，就是毫无损失地将声音信号进行压缩的音频格式。常见的像MP3、WMA等格式都是有损压缩格式，相比于作为源的WAV文件，它们都有相当大程度的信号丢失，这也是它们能达到10％的压缩率的根本原因。而无损压缩格式，就好比用Zip或RAR这样的压缩软件去压缩音频信号，得到的压缩格式还原成WAV文件，和作为源的WAV文件是一模一样的！但是如果用Zip或RAR来压缩WAV文件的话，必须将压缩包解压后才能播放。而无损压缩格式则能直接通过播放软件实现实时播放，使用起来和MP3等有损格式一模一样。总而言之，无损压缩格式就是能在不牺牲任何音频信号的前提下，减少WAV文件体积的格式。

无损压缩的优势

Quote:
1、100％的保存、没有任何信号丢失
　　正如之前所说，无损压缩格式就如同用Zip压缩文件一样，能100％的保存WAV文件的全部数据，这一点我们可以通过EAC的“WAV比较”功能来证明。将U2乐队的一首《BeautifulDay》抓轨保存成WAV格式，作为我们的原始文件。将这个WAV文件压缩成APE格式，再将APE文件解压缩成WAV格式。用EAC的“WAV比较”功能对这两个WAV文件进行数据对比，结果如图1，EAC没有报告有任何不一致！而如果是压缩成MP3再解压得到的WAV文件，对比原始WAV文件，则是从头到尾都不一致！有不少朋友希望能最大限度地能将CD“原版”拷贝到硬盘上，同时又想减少空间占用量，这在以前似乎只有320KbpsCBRMP3这一种解决途径了，不过那样也远不能做到100%！而现在，无损压缩格式的出现提供了一个几乎完美的解决方案。

2、音质高，不受信号源的影响
　　既然是100％的保存了原始音频信号，无损压缩格式的音质毫无疑问和原始CD是一样的!对比《BeautifulDay》的WAV格式和FLAC压缩格式的频谱图，你能看到有任何不同吗？同样，实际聆听也不可能有任何的不同！而有损压缩格式由于其先天的设计（需要丢失一部分信号），所以音质再好，也只能是无限接近于原声CD，要想真正达到CD的水准是不可能！而且由于有损压缩格式算法的局限性，在压缩交响乐等类型动态范围大的音乐时，其音质表现差强人意。而无损压缩格式则不存在这样的问题，任何音乐类型都通吃不误！

3、转换方便
　　无损压缩格式可以很方便地还原成WAV，还能直接转压缩成MP3、Ogg等有损压缩格式，甚至可以在不同无损压缩格式之间互相转换，而不会丢失任何数据。这一点比起有损格式可要强的多！因为有损压缩格式的二次编码（从一种有损格式转换成另一种有损格式，或者格式不变而调整比特率）意味着丢失更多的信号，带来更大的失真！

最常见的无损压缩格式

WAV
Quote:
　　WAV为微软公司(Microsoft)开发的一种声音文件格式，它符合RIFF(Resource Interchange File Format)文件规范,用于保存Windows平台的音频信息资源，被Windows平台及其应用程序所广泛支持，该格式也支持MSADPCM，CCITT A LAW等多种压缩运算法，支持多种音频数字，取样频率和声道，标准格式化的WAV文件和CD格式一样，也是44.1K的取样频率，16位量化数字，因此在声音文件质量和CD相差无几！
　　通常使用三个参数来表示声音，量化位数，取样频率和声道数。声道有单声道和立体声之分，取样频率一般有11025Hz(11kHz) ，22050Hz(22kHz)和44100Hz(44kHz) 三种，不过尽管音质出色，但在压缩后的文件体积过大！相对其他音频格式而言是一个缺点，其文件大小的计算方式为：
　　WAV格式文件所占容量 = (取样频率 X 量化位数 X 声道) X 时间 / 8 (字节 = 8bit)

APE
Quote:
APE是Monkey’s Audio提供的一种无损压缩格式。APE无疑是目前最著名的无损压缩格式，在国内应用得已经比较广泛了。它的压缩率相当优秀，而且效率高、速度快，综合能力绝对属于当今的佼佼者。广泛使用的Monkey’sAudio制作软件也大大推动了该格式的普及。不过APE也存在不少的缺点，它的解码速度不够理想，只能在Windows平台上使用，封闭的源码也影响了它的支持性。

FLAC
Quote:
非常成熟的无损压缩格式，名气不在APE之下！FLAC是FreeLosslessAudioCodec的简称，该格式的源码完全开放，而且兼容几乎所有的操作系统平台。它的编码算法相当成熟，已经通过了严格的测试。该格式不仅有成熟的Windows制作程序，还得到了众多第三方软件的支持。此外该格式是唯一的已经得到硬件支持的无损格式，Rio公司的硬盘随身听Karma，建伍的车载音响MusicKeg以及PhatBox公司的数码播放机都能支持FLAC格式。

登录

注册

开通会员

MV999.NET公告