MP3、CD、24 / 192、DSD 为何声音大不同

分享到微信朋友圈

· 谢亮 添加于 2018-08-24 · 共有 6 条评论


不知大家是否和我一样,在一段日子里,把零花钱都用作买CD了?

我最后一次买CD,就是在上面鼓楼西这家唱片店,买了三张,那是2017年的4月,三个月后就拆了。

说实话,我也好久没买CD了!

这期亮测评不聊情怀,只做横评,一首莫扎特D大调小提琴协奏曲的DSD文件,下转成WAV(24bit/192kHz)、WAV(24bit/96kHz)、标准CD制式WAV(16bit/44.1kHz)及Mp3(192kbps)


此视频看为主、听为辅,网络视频音质无法代表源音音质。

我们先从最常用的说起吧

MP3

Mp3大多是从CD制式的WAV压缩来的,CD为16bit/44.1kHz,比特率为1411.2kbps,那么192kbps的Mp3就相当于CD的1/7,128kbps的Mp3相当于CD的1/11。
Mp3是如何压缩的呢,首先让我们看下图


这是人耳的等响曲线图,体现了人耳对频率的敏感程度,我们一般听音乐,在80dBSPL-100dBSPL之间,所以我们只看最下面这两条线。

人耳对低频和高频敏感程度下降,尤其是16kHz以上的高频,所以这部分就是Mp3首先要抽取的部分,高比特率的Mp3先拿掉了这个区域(如256kbps Mp3) 


左为16bit/44.1kHzWAV,右为192kbps Mp3

科学家认为这个Mp3文件还是太大,无法跟上拨号上网的大环境。为了加大抽取力度,他们开始研究音乐。

来看频率与音高对照表


由于音乐上运用了十二平均律,就可以计算出音乐中每一个音的频率,中央A为440Hz,那么向上的降B就等于440×12√2=466.164,

表中最低的A(27.5Hz)和降B(29.1Hz)之间只有1.6Hz的空间,而表中最高的B(3951Hz)和C(4186Hz)之间有235Hz的空间。显然高频留给科学家的可操作性更多,于是就有了我们最常听到的128k、192kMP3。

他们认为抽取掉其中的部分内容不会影响听觉,就这样比特率越低就有越多的中高频声音被抽取,且随着比特率越低抽取越向频率下方延伸,直至中频。美其名曰:心理声学模型。

下图中的波形显然已经失真,动态也严重不足。


这大大影响了音乐的完整性,拿人声来说,音高、谐频只是一方面,喉音、胸腔共鸣、鼻音、齿音、呼吸声都是音乐表达的一部分,且含有大量的感情成份,这些都会因Mp3的压缩而变的不成样子。

这里补充一个题外话 

AutoTune 

工作原因,我经常给一些主持人录音(你懂的),我在混音时经常发现,原本工程里(24bit/48kHz或96kHz)修的音高已经很准了,但一压成Mp3还是显得不准,不得不再修狠一点。这与Mp3的抽取方式是否有关联呢?

Mp3 的发明者和专利持有方“德国夫琅和费集成电路研究所”( Fraunhofer IIS”)声明,Mp3 的全部专利已于 2017 年 4 月 16日全数过期,他们终止了对 Mp3相关软件的专利授权,并直接建议大众使用效率更高、音质更好的格式。

当然压缩格式还有AAC等等,大同小异吧。

这些压缩格式让我们听到音乐的信息量大大降低,细节不复存在,而细节即情感的真实和连续表达,音乐在很大程度上失去了感动人的能力。

CD 

让我们先从一道数学题说起。

25(视频帧数)×2(视频场数)×294(视频行数)×3 =44100。

没错,这就是44.1kHz的由来。为了声画对位,必须把声音记录在录像带上,要在每个视频场上记录3个音频采样点。 

若设计为2个采样点采样频率为29400,这样的话根据乃奎斯特取样定理,频率只能满足到14.7kHz,显然不能满足人耳要求,而乘以4被认为记录在磁带上有些浪费,乘以3,则刚好满足人耳对20kHz的要求。

这没有问题,毕竟视频磁带用于新闻、纪录、足球转播,即使是综艺晚会也是完全可以的,但是拿它做音乐的载体,与模拟时代的音频指标相比,这个标准就有点低了。

下面是我用声卡32bit/192kHz转录的黑胶唱片,30kHz-50kHz清晰可见,谐波甚至可以达到70kHz。 


要知道自然界的声音随随便便就可达到50kHz,20kHz以上对于模拟设备来讲是一个缓慢的下降过程,而对于CD则是硬生生的阉割,即截止频率,22kHz以上,一丁点都不剩。

再说说bit,早期的8bit声音,80后再熟悉不过了,8bit的采样只有256阶,小霸王音质,信噪比48dB,这可是远远不够的,要知道80年代卡带的信噪比大概60dB。 

量化精度决定了信噪比,于是飞利浦提出了14bit可以让CD的信噪比达到前所未有的84dB(1bit≈6dB),而索尼则高瞻远瞩的坚持16bit即信噪比96dB,65536阶,最后索尼的标准获得了通过,保住了多出来的这珍贵的12dB动态范围。

16bit到24bit 

那么24bit是否有意义呢,当然有,信噪比提升至144dB。我用同一文件24bit/48kHz对比16bit/48kHz。 变化在声底,乐段连接处,空气感、混响残响这些地方,这是实实在在的动态提升,用耳机更容易听出来。可理解为在0到-96dB间两者表现接近,差别存在于-96到-144dB的这些微小信号上。说实话,我并不确定我听到了-96dB以下的声音,但一定是向下的这些微小信号对声音整体起了作用。听交响乐这种动态较大的音乐的时,24bit优势更明显。

延伸一下,32bit理论上拥有信噪比192dB是否会更好呢,对于浮点运算的混音工程它肯定是有意义的,比如一个动态很大的信号经过压缩器,原来-145dB的信号压缩到了-100dB,音色当然会更饱满,而到了用户这里我个人觉得并没有什么卵用。要知道144dB已经是一个很大的数字了。

比较下,24bit声底的内容确实更丰富,因为这里有16bit所不存在的声音内容,是可辨识的。

位数越高,拾取信号能力越强,抗干扰能力反而越差,设备的制作成本更高。 

因此对于用户而言16bit是基础,24bit需要有好的设备支撑,32bit则只适用于制作流程。设备上DAC一定要有24bit的解码能力,喇叭和耳机要有比较好的动态表现力,而且声音要放的大一些。

24bit的阶数巨大,已超千万,但所谓的精度提高对声音音质起到的作用却有限,24bit的意义更多在于信噪比,在于动态范围。

44.1kHz-192kHz 

再来看另一个指标——采样频率,从视频中频谱可以看出,16bit/44.1kHz的频谱真的是很惨了,高品质音乐录制24bit/96kHz真的应该是低标准。96kHz和192kHz采样率很大程度上缓和了截止频率产生的听感问题,声音趋向自然。


192kHz采样率高频确实更加丰富,在60kHz以上有超高频量化噪声出现,我认为这可视为声音录制可参考的频率上限,96kHz采样率的频率上限未达到这个频率,192kHz则突破了这个界限。可以看到声音在40kHz后信号逐渐变弱,而60kHz则是声音信号和超高频噪声的分水岭。

这种超高频量化噪声,无论是PCM还是DSD都有,解码器生产者会设计一个低通滤波器,具体是50kHz、60kHz,更高还是更低,要看厂家对指标、音质的考量。

不往高了说,把20kHz-40kHz放在整个频率响应上,其实就是一个倍频程,一个八度而已,20Hz-20kHz为10个倍频程,20Hz-40kHz就为11个倍频程,一个八度就能让声音有一个良好的高频延展,此段声音非常丰富,含有大量的泛音信息及空间信息。

人耳不是用来听音乐的,而是用来感受自然的,不敏感不代表没有,人耳并不是听不到20kHz以上的声音,17kHz以上的声音已经没有了尖得刺耳的感觉,无音高概念,更多的是空间信息,难以记忆,也难以形容。 

可以明显感受到,44.1kHz到96kHz、再到192kHz,是能量在增多,是高频越来越顺滑,是瞬态爆发力越来越充沛,是空间感更真实。 

20kHz以上的声音被认为人耳难以辨别,但科学证明,人体对超高频有感知。

96kHz采样频率是保留这些信息的基本保障,放大波形可以看出96kHz锯齿仍然明显,而192kHz更线性。 


同一段落,192kHz、96kHz、44.1kHz的波形比较

我们主观去比较两个不同指标的同一片段,一定是先评价频率,再评价动态,因为频率在高处,而动态变化存在于底层,听起来采样频率的提升显得比bit数的增加要明显一点。但随着采样频率的逐步提高,我们实际感受上的音质变化却越来越小。

回放设备方面,DAC是保障,喇叭和扬声器是24bit/192kHz能否完整还原的分水岭,索尼刚刚推出了可以回放100kHz的耳机,喇叭可以还原到50kHz以上的也不少了。

从16bit/44.1kHz到24bit/192kHz,从频率到动态再到细节表现,音质确实在提升;从图形上来看,采样频率越高越接近平滑,但却始终不是模拟的味道,在采样规格上做文章对音质的改善是有益的,但也是有限的,问题出在哪呢? 

高品质声音录制24bit/96kHz是个基本标准,那192kHz就是个高标准么? 


说到底还是PCM。采样频率决定了声音的频率上限,16bit相当于定好了65536个小格子,每个采样点为了为在格子里找到相应的位置而四舍五入,造成量化失真,这让量化噪声平均分布在全部频段上,这不是几个采样的问题,而是全局,说到底是个保真度的问题。

DSD(1bit 2.8224MHz) 

著名的调音台之父Neve大师1995年在中国接受采访时曾说:以我之见,未来的数字标准应是1bit、上兆赫兹或更高的采样频率,这样才可能同现在的模拟技术相比。 


此文章亮测评曾转载,地址如下:Neve大师1995年在北京-永恒的主题A POINTOF REFERENCE(参考点)

如Neve大师所说,1996年索尼和飞利浦共同提出把1bit的DSD作为SACD的编码模式。

PCM为脉冲编码调制,DSD则为脉冲密度调制。DSD64的采样率为2.8224MHz,这并不是为了得到超高频率的声音,而是为了更真实的记录波形。由于只采用1bit即0和1,省去了位转化程序,大大降低了量化失真和噪声。

DSD的采样频率最低为CD的64倍,所以密度极大。而动态的描述方式不像PCM直接在格子里定位,而是定一个极小的固定值(得儿塔)Δ-∑,当下一个采样和上一个采样相减大于Δ,则为1,若小于Δ或为负数则为0(具体规则要复杂的多,我只是简述)。 


PCM每个采样都是独立存在的,而DSD每个采样都是和上一个采样相减得出,因此采样点之间密不可分,无法断开和离散使用,这使DSD的声音听起来更有模拟的味道。 


PCM为非线性,DSD为线性;
PCM 为绝对值,DSD为相对值;
PCM像爬楼梯,DSD更像卷链条。


DSD的指标上,频率响应自不必说,轻松超越100kHz。信噪比也很大,但并没有类似96dB、144dB这样的数据,动态范围直接取决于真实电平值,回到我说过的那个问题,从最前端的麦克风到最后端的喇叭,并没有哪个模拟音频设备的动态范围真正达到130dB, 因为那不现实。

DSD64,64倍于CD采样率但只记录1bit,数据量大概是CD的4倍,DSD64与24bit/96kH数据量接近,并不夸张。 

DSD64为DSD的最低标准格式,向上还有DSD128,DSD256,DSD512,数字顾名思义,就是CD采样频率的倍数。

当然DSD也有硬伤,那就是无法直接编辑,画音量线、剪切一概别想,VST、Autotune更是没门。 

办法也有,就是把DSD录制好的音轨,每一轨发送到模拟调音台上,完全在模拟调音台上做音量调整、EQ、压缩,并轨、缩混,母带输出信号再录制成DSD,流程和三十年前的模拟录音极为类似,国家大剧院就有一套这样的系统。

瑞士的Merging公司还有一套折中的方案。那就是依托24bit/352.8kHz,用超高采样率以PCM的方式打开并编辑DSD文件,称之为DXD,编辑后可再生成为DSD文件。实际上DXD也是现行可编辑的最高质量PCM格式了,有很多高品质唱片直接采用DXD的方式录制及发行。 


这是Sony 2018年推出的Hi-res精选音乐APP,可提供DXD音源的付费下载。

为了还原声音的本来面貌,不知多少人花费了多少精力。本期先到这里,本文涉及内容如果有错误一定帮我指出,大家一起学习,别让我将错就错,下一期亮测评,我将和大家交流DSD的声音特点、优缺点及应用心得,敬请关注!

此文敬请分享!

文章出处:https://www.midifan.com/做人要厚道,转载文章请注明出自 midifan.com,谢谢

共有 6 条评论

添加评论
  • 2018-09-06 匿名
    这个说起来吧,大众听歌的不会太在意,只能说理论上是这样,追求极端的人是这样,对于当下听音乐,我觉得能达到320KB的mp3就相当不错了!
  • 2018-08-27 motif
    回复 匿名:当然不一样,我给大家展示的纯数字阶段的波形细节,经过DA自然会成为平滑曲线,否则也没法停啊,两张不同像素的照片放大一定倍数,马赛克的大小一定是不一样的,但依然不缺鼻子不缺眼不是。
    你在录音软件里看到的波形,和实际播放的波形根本不一样。 你以为44khz的文件播放出来,就是锯齿形状的?大错特错,所有DAC所有算法,把采样点还原成平滑的曲线。
  • 2018-08-27 匿名
    你在录音软件里看到的波形,和实际播放的波形根本不一样。 你以为44khz的文件播放出来,就是锯齿形状的?大错特错,所有DAC所有算法,把采样点还原成平滑的曲线。
  • 2018-08-27 匿名
    完全就是胡扯
  • 2018-08-25 匿名
    这种文章很厚价值。
    好文 支持作者 加油
  • 2018-08-24 匿名
    好文 支持作者 加油