iTunesのMP3エンコーダとLAMEを音声波形で比較、異なるところはどこか検証

音声波形比較シリーズ第三弾!(※特に意識してシリーズ化はしてないです)
今回はiTunesのエンコーダで変換したMP3データと、フリーのエンコーダとして有名な「LAME」を比較してみました。

iTunesのMP3エンコーダとLAMEは昔からよく比較されてきましたが、今回は私の方でも少し調べてみたいと思いましたので前回の流れで実験してみました。ビットレート等を変えて「一般的な利用方法」に基いて比較してみます。

昔はiTunesのMP3エンコーダは質が悪いとの評価が一般的でしたが、最近は改善もされそんな噂はあまり聞かなくなりました。それでもプログラムの仕方が違うのだから何か違いはあるはず、ということでその違いを確認してみたいと思います。

注意点として、あくまで波形の比較" だけ "であることをご了承ください。音質の善し悪しはご自分の耳でご確認ください。


実験方法

やり方は以前からやっていることと全く一緒ですので詳しい実験方法や理屈は以下の記事にてご確認下さい。

簡単に言うと以下の様な感じです。

  1. iTunesとLAME、それぞれでエンコードした音源を用意。このとき、ビットレートも変えてみる。
  2. Adobe Auditionというソフトにデータを読み込ませる。
  3. 片一方の音声データを位相反転させた後、2つのデータを合成する。(逆相を足す)
  4. これでデータに違いがあると、その差分が浮き出てくる。これがデータの違いになる。
  5. 周波数解析でも違いを見てみる。
  6. Excelで細かい比較もしてみた。

これでデータの違いを視覚化してみます。実際聞いてみての感想は私個人の主観的なものになりますが、ここはどうしようもないことなので予めご了承ください。

テスト環境

iTunes バージョン 11.0.2.25
LAME バージョン 3.99.2.5
ヘッドフォン オーディオテクニカ ATH-M50
サウンドカード ONKYO SE-300PCIE (ヘッドフォン端子直挿し)
音源 DORCHADAS -Sharnoth OP theme- (女性ボーカルの曲、日本語でゲームのOP)

視覚化させるだけならば別にヘッドフォンとかは関係ないですが一応掲載。
どれも一般家庭で入手可能な安いものです。(プロ用みたいに数十万もしないという意味です)

LAMEは私が常用している「foobar 2000」からコマンドラインオプションを指定しエンコードします。
iTunesとLAMEの設定は以下の通りです。

iTunesの設定
▲iTunesの設定

foobar2000の設定
▲foobar2000の設定

iTunesではVBRではなくCBRでエンコードするよう「可変ビットレート(VBR)のエンコードを使う」のチェックを外し、また余計な処理が入らないよう「スマートエンコード調整」「10Hz未満の周波数帯域をフィルタリング」のチェックも外します。サンプルレートは「44.100Hz」で「2ch」の「ステレオ」です。

foobar2000でもできるだけ同じエンコード設定にしたいので「-b」でCBRを指定、「--noreplaygain」でリプレイゲイン情報を追加しないという最低限のオプションにて設定します。

以上を基本設定として、可変させる部分は「ビットレート」のみとします。

「一般的な使い方での比較」ができるよう、あえて厳密な設定にはしていません。

結果を見る前に注意点

今回の比較は「エンコーダの違いによるMP3データの違いを視覚化」させるだけが目的の記事です。
決して音質の比較をしているわけではありません。

音声圧縮というのは、「いかに元のWAV(PCM)データと音声波形が同じであるか」を競うのではなく「実際に聞いてみて違和感がないようにする」ことが争点です。音声圧縮をしても聞き疲れがなく心地よく音楽鑑賞できる、それが目的なのです。

なので、今回の実験でいくらか波形の違いが検出できるわけですが、これだけで「iTunesのほうが良い音だ、LAMEの方が良い音だ」ということにはなりません。出てきた違いも、もしかしたら音源によって大きく異なるかもしれません。あくまで音楽は主観的な価値観で比較するものです。

今回の記事では、音のデータの残り具合で「データ的に見て性能が上/下」と表現していますが、これもあくまで「データ的に見て」判断しているに過ぎません。数値でのみ判断しています。音のデータが多く残っていても、実際に音楽を聞いてみて違和感があるようでは音質は悪いと判断されるでしょう。ここを勘違いされないよう前以て書いておきます。

今回の実験結果はあくまで「参考程度」にお読みください。

「じゃあなんで実験したんだ?」と言われれば答えは「気になったから」だけです(笑
好奇心ってやつですね。プログラムが違うと、データ的にどこまで異なってくるのか確認したかっただけです。

実験結果

WAVデータ

まずは大元のWAV(PCM)データがどんなものかを解析します。こんな感じです。

WAVデータの解析
▲クリックで拡大

MP3 320kbps

それでは結果に移りたいと思います。まずはMP3での最高音質「ビットレート 320kbps」での比較です。

合成後の波形 320kbps
▲クリックで拡大

合成後の周波数解析 320kbps

2つの音源を合成した後のデータです。無音のデータにならず、少し音が残りました。つまり、iTunesとLAMEではビットレートが同じでも生成されるデータが異なることを意味します。どういった音が残っていたかというと、ギターなどの音は全く聞き取れず、ドラムと思われる音がカサカサと入っていました。音量を最大まで上げると若干ボーカルの音も聞こえました。

周波数解析(曲全体の平均)をすると平たくなっています。
ただ、基本的にはカサカサした音しか聞こえないので、320kbpsならばデータ的に大きな違いはなさそうです。

ですがここで疑問。検出されたデータの差分はどこからでてきたのか。
そこでiTunesとLAMEそれぞれの音源の一部を平均した周波数解析をしてみます。解析する部分は、差分の中でよく聞き取れた(差分が大きい箇所)30秒間です。大きく聞こえたということは、差分も大きいということでデータ的にも違いがはっきりでてきそうだからです。

ということで、曲の中で一番盛り上がる箇所の30秒間を平均してみました。以下結果です。

320kbps音源の周波数解析
▲クリックで拡大

わかりやすい違いがでました。青がiTunesでエンコードしたファイル、赤がLAMEでエンコードしたファイルです。
20kHz以上の音の扱いが全く異なりますね。LAMEはばっさりカットしていますが、iTunesはかなり残しています。

超高音部分に限って言えば確実にiTunesの方が性能が上と言えそうです。

ですが、ここらの音は可聴域から外れるので本来は人間の耳では聞こえないはず。LAMEがこの部分は不要と判断しているところを見ても、超高音部分はそこまで重要な箇所では無さそうです。それなのに、先ほどの合成音声では私の耳でも聞き取れました。これは可聴域内でもデータ的に異なっているということを表しています。

では可聴域のどこが異なるかというと、拡大してみれば分かりますが、赤い線(LAME)と青い線(iTunes)が重なりあっていない箇所が所々にあるのがわかります。この「ちょっと違う所」をわかりやすくするため、Excelに各周波数の音圧データを入力してグラフ化してみます。

各周波数ごとの音圧データ
▲クリックで拡大

面倒くさいのでiTunesでエンコードしたMP3を「iTunes MP3」、LAMEでエンコードしたMP3を「LMAE MP3」と省略させていただきました。また、20kHz以上の音はマイナスへ行きすぎてグラフが縦に長くなりすぎるのでこちらも省略。

『 LAME MP3 - iTunes MP3 = X 』を計算しています。この通り、LAME MP3の方が(20kHzまでの音に関して言えば)すべての周波数帯域でiTunes MP3を上回っていることがわかりました。可聴域に限って言えば、LAME MP3の方が多くの音を残していることになり、データ的に見てLAME MP3の方が性能が上と言えそうです。

高音部分になればなるほど大きく揺れ動いているところを見ると、iTunesとLAMEは高音部分での処理に大きな違いがあると言えそうです。

MP3 192kbps

次はビットレートを少し下げて「192kbps」にて比較してみましょう。

合成後の波形 192kbps
▲クリックで拡大

320kbpsのときより違いが大きくなりました。ドラム以外の楽器の音も聞こえてきます。女性ボーカルだからなのか、今度は歌手の声も歌詞が聞き取れるほどになりました。何を言っているのかわかります。かなり音楽として聞き取れます。ただ、流石にハモっている声は聞こえなかったです。

周波数解析をしてみましたが、これは320kbpsの時と似た感じ(全体の音圧が上がったくらい)になりましたのでここは省略して次のステップ。
iTunes MP3とLAME MP3、それぞれの周波数解析の結果を重ねてみます。

192kbps音源の周波数解析
▲クリックで拡大

青が「iTunes MP3」、赤が「LMAE MP3」です。
相変わらずiTunesは超高音部分を残し、LAMEは19kHz以上の音をばっさりカットしています。潔いですね。

では、可聴域の違いを見るためExcelにて差分を見てみましょう。


▲クリックで拡大

16kHz以上の音は明らかにLAME MP3の方が下でしたので、16kHzまでの音で比較しました。真ん中の黒い線は近似線です。

320kbpsの時とは異なるグラフになりました。差分自体は320kbpsの時より小さくなりましたが、今度はiTunes MP3の方に軍配が上がっています。近似線からも分かる通り、iTunes MP3の方がよりデータを多く残しているようです。ただ、4kHz~12kHzの間はLMAE MP3が上回っています。LAMEは中域の音を大事に残している印象ですね。

代わってiTunes MP3はというと低音と高音を比較的多く残しているようです。LAME MP3がすでに16kHz辺りから音をカットしつつある中(19kHz以上はばっさりカット)、iTunes MP3はほとんどカットしていないですね。

このことから、データ的に見るとiTunes MP3はLMAE MP3と比べて高音と低音部分に強いと言えるかも知れません。
逆にLMAE MP3は中域の音を大事にしているとも言えそうです。

因みに、WAVデータ(赤)とiTunes MP3 192kbps(青)を比較してみたら以下の様な感じになりました。これを見ても、iTunes MP3は高音部分をより大事に残していることが分かりますね。

WAVとiTunes MP3 192kbpsの比較
▲クリックで拡大

MP3 62kbps

では最後に「64kbps」を比較してみましょう。


▲クリックで拡大

さらに違いが大きくなりました。実際これを聞いてみるともう音楽ですね。雑音はひどいですが、歌詞も聞き取れますし、リズムも分かります。ここまで違うと流石に同じMP3だとは言えないですね。

では、合成後の音楽を周波数解析してみます。


▲クリックで拡大

高音部分で音圧がなくなっています。これの理由は下。

では、次にiTunes MP3とLAME MP3、それぞれの周波数解析の結果を重ねてみます。


▲クリックで拡大

iTunesは相変わらず高音部分を残し、LAMEは潔く11kHz以上の音を切り捨てています。
こう見るとiTunes MP3の方がより多くのデータを残し性能が良いといえるかもしれませんが・・・
ここで特筆したいことがありますが少し後回しにして、先ほどからやっている通りExcelにてグラフを作成し、以上の画像からでは違いがよくわからない部分(11kHz以下)を分かりやすく視覚化してみます。


▲クリックで拡大

320kbpsの時とは真逆になりました。すべての帯域においてiTunes MP3の方が上回っています。先ほどの周波数解析結果と合わせれば、データ的に見てiTunes MP3の完勝となるでしょう。

音質の違いが聞き取れたので特筆

さて、ここで特筆しておきたいことがあります。この64kbpsでのみ両者の音質が明確に聞き取れました。
明らかに両者は違う音をだしています。これは流石に誰もが違いを聞き比べられると思います。

結論から言うと、私はLAME MP3の方が音質が良いと感じました。先ほど、データ的に見ればiTunes MP3の完勝と思われましたが、実際に聞いてみるとそうではなさそうです。iTunes MP3は確かに高音部分をより多く残しています。ただ、残し方がだめです。

iTunes MP3は高音部分がシャリシャリと耳障りに残っていたのです。LAME MP3は高音部分を完全にカットしているのでこんなことにはならず、なめらかに聞こえてきました。実際に聞いてみての比較は、明らかにLAME MP3の方が上だと感じます。

まとめ - データ的比較はあくまで参考程度 -

さて、いかがでしたか。今回はExcelも使用して細かい違いも見てきました。

iTunes MP3とLAME MP3は、同じMP3形式でありながらも全く異なるデータであることが分かりました。また、それぞれどこを大事にしているか、その一片もなんとなくわかりましたね。iTunes MP3は最後まで高音部分を残していましたが、LAME MP3は潔くカットし続けています。私もここまで違うものかと驚きました。

そして最後の64kbps、データ的な比較が意味のないことの証拠にもなりそうな事実も発覚。データ上では見事に音の情報を残していたiTunes MP3、しかし実際に聞いてみれば聞くに堪えないほどシャリシャリした音になっていました。
実は192kbpsの時も少し感じたのですが、iTunes MP3は全体的に高音部分がシャカシャカと聞こえ、個人的には落ち着いたLAMEの音がいいかな~なんて思っていました。(ただ、明確には分からなかった&好き嫌いが分かれそうな音だったので本文中では特に書くことはしませんでした)

このように、データ的な違いははっきりわかりますが、それぞれどちらが心地よい音なのかデータだけでは答えが出せないこともわかりました。音質というのは本当に主観的なものですから、最後は自分の耳が頼りです。逆に言えば、自分の耳で聞いて「こっちがいい音だ」と感じたならばそれが「正しい答え」なのかもしれません。

以上、これにてこの記事は終了となります。お疲れ様でした。

スポンサーリンク

Track Back

Track Back URL

コメントする

非公開。必須ではありません。

(いくつかのHTMLタグ(a, strong, ul, ol, liなど)が使えます)

このページの上部へ

サイト内検索

広告

最近のコメント

Powered by Movable Type 6.3.2