音声ファイルを読み込み、その音量を一定の音量に統一するプログラムを作成しようと思います。

読み込む音声ファイルの音量が一定でない場合、どのようなアプローチを行うのが適切ですか?

音量の不均一性に対処する一般的なアプローチは、以下の2点を組み合わせることです。

  1. 正規化 (Normalization)
  2. ダイナミックレンジコンプレッション (Dynamic Range Compression)

実装の流れの例:

このように、単純なスケーリングだけでなく、音声の持つダイナミクスに応じた処理を行うことで、より自然で均一な音量の音声ファイルを得ることが可能となります。

JavaScriptでFileReaderに読み込んだオーディオデータにピーク正規化を施しArrayBufferにデータを保存するコードを作成してください。なお目標となる音量は引数として与えるものとします。

以下は、FileReaderで読み込んだ音声ファイル(ArrayBuffer)をAudioContextでデコードし、ピーク値を計測した上で目標の音量に合わせたゲインを掛けて正規化し、最終的にWAVフォーマットのArrayBufferとして出力するサンプルコードです。なお、ここでは目標の音量を 0~1 の値(例: 0.9)として受け取ることを想定しています。

/**
 * Fileオブジェクトと目標音量(0~1の範囲)を受け取り、
 * 正規化済みのWAVデータのArrayBufferを返すPromiseを生成します。
 */
function normalizeAudioFile(file, targetVolume) {
  return new Promise((resolve, reject) => {
    const reader = new FileReader();
    reader.onload = async function(e) {
      const arrayBuffer = e.target.result;
      const audioContext = new AudioContext();
      try {
        const audioBuffer = await audioContext.decodeAudioData(arrayBuffer);
        // 全チャンネルからピーク値(絶対値の最大値)を取得
        let peak = 0;
        for (let i = 0; i < audioBuffer.numberOfChannels; i++) {
          const channelData = audioBuffer.getChannelData(i);
          for (let j = 0; j < channelData.length; j++) {
            const absVal = Math.abs(channelData[j]);
            if (absVal > peak) {
              peak = absVal;
            }
          }
        }
        if (peak === 0) {
          reject('Audio is silent.');
          return;
        }
        // 目標音量に合わせるためのゲインを計算
        const gain = targetVolume / peak;
        // 各チャンネルに対してゲインを適用(正規化)
        for (let i = 0; i < audioBuffer.numberOfChannels; i++) {
          const channelData = audioBuffer.getChannelData(i);
          for (let j = 0; j < channelData.length; j++) {
            channelData[j] *= gain;
          }
        }
        // 正規化済みAudioBufferをWAV形式のArrayBufferへ変換
        const wavBuffer = audioBufferToWav(audioBuffer);
        resolve(wavBuffer);
      } catch (error) {
        reject(error);
      }
    };
    reader.onerror = reject;
    reader.readAsArrayBuffer(file);
  });
}

/**
 * AudioBufferからWAVファイル形式のArrayBufferに変換する関数
 */
function audioBufferToWav(buffer, options) {
  options = options || {};
  const numChannels = buffer.numberOfChannels;
  const sampleRate = buffer.sampleRate;
  // ここでは16bit PCM形式として出力
  const bitDepth = 16;
  let samples;
  if (numChannels === 2) {
    samples = interleave(buffer.getChannelData(0), buffer.getChannelData(1));
  } else {
    samples = buffer.getChannelData(0);
  }
  return encodeWAV(samples, numChannels, sampleRate, bitDepth);
}

/**
 * 2チャンネルの場合、左右のチャンネルデータをインターリーブします
 */
function interleave(inputL, inputR) {
  const length = inputL.length + inputR.length;
  const result = new Float32Array(length);
  let index = 0,
      inputIndex = 0;
  while (index < length) {
    result[index++] = inputL[inputIndex];
    result[index++] = inputR[inputIndex];
    inputIndex++;
  }
  return result;
}

/**
 * WAVファイルのバイナリデータ(ArrayBuffer)を生成する
 */
function encodeWAV(samples, numChannels, sampleRate, bitDepth) {
  const bytesPerSample = bitDepth / 8;
  const blockAlign = numChannels * bytesPerSample;
  const buffer = new ArrayBuffer(44 + samples.length * bytesPerSample);
  const view = new DataView(buffer);

  // RIFFヘッダ
  writeString(view, 0, 'RIFF');
  view.setUint32(4, 36 + samples.length * bytesPerSample, true);
  writeString(view, 8, 'WAVE');
  // fmtチャンク
  writeString(view, 12, 'fmt ');
  view.setUint32(16, 16, true);
  view.setUint16(20, 1, true); // PCM
  view.setUint16(22, numChannels, true);
  view.setUint32(24, sampleRate, true);
  view.setUint32(28, sampleRate * blockAlign, true);
  view.setUint16(32, blockAlign, true);
  view.setUint16(34, bitDepth, true);
  // dataチャンク
  writeString(view, 36, 'data');
  view.setUint32(40, samples.length * bytesPerSample, true);

  // サンプルデータの書き込み(16bit PCMの場合)
  floatTo16BitPCM(view, 44, samples);
  return buffer;
}

/**
 * DataViewに文字列を書き込み
 */
function writeString(view, offset, string) {
  for (let i = 0; i < string.length; i++) {
    view.setUint8(offset + i, string.charCodeAt(i));
  }
}

/**
 * Float32Arrayのサンプルを16bit PCMに変換してDataViewに書き込み
 */
function floatTo16BitPCM(output, offset, input) {
  for (let i = 0; i < input.length; i++, offset += 2) {
    let s = Math.max(-1, Math.min(1, input[i]));
    output.setInt16(offset, s < 0 ? s * 0x8000 : s * 0x7FFF, true);
  }
}

コードのポイント

このコードを実際のアプリケーションに組み込むことで、ユーザーから読み込まれた音声ファイルを目標の音量に正規化し、ArrayBuffer形式で扱うことができます。


情報源