[FFmpeg-cvslog] avfilter/af_loudnorm: fix filtering of last 2.9 seconds

Wed Feb 23 18:01:03 EET 2022

ffmpeg | branch: master | Paul B Mahol <onemda at gmail.com> | Wed Feb 23 10:20:58 2022 +0100| [57f0cdbe17dfe5b304898aa6d05ab9df4bdb284d] | committer: Paul B Mahol

avfilter/af_loudnorm: fix filtering of last 2.9 seconds

> http://git.videolan.org/gitweb.cgi/ffmpeg.git/?a=commit;h=57f0cdbe17dfe5b304898aa6d05ab9df4bdb284d
---

 libavfilter/af_loudnorm.c | 131 +++++++++++++---------------------------------
 1 file changed, 36 insertions(+), 95 deletions(-)

diff --git a/libavfilter/af_loudnorm.c b/libavfilter/af_loudnorm.c
index 9bb0c65bb7..493306c707 100644
--- a/libavfilter/af_loudnorm.c
+++ b/libavfilter/af_loudnorm.c
@@ -408,37 +408,45 @@ static int filter_frame(AVFilterLink *inlink, AVFrame *in)
     AVFilterContext *ctx = inlink->dst;
     LoudNormContext *s = ctx->priv;
     AVFilterLink *outlink = ctx->outputs[0];
+    const int final_samples = FFMIN(19200, inlink->sample_count_out - outlink->sample_count_in);
     AVFrame *out;
-    const double *src;
+    const double *src = NULL;
     double *dst;
     double *buf;
     double *limiter_buf;
-    int i, n, c, subframe_length, src_index;
+    int n, c, subframe_length;
     double gain, gain_next, env_global, env_shortterm,
     global, shortterm, lra, relative_threshold;
 
-    if (av_frame_is_writable(in)) {
-        out = in;
-    } else {
-        out = ff_get_audio_buffer(outlink, in->nb_samples);
+    if (in) {
+        if (s->frame_type == FIRST_FRAME && in->nb_samples < frame_size(inlink->sample_rate, 3000))
+            s->frame_type = LINEAR_MODE;
+
+        out = ff_get_audio_buffer(outlink, s->frame_type == LINEAR_MODE ? in->nb_samples : 19200);
         if (!out) {
             av_frame_free(&in);
             return AVERROR(ENOMEM);
         }
         av_frame_copy_props(out, in);
+    } else {
+        out = ff_get_audio_buffer(outlink, 19200);
+        if (!out)
+            return AVERROR(ENOMEM);
     }
 
     out->pts = s->pts[0];
     memmove(s->pts, &s->pts[1], (FF_ARRAY_ELEMS(s->pts) - 1) * sizeof(s->pts[0]));
 
-    src = (const double *)in->data[0];
     dst = (double *)out->data[0];
     buf = s->buf;
     limiter_buf = s->limiter_buf;
 
-    ff_ebur128_add_frames_double(s->r128_in, src, in->nb_samples);
+    if (in) {
+        src = (const double *)in->data[0];
+        ff_ebur128_add_frames_double(s->r128_in, src, in->nb_samples);
+    }
 
-    if (s->frame_type == FIRST_FRAME && in->nb_samples < frame_size(inlink->sample_rate, 3000)) {
+    if (s->frame_type == FIRST_FRAME && in && in->nb_samples < frame_size(inlink->sample_rate, 3000)) {
         double offset, offset_tp, true_peak;
 
         ff_ebur128_loudness_global(s->r128_in, &global);
@@ -452,7 +460,6 @@ static int filter_frame(AVFilterLink *inlink, AVFrame *in)
         offset    = pow(10., (s->target_i - global) / 20.);
         offset_tp = true_peak * offset;
         s->offset = offset_tp < s->target_tp ? offset : s->target_tp - true_peak;
-        s->frame_type = LINEAR_MODE;
     }
 
     switch (s->frame_type) {
@@ -502,16 +509,19 @@ static int filter_frame(AVFilterLink *inlink, AVFrame *in)
         s->frame_type = INNER_FRAME;
         break;
 
+    case FINAL_FRAME:
     case INNER_FRAME:
         gain      = gaussian_filter(s, s->index + 10 < 30 ? s->index + 10 : s->index + 10 - 30);
         gain_next = gaussian_filter(s, s->index + 11 < 30 ? s->index + 11 : s->index + 11 - 30);
 
-        for (n = 0; n < in->nb_samples; n++) {
+        for (n = 0; n < out->nb_samples; n++) {
             for (c = 0; c < inlink->channels; c++) {
-                buf[s->prev_buf_index + c] = src[c];
-                limiter_buf[s->limiter_buf_index + c] = buf[s->buf_index + c] * (gain + (((double) n / in->nb_samples) * (gain_next - gain))) * s->offset;
+                if (src)
+                    buf[s->prev_buf_index + c] = src[c];
+                limiter_buf[s->limiter_buf_index + c] = buf[s->buf_index + c] * (gain + (((double) n / out->nb_samples) * (gain_next - gain))) * s->offset;
             }
-            src += inlink->channels;
+            if (src)
+                src += inlink->channels;
 
             s->limiter_buf_index += inlink->channels;
             if (s->limiter_buf_index >= s->limiter_buf_size)
@@ -526,11 +536,11 @@ static int filter_frame(AVFilterLink *inlink, AVFrame *in)
                 s->buf_index -= s->buf_size;
         }
 
-        subframe_length = (frame_size(inlink->sample_rate, 100) - in->nb_samples) * inlink->channels;
+        subframe_length = (frame_size(inlink->sample_rate, 100) - out->nb_samples) * inlink->channels;
         s->limiter_buf_index = s->limiter_buf_index + subframe_length < s->limiter_buf_size ? s->limiter_buf_index + subframe_length : s->limiter_buf_index + subframe_length - s->limiter_buf_size;
 
-        true_peak_limiter(s, dst, in->nb_samples, inlink->channels);
-        ff_ebur128_add_frames_double(s->r128_out, dst, in->nb_samples);
+        true_peak_limiter(s, dst, out->nb_samples, inlink->channels);
+        ff_ebur128_add_frames_double(s->r128_out, dst, out->nb_samples);
 
         ff_ebur128_loudness_range(s->r128_in, &lra);
         ff_ebur128_loudness_global(s->r128_in, &global);
@@ -560,51 +570,9 @@ static int filter_frame(AVFilterLink *inlink, AVFrame *in)
         s->index++;
         if (s->index >= 30)
             s->index -= 30;
-        s->prev_nb_samples = in->nb_samples;
-        break;
-
-    case FINAL_FRAME:
-        gain = gaussian_filter(s, s->index + 10 < 30 ? s->index + 10 : s->index + 10 - 30);
-        s->limiter_buf_index = 0;
-        src_index = 0;
-
-        for (n = 0; n < s->limiter_buf_size / inlink->channels; n++) {
-            for (c = 0; c < inlink->channels; c++) {
-                s->limiter_buf[s->limiter_buf_index + c] = src[src_index + c] * gain * s->offset;
-            }
-            src_index += inlink->channels;
-
-            s->limiter_buf_index += inlink->channels;
-            if (s->limiter_buf_index >= s->limiter_buf_size)
-                s->limiter_buf_index -= s->limiter_buf_size;
-        }
-
-        subframe_length = frame_size(inlink->sample_rate, 100);
-        for (i = 0; i < in->nb_samples / subframe_length; i++) {
-            true_peak_limiter(s, dst, subframe_length, inlink->channels);
-
-            for (n = 0; n < subframe_length; n++) {
-                for (c = 0; c < inlink->channels; c++) {
-                    if (src_index < (in->nb_samples * inlink->channels)) {
-                        limiter_buf[s->limiter_buf_index + c] = src[src_index + c] * gain * s->offset;
-                    } else {
-                        limiter_buf[s->limiter_buf_index + c] = 0.;
-                    }
-                }
-
-                if (src_index < (in->nb_samples * inlink->channels))
-                    src_index += inlink->channels;
-
-                s->limiter_buf_index += inlink->channels;
-                if (s->limiter_buf_index >= s->limiter_buf_size)
-                    s->limiter_buf_index -= s->limiter_buf_size;
-            }
-
-            dst += (subframe_length * inlink->channels);
-        }
-
-        dst = (double *)out->data[0];
-        ff_ebur128_add_frames_double(s->r128_out, dst, in->nb_samples);
+        if (s->frame_type == FINAL_FRAME)
+            out->nb_samples = final_samples;
+        s->prev_nb_samples = out->nb_samples;
         break;
 
     case LINEAR_MODE:
@@ -617,11 +585,12 @@ static int filter_frame(AVFilterLink *inlink, AVFrame *in)
         }
 
         dst = (double *)out->data[0];
+        out->nb_samples = in->nb_samples;
         ff_ebur128_add_frames_double(s->r128_out, dst, in->nb_samples);
         break;
     }
 
-    if (in != out)
+    if (in)
         av_frame_free(&in);
     return ff_filter_frame(outlink, out);
 }
@@ -634,38 +603,9 @@ static int flush_frame(AVFilterLink *outlink)
     int ret = 0;
 
     if (s->frame_type == INNER_FRAME) {
-        double *src;
-        double *buf;
-        int nb_samples, n, c, offset;
-        AVFrame *frame;
-
-        nb_samples  = (s->buf_size / inlink->channels) - s->prev_nb_samples;
-        nb_samples -= (frame_size(inlink->sample_rate, 100) - s->prev_nb_samples);
-
-        frame = ff_get_audio_buffer(outlink, nb_samples);
-        if (!frame)
-            return AVERROR(ENOMEM);
-        frame->nb_samples = nb_samples;
-
-        buf = s->buf;
-        src = (double *)frame->data[0];
-
-        offset  = ((s->limiter_buf_size / inlink->channels) - s->prev_nb_samples) * inlink->channels;
-        offset -= (frame_size(inlink->sample_rate, 100) - s->prev_nb_samples) * inlink->channels;
-        s->buf_index = s->buf_index - offset < 0 ? s->buf_index - offset + s->buf_size : s->buf_index - offset;
-
-        for (n = 0; n < nb_samples; n++) {
-            for (c = 0; c < inlink->channels; c++) {
-                src[c] = buf[s->buf_index + c];
-            }
-            src += inlink->channels;
-            s->buf_index += inlink->channels;
-            if (s->buf_index >= s->buf_size)
-                s->buf_index -= s->buf_size;
-        }
-
         s->frame_type = FINAL_FRAME;
-        ret = filter_frame(inlink, frame);
+        while (inlink->sample_count_out > outlink->sample_count_in)
+            ret = filter_frame(inlink, NULL);
     }
     return ret;
 }
@@ -712,8 +652,9 @@ static int activate(AVFilterContext *ctx)
         return ret;
 
     if (ff_inlink_acknowledge_status(inlink, &status, &pts)) {
+        ret = flush_frame(outlink);
         ff_outlink_set_status(outlink, status, pts);
-        return flush_frame(outlink);
+        return ret;
     }
 
     FF_FILTER_FORWARD_WANTED(outlink, inlink);