add opencv benchmark

jinhohwang-meta · jinhohwang-meta · commit 406e336247b4 · 2025-05-08T09:13:19.000-07:00
diff --git a/benchmarks/decoders/benchmark_decoders.py b/benchmarks/decoders/benchmark_decoders.py
@@ -28,6 +28,7 @@
     TorchCodecPublic,
     TorchCodecPublicNonBatch,
     TorchVision,
+    OpenCVDecoder,
 )
 
 
@@ -61,6 +62,7 @@ class DecoderKind:
         {"backend": "video_reader"},
     ),
     "torchaudio": DecoderKind("TorchAudio", TorchAudioDecoder),
+    "opencv": DecoderKind("OpenCV", OpenCVDecoder),
 }
 
 
diff --git a/benchmarks/decoders/benchmark_decoders_library.py b/benchmarks/decoders/benchmark_decoders_library.py
@@ -145,6 +145,74 @@ def decode_and_resize(self, video_file, pts_list, height, width, device):
         ]
         return frames
 
+class OpenCVDecoder(AbstractDecoder):
+    def __init__(self):
+        import cv2.videoio_registry as vr
+
+        self._print_each_iteration_time = False
+        api_pref = None
+        for backend in vr.getStreamBufferedBackends():
+            if not vr.hasBackend(backend):
+                continue
+            if not vr.isBackendBuiltIn(backend):
+                _, abi, api = vr.getStreamBufferedBackendPluginVersion(backend)
+                if (abi < 1 or (abi == 1 and api < 2)):
+                    continue
+            api_pref = backend
+            break
+        self._backend = api_pref
+
+    def decode_frames(self, video_file, pts_list):
+        import cv2
+
+        cap = cv2.VideoCapture(video_file, self._backend, [])
+        if not cap.isOpened():
+            raise ValueError("Could not open video stream")
+
+        fps = cap.get(cv2.CAP_PROP_FPS)
+        frames = int(cap.get(cv2.CAP_PROP_FRAME_COUNT))
+        approx_frame_numbers = [int(pts * fps) for pts in pts_list]
+
+        current_frame = 0
+        frames = []
+        while True:
+            ok = cap.grab()
+            if not ok:
+                break
+            if current_frame in approx_frame_numbers:  # only decompress needed
+                ret, frame = cap.retrieve()
+                if ret:
+                    frames.append(frame)
+
+            if len(frames) == len(approx_frame_numbers):
+                break
+            current_frame += 1
+        cap.release()
+        return frames
+
+    def decode_first_n_frames(self, video_file, n):
+        import cv2
+
+        cap = cv2.VideoCapture(video_file, self._backend, [])
+        if not cap.isOpened():
+            raise ValueError("Could not open video stream")
+
+        frames = []
+        for i in range(n):
+            ok = cap.grab()
+            if not ok:
+                break
+            ret, frame = cap.retrieve()
+            if ret:
+                frames.append(frame)
+        cap.release()
+        return frames
+
+    def decode_and_resize(self, video_file, pts_list, height, width, device):
+        import cv2
+        frames = [cv2.resize(frame, (width, height)) for frame in self.decode_frames(video_file, pts_list)]
+        return frames
+
 
 class TorchCodecCore(AbstractDecoder):
     def __init__(self, num_threads=None, color_conversion_library=None, device="cpu"):

Original file line number	Diff line number	Diff line change
`@@ -28,6 +28,7 @@`
`28`	`28`	`TorchCodecPublic,`
`29`	`29`	`TorchCodecPublicNonBatch,`
`30`	`30`	`TorchVision,`
	`31`	`+ OpenCVDecoder,`
`31`	`32`	`)`
`32`	`33`
`33`	`34`
`@@ -61,6 +62,7 @@ class DecoderKind:`
`61`	`62`	`{"backend": "video_reader"},`
`62`	`63`	`),`
`63`	`64`	`"torchaudio": DecoderKind("TorchAudio", TorchAudioDecoder),`
	`65`	`+ "opencv": DecoderKind("OpenCV", OpenCVDecoder),`
`64`	`66`	`}`
`65`	`67`
`66`	`68`