Follow up to #2727 (#3211)

nikita-savelyevv · web-flow · commit 1067d490bc1f · 2025-01-24T21:12:50.000+04:00
### Changes Follow up to #2727 1. Do not use `infer_request.results` 2. Replace `>=` with `opset.greater_equal()` 3. Rename `ov_numeric.py` to `openvino_numeric.py` ### Reason for changes 1. Improve int4 compression time by up to ~10% 2. Avoid warning: `DeprecationWarning: greater_equal is deprecated and will be removed in version 2025.3. Use ops.greater_equal instead` 3. Fix onnx install test ### Related tickets 139047 ### Tests - https://github.com/openvinotoolkit/nncf/actions/runs/12947249537 - NNCF/job/manual/job/post_training_weight_compression/301/ - NNCF/job/nightly/job/test_examples/653/
diff --git a/docs/api/source/conf.py b/docs/api/source/conf.py
@@ -145,7 +145,7 @@ def collect_api_entities() -> APIInfo:
     "nncf.tensor.functions.torch_linalg",
     "nncf.tensor.functions.torch_io",
     "nncf.tensor.functions.numpy_io",
-    "nncf.tensor.functions.ov_numeric",
+    "nncf.tensor.functions.openvino_numeric",
 ]
 
 with mock(mock_modules):
diff --git a/nncf/openvino/optimized_functions/models.py b/nncf/openvino/optimized_functions/models.py
@@ -29,7 +29,7 @@
 from nncf.quantization.algorithms.weight_compression.config import WeightCompressionConfig
 from nncf.tensor import Tensor
 from nncf.tensor import TensorDataType
-from nncf.tensor.functions.ov_numeric import DTYPE_MAP as DTYPE_MAP_OV
+from nncf.tensor.functions.openvino_numeric import DTYPE_MAP as DTYPE_MAP_OV
 
 TensorList = List[Tensor]
 ModelCallable = Callable[[TensorList], TensorList]
@@ -134,18 +134,17 @@ def _infer_ov_model(
             raise ValueError(f"Expected input '{input_name}' to be {expected_dtype}. But found: {actual_dtype}.")
 
     # Infer the model
-    # TODO (Nikita Savelyev): Investigate the approach when we always infer via infer request creation
+    if compiled_model._infer_request is None:
+        compiled_model._infer_request = compiled_model.create_infer_request()
+    infer_request = compiled_model._infer_request
+
     inputs = [inp.data for inp in inputs]
+    outputs = infer_request.infer(
+        inputs, share_inputs=ov_model_params.share_inputs, share_outputs=ov_model_params.share_outputs
+    )
     if ov_model_params.return_ov_tensors:
-        infer_request = compiled_model.create_infer_request()
-        infer_request.infer(
-            inputs, share_inputs=ov_model_params.share_inputs, share_outputs=ov_model_params.share_outputs
-        )
-        outputs = [infer_request.get_output_tensor(i) for i in range(len(infer_request.results))]
+        outputs = [infer_request.get_output_tensor(i) for i in range(len(outputs))]
     else:
-        outputs = compiled_model(
-            inputs, share_inputs=ov_model_params.share_inputs, share_outputs=ov_model_params.share_outputs
-        )
         outputs = [outputs[i] for i in range(len(outputs))]
     outputs = [Tensor(it) for it in outputs]
 
@@ -367,7 +366,7 @@ def _build_compress_model(
             w_max = opset.reduce_max(weight, reduction_axes=reduction_axes, keep_dims=True)
             w_abs_min, w_max = opset.convert(w_abs_min, ov.Type.f32), opset.convert(w_max, ov.Type.f32)
 
-            scale = opset.select(w_abs_min >= w_max, w_abs_min, opset.negative(w_max))
+            scale = opset.select(opset.greater_equal(w_abs_min, w_max), w_abs_min, opset.negative(w_max))
             scale = divide_op(scale, opset.constant(-level_low, ov.Type.f32))
             scale = opset.select(opset.less(opset.abs(scale), eps), eps, scale)
 
diff --git a/nncf/quantization/algorithms/weight_compression/openvino_backend.py b/nncf/quantization/algorithms/weight_compression/openvino_backend.py
@@ -55,7 +55,7 @@
 from nncf.quantization.algorithms.weight_compression.weight_lowering import compress_weight
 from nncf.tensor import Tensor
 from nncf.tensor.definitions import TensorDataType
-from nncf.tensor.functions.ov_numeric import DTYPE_MAP_REV
+from nncf.tensor.functions.openvino_numeric import DTYPE_MAP_REV
 
 
 class OVWeightCompressionAlgoBackend(WeightCompressionAlgoBackend):
diff --git a/nncf/tensor/functions/openvino_numeric.py b/nncf/tensor/functions/openvino_numeric.py
diff --git a/tests/openvino/native/test_tensor.py b/tests/openvino/native/test_tensor.py
@@ -20,7 +20,7 @@
 from nncf.tensor.definitions import TensorBackend
 from nncf.tensor.definitions import TensorDeviceType
 from nncf.tensor.functions.numpy_numeric import DTYPE_MAP as DTYPE_MAP_NP
-from nncf.tensor.functions.ov_numeric import DTYPE_MAP as DTYPE_MAP_OV
+from nncf.tensor.functions.openvino_numeric import DTYPE_MAP as DTYPE_MAP_OV
 
 
 class TestOVNNCFTensorOperators:
diff --git a/tests/openvino/optimized_functions/test_compression_functions.py b/tests/openvino/optimized_functions/test_compression_functions.py
@@ -31,7 +31,7 @@
 from nncf.tensor.definitions import TensorBackend
 from nncf.tensor.functions.numpy_numeric import DTYPE_MAP as DTYPE_MAP_NP
 from nncf.tensor.functions.numpy_numeric import DTYPE_MAP_REV as DTYPE_MAP_REV_NP
-from nncf.tensor.functions.ov_numeric import DTYPE_MAP as DTYPE_MAP_OV
+from nncf.tensor.functions.openvino_numeric import DTYPE_MAP as DTYPE_MAP_OV
 
 
 class ComputationBackend(Enum):
diff --git a/tests/openvino/optimized_functions/test_ov_model_parameters.py b/tests/openvino/optimized_functions/test_ov_model_parameters.py
@@ -240,7 +240,9 @@ def test_release_memory(mocker, release_memory):
     compiled_model.inputs = [input_mock]
 
     output_mock = mocker.Mock()
-    compiled_model.return_value = [output_mock]
+    infer_request = mocker.Mock()
+    infer_request.infer.return_value = [output_mock]
+    compiled_model._infer_request = infer_request
 
     ov_model_params = OVModelParameters(input_dtypes={"input": TensorDataType.float32}, release_memory=release_memory)
     input_tensor = mocker.Mock()
@@ -267,16 +269,11 @@ def test_share_inputs_outputs(mocker, share_inputs, share_outputs, return_ov_ten
 
     output_mock = mocker.Mock()
 
+    infer_request = mocker.Mock()
+    infer_request.infer.return_value = [output_mock]
     if return_ov_tensors:
-        infer_request = mocker.Mock()
-        compiled_model.create_infer_request.return_value = infer_request
-
-        infer_request.infer = mocker.Mock()
-        infer_request.results = [output_mock]
-
         infer_request.get_output_tensor.return_value = output_mock
-    else:
-        compiled_model.return_value = [output_mock]
+    compiled_model._infer_request = infer_request
 
     ov_model_params = OVModelParameters(
         input_dtypes={"input": TensorDataType.float32},
@@ -292,14 +289,9 @@ def test_share_inputs_outputs(mocker, share_inputs, share_outputs, return_ov_ten
 
     _infer_ov_model(ov_model_params, compiled_model, inputs=inputs)
 
-    if return_ov_tensors:
-        infer_request.infer.assert_called_once_with(
-            [input_tensor.data], share_inputs=share_inputs, share_outputs=share_outputs
-        )
-    else:
-        compiled_model.assert_called_once_with(
-            [input_tensor.data], share_inputs=share_inputs, share_outputs=share_outputs
-        )
+    infer_request.infer.assert_called_once_with(
+        [input_tensor.data], share_inputs=share_inputs, share_outputs=share_outputs
+    )
 
 
 @pytest.mark.parametrize(

Original file line number	Diff line number	Diff line change
`@@ -145,7 +145,7 @@ def collect_api_entities() -> APIInfo:`
`145`	`145`	`"nncf.tensor.functions.torch_linalg",`
`146`	`146`	`"nncf.tensor.functions.torch_io",`
`147`	`147`	`"nncf.tensor.functions.numpy_io",`
`148`		`- "nncf.tensor.functions.ov_numeric",`
	`148`	`+ "nncf.tensor.functions.openvino_numeric",`
`149`	`149`	`]`
`150`	`150`
`151`	`151`	`with mock(mock_modules):`