huggingface
diff --git a/‎.github/workflows/test_ipex.yml
-1 b/‎.github/workflows/test_ipex.yml
-1
diff --git a/‎.github/workflows/test_openvino.yml
+1-1 b/‎.github/workflows/test_openvino.yml
+1-1
diff --git a/‎README.md
+2-2 b/‎README.md
+2-2
diff --git a/‎examples/openvino/stable-diffusion/requirements.txt
+1-1 b/‎examples/openvino/stable-diffusion/requirements.txt
+1-1
diff --git a/‎examples/openvino/stable-diffusion/train_text_to_image_qat.py
+9-58 b/‎examples/openvino/stable-diffusion/train_text_to_image_qat.py
+9-58
diff --git a/‎optimum/commands/export/openvino.py
+6 b/‎optimum/commands/export/openvino.py
+6
diff --git a/‎optimum/exporters/openvino/__init__.py
+1-1 b/‎optimum/exporters/openvino/__init__.py
+1-1
@@ -30,7 +30,6 @@ jobs:
     - name: Install dependencies
       run: |
         python -m pip install --upgrade pip
-        pip install torch==2.1.2 torchvision==0.16.2 torchaudio==2.1.2 --index-url https://download.pytorch.org/whl/cpu
         pip install .[ipex,tests]
     - name: Test with Pytest
       run: |
 
@@ -32,7 +32,7 @@ jobs:
         python -m pip install --upgrade pip
         # install PyTorch CPU version to avoid installing CUDA packages on GitHub runner without GPU
         pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cpu
-        pip install .[openvino,nncf,tests,diffusers]
+        pip install .[openvino,openvino-tokenizers,nncf,tests,diffusers]
     - name: Test with Pytest
       run: |
         pytest tests/openvino/ --ignore test_modeling_basic
@@ -78,10 +78,10 @@ It is possible to export your model to the [OpenVINO](https://docs.openvino.ai/2
 optimum-cli export openvino --model gpt2 ov_model
 ```
 
-If you add `--int8`, the model linear and embedding weights will be quantized to INT8, the activations will be kept in floating point precision.
+You can also apply 8-bit weight-only quantization when exporting your model : the model linear and embedding weights will be quantized to INT8, the activations will be kept in floating point precision.
 
 ```plain
-optimum-cli export openvino --model gpt2 --int8 ov_model
+optimum-cli export openvino --model gpt2 --weight-format int8 ov_model
 ```
 
 To apply quantization on both weights and activations, you can find more information in the [documentation](https://huggingface.co/docs/optimum/main/en/intel/optimization_ov).
 
@@ -2,4 +2,4 @@ accelerate
 diffusers
 torch~=1.13
 nncf @ git+https://github.com/openvinotoolkit/nncf.git
-tomesd @ git+https://github.com/AlexKoff88/tomesd/tree/openvino
+tomesd @ git+https://github.com/AlexKoff88/tomesd.git@openvino
@@ -19,7 +19,6 @@
 import math
 import os
 import random
-import tempfile
 from copy import deepcopy
 from functools import partial
 from io import BytesIO
@@ -34,7 +33,7 @@
 import torch.utils.checkpoint
 from accelerate import Accelerator
 from accelerate.logging import get_logger
-from accelerate.utils import set_seed
+from accelerate.utils import ProjectConfiguration, set_seed
 from datasets import load_dataset
 from diffusers import DDIMScheduler, DDPMScheduler, DiffusionPipeline, LMSDiscreteScheduler, StableDiffusionPipeline
 from diffusers.optimization import get_scheduler
@@ -44,20 +43,12 @@
 from nncf.torch import create_compressed_model, register_default_init_args
 from nncf.torch.initialization import PTInitializingDataLoader
 from nncf.torch.layer_utils import CompressionParameter
-from openvino._offline_transformations import apply_moc_transformations, compress_quantize_weights_transformation
 from PIL import Image
 from requests.packages.urllib3.exceptions import InsecureRequestWarning
 from torchvision import transforms
 from tqdm import tqdm
 
-from optimum.exporters.onnx import export_models, get_stable_diffusion_models_for_export
-from optimum.intel import OVStableDiffusionPipeline
-from optimum.utils import (
-    DIFFUSION_MODEL_TEXT_ENCODER_SUBFOLDER,
-    DIFFUSION_MODEL_UNET_SUBFOLDER,
-    DIFFUSION_MODEL_VAE_DECODER_SUBFOLDER,
-    DIFFUSION_MODEL_VAE_ENCODER_SUBFOLDER,
-)
+from optimum.exporters.openvino import export_from_model
 
 
 requests.packages.urllib3.disable_warnings(InsecureRequestWarning)
@@ -583,47 +574,6 @@ def get_noise_scheduler(args):
     return noise_scheduler
 
 
-def export_to_onnx(pipeline, save_dir):
-    unet = pipeline.unet
-    vae = pipeline.vae
-    text_encoder = pipeline.text_encoder
-
-    unet.eval().cpu()
-    vae.eval().cpu()
-    text_encoder.eval().cpu()
-
-    ONNX_WEIGHTS_NAME = "model.onnx"
-
-    output_names = [
-        os.path.join(DIFFUSION_MODEL_TEXT_ENCODER_SUBFOLDER, ONNX_WEIGHTS_NAME),
-        os.path.join(DIFFUSION_MODEL_UNET_SUBFOLDER, ONNX_WEIGHTS_NAME),
-        os.path.join(DIFFUSION_MODEL_VAE_ENCODER_SUBFOLDER, ONNX_WEIGHTS_NAME),
-        os.path.join(DIFFUSION_MODEL_VAE_DECODER_SUBFOLDER, ONNX_WEIGHTS_NAME),
-    ]
-
-    with torch.no_grad():
-        models_and_onnx_configs = get_stable_diffusion_models_for_export(pipeline)
-        pipeline.save_config(save_dir)
-        export_models(
-            models_and_onnx_configs=models_and_onnx_configs, output_dir=Path(save_dir), output_names=output_names
-        )
-
-
-def export_to_openvino(pipeline, onnx_dir, save_dir):
-    ov_pipe = OVStableDiffusionPipeline.from_pretrained(
-        model_id=onnx_dir,
-        from_onnx=True,
-        model_save_dir=save_dir,
-        tokenizer=pipeline.tokenizer,
-        scheduler=pipeline.scheduler,
-        feature_extractor=pipeline.feature_extractor,
-        compile=False,
-    )
-    apply_moc_transformations(ov_pipe.unet.model, cf=False)
-    compress_quantize_weights_transformation(ov_pipe.unet.model)
-    ov_pipe.save_pretrained(save_dir)
-
-
 class UnetInitDataset(torch.utils.data.Dataset):
     def __init__(self, data):
         super().__init__()
@@ -700,7 +650,7 @@ def get_nncf_config(pipeline, dataloader, args):
                 "ignored_scopes": [
                     "{re}.*__add___[0-2]",
                     "{re}.*layer_norm_0",
-                    "{re}.*Attention.*/bmm_0",
+                    # "{re}.*Attention.*/bmm_0",
                     "{re}.*__truediv__*",
                     "{re}.*group_norm_0",
                     "{re}.*mul___[0-2]",
@@ -771,11 +721,13 @@ def main():
 
     logging_dir = os.path.join(args.output_dir, args.logging_dir)
 
+    accelerator_project_config = ProjectConfiguration(project_dir=args.output_dir, logging_dir=logging_dir)
+
     accelerator = Accelerator(
         gradient_accumulation_steps=args.gradient_accumulation_steps,
         mixed_precision=args.mixed_precision,
         log_with=args.report_to,
-        logging_dir=logging_dir,
+        project_config=accelerator_project_config,
     )
 
     logging.basicConfig(
@@ -922,7 +874,7 @@ def tokenize_captions(examples, is_train=True):
 
     with accelerator.main_process_first():
         if args.max_train_samples is not None:
-            dataset["train"] = dataset["train"].shuffle(seed=42, buffer_size=args.max_train_samples)
+            dataset["train"] = dataset["train"].shuffle(seed=42).select(range(args.max_train_samples))
         # Set the training transforms
         train_dataset = dataset["train"]
 
@@ -1132,9 +1084,8 @@ def collate_fn(examples):
         feature_extractor=pipeline.feature_extractor,
     )
 
-    with tempfile.TemporaryDirectory() as tmpdirname:
-        export_to_onnx(export_pipeline, tmpdirname)
-        export_to_openvino(export_pipeline, tmpdirname, Path(args.output_dir) / "openvino")
+    save_directory = Path(args.output_dir) / "openvino"
+    export_from_model(export_pipeline, output=save_directory, task="stable-diffusion")
 
 
 if __name__ == "__main__":
 
@@ -103,6 +103,11 @@ def parse_args_openvino(parser: "ArgumentParser"):
             "OpenVINO native inference code that expects kv-cache inputs and outputs in the model."
         ),
     )
+    optional_group.add_argument(
+        "--convert-tokenizer",
+        action="store_true",
+        help="Add converted tokenizer and detokenizer with OpenVINO Tokenizers",
+    )
 
 
 class OVExportCommand(BaseOptimumCLICommand):
@@ -151,5 +156,6 @@ def run(self):
             compression_option=self.args.weight_format,
             compression_ratio=self.args.ratio,
             stateful=not self.args.disable_stateful,
+            convert_tokenizer=self.args.convert_tokenizer,
             # **input_shapes,
         )
@@ -1,5 +1,5 @@
 from .__main__ import main_export
-from .convert import export, export_models, export_pytorch_via_onnx
+from .convert import export, export_from_model, export_models, export_pytorch_via_onnx
 from .stateful import ensure_stateful_is_available, patch_stateful