Notebook 405. Updated codes to prevent flickering effect when changing objects in front of the webcam and fix a bug for text recognition (openvinotoolkit#565)

zhuo-yoyowz · Ryan Loney · paularamo · web-flow · commit 49ed977b5f04 · 2022-06-09T14:19:22.000+02:00
* Update README_cn.md

* Update README_cn.md

* Update README_cn.md

* Update README_cn.md

* Create test.cpp

* Add files via upload

* Update README.md

* Delete test.cpp

* Create test.cpp

* Add files via upload

* Delete test.cpp

* Create test.cpp

* Add files via upload

* Delete notebooks/405-paddleOCR-webcam/model/ch_ppocr_mobile_v2.0_cls_infer directory

* Create test.cpp

* Create test.cpp

* Add files via upload

* Delete test.cpp

* Create test.cpp

* Add files via upload

* Delete test.cpp

* Delete notebooks/405-paddleOCR-webcam/model/ch_ppocr_mobile_v2.0_cls_infer directory

* Create test.cpp

* Add files via upload

* Delete test.cpp

* Delete test.cpp

* Delete 405-paddleOCR-webcam.ipynb

* Add files via upload

* Create 405-paddleOCR-webcam.ipynb

* Delete 405-paddleOCR-webcam.ipynb

* Add files via upload

* Add files via upload

* Delete test_video.mp4

* Delete 405-paddleOCR-webcam.ipynb

* Add files via upload

* Delete 405-paddleOCR-webcam.ipynb

* Add files via upload

* Update 405-paddleOCR-webcam.ipynb

* Update README.md

* Update README.md

* Update 405-paddleOCR-webcam.ipynb

* Update 405-paddleOCR-webcam.ipynb

* Update notebooks/405-paddleOCR-webcam/405-paddleOCR-webcam.ipynb

Co-authored-by: Jakub Debski &lt;jakub.debski@intel.com&gt;

* Update notebooks/405-paddleOCR-webcam/405-paddleOCR-webcam.ipynb

Co-authored-by: Jakub Debski &lt;jakub.debski@intel.com&gt;

* Update notebooks/405-paddleOCR-webcam/405-paddleOCR-webcam.ipynb

Co-authored-by: Jakub Debski &lt;jakub.debski@intel.com&gt;

* Update 405-paddleOCR-webcam.ipynb

* Update 405-paddleOCR-webcam.ipynb

* Update notebooks/405-paddleOCR-webcam/405-paddleOCR-webcam.ipynb

Co-authored-by: Paula Ramos &lt;paula.ramos@intel.com&gt;

* Update notebooks/405-paddleOCR-webcam/405-paddleOCR-webcam.ipynb

Co-authored-by: Paula Ramos &lt;paula.ramos@intel.com&gt;

* Update notebooks/405-paddleOCR-webcam/405-paddleOCR-webcam.ipynb

Co-authored-by: Paula Ramos &lt;paula.ramos@intel.com&gt;

* Update notebooks/405-paddleOCR-webcam/405-paddleOCR-webcam.ipynb

Co-authored-by: Paula Ramos &lt;paula.ramos@intel.com&gt;

* Update README.md

* Update 405-paddleOCR-webcam.ipynb

* Update 405-paddleOCR-webcam.ipynb

* Update 405-paddleOCR-webcam.ipynb

* Update 405-paddleOCR-webcam.ipynb

* Update 405-paddleOCR-webcam.ipynb

* Delete notebooks/405-paddleOCR-webcam/data directory

* Delete notebooks/405-paddleOCR-webcam/model directory

* Delete 405-paddleOCR-webcam.ipynb

* Add files via upload

* Update 405-paddleOCR-webcam.ipynb

* Update 405-paddleOCR-webcam.ipynb

* Update notebooks/405-paddleOCR-webcam/405-paddleOCR-webcam.ipynb

Co-authored-by: Paula Ramos &lt;paula.ramos@intel.com&gt;

* Update notebooks/405-paddleOCR-webcam/405-paddleOCR-webcam.ipynb

Co-authored-by: Paula Ramos &lt;paula.ramos@intel.com&gt;

* Delete 405-paddleOCR-webcam.ipynb

* Add files via upload

* Delete 405-paddleOCR-webcam.ipynb

* Add files via upload

* Update 405-paddleOCR-webcam.ipynb

* Update 405-paddleOCR-webcam.ipynb

* Update README.md

Co-authored-by: Adrian Boguszewski &lt;adekboguszewski@gmail.com&gt;

* Update notebooks/README.md

Co-authored-by: Adrian Boguszewski &lt;adekboguszewski@gmail.com&gt;

* Update notebooks/405-paddleOCR-webcam/405-paddleOCR-webcam.ipynb

Co-authored-by: Adrian Boguszewski &lt;adekboguszewski@gmail.com&gt;

* Update notebooks/405-paddleOCR-webcam/405-paddleOCR-webcam.ipynb

Co-authored-by: Adrian Boguszewski &lt;adekboguszewski@gmail.com&gt;

* Update notebooks/405-paddleOCR-webcam/405-paddleOCR-webcam.ipynb

Co-authored-by: Adrian Boguszewski &lt;adekboguszewski@gmail.com&gt;

* Update notebooks/405-paddleOCR-webcam/405-paddleOCR-webcam.ipynb

Co-authored-by: Adrian Boguszewski &lt;adekboguszewski@gmail.com&gt;

* Update notebooks/405-paddleOCR-webcam/405-paddleOCR-webcam.ipynb

Co-authored-by: Adrian Boguszewski &lt;adekboguszewski@gmail.com&gt;

* Update notebooks/405-paddleOCR-webcam/405-paddleOCR-webcam.ipynb

Co-authored-by: Adrian Boguszewski &lt;adekboguszewski@gmail.com&gt;

* Update pre_post_processing.py

* Update README.md

* Create tt

* Rename notebooks/405-paddleOCR-webcam/405-paddleOCR-webcam.ipynb to notebooks/405-paddle-ocr-webcam/405-paddle-ocr-webcam.ipynb

* Rename notebooks/405-paddleOCR-webcam/README.md to notebooks/405-paddle-ocr-webcam/README.md

* Rename notebooks/405-paddleOCR-webcam/pre_post_processing.py to notebooks/405-paddle-ocr-webcam/pre_post_processing.py

* Rename notebooks/405-paddleOCR-webcam/ppocr_keys_v1.txt to notebooks/405-paddle-ocr-webcam/data/ppocr_keys_v1.txt

* Add files via upload

* Delete simfang.ttf

* Delete tt

* Update README.md

* Update pre_post_processing.py

* Update 405-paddle-ocr-webcam.ipynb

* Update 405-paddle-ocr-webcam.ipynb

* Delete 405-paddle-ocr-webcam.ipynb

* Add files via upload

* Update 405-paddleOCR-webcam.ipynb

* Update 405-paddleOCR-webcam.ipynb

* Update pre_post_processing.py

* Rename 405-paddleOCR-webcam.ipynb to 405-paddle-ocr-webcam.ipynb

* Update notebooks/405-paddle-ocr-webcam/405-paddle-ocr-webcam.ipynb

Co-authored-by: Jakub Debski &lt;jakub.debski@intel.com&gt;

* Update notebooks/405-paddle-ocr-webcam/405-paddle-ocr-webcam.ipynb

Co-authored-by: Jakub Debski &lt;jakub.debski@intel.com&gt;

* Update 405-paddle-ocr-webcam.ipynb

* Update notebooks/405-paddle-ocr-webcam/405-paddle-ocr-webcam.ipynb

Co-authored-by: Jakub Debski &lt;jakub.debski@intel.com&gt;

* Update notebooks/405-paddle-ocr-webcam/405-paddle-ocr-webcam.ipynb

Co-authored-by: Jakub Debski &lt;jakub.debski@intel.com&gt;

* Update notebooks/405-paddle-ocr-webcam/405-paddle-ocr-webcam.ipynb

Co-authored-by: Jakub Debski &lt;jakub.debski@intel.com&gt;

* Update notebooks/405-paddle-ocr-webcam/405-paddle-ocr-webcam.ipynb

Co-authored-by: Jakub Debski &lt;jakub.debski@intel.com&gt;

* Update 405-paddle-ocr-webcam.ipynb

* Update 405-paddle-ocr-webcam.ipynb

* Update 405-paddle-ocr-webcam.ipynb

* Update 405-paddle-ocr-webcam.ipynb

* Update 405-paddle-ocr-webcam.ipynb

* Update 405-paddle-ocr-webcam.ipynb

* Update 405-paddle-ocr-webcam.ipynb

* Update 405-paddle-ocr-webcam.ipynb

* Delete 405-paddle-ocr-webcam.ipynb

* Add files via upload

* Update 405-paddle-ocr-webcam.ipynb

* Update 405-paddle-ocr-webcam.ipynb

* Update README.md

* Update 405-paddle-ocr-webcam.ipynb

* Prevent text size flickering

* Update README.md

* Update README.md

* Update README.md

* Update 405-paddle-ocr-webcam.ipynb

Update codes to prevent flickering effect when changing objects for OCR in front of the webcam

* Update 405-paddle-ocr-webcam.ipynb

Update codes to prevent flickering effect when changing objects for OCR in front of the webcam

* Update 405-paddle-ocr-webcam.ipynb

* Update 405-paddle-ocr-webcam.ipynb

* Delete 405-paddle-ocr-webcam.ipynb

* Restructure codes for fixing a bug 

Restructured codes to fix the bug of inferencing for text recognition in successive batches

* Update 405-paddle-ocr-webcam.ipynb

Co-authored-by: yoyowz &lt;35246475+yoyowz@users.noreply.github.com&gt;
Co-authored-by: Ryan Loney &lt;ryan.loney@intel.com&gt;
Co-authored-by: Paula Ramos &lt;pjramg@gmail.com&gt;
Co-authored-by: Jakub Debski &lt;jakub.debski@intel.com&gt;
Co-authored-by: Paula Ramos &lt;paula.ramos@intel.com&gt;
Co-authored-by: Adrian Boguszewski &lt;adekboguszewski@gmail.com&gt;
diff --git a/notebooks/405-paddle-ocr-webcam/405-paddle-ocr-webcam.ipynb b/notebooks/405-paddle-ocr-webcam/405-paddle-ocr-webcam.ipynb
@@ -300,15 +300,14 @@
     "    return padding_im\n",
     "\n",
     "\n",
-    "def batch_text_box(dt_boxes, frame):\n",
+    "def prep_for_rec(dt_boxes, frame):\n",
     "    \"\"\"\n",
-    "    Batch the detected bounding boxes for text recognition\n",
+    "    Preprocessing of the detected bounding boxes for text recognition\n",
     "\n",
     "    Parameters:\n",
     "        dt_boxes: detected bounding boxes from text detection \n",
     "        frame: original input frame \n",
     "    \"\"\"\n",
-    "    \n",
     "    ori_im = frame.copy()\n",
     "    img_crop_list = [] \n",
     "    for bno in range(len(dt_boxes)):\n",
@@ -321,29 +320,38 @@
     "    width_list = []\n",
     "    for img in img_crop_list:\n",
     "        width_list.append(img.shape[1] / float(img.shape[0]))\n",
+    "    \n",
     "    # Sorting can speed up the recognition process\n",
     "    indices = np.argsort(np.array(width_list))\n",
-    "    rec_res = [['', 0.0]] * img_num\n",
-    "    batch_num = 6\n",
-    "\n",
-    "    # For each detected text box batch, run inference for text recognition\n",
-    "    for beg_img_no in range(0, img_num, batch_num):\n",
-    "        end_img_no = min(img_num, beg_img_no + batch_num)\n",
-    "\n",
-    "        norm_img_batch = []\n",
-    "        max_wh_ratio = 0\n",
-    "        for ino in range(beg_img_no, end_img_no):\n",
-    "            h, w = img_crop_list[indices[ino]].shape[0:2]\n",
-    "            wh_ratio = w * 1.0 / h\n",
-    "            max_wh_ratio = max(max_wh_ratio, wh_ratio)\n",
-    "        for ino in range(beg_img_no, end_img_no):\n",
-    "            norm_img = resize_norm_img(img_crop_list[indices[ino]], max_wh_ratio)\n",
-    "            norm_img = norm_img[np.newaxis, :]\n",
-    "            norm_img_batch.append(norm_img)\n",
+    "    return img_crop_list, img_num, indices\n",
+    "\n",
+    "\n",
+    "def batch_text_box(img_crop_list, img_num, indices, beg_img_no, batch_num):\n",
+    "    \"\"\"\n",
+    "    Batch for text recognition\n",
+    "\n",
+    "    Parameters:\n",
+    "        img_crop_list: processed detected bounding box images \n",
+    "        img_num: number of bounding boxes from text detection\n",
+    "        indices: sorting for bounding boxes to speed up text recognition\n",
+    "        beg_img_no: the beginning number of bounding boxes for each batch of text recognition inference\n",
+    "        batch_num: number of images for each batch\n",
+    "    \"\"\"\n",
+    "    norm_img_batch = []\n",
+    "    max_wh_ratio = 0\n",
+    "    end_img_no = min(img_num, beg_img_no + batch_num)\n",
+    "    for ino in range(beg_img_no, end_img_no):\n",
+    "        h, w = img_crop_list[indices[ino]].shape[0:2]\n",
+    "        wh_ratio = w * 1.0 / h\n",
+    "        max_wh_ratio = max(max_wh_ratio, wh_ratio)\n",
+    "    for ino in range(beg_img_no, end_img_no):\n",
+    "        norm_img = resize_norm_img(img_crop_list[indices[ino]], max_wh_ratio)\n",
+    "        norm_img = norm_img[np.newaxis, :]\n",
+    "        norm_img_batch.append(norm_img)\n",
     "\n",
     "    norm_img_batch = np.concatenate(norm_img_batch)\n",
     "    norm_img_batch = norm_img_batch.copy()\n",
-    "    return norm_img_batch, rec_res, indices, beg_img_no"
+    "    return norm_img_batch"
    ]
   },
   {
@@ -461,7 +469,7 @@
     "                frame = cv2.resize(src=frame, dsize=None, fx=scale, fy=scale,\n",
     "                                   interpolation=cv2.INTER_AREA)\n",
     "            # preprocess image for text detection\n",
-    "            test_image = image_preprocess(frame,640)\n",
+    "            test_image = image_preprocess(frame, 640)\n",
     "                \n",
     "            # measure processing time for text detection\n",
     "            start_time = time.time()\n",
@@ -480,9 +488,20 @@
     "\n",
     "            # Preprocess detection results for recognition\n",
     "            dt_boxes = processing.sorted_boxes(dt_boxes)  \n",
-    "            if dt_boxes:\n",
+    "            batch_num = 6\n",
+    "            img_crop_list, img_num, indices = prep_for_rec(dt_boxes, frame)\n",
+    "            \n",
+    "            # For storing recognition results, include two parts:\n",
+    "            # txts are the recognized text results, scores are the recognition confidence level \n",
+    "            rec_res = [['', 0.0]] * img_num\n",
+    "            txts = [] \n",
+    "            scores = []\n",
+    "\n",
+    "            for beg_img_no in range(0, img_num, batch_num):\n",
+    "\n",
     "                # Recognition starts from here\n",
-    "                norm_img_batch, rec_res, indices, beg_img_no = batch_text_box(dt_boxes, frame)\n",
+    "                norm_img_batch = batch_text_box(\n",
+    "                    img_crop_list, img_num, indices, beg_img_no, batch_num)\n",
     "\n",
     "                # Run inference for text recognition \n",
     "                rec_results = rec_compiled_model([norm_img_batch])[rec_output_layer]\n",
@@ -491,31 +510,26 @@
     "                postprocess_op = processing.build_post_process(processing.postprocess_params)\n",
     "                rec_result = postprocess_op(rec_results)\n",
     "                for rno in range(len(rec_result)):\n",
-    "                    rec_res[indices[beg_img_no + rno]] = rec_result[rno]\n",
-    "\n",
-    "                # Text recognition results, rec_res, include two parts:\n",
-    "                # txts are the recognized text results, scores are the recognition confidence level                   \n",
+    "                    rec_res[indices[beg_img_no + rno]] = rec_result[rno]   \n",
     "                if rec_res:\n",
-    "                    image = Image.fromarray(cv2.cvtColor(frame, cv2.COLOR_BGR2RGB))\n",
-    "                    boxes = dt_boxes\n",
     "                    txts = [rec_res[i][0] for i in range(len(rec_res))] \n",
-    "                    scores = [rec_res[i][1] for i in range(len(rec_res))] \n",
-    "\n",
-    "                    # draw text recognition results beside the image\n",
-    "                    draw_img = processing.draw_ocr_box_txt(\n",
-    "                        image,\n",
-    "                        boxes,\n",
-    "                        txts,\n",
-    "                        scores,\n",
-    "                        drop_score=0.5)\n",
-    "            else:\n",
-    "                draw_img = cv2.cvtColor(frame, cv2.COLOR_RGB2BGR)\n",
+    "                    scores = [rec_res[i][1] for i in range(len(rec_res))]\n",
+    "                                   \n",
+    "            image = Image.fromarray(cv2.cvtColor(frame, cv2.COLOR_BGR2RGB))\n",
+    "            boxes = dt_boxes\n",
+    "            # draw text recognition results beside the image\n",
+    "            draw_img = processing.draw_ocr_box_txt(\n",
+    "                image,\n",
+    "                boxes,\n",
+    "                txts,\n",
+    "                scores,\n",
+    "                drop_score=0.5)\n",
     "\n",
     "            # Visualize PaddleOCR results\n",
     "            f_height, f_width = draw_img.shape[:2]\n",
     "            fps = 1000 / processing_time_det\n",
     "            cv2.putText(img=draw_img, text=f\"Inference time: {processing_time_det:.1f}ms ({fps:.1f} FPS)\", \n",
-    "                        org=(20, 40),fontFace=cv2.FONT_HERSHEY_COMPLEX, fontScale=f_height / 1000,\n",
+    "                        org=(20, 40),fontFace=cv2.FONT_HERSHEY_COMPLEX, fontScale=f_width / 1000,\n",
     "                        color=(0, 0, 255), thickness=1, lineType=cv2.LINE_AA)\n",
     "            \n",
     "            # use this workaround if there is flickering\n",