From a4821e12c9e135984b156be7b4120d075a14d265 Mon Sep 17 00:00:00 2001
From: Myhailo Chernyshov <mykhailo.chernyshov@raccoongang.com>
Date: Wed, 15 Jan 2025 11:27:50 +0200
Subject: [PATCH 1/7] chore: [FC-0063] `attrs` dependency is added

---
 requirements/base.in         | 1 +
 requirements/base.txt        | 2 ++
 requirements/ci.txt          | 4 ++++
 requirements/constraints.txt | 2 ++
 requirements/dev.txt         | 5 +++++
 requirements/quality.txt     | 4 ++++
 requirements/test.txt        | 4 ++++
 7 files changed, 22 insertions(+)

diff --git a/requirements/base.in b/requirements/base.in
index 775e0bfe..bb8cb621 100644
--- a/requirements/base.in
+++ b/requirements/base.in
@@ -1,6 +1,7 @@
 # Core requirements for this package
 
 Django
+attrs
 lxml
 requests
 youtube-dl
diff --git a/requirements/base.txt b/requirements/base.txt
index b8ebc4a2..adf2a821 100644
--- a/requirements/base.txt
+++ b/requirements/base.txt
@@ -6,6 +6,8 @@
 #
 asgiref==3.8.1
     # via django
+attrs==24.3.0
+    # via -r requirements/base.in
 backports-zoneinfo==0.2.1
     # via django
 certifi==2024.12.14
diff --git a/requirements/ci.txt b/requirements/ci.txt
index 01968445..4ffb6cb7 100644
--- a/requirements/ci.txt
+++ b/requirements/ci.txt
@@ -8,6 +8,10 @@ asgiref==3.8.1
     # via
     #   -r /home/misha/work/cc2olx/requirements/quality.txt
     #   django
+attrs==24.3.0
+    # via
+    #   -c /home/misha/work/cc2olx/requirements/constraints.txt
+    #   -r /home/misha/work/cc2olx/requirements/quality.txt
 backports-zoneinfo==0.2.1
     # via
     #   -r /home/misha/work/cc2olx/requirements/quality.txt
diff --git a/requirements/constraints.txt b/requirements/constraints.txt
index 94595ab1..f6629968 100644
--- a/requirements/constraints.txt
+++ b/requirements/constraints.txt
@@ -7,3 +7,5 @@
 # link to other information that will help people in the future to remove the
 # pin when possible.  Writing an issue against the offending project and
 # linking to it here is good.
+
+attrs==24.3.0
diff --git a/requirements/dev.txt b/requirements/dev.txt
index e212fcf2..192b7890 100644
--- a/requirements/dev.txt
+++ b/requirements/dev.txt
@@ -9,6 +9,11 @@ asgiref==3.8.1
     #   -r /home/misha/work/cc2olx/requirements/ci.txt
     #   -r /home/misha/work/cc2olx/requirements/quality.txt
     #   django
+attrs==24.3.0
+    # via
+    #   -c /home/misha/work/cc2olx/requirements/constraints.txt
+    #   -r /home/misha/work/cc2olx/requirements/ci.txt
+    #   -r /home/misha/work/cc2olx/requirements/quality.txt
 backports-tarfile==1.2.0
     # via jaraco-context
 backports-zoneinfo==0.2.1
diff --git a/requirements/quality.txt b/requirements/quality.txt
index d493f5a5..9ee3dc3d 100644
--- a/requirements/quality.txt
+++ b/requirements/quality.txt
@@ -8,6 +8,10 @@ asgiref==3.8.1
     # via
     #   -r /home/misha/work/cc2olx/requirements/test.txt
     #   django
+attrs==24.3.0
+    # via
+    #   -c /home/misha/work/cc2olx/requirements/constraints.txt
+    #   -r /home/misha/work/cc2olx/requirements/test.txt
 backports-zoneinfo==0.2.1
     # via
     #   -r /home/misha/work/cc2olx/requirements/test.txt
diff --git a/requirements/test.txt b/requirements/test.txt
index 1c6cc62f..22b89548 100644
--- a/requirements/test.txt
+++ b/requirements/test.txt
@@ -8,6 +8,10 @@ asgiref==3.8.1
     # via
     #   -r /home/misha/work/cc2olx/requirements/base.txt
     #   django
+attrs==24.3.0
+    # via
+    #   -c /home/misha/work/cc2olx/requirements/constraints.txt
+    #   -r /home/misha/work/cc2olx/requirements/base.txt
 backports-zoneinfo==0.2.1
     # via
     #   -r /home/misha/work/cc2olx/requirements/base.txt

From 8b81e3d33737af04a2069c3000bdc799b6547ddd Mon Sep 17 00:00:00 2001
From: Myhailo Chernyshov <mykhailo.chernyshov@raccoongang.com>
Date: Wed, 15 Jan 2025 11:47:27 +0200
Subject: [PATCH 2/7] feat: [FC-0063] Block type processors are implemented

---
 MANIFEST.in                                   |   1 +
 src/cc2olx/constants.py                       |   8 +-
 src/cc2olx/content_parsers/__init__.py        |  15 +
 src/cc2olx/content_parsers/abc.py             |  31 ++
 src/cc2olx/content_parsers/discussion.py      |  44 ++
 src/cc2olx/content_parsers/html.py            | 140 +++++
 src/cc2olx/content_parsers/lti.py             |  85 +++
 src/cc2olx/content_parsers/mixins.py          |  30 ++
 src/cc2olx/content_parsers/qti.py             | 351 ++++++++++++
 src/cc2olx/content_parsers/utils.py           | 127 +++++
 src/cc2olx/content_parsers/video.py           |  20 +
 src/cc2olx/content_processors.py              |  89 ++++
 src/cc2olx/dataclasses.py                     | 107 +++-
 src/cc2olx/enums.py                           |  28 +
 src/cc2olx/exceptions.py                      |   4 +
 src/cc2olx/models.py                          |  26 +-
 src/cc2olx/olx_generators/__init__.py         |  15 +
 src/cc2olx/olx_generators/abc.py              |  21 +
 src/cc2olx/olx_generators/discussion.py       |  32 ++
 src/cc2olx/olx_generators/html.py             |  60 +++
 src/cc2olx/olx_generators/lti.py              |  43 ++
 src/cc2olx/olx_generators/qti.py              | 305 +++++++++++
 src/cc2olx/olx_generators/video.py            |  18 +
 src/cc2olx/templates/external_webcontent.html |  10 +
 src/cc2olx/templates/image_webcontent.html    |  10 +
 src/cc2olx/xml/__init__.py                    |   0
 src/cc2olx/xml/cc_xml.py                      | 501 ++++++++++++++++++
 27 files changed, 2114 insertions(+), 7 deletions(-)
 create mode 100644 src/cc2olx/content_parsers/__init__.py
 create mode 100644 src/cc2olx/content_parsers/abc.py
 create mode 100644 src/cc2olx/content_parsers/discussion.py
 create mode 100644 src/cc2olx/content_parsers/html.py
 create mode 100644 src/cc2olx/content_parsers/lti.py
 create mode 100644 src/cc2olx/content_parsers/mixins.py
 create mode 100644 src/cc2olx/content_parsers/qti.py
 create mode 100644 src/cc2olx/content_parsers/utils.py
 create mode 100644 src/cc2olx/content_parsers/video.py
 create mode 100644 src/cc2olx/content_processors.py
 create mode 100644 src/cc2olx/enums.py
 create mode 100644 src/cc2olx/exceptions.py
 create mode 100644 src/cc2olx/olx_generators/__init__.py
 create mode 100644 src/cc2olx/olx_generators/abc.py
 create mode 100644 src/cc2olx/olx_generators/discussion.py
 create mode 100644 src/cc2olx/olx_generators/html.py
 create mode 100644 src/cc2olx/olx_generators/lti.py
 create mode 100644 src/cc2olx/olx_generators/qti.py
 create mode 100644 src/cc2olx/olx_generators/video.py
 create mode 100644 src/cc2olx/templates/external_webcontent.html
 create mode 100644 src/cc2olx/templates/image_webcontent.html
 create mode 100644 src/cc2olx/xml/__init__.py
 create mode 100644 src/cc2olx/xml/cc_xml.py

diff --git a/MANIFEST.in b/MANIFEST.in
index e8e2cb12..78416589 100644
--- a/MANIFEST.in
+++ b/MANIFEST.in
@@ -1,6 +1,7 @@
 include LICENSE
 include README.rst
 
+recursive-include src/cc2olx/templates *
 recursive-include requirements *
 recursive-include tests *
 recursive-exclude * __pycache__
diff --git a/src/cc2olx/constants.py b/src/cc2olx/constants.py
index c96e8937..1a3b14ff 100644
--- a/src/cc2olx/constants.py
+++ b/src/cc2olx/constants.py
@@ -1,3 +1,9 @@
-CDATA_PATTERN = r"<!\[CDATA\[(?P<content>.*?)\]\]>"
 OLX_STATIC_DIR = "static"
 OLX_STATIC_PATH_TEMPLATE = f"/{OLX_STATIC_DIR}/{{static_filename}}"
+WEB_RESOURCES_DIR_NAME = "web_resources"
+
+LINK_HTML = "<a href='{url}'>{text}</a>"
+YOUTUBE_LINK_PATTERN = r"youtube.com/watch\?v=(?P<video_id>[-\w]+)"
+CDATA_PATTERN = r"<!\[CDATA\[(?P<content>.*?)\]\]>"
+
+QTI_RESPROCESSING_TYPES = ["general_fb", "correct_fb", "general_incorrect_fb"]
diff --git a/src/cc2olx/content_parsers/__init__.py b/src/cc2olx/content_parsers/__init__.py
new file mode 100644
index 00000000..269855b2
--- /dev/null
+++ b/src/cc2olx/content_parsers/__init__.py
@@ -0,0 +1,15 @@
+from cc2olx.content_parsers.abc import AbstractContentParser
+from cc2olx.content_parsers.discussion import DiscussionContentParser
+from cc2olx.content_parsers.html import HtmlContentParser
+from cc2olx.content_parsers.lti import LtiContentParser
+from cc2olx.content_parsers.qti import QtiContentParser
+from cc2olx.content_parsers.video import VideoContentParser
+
+__all__ = [
+    "AbstractContentParser",
+    "DiscussionContentParser",
+    "HtmlContentParser",
+    "LtiContentParser",
+    "QtiContentParser",
+    "VideoContentParser",
+]
diff --git a/src/cc2olx/content_parsers/abc.py b/src/cc2olx/content_parsers/abc.py
new file mode 100644
index 00000000..6a9c04d5
--- /dev/null
+++ b/src/cc2olx/content_parsers/abc.py
@@ -0,0 +1,31 @@
+from abc import ABC, abstractmethod
+from typing import Optional, Union
+
+from cc2olx.content_parsers.utils import StaticLinkProcessor
+from cc2olx.dataclasses import ContentParserContext
+from cc2olx.models import Cartridge
+
+
+class AbstractContentParser(ABC):
+    """
+    Abstract base class for parsing Common Cartridge content.
+    """
+
+    def __init__(self, cartridge: Cartridge, context: ContentParserContext) -> None:
+        self._cartridge = cartridge
+        self._context = context
+
+    def parse(self, idref: Optional[str]) -> Optional[Union[list, dict]]:
+        """
+        Parse the resource with the specified identifier.
+        """
+        if content := self._parse_content(idref):
+            link_processor = StaticLinkProcessor(self._cartridge, self._context.relative_links_source)
+            content = link_processor.process_content_static_links(content)
+        return content
+
+    @abstractmethod
+    def _parse_content(self, idref: Optional[str]) -> Optional[Union[list, dict]]:
+        """
+        Parse content of the resource with the specified identifier.
+        """
diff --git a/src/cc2olx/content_parsers/discussion.py b/src/cc2olx/content_parsers/discussion.py
new file mode 100644
index 00000000..0977ce19
--- /dev/null
+++ b/src/cc2olx/content_parsers/discussion.py
@@ -0,0 +1,44 @@
+import re
+from typing import Dict, Optional
+
+from cc2olx import filesystem
+from cc2olx.content_parsers import AbstractContentParser
+from cc2olx.enums import CommonCartridgeResourceType
+from cc2olx.models import ResourceFile
+
+
+class DiscussionContentParser(AbstractContentParser):
+    """
+    Discussion resource content parser.
+    """
+
+    def _parse_content(self, idref: Optional[str]) -> Optional[Dict[str, str]]:
+        if idref:
+            if resource := self._cartridge.define_resource(idref):
+                if re.match(CommonCartridgeResourceType.DISCUSSION_TOPIC, resource["type"]):
+                    return self._parse_discussion(resource)
+        return None
+
+    def _parse_discussion(self, resource: dict) -> Dict[str, str]:
+        """
+        Parse the discussion content.
+        """
+        data = {}
+
+        for child in resource["children"]:
+            if isinstance(child, ResourceFile):
+                data.update(self._parse_resource_file_data(child, resource["type"]))
+
+        return data
+
+    def _parse_resource_file_data(self, resource_file: ResourceFile, resource_type: str) -> Dict[str, str]:
+        """
+        Parse the discussion resource file.
+        """
+        tree = filesystem.get_xml_tree(self._cartridge.build_resource_file_path(resource_file.href))
+        root = tree.getroot()
+
+        return {
+            "title": root.get_title(resource_type).text,
+            "text": root.get_text(resource_type).text,
+        }
diff --git a/src/cc2olx/content_parsers/html.py b/src/cc2olx/content_parsers/html.py
new file mode 100644
index 00000000..187fe44b
--- /dev/null
+++ b/src/cc2olx/content_parsers/html.py
@@ -0,0 +1,140 @@
+import imghdr
+import logging
+import re
+from pathlib import Path
+from typing import Dict, Optional
+
+from django.conf import settings
+
+from cc2olx.constants import LINK_HTML, OLX_STATIC_PATH_TEMPLATE, WEB_RESOURCES_DIR_NAME
+from cc2olx.content_parsers import AbstractContentParser
+from cc2olx.content_parsers.mixins import WebLinkParserMixin
+from cc2olx.enums import CommonCartridgeResourceType
+
+logger = logging.getLogger()
+
+HTML_FILENAME_SUFFIX = ".html"
+
+
+class HtmlContentParser(WebLinkParserMixin, AbstractContentParser):
+    """
+    HTML resource content parser.
+    """
+
+    DEFAULT_CONTENT = {"html": "<p>MISSING CONTENT</p>"}
+
+    def _parse_content(self, idref: Optional[str]) -> Dict[str, str]:
+        if idref:
+            resource = self._cartridge.define_resource(idref)
+            if resource is None:
+                logger.info("Missing resource: %s", idref)
+                content = self.DEFAULT_CONTENT
+            elif resource["type"] == CommonCartridgeResourceType.WEB_CONTENT:
+                content = self._parse_webcontent(idref, resource)
+            elif web_link_content := self._parse_web_link_content(resource):
+                content = self._transform_web_link_content_to_html(web_link_content)
+            elif self.is_known_unprocessed_resource_type(resource["type"]):
+                content = self.DEFAULT_CONTENT
+            else:
+                content = self._parse_not_imported_content(resource)
+            return content
+        return self.DEFAULT_CONTENT
+
+    def _parse_webcontent(self, idref: str, resource: dict) -> Dict[str, str]:
+        """
+        Parse the resource with "webcontent" type.
+        """
+        resource_file = resource["children"][0]
+        resource_relative_link = resource_file.href
+        resource_file_path = self._cartridge.build_resource_file_path(resource_relative_link)
+
+        if resource_file_path.suffix == HTML_FILENAME_SUFFIX:
+            content = self._parse_webcontent_html_file(idref, resource_file_path)
+        elif WEB_RESOURCES_DIR_NAME in str(resource_file_path) and imghdr.what(str(resource_file_path)):
+            content = self._parse_image_webcontent_from_web_resources_dir(resource_file_path)
+        elif WEB_RESOURCES_DIR_NAME not in str(resource_file_path):
+            content = self._parse_webcontent_outside_web_resources_dir(resource_relative_link)
+        else:
+            logger.info("Skipping webcontent: %s", resource_file_path)
+            content = self.DEFAULT_CONTENT
+
+        return content
+
+    @staticmethod
+    def _parse_webcontent_html_file(idref: str, resource_file_path: Path) -> Dict[str, str]:
+        """
+        Parse webcontent HTML file.
+        """
+        try:
+            with open(resource_file_path, encoding="utf-8") as resource_file:
+                html = resource_file.read()
+        except:  # noqa: E722
+            logger.error("Failure reading %s from id %s", resource_file_path, idref)  # noqa: E722
+            raise
+        return {"html": html}
+
+    def _parse_image_webcontent_from_web_resources_dir(self, resource_file_path: Path) -> Dict[str, str]:
+        """
+        Parse webcontent image from "web_resources" directory.
+        """
+        static_filename = str(resource_file_path).split(f"{WEB_RESOURCES_DIR_NAME}/")[1]
+        olx_static_path = OLX_STATIC_PATH_TEMPLATE.format(static_filename=static_filename)
+        self._cartridge.olx_to_original_static_file_paths.add_web_resource_path(olx_static_path, resource_file_path)
+        image_webcontent_tpl_path = settings.TEMPLATES_DIR / "image_webcontent.html"
+
+        with open(image_webcontent_tpl_path, encoding="utf-8") as image_webcontent_tpl:
+            tpl_content = image_webcontent_tpl.read()
+            html = tpl_content.format(olx_static_path=olx_static_path, static_filename=static_filename)
+
+        return {"html": html}
+
+    def _parse_webcontent_outside_web_resources_dir(self, resource_relative_path: str) -> Dict[str, str]:
+        """
+        Parse webcontent located outside "web_resources" directory.
+        """
+        # This webcontent is outside ``web_resources`` directory
+        # So we need to manually copy it to OLX_STATIC_DIR
+        olx_static_path = OLX_STATIC_PATH_TEMPLATE.format(static_filename=resource_relative_path)
+        self._cartridge.olx_to_original_static_file_paths.add_extra_path(olx_static_path, resource_relative_path)
+        external_webcontent_tpl_path = settings.TEMPLATES_DIR / "external_webcontent.html"
+
+        with open(external_webcontent_tpl_path, encoding="utf-8") as external_webcontent_tpl:
+            tpl_content = external_webcontent_tpl.read()
+            html = tpl_content.format(olx_static_path=olx_static_path, resource_relative_path=resource_relative_path)
+
+        return {"html": html}
+
+    @staticmethod
+    def _transform_web_link_content_to_html(web_link_content: Dict[str, str]) -> Dict[str, str]:
+        """
+        Generate HTML for weblink.
+        """
+        video_link_html = LINK_HTML.format(url=web_link_content["href"], text=web_link_content.get("text", ""))
+        return {"html": video_link_html}
+
+    @staticmethod
+    def is_known_unprocessed_resource_type(resource_type: str) -> bool:
+        """
+        Decides whether the resource type is a known CC type to be unprocessed.
+        """
+        return any(
+            re.match(type_pattern, resource_type)
+            for type_pattern in (
+                CommonCartridgeResourceType.LTI_LINK,
+                CommonCartridgeResourceType.QTI_ASSESSMENT,
+                CommonCartridgeResourceType.DISCUSSION_TOPIC,
+            )
+        )
+
+    @staticmethod
+    def _parse_not_imported_content(resource: dict) -> Dict[str, str]:
+        """
+        Parse the resource which content type cannot be processed.
+        """
+        resource_type = resource["type"]
+        text = f"Not imported content: type = {resource_type!r}"
+        if "href" in resource:
+            text += ", href = {!r}".format(resource["href"])
+
+        logger.info("%s", text)
+        return {"html": text}
diff --git a/src/cc2olx/content_parsers/lti.py b/src/cc2olx/content_parsers/lti.py
new file mode 100644
index 00000000..521f3c40
--- /dev/null
+++ b/src/cc2olx/content_parsers/lti.py
@@ -0,0 +1,85 @@
+import re
+from typing import Dict, Optional
+
+from cc2olx import filesystem
+from cc2olx.content_parsers import AbstractContentParser
+from cc2olx.enums import CommonCartridgeResourceType
+from cc2olx.utils import simple_slug
+from cc2olx.xml import cc_xml
+
+
+class LtiContentParser(AbstractContentParser):
+    """
+    LTI resource content parser.
+    """
+
+    DEFAULT_WIDTH = "500"
+    DEFAULT_HEIGHT = "500"
+
+    def _parse_content(self, idref: Optional[str]) -> Optional[dict]:
+        if idref:
+            if resource := self._cartridge.define_resource(idref):
+                if re.match(CommonCartridgeResourceType.LTI_LINK, resource["type"]):
+                    data = self._parse_lti(resource)
+                    # Canvas flavored courses have correct url in module meta for lti links
+                    if self._cartridge.is_canvas_flavor:
+                        if item_data := self._cartridge.module_meta.get_external_tool_item_data(idref):
+                            data["launch_url"] = item_data.get("url", data["launch_url"])
+                    return data
+        return None
+
+    def _parse_lti(self, resource: dict) -> dict:
+        """
+        Parse LTI resource.
+        """
+        resource_file = resource["children"][0]
+        resource_file_path = self._cartridge.build_resource_file_path(resource_file.href)
+        tree = filesystem.get_xml_tree(resource_file_path)
+        root = tree.getroot()
+        title = root.title.text
+
+        return {
+            "title": title,
+            "description": root.description.text,
+            "launch_url": self._parse_launch_url(root),
+            "height": self._parse_height(root),
+            "width": self._parse_width(root),
+            "custom_parameters": self._parse_custom_parameters(root),
+            "lti_id": self._parse_lti_id(root, title),
+        }
+
+    def _parse_launch_url(self, resource_root: cc_xml.BasicLtiLink) -> str:
+        """
+        Parse URL to launch LTI.
+        """
+        if (launch_url := resource_root.secure_launch_url) is None:
+            launch_url = resource_root.launch_url
+        return getattr(launch_url, "text", "")
+
+    def _parse_width(self, resource_root: cc_xml.BasicLtiLink) -> str:
+        """
+        Parse width.
+        """
+        return getattr(resource_root.width, "text", self.DEFAULT_WIDTH)
+
+    def _parse_height(self, resource_root: cc_xml.BasicLtiLink) -> str:
+        """
+        Parse height.
+        """
+        return getattr(resource_root.height, "text", self.DEFAULT_HEIGHT)
+
+    def _parse_custom_parameters(self, resource_root: cc_xml.BasicLtiLink) -> Dict[str, str]:
+        """
+        Parse custom parameters.
+        """
+        custom = resource_root.custom
+        return {} if custom is None else {option.get("name"): option.text for option in custom}
+
+    def _parse_lti_id(self, resource_root: cc_xml.BasicLtiLink, title: str) -> str:
+        """
+        Parse LTI identifier.
+
+        For Canvas flavored CC, tool_id is used as lti_id if present.
+        """
+        tool_id = resource_root.canvas_tool_id
+        return simple_slug(title) if tool_id is None else tool_id.text
diff --git a/src/cc2olx/content_parsers/mixins.py b/src/cc2olx/content_parsers/mixins.py
new file mode 100644
index 00000000..58c7d0f9
--- /dev/null
+++ b/src/cc2olx/content_parsers/mixins.py
@@ -0,0 +1,30 @@
+import re
+from typing import Dict, Optional
+
+from cc2olx import filesystem
+from cc2olx.enums import CommonCartridgeResourceType
+from cc2olx.models import Cartridge
+
+
+class WebLinkParserMixin:
+    """
+    Provide Common Cartridge Web Link resource parsing functionality.
+    """
+
+    _cartridge: Cartridge
+
+    def _parse_web_link_content(self, resource: dict) -> Optional[Dict[str, str]]:
+        """
+        Provide Web Link resource data.
+        """
+        resource_type = resource["type"]
+        if re.match(CommonCartridgeResourceType.WEB_LINK, resource_type):
+            resource_file = resource["children"][0]
+            resource_file_path = self._cartridge.build_resource_file_path(resource_file.href)
+            tree = filesystem.get_xml_tree(resource_file_path)
+            root = tree.getroot()
+            return {
+                "href": root.get_url(resource_type).get("href"),
+                "text": root.get_title(resource_type).text,
+            }
+        return None
diff --git a/src/cc2olx/content_parsers/qti.py b/src/cc2olx/content_parsers/qti.py
new file mode 100644
index 00000000..c588e5c1
--- /dev/null
+++ b/src/cc2olx/content_parsers/qti.py
@@ -0,0 +1,351 @@
+import functools
+import logging
+import re
+from collections import OrderedDict
+from pathlib import Path
+from typing import Callable, Dict, List, Optional, OrderedDict as OrderedDictType, Union
+
+from cc2olx import filesystem
+from cc2olx.constants import QTI_RESPROCESSING_TYPES
+from cc2olx.content_parsers import AbstractContentParser
+from cc2olx.dataclasses import FibProblemRawAnswers
+from cc2olx.enums import CommonCartridgeResourceType, QtiQuestionType
+from cc2olx.exceptions import QtiError
+from cc2olx.xml import cc_xml
+
+logger = logging.getLogger()
+
+
+class QtiContentParser(AbstractContentParser):
+    """
+    QTI resource content parser.
+    """
+
+    def _parse_content(self, idref: Optional[str]) -> Optional[List[dict]]:
+        if idref:
+            if resource := self._cartridge.define_resource(idref):
+                if re.match(CommonCartridgeResourceType.QTI_ASSESSMENT, resource["type"]):
+                    resource_file = resource["children"][0]
+                    resource_file_path = self._cartridge.build_resource_file_path(resource_file.href)
+                    return self._parse_qti(resource_file_path)
+        return None
+
+    def _parse_qti(self, resource_file_path: Path) -> List[dict]:
+        """
+        Parse resource of ``imsqti_xmlv1p2/imscc_xmlv1p1/assessment`` type.
+        """
+        tree = filesystem.get_xml_tree(resource_file_path)
+        root = tree.getroot()
+
+        parsed_problems = []
+
+        for index, problem in enumerate(root.items):
+            parsed_problems.append(self._parse_problem(problem, index, resource_file_path))
+
+        return parsed_problems
+
+    def _parse_problem(self, problem: cc_xml.QtiItem, problem_index: int, resource_file_path: Path) -> dict:
+        """
+        Parse a QTI item.
+
+        When the malformed course (due to a weird Canvas behaviour) with equal
+        identifiers is gotten, a unique string is added to the raw identifier.
+        LMS doesn't support blocks with the same identifiers.
+        """
+        data = {}
+
+        attributes = problem.attrib
+
+        data["ident"] = attributes["ident"] + str(problem_index)
+        if title := attributes.get("title"):
+            data["title"] = title
+
+        cc_profile = problem.profile
+        data["cc_profile"] = cc_profile
+
+        parse_problem = self._problem_parsers_map.get(cc_profile)
+
+        if parse_problem is None:
+            raise QtiError(f'Unknown cc_profile: "{cc_profile}"')
+
+        try:
+            data.update(parse_problem(problem))
+        except NotImplementedError:
+            logger.info("Problem with ID %s can't be converted.", problem.attrib.get("ident"))
+            logger.info("    Profile %s is not supported.", cc_profile)
+            logger.info("    At file %s.", resource_file_path)
+
+        return data
+
+    @functools.cached_property
+    def _problem_parsers_map(self) -> Dict[QtiQuestionType, Callable[[cc_xml.QtiItem], dict]]:
+        """
+        Provide mapping between CC profile value and problem node type parser.
+
+        Note: Since True/False problems in QTI are constructed identically to
+        QTI Multiple Choice problems, we reuse `_parse_multiple_choice_problem`
+        for BOOLEAN type problems.
+        """
+        return {
+            QtiQuestionType.MULTIPLE_CHOICE: self._parse_multiple_choice_problem,
+            QtiQuestionType.MULTIPLE_RESPONSE: self._parse_multiple_response_problem,
+            QtiQuestionType.FILL_IN_THE_BLANK: self._parse_fib_problem,
+            QtiQuestionType.ESSAY: self._parse_essay_problem,
+            QtiQuestionType.BOOLEAN: self._parse_multiple_choice_problem,
+            QtiQuestionType.PATTERN_MATCH: self._parse_pattern_match_problem,
+        }
+
+    def _parse_fixed_answer_question_responses(
+        self,
+        presentation: cc_xml.QtiPresentation,
+    ) -> OrderedDictType[str, Dict[str, Union[bool, str]]]:
+        """
+        Provide mapping with response IDs as keys and response data as values.
+
+        Example of ``<response_lid/>`` structure for the following profiles:
+            - ``cc.multiple_choice.v0p1``
+            - ``cc.multiple_response.v0p1``
+            - ``cc.true_false.v0p1``
+        ```
+        <response_lid ident="response1" rcardinality="Single">
+          <render_choice>
+            <response_label ident="8157">
+              <material>
+                <mattext texttype="text/plain">Response 1</mattext>
+              </material>
+            </response_label>
+            <response_label ident="4226">
+              <material>
+                <mattext texttype="text/plain">Response 2</mattext>
+              </material>
+            </response_label>
+          </render_choice>
+        </response_lid>
+        ```
+        """
+        responses = OrderedDict()
+
+        for response in presentation.response_labels:
+            response_id = response.attrib["ident"]
+            responses[response_id] = {"text": response.mattext.text or "", "correct": False}
+
+        return responses
+
+    def _mark_correct_responses(self, resprocessing: cc_xml.QtiResprocessing, responses: OrderedDict) -> None:
+        """
+        Add the information about correctness to responses data.
+
+        Example of ``<resprocessing/>`` structure for the following profiles:
+            - ``cc.multiple_choice.v0p1``
+            - ``cc.true_false.v0p1``
+        ```
+        <resprocessing>
+          <outcomes>
+            <decvar maxvalue="100" minvalue="0" varname="SCORE" vartype="Decimal"/>
+          </outcomes>
+          <respcondition continue="Yes">
+            <conditionvar>
+              <varequal respident="response1">8157</varequal>
+            </conditionvar>
+            <displayfeedback feedbacktype="Response" linkrefid="8157_fb"/>
+          </respcondition>
+          <respcondition continue="Yes">
+            <conditionvar>
+              <varequal respident="response1">5534</varequal>
+            </conditionvar>
+            <displayfeedback feedbacktype="Response" linkrefid="5534_fb"/>
+          </respcondition>
+          <respcondition continue="No">
+            <conditionvar>
+              <varequal respident="response1">4226</varequal>
+            </conditionvar>
+            <setvar action="Set" varname="SCORE">100</setvar>
+            <displayfeedback feedbacktype="Response" linkrefid="correct_fb"/>
+          </respcondition>
+        </resprocessing>
+        ```
+
+        This XML is a sort of instruction about how responses should be evaluated. In this
+        particular example we have three correct answers with ids: 8157, 5534, 4226.
+
+        Example of ``<resprocessing/>`` structure for ``cc.multiple_response.v0p1``:
+        ```
+        <resprocessing>
+          <outcomes>
+            <decvar maxvalue="100" minvalue="0" varname="SCORE" vartype="Decimal"/>
+          </outcomes>
+          <respcondition continue="No">
+            <conditionvar>
+              <and>
+                <varequal respident="response1">1759</varequal>
+                <not>
+                  <varequal respident="response1">5954</varequal>
+                </not>
+                <varequal respident="response1">8170</varequal>
+                <varequal respident="response1">9303</varequal>
+                <not>
+                  <varequal respident="response1">15</varequal>
+                </not>
+              </and>
+            </conditionvar>
+          </respcondition>
+        </resprocessing>
+        ```
+        Above example is for a multiple response type problem. In this example 1759, 8170 and
+        9303 are correct answers while 15 and 5954 are not. Note that this code also support
+        ``or`` opearator too.
+
+        For now, we just consider these responses correct in OLX, but according specification,
+        conditions can be arbitrarily nested, and score can be computed by some formula, so to
+        implement 100% conversion we need to write new XBlock.
+        """
+        for respcondition in resprocessing.respconditions:
+            correct_answers = respcondition.varequals
+
+            if len(correct_answers) == 0:
+                correct_answers = respcondition.and_varequals
+                correct_answers += respcondition.or_varequals
+
+            for answer in correct_answers:
+                responses[answer.text]["correct"] = True
+
+            if respcondition.attrib.get("continue", "No") == "No":
+                break
+
+    def _parse_multiple_choice_problem(self, problem: cc_xml.QtiItem) -> dict:
+        """
+        Provide the multiple choice problem data.
+        """
+        choices = self._parse_fixed_answer_question_responses(problem.presentation)
+        self._mark_correct_responses(problem.resprocessing, choices)
+
+        return {
+            "problem_description": problem.description,
+            "choices": choices,
+        }
+
+    def _parse_multiple_response_problem(self, problem: cc_xml.QtiItem) -> dict:
+        """
+        Provide the multiple response problem data.
+        """
+        return self._parse_multiple_choice_problem(problem)
+
+    def _parse_fib_problem(self, problem: cc_xml.QtiItem) -> dict:
+        """
+        Provide the Fill-In-The-Blank problem data.
+        """
+        return {
+            "problem_description": problem.description,
+            **self._parse_fib_problem_answers(problem),
+        }
+
+    def _parse_fib_problem_answers(self, problem: cc_xml.QtiItem) -> dict:
+        """
+        Parse the Fill-In-The-Blank problem answers data.
+        """
+        raw_answers = self._parse_fib_problem_raw_answers(problem)
+
+        data = {"is_regexp": bool(raw_answers.answer_patterns)}
+
+        if data["is_regexp"]:
+            data.update(self._build_fib_problem_regexp_answers(raw_answers))
+        else:
+            data.update(self._build_fib_problem_exact_answers(raw_answers))
+        return data
+
+    def _parse_fib_problem_raw_answers(self, problem: cc_xml.QtiItem) -> FibProblemRawAnswers:
+        """
+        Parse the Fill-In-The-Blank problem answers without processing.
+        """
+        exact_answers = []
+        answer_patterns = []
+
+        resprocessing = problem.resprocessing
+
+        for respcondition in resprocessing.respconditions:
+            for varequal in respcondition.varequals:
+                exact_answers.append(varequal.text)
+
+            for varsubstring in respcondition.varsubstrings:
+                answer_patterns.append(varsubstring.text)
+
+            if respcondition.attrib.get("continue", "No") == "No":
+                break
+
+        return FibProblemRawAnswers(exact_answers, answer_patterns)
+
+    @staticmethod
+    def _build_fib_problem_regexp_answers(raw_answers: FibProblemRawAnswers) -> dict:
+        """
+        Build the Fill-In-The-Blank problem regular expression answers data.
+        """
+        exact_answers = raw_answers.exact_answers.copy()
+        answer_patterns = raw_answers.answer_patterns.copy()
+
+        data = {"answer": answer_patterns.pop(0)}
+        exact_answers = [re.escape(answer) for answer in exact_answers]
+        data["additional_answers"] = [*answer_patterns, *exact_answers]
+
+        return data
+
+    @staticmethod
+    def _build_fib_problem_exact_answers(raw_answers: FibProblemRawAnswers) -> dict:
+        """
+        Build the Fill-In-The-Blank problem exact answers data.
+        """
+        # Primary answer is the first one, additional answers are what is left
+        exact_answers = raw_answers.exact_answers.copy()
+
+        return {
+            "answer": exact_answers.pop(0),
+            "additional_answers": exact_answers,
+        }
+
+    def _parse_essay_problem(self, problem: cc_xml.QtiItem) -> dict:
+        """
+        Parse `cc.essay.v0p1` problem type.
+
+        Provide a dictionary with presentation & sample solution if exists.
+        """
+        data = {"problem_description": problem.description, **self._parse_essay_feedback(problem)}
+
+        if sample_solution := self._parse_essay_sample_solution(problem):
+            data["sample_solution"] = sample_solution
+
+        return data
+
+    def _parse_essay_sample_solution(self, problem: cc_xml.QtiItem) -> Optional[str]:
+        """
+        Parse the essay sample solution.
+        """
+        if (solution := problem.solution) is not None:
+            return solution.mattext.text
+        return None
+
+    def _parse_essay_feedback(self, problem: cc_xml.QtiItem) -> dict:
+        """
+        Parse the essay feedback.
+        """
+        data = {}
+
+        if problem.get_itemfeedback() is not None:
+            for resp_type in QTI_RESPROCESSING_TYPES:
+                if response_text := self._parse_essay_response_text(problem, resp_type):
+                    data[resp_type] = response_text
+
+        return data
+
+    def _parse_essay_response_text(self, problem: cc_xml.QtiItem, resp_type: str) -> Optional[str]:
+        """
+        Parse the essay response text.
+        """
+        respcondition = problem.resprocessing.respconditions[0]
+        if respcondition.get_display_feedback(resp_type) is not None:
+            return problem.get_itemfeedback(resp_type).flow_mat.material.mattext.text
+        return None
+
+    def _parse_pattern_match_problem(self, problem: cc_xml.QtiItem) -> dict:
+        """
+        Provide the pattern match problem data.
+        """
+        raise NotImplementedError
diff --git a/src/cc2olx/content_parsers/utils.py b/src/cc2olx/content_parsers/utils.py
new file mode 100644
index 00000000..9ded5986
--- /dev/null
+++ b/src/cc2olx/content_parsers/utils.py
@@ -0,0 +1,127 @@
+import html as html_parser
+import logging
+import re
+import urllib
+from typing import TypeVar, Optional
+
+from cc2olx.dataclasses import LinkKeywordProcessor
+from cc2olx.models import Cartridge
+
+logger = logging.getLogger()
+
+Content = TypeVar("Content")
+
+
+class StaticLinkProcessor:
+    """
+    Provide static links processing functionality.
+    """
+
+    def __init__(self, cartridge: Cartridge, relative_links_source: Optional[str]) -> None:
+        self._cartridge = cartridge
+        self._relative_links_source = relative_links_source
+
+    def process_content_static_links(self, content: Content) -> Content:
+        """
+        Take a node data and recursively find and escape static links.
+
+        Provide detail data with static link escaped to an OLX-friendly format.
+        """
+
+        if isinstance(content, str):
+            return self.process_static_links(content)
+
+        if isinstance(content, list):
+            for index, value in enumerate(content):
+                content[index] = self.process_content_static_links(value)
+        elif isinstance(content, dict):
+            for key, value in content.items():
+                content[key] = self.process_content_static_links(value)
+
+        return content
+
+    def process_static_links(self, html: str) -> str:
+        """
+        Process static links like src and href to have appropriate links.
+        """
+        items = re.findall(r'(src|href)\s*=\s*"(.+?)"', html)
+
+        link_keyword_processors = (
+            LinkKeywordProcessor("IMS-CC-FILEBASE", self._process_ims_cc_filebase),
+            LinkKeywordProcessor("WIKI_REFERENCE", self._process_wiki_reference),
+            LinkKeywordProcessor("external_tools", self._process_external_tools_link),
+            LinkKeywordProcessor("CANVAS_OBJECT_REFERENCE", self._process_canvas_reference),
+        )
+
+        for _, link in items:
+            for keyword, processor in link_keyword_processors:
+                if keyword in link:
+                    html = processor(link, html)
+                    break
+            else:
+                html = self._process_relative_external_links(link, html)
+
+        return html
+
+    def _process_wiki_reference(self, link: str, html: str) -> str:
+        """
+        Replace $WIKI_REFERENCE$ with edx /jump_to_id/<url_name>.
+        """
+        search_key = urllib.parse.unquote(link).replace("$WIKI_REFERENCE$/pages/", "")
+
+        # remove query params and add suffix .html to match with resource_id_by_href
+        search_key = search_key.split("?")[0] + ".html"
+        for key in self._cartridge.resource_id_by_href.keys():
+            if key.endswith(search_key):
+                replace_with = "/jump_to_id/{}".format(self._cartridge.resource_id_by_href[key])
+                return html.replace(link, replace_with)
+
+        logger.warning("Unable to process Wiki link - %s", link)
+        return html
+
+    @staticmethod
+    def _process_canvas_reference(link: str, html: str) -> str:
+        """
+        Replace $CANVAS_OBJECT_REFERENCE$ with edx /jump_to_id/<url_name>.
+        """
+        object_id = urllib.parse.unquote(link).replace("$CANVAS_OBJECT_REFERENCE$/quizzes/", "/jump_to_id/")
+        return html.replace(link, object_id)
+
+    @staticmethod
+    def _process_ims_cc_filebase(link: str, html: str) -> str:
+        """
+        Replace $IMS-CC-FILEBASE$ with /static.
+        """
+        new_link = urllib.parse.unquote(link).replace("$IMS-CC-FILEBASE$", "/static")
+        # skip query parameters for static files
+        new_link = new_link.split("?")[0]
+        # &amp; is not valid in an URL. But some file seem to have it when it should be &
+        new_link = new_link.replace("&amp;", "&")
+        return html.replace(link, new_link)
+
+    @staticmethod
+    def _process_external_tools_link(link: str, html: str) -> str:
+        """
+        Replace $CANVAS_OBJECT_REFERENCE$/external_tools/retrieve with appropriate external link.
+        """
+        external_tool_query = urllib.parse.urlparse(link).query
+        # unescape query that has been HTML encoded so it can be parsed correctly
+        unescaped_external_tool_query = html_parser.unescape(external_tool_query)
+        external_tool_url = urllib.parse.parse_qs(unescaped_external_tool_query).get("url", [""])[0]
+        return html.replace(link, external_tool_url)
+
+    def _process_relative_external_links(self, link: str, html: str) -> str:
+        """
+        Turn static file URLs outside OLX_STATIC_DIR into absolute URLs.
+
+        Allow to avoid a situation when the original course page links have
+        relative URLs, such URLs weren't included into the exported Common
+        Cartridge course file that causes broken URLs in the imported OeX
+        course. The function adds the origin source to URLs to make them
+        absolute ones.
+        """
+        if self._relative_links_source is None or link in self._cartridge.olx_to_original_static_file_paths.all:
+            return html
+
+        url = urllib.parse.urljoin(self._relative_links_source, link)
+        return html.replace(link, url)
diff --git a/src/cc2olx/content_parsers/video.py b/src/cc2olx/content_parsers/video.py
new file mode 100644
index 00000000..aec3730c
--- /dev/null
+++ b/src/cc2olx/content_parsers/video.py
@@ -0,0 +1,20 @@
+import re
+from typing import Dict, Optional
+
+from cc2olx.constants import YOUTUBE_LINK_PATTERN
+from cc2olx.content_parsers import AbstractContentParser
+from cc2olx.content_parsers.mixins import WebLinkParserMixin
+
+
+class VideoContentParser(WebLinkParserMixin, AbstractContentParser):
+    """
+    Video resource content parser.
+    """
+
+    def _parse_content(self, idref: Optional[str]) -> Optional[Dict[str, str]]:
+        if idref:
+            if resource := self._cartridge.define_resource(idref):
+                if web_link_content := self._parse_web_link_content(resource):
+                    if youtube_match := re.search(YOUTUBE_LINK_PATTERN, web_link_content["href"]):
+                        return {"youtube": youtube_match.group("video_id")}
+        return None
diff --git a/src/cc2olx/content_processors.py b/src/cc2olx/content_processors.py
new file mode 100644
index 00000000..26391d32
--- /dev/null
+++ b/src/cc2olx/content_processors.py
@@ -0,0 +1,89 @@
+import xml.dom.minidom
+from typing import List, Optional, Type, Union
+
+from cc2olx import content_parsers, olx_generators
+from cc2olx.dataclasses import ContentParserContext, ContentProcessorContext, OlxGeneratorContext
+from cc2olx.models import Cartridge
+
+
+class AbstractContentProcessor:
+    """
+    Abstract base class for Common Cartridge content processing.
+    """
+
+    content_parser_class: Type[content_parsers.AbstractContentParser]
+    olx_generator_class: Type[olx_generators.AbstractOlxGenerator]
+
+    def __init__(self, cartridge: Cartridge, context: ContentProcessorContext) -> None:
+        self._cartridge = cartridge
+        self._context = context
+
+    def process(self, idref: Optional[str]) -> Optional[List[xml.dom.minidom.Element]]:
+        """
+        Process a Common Cartridge resource content.
+        """
+        parser = self.content_parser_class(
+            self._cartridge,
+            ContentParserContext.from_content_processor_context(self._context),
+        )
+        if content := parser.parse(idref):
+            self._pre_olx_generation(content)
+            olx_generator = self.olx_generator_class(OlxGeneratorContext.from_content_processor_context(self._context))
+            return olx_generator.create_nodes(content)
+        return None
+
+    def _pre_olx_generation(self, content: Union[list, dict]) -> None:
+        """
+        The hook for actions performing before OLX generation.
+        """
+
+
+class HtmlContentProcessor(AbstractContentProcessor):
+    """
+    HTML content processor.
+    """
+
+    content_parser_class = content_parsers.HtmlContentParser
+    olx_generator_class = olx_generators.HtmlOlxGenerator
+
+
+class VideoContentProcessor(AbstractContentProcessor):
+    """
+    Video content processor.
+    """
+
+    content_parser_class = content_parsers.VideoContentParser
+    olx_generator_class = olx_generators.VideoOlxGenerator
+
+
+class LtiContentProcessor(AbstractContentProcessor):
+    """
+    LTI content processor.
+    """
+
+    content_parser_class = content_parsers.LtiContentParser
+    olx_generator_class = olx_generators.LtiOlxGenerator
+
+    def _pre_olx_generation(self, content: dict) -> None:
+        """
+        Populate LTI consumer IDs with the resource LTI ID.
+        """
+        self._context.add_lti_consumer_id(content["lti_id"])
+
+
+class QtiContentProcessor(AbstractContentProcessor):
+    """
+    QTI content processor.
+    """
+
+    content_parser_class = content_parsers.QtiContentParser
+    olx_generator_class = olx_generators.QtiOlxGenerator
+
+
+class DiscussionContentProcessor(AbstractContentProcessor):
+    """
+    Discussion content processor.
+    """
+
+    content_parser_class = content_parsers.DiscussionContentParser
+    olx_generator_class = olx_generators.DiscussionOlxGenerator
diff --git a/src/cc2olx/dataclasses.py b/src/cc2olx/dataclasses.py
index c53870f7..47f22ed5 100644
--- a/src/cc2olx/dataclasses.py
+++ b/src/cc2olx/dataclasses.py
@@ -1,6 +1,10 @@
 from dataclasses import dataclass, field
 from collections import ChainMap
-from typing import Dict
+from typing import Callable, Dict, List, NamedTuple, Optional, Set
+
+import attrs
+
+from cc2olx.iframe_link_parser import IframeLinkParser
 
 
 @dataclass
@@ -14,5 +18,106 @@ class OlxToOriginalStaticFilePaths:
     # Static files that are outside of `web_resources` directory, but still required
     extra: Dict[str, str] = field(default_factory=dict)
 
+    def add_web_resource_path(self, olx_static_path: str, cc_static_path: str) -> None:
+        """
+        Add web resource static file mapping.
+        """
+        self.web_resources[olx_static_path] = cc_static_path
+
+    def add_extra_path(self, olx_static_path: str, cc_static_path: str) -> None:
+        """
+        Add extra static file mapping.
+        """
+        self.extra[olx_static_path] = cc_static_path
+
     def __post_init__(self) -> None:
         self.all = ChainMap(self.extra, self.web_resources)
+
+
+class LinkKeywordProcessor(NamedTuple):
+    """
+    Encapsulate a link keyword and it's processor.
+    """
+
+    keyword: str
+    processor: Callable[[str, str], str]
+
+
+class FibProblemRawAnswers(NamedTuple):
+    """
+    Encapsulate answers data for a Fill-In-The-Blank problem.
+    """
+
+    exact_answers: List[str]
+    answer_patterns: List[str]
+
+
+@attrs.define(frozen=True, slots=False)
+class OlxGeneratorContextMixin:
+    """
+    Encapsulate an OLX generator context data.
+    """
+
+    iframe_link_parser: Optional[IframeLinkParser]
+    _lti_consumer_ids: Set[str]
+
+    def add_lti_consumer_id(self, lti_consumer_id: str) -> None:
+        """
+        Populate LTI consumer IDs set with a provided value.
+        """
+        self._lti_consumer_ids.add(lti_consumer_id)
+
+
+class OlxGeneratorContext(OlxGeneratorContextMixin):
+    """
+    Encapsulate an OLX generator context.
+
+    Provide additional initialization methods.
+    """
+
+    @classmethod
+    def from_content_processor_context(
+        cls,
+        content_processor_context: "ContentProcessorContext",
+    ) -> "OlxGeneratorContext":
+        """
+        Create the OLX generator context from the content processor context.
+        """
+        return cls(
+            iframe_link_parser=content_processor_context.iframe_link_parser,
+            lti_consumer_ids=content_processor_context._lti_consumer_ids,
+        )
+
+
+@attrs.define(frozen=True, slots=False)
+class ContentParserContextMixin:
+    """
+    Encapsulate a content parser context data.
+    """
+
+    relative_links_source: Optional[str]
+
+
+class ContentParserContext(ContentParserContextMixin):
+    """
+    Encapsulate a content parser context.
+
+    Provide additional initialization methods.
+    """
+
+    @classmethod
+    def from_content_processor_context(
+        cls,
+        content_processor_context: "ContentProcessorContext",
+    ) -> "ContentParserContext":
+        """
+        Create the content parser context from the content processor context.
+        """
+        return cls(content_processor_context.relative_links_source)
+
+
+@attrs.define(frozen=True, slots=False)
+class ContentProcessorContext(ContentParserContextMixin, OlxGeneratorContextMixin):
+    """
+    Encapsulate a content processor context.
+    """
diff --git a/src/cc2olx/enums.py b/src/cc2olx/enums.py
new file mode 100644
index 00000000..8b213e08
--- /dev/null
+++ b/src/cc2olx/enums.py
@@ -0,0 +1,28 @@
+from enum import Enum
+
+
+class CommonCartridgeResourceType(str, Enum):
+    """
+    Enumerate Common Cartridge resource types.
+
+    Contain the exact type values and regular expressions to match the type.
+    """
+
+    WEB_CONTENT = "webcontent"
+    WEB_LINK = r"^imswl_xmlv\d+p\d+$"
+    LTI_LINK = r"^imsbasiclti_xmlv\d+p\d+$"
+    QTI_ASSESSMENT = r"^imsqti_xmlv\d+p\d+/imscc_xmlv\d+p\d+/assessment$"
+    DISCUSSION_TOPIC = r"^imsdt_xmlv\d+p\d+$"
+
+
+class QtiQuestionType(str, Enum):
+    """
+    Enumerate QTI question types.
+    """
+
+    MULTIPLE_CHOICE = "cc.multiple_choice.v0p1"
+    MULTIPLE_RESPONSE = "cc.multiple_response.v0p1"
+    FILL_IN_THE_BLANK = "cc.fib.v0p1"
+    ESSAY = "cc.essay.v0p1"
+    BOOLEAN = "cc.true_false.v0p1"
+    PATTERN_MATCH = "cc.pattern_match.v0p1"
diff --git a/src/cc2olx/exceptions.py b/src/cc2olx/exceptions.py
new file mode 100644
index 00000000..7aae35e6
--- /dev/null
+++ b/src/cc2olx/exceptions.py
@@ -0,0 +1,4 @@
+class QtiError(Exception):
+    """
+    Exception type for QTI parsing/conversion errors.
+    """
diff --git a/src/cc2olx/models.py b/src/cc2olx/models.py
index 02dbed9b..dc5690ea 100644
--- a/src/cc2olx/models.py
+++ b/src/cc2olx/models.py
@@ -295,6 +295,16 @@ def flatten(self, container):
                 output.extend(leaves)
         return output
 
+    def define_resource(self, idref):
+        """
+        Define a resource by its identifier.
+        """
+        resource = self.resources_by_id.get(idref)
+        if resource is None and self.is_canvas_flavor:
+            module_item_idref = self.module_meta.get_identifierref(idref)
+            resource = self.resources_by_id.get(module_item_idref)
+        return resource
+
     def get_resource_content(self, identifier):
         """
         Get the resource named by `identifier`.
@@ -466,6 +476,12 @@ def get_course_run(self):
         # TODO: find a better value for this; lifecycle.contribute_date?
         return "run"
 
+    def build_resource_file_path(self, file_name: str) -> Path:
+        """
+        Build the resource file path.
+        """
+        return self.directory / file_name
+
     def _extract(self):
         path_extracted = filesystem.unzip_directory(self.file_path, self.workspace)
         self.directory = path_extracted
@@ -497,11 +513,11 @@ def _update_namespaces(self, root):
         )
 
     def _parse_manifest(self, node):
-        data = dict()
-        data["metadata"] = self._parse_metadata(node)
-        data["organizations"] = self._parse_organizations(node)
-        data["resources"] = self._parse_resources(node)
-        return data
+        return {
+            "metadata": self._parse_metadata(node),
+            "organizations": self._parse_organizations(node),
+            "resources": self._parse_resources(node),
+        }
 
     def _clean_manifest(self, node):
         """
diff --git a/src/cc2olx/olx_generators/__init__.py b/src/cc2olx/olx_generators/__init__.py
new file mode 100644
index 00000000..546237d7
--- /dev/null
+++ b/src/cc2olx/olx_generators/__init__.py
@@ -0,0 +1,15 @@
+from cc2olx.olx_generators.abc import AbstractOlxGenerator
+from cc2olx.olx_generators.discussion import DiscussionOlxGenerator
+from cc2olx.olx_generators.html import HtmlOlxGenerator
+from cc2olx.olx_generators.lti import LtiOlxGenerator
+from cc2olx.olx_generators.qti import QtiOlxGenerator
+from cc2olx.olx_generators.video import VideoOlxGenerator
+
+__all__ = [
+    "AbstractOlxGenerator",
+    "DiscussionOlxGenerator",
+    "HtmlOlxGenerator",
+    "LtiOlxGenerator",
+    "QtiOlxGenerator",
+    "VideoOlxGenerator",
+]
diff --git a/src/cc2olx/olx_generators/abc.py b/src/cc2olx/olx_generators/abc.py
new file mode 100644
index 00000000..79242d12
--- /dev/null
+++ b/src/cc2olx/olx_generators/abc.py
@@ -0,0 +1,21 @@
+import xml.dom.minidom
+from abc import ABC, abstractmethod
+from typing import List, Union
+
+from cc2olx.dataclasses import OlxGeneratorContext
+
+
+class AbstractOlxGenerator(ABC):
+    """
+    Abstract base class for OLX generation for Common Cartridge content.
+    """
+
+    def __init__(self, context: OlxGeneratorContext) -> None:
+        self._doc = xml.dom.minidom.Document()
+        self._context = context
+
+    @abstractmethod
+    def create_nodes(self, content: Union[dict, List[dict]]) -> List[xml.dom.minidom.Element]:
+        """
+        Create OLX nodes.
+        """
diff --git a/src/cc2olx/olx_generators/discussion.py b/src/cc2olx/olx_generators/discussion.py
new file mode 100644
index 00000000..889e12cf
--- /dev/null
+++ b/src/cc2olx/olx_generators/discussion.py
@@ -0,0 +1,32 @@
+import xml.dom.minidom
+from typing import List
+
+from cc2olx.olx_generators import AbstractOlxGenerator
+from cc2olx.utils import clean_from_cdata, element_builder
+
+
+class DiscussionOlxGenerator(AbstractOlxGenerator):
+    """
+    Generate OLX for discussions.
+    """
+
+    DEFAULT_TEXT = "MISSING CONTENT"
+
+    def create_nodes(self, content: dict) -> List[xml.dom.minidom.Element]:
+        el = element_builder(self._doc)
+
+        txt = self.DEFAULT_TEXT if content["text"] is None else content["text"]
+        txt = clean_from_cdata(txt)
+        html_node = el("html", [self._doc.createCDATASection(txt)], {})
+
+        discussion_node = el(
+            "discussion",
+            [],
+            {
+                "display_name": "",
+                "discussion_category": content["title"],
+                "discussion_target": content["title"],
+            },
+        )
+
+        return [html_node, discussion_node]
diff --git a/src/cc2olx/olx_generators/html.py b/src/cc2olx/olx_generators/html.py
new file mode 100644
index 00000000..3cfbf21b
--- /dev/null
+++ b/src/cc2olx/olx_generators/html.py
@@ -0,0 +1,60 @@
+import xml.dom.minidom
+from typing import List, Tuple
+
+import lxml.html
+
+from cc2olx.olx_generators import AbstractOlxGenerator
+from cc2olx.utils import clean_from_cdata
+
+
+class HtmlOlxGenerator(AbstractOlxGenerator):
+    """
+    Generate OLX for HTML content.
+    """
+
+    def create_nodes(self, content: dict) -> List[xml.dom.minidom.Element]:
+        """
+        Process the HTML and gives out corresponding HTML or Video OLX nodes.
+        """
+        video_olx = []
+        nodes = []
+        html = content["html"]
+        if self._context.iframe_link_parser:
+            html, video_olx = self._process_html_for_iframe(html)
+        html = clean_from_cdata(html)
+        txt = self._doc.createCDATASection(html)
+
+        html_node = self._doc.createElement("html")
+        html_node.appendChild(txt)
+        nodes.append(html_node)
+
+        nodes.extend(video_olx)
+
+        return nodes
+
+    def _process_html_for_iframe(self, html_str: str) -> Tuple[str, List[xml.dom.minidom.Element]]:
+        """
+        Parse the iframe with embedded video, to be converted into video xblock.
+
+        Provide the html content of the file, if iframe is present and
+        converted into xblock then iframe is removed from the HTML, as well as
+        a list of XML children, i.e video xblock.
+        """
+        video_olx = []
+        parsed_html = lxml.html.fromstring(html_str)
+        iframes = parsed_html.xpath("//iframe")
+        if not iframes:
+            return html_str, video_olx
+
+        video_olx, converted_iframes = self._context.iframe_link_parser.get_video_olx(self._doc, iframes)
+        if video_olx:
+            # If video xblock is present then we modify the HTML to remove the iframe
+            # hence we need to convert the modified HTML back to string. We also remove
+            # the parent if there are no other children.
+            for iframe in converted_iframes:
+                parent = iframe.getparent()
+                parent.remove(iframe)
+                if not parent.getchildren():
+                    parent.getparent().remove(parent)
+            return lxml.html.tostring(parsed_html).decode("utf-8"), video_olx
+        return html_str, video_olx
diff --git a/src/cc2olx/olx_generators/lti.py b/src/cc2olx/olx_generators/lti.py
new file mode 100644
index 00000000..530cc4ff
--- /dev/null
+++ b/src/cc2olx/olx_generators/lti.py
@@ -0,0 +1,43 @@
+import xml.dom.minidom
+from typing import List
+
+from cc2olx.olx_generators import AbstractOlxGenerator
+from cc2olx.utils import element_builder
+
+
+class LtiOlxGenerator(AbstractOlxGenerator):
+    """
+    Generate OLX for LTIs.
+    """
+
+    def create_nodes(self, content: dict) -> List[xml.dom.minidom.Element]:
+        el = element_builder(self._doc)
+
+        custom_parameters = "[{params}]".format(
+            params=", ".join(
+                [
+                    '"{key}={value}"'.format(
+                        key=key,
+                        value=value,
+                    )
+                    for key, value in content["custom_parameters"].items()
+                ]
+            ),
+        )
+        lti_consumer_node = el(
+            "lti_consumer",
+            [],
+            {
+                "custom_parameters": custom_parameters,
+                "description": content["description"],
+                "display_name": content["title"],
+                "inline_height": content["height"],
+                "inline_width": content["width"],
+                "launch_url": content["launch_url"],
+                "modal_height": content["height"],
+                "modal_width": content["width"],
+                "xblock-family": "xblock.v1",
+                "lti_id": content["lti_id"],
+            },
+        )
+        return [lti_consumer_node]
diff --git a/src/cc2olx/olx_generators/qti.py b/src/cc2olx/olx_generators/qti.py
new file mode 100644
index 00000000..2b1fe996
--- /dev/null
+++ b/src/cc2olx/olx_generators/qti.py
@@ -0,0 +1,305 @@
+import functools
+import urllib.parse
+import xml.dom.minidom
+from html import unescape
+from typing import Callable, Collection, Dict, List, Tuple, Union
+
+from lxml import etree, html
+
+from cc2olx.constants import QTI_RESPROCESSING_TYPES
+from cc2olx.enums import QtiQuestionType
+from cc2olx.exceptions import QtiError
+from cc2olx.olx_generators import AbstractOlxGenerator
+from cc2olx.utils import element_builder
+
+
+class QtiOlxGenerator(AbstractOlxGenerator):
+    """
+    Generate OLX for QTIs.
+    """
+
+    FIB_PROBLEM_TEXTLINE_SIZE_BUFFER = 10
+
+    def create_nodes(self, content: List[dict]) -> List[xml.dom.minidom.Element]:
+        problems = []
+
+        for problem_data in content:
+            cc_profile = problem_data["cc_profile"]
+            create_problem = self._problem_creators_map.get(cc_profile)
+
+            if create_problem is None:
+                raise QtiError('Unknown cc_profile: "{}"'.format(problem_data["cc_profile"]))
+
+            problem = create_problem(problem_data)
+
+            # sometimes we might want to have additional items from one CC item
+            if isinstance(problem, list) or isinstance(problem, tuple):
+                problems += problem
+            else:
+                problems.append(problem)
+
+        return problems
+
+    @functools.cached_property
+    def _problem_creators_map(
+        self,
+    ) -> Dict[
+        QtiQuestionType,
+        Callable[[dict], Union[xml.dom.minidom.Element, Collection[xml.dom.minidom.Element]]],
+    ]:
+        """
+        Provide CC profile value to actual problem node creators mapping.
+
+        Note: Since True/False problems in OLX are constructed identically to
+        OLX Multiple Choice problems, we reuse `_create_multiple_choice_problem`
+        for BOOLEAN type problems
+        """
+        return {
+            QtiQuestionType.MULTIPLE_CHOICE: self._create_multiple_choice_problem,
+            QtiQuestionType.MULTIPLE_RESPONSE: self._create_multiple_response_problem,
+            QtiQuestionType.FILL_IN_THE_BLANK: self._create_fib_problem,
+            QtiQuestionType.ESSAY: self._create_essay_problem,
+            QtiQuestionType.BOOLEAN: self._create_multiple_choice_problem,
+            QtiQuestionType.PATTERN_MATCH: self._create_pattern_match_problem,
+        }
+
+    @staticmethod
+    def _create_problem_description(description_html_str: str) -> xml.dom.minidom.Element:
+        """
+        Create a problem description node.
+
+        Material texts can come in form of escaped HTML markup, which
+        can't be considered as valid XML. ``xml.dom.minidom`` has no
+        features to convert HTML to XML, so we use lxml parser here.
+        """
+        description_html_str = unescape(description_html_str)
+
+        description_html_str = urllib.parse.unquote(description_html_str)
+
+        element = html.fromstring(description_html_str)
+        xml_string = etree.tostring(element)
+        return xml.dom.minidom.parseString(xml_string).firstChild
+
+    def _add_choice(self, parent: xml.dom.minidom.Element, is_correct: bool, text: str) -> None:
+        """
+        Append choices to given ``checkboxgroup`` or ``choicegroup`` parent.
+        """
+        choice = self._doc.createElement("choice")
+        choice.setAttribute("correct", "true" if is_correct else "false")
+        self._set_text(choice, text)
+        parent.appendChild(choice)
+
+    def _set_text(self, node: xml.dom.minidom.Element, new_text: str) -> None:
+        """
+        Set a node text.
+        """
+        text_node = self._doc.createTextNode(new_text)
+        node.appendChild(text_node)
+
+    def _create_multiple_choice_problem(self, problem_data: dict) -> xml.dom.minidom.Element:
+        """
+        Create multiple choice problem OLX.
+        """
+        problem = self._doc.createElement("problem")
+        problem_content = self._doc.createElement("multiplechoiceresponse")
+
+        problem_description = self._create_problem_description(problem_data["problem_description"])
+
+        choice_group = self._doc.createElement("choicegroup")
+        choice_group.setAttribute("type", "MultipleChoice")
+
+        for choice_data in problem_data["choices"].values():
+            self._add_choice(choice_group, choice_data["correct"], choice_data["text"])
+
+        problem_content.appendChild(problem_description)
+        problem_content.appendChild(choice_group)
+        problem.appendChild(problem_content)
+
+        return problem
+
+    def _create_multiple_response_problem(self, problem_data: dict) -> xml.dom.minidom.Element:
+        """
+        Create multiple response problem OLX.
+
+        Set partial_credit to EDC by default.
+        """
+        el = element_builder(self._doc)
+
+        problem_description = self._create_problem_description(problem_data["problem_description"])
+
+        problem = el(
+            "problem",
+            [
+                el(
+                    "choiceresponse",
+                    [
+                        problem_description,
+                        el(
+                            "checkboxgroup",
+                            [
+                                el(
+                                    "choice",
+                                    choice["text"],
+                                    {"correct": "true" if choice["correct"] else "false"},
+                                )
+                                for choice in problem_data["choices"].values()
+                            ],
+                            {"type": "MultipleChoice"},
+                        ),
+                    ],
+                    {"partial_credit": "EDC"},
+                ),
+            ],
+        )
+        return problem
+
+    def _create_fib_problem(self, problem_data: dict) -> xml.dom.minidom.Element:
+        """
+        Create Fill-In-The-Blank problem OLX.
+        """
+        # Track maximum answer length for textline at the bottom
+        max_answer_length = 0
+
+        problem = self._doc.createElement("problem")
+
+        # Set the primary answer on the stringresponse
+        # and set the type to case insensitive
+        problem_content = self._doc.createElement("stringresponse")
+        problem_content.setAttribute("answer", problem_data["answer"])
+        problem_content.setAttribute("type", self._build_fib_problem_type(problem_data))
+
+        if len(problem_data["answer"]) > max_answer_length:
+            max_answer_length = len(problem_data["answer"])
+
+        problem_description = self._create_problem_description(problem_data["problem_description"])
+        problem_content.appendChild(problem_description)
+
+        # For any (optional) additional accepted answers, add an
+        # additional_answer element with that answer
+        for answer in problem_data.get("additional_answers", []):
+            additional_answer = self._doc.createElement("additional_answer")
+            additional_answer.setAttribute("answer", answer)
+            problem_content.appendChild(additional_answer)
+
+            if len(answer) > max_answer_length:
+                max_answer_length = len(answer)
+
+        # Add a textline element with the max answer length plus a buffer
+        textline = self._doc.createElement("textline")
+        textline.setAttribute("size", str(max_answer_length + self.FIB_PROBLEM_TEXTLINE_SIZE_BUFFER))
+        problem_content.appendChild(textline)
+
+        problem.appendChild(problem_content)
+
+        return problem
+
+    @staticmethod
+    def _build_fib_problem_type(problem_data: dict) -> str:
+        """
+        Build `stringresponse` OLX type for a Fill-In-The-Blank problem.
+        """
+        problem_types = ["ci"]
+
+        if problem_data["is_regexp"]:
+            problem_types.append("regexp")
+
+        return " ".join(problem_types)
+
+    def _create_essay_problem(
+        self,
+        problem_data: dict,
+    ) -> Union[xml.dom.minidom.Element, Tuple[xml.dom.minidom.Element, xml.dom.minidom.Element]]:
+        """
+        Create an essay problem OLX.
+
+        Given parsed essay problem data, returns a openassessment component. If a sample
+        solution provided, returns that as a HTML block before openassessment.
+        """
+        el = element_builder(self._doc)
+
+        if any(key in QTI_RESPROCESSING_TYPES for key in problem_data.keys()):
+            resp_samples = [
+                el("name", "Feedback"),
+                el("label", "Feedback"),
+                el("prompt", "Example Feedback"),
+            ]
+
+            for desc, key in zip(["General", "Correct", "Incorrect"], QTI_RESPROCESSING_TYPES):
+                resp_samples.append(
+                    el(
+                        "option",
+                        [el("name", desc), el("label", desc), el("explanation", problem_data.get(key, desc))],
+                        {"points": "0"},
+                    )
+                )
+            criterion = el("criterion", resp_samples, {"feedback": "optional"})
+        else:
+            criterion = el(
+                "criterion",
+                [
+                    el("name", "Ideas"),
+                    el("label", "Ideas"),
+                    el("prompt", "Example criterion"),
+                    el(
+                        "option",
+                        [el("name", "Poor"), el("label", "Poor"), el("explanation", "Explanation")],
+                        {"points": "0"},
+                    ),
+                    el(
+                        "option",
+                        [el("name", "Good"), el("label", "Good"), el("explanation", "Explanation")],
+                        {"points": "1"},
+                    ),
+                ],
+                {"feedback": "optional"},
+            )
+
+        description = problem_data["problem_description"]
+        ora = el(
+            "openassessment",
+            [
+                el("title", "Open Response Assessment"),
+                el(
+                    "assessments",
+                    [
+                        el("assessment", None, attributes={"name": "staff-assessment", "required": "True"}),
+                    ],
+                ),
+                el(
+                    "prompts",
+                    [
+                        el(
+                            "prompt",
+                            [el("description", description)],
+                        ),
+                    ],
+                ),
+                el(
+                    "rubric",
+                    [
+                        criterion,
+                        el("feedbackprompt", "Feedback prompt text"),
+                        el("feedback_default_text", "Feedback prompt default text"),
+                    ],
+                ),
+            ],
+            {
+                "url_name": problem_data["ident"],
+                "text_response": "required",
+                "prompts_type": "html",
+            },
+        )
+
+        # if a sample solution exists add on top of ora, because
+        # olx doesn't have a sample solution equivalent.
+        if problem_data.get("sample_solution"):
+            child = el("html", self._doc.createCDATASection(problem_data["sample_solution"]))
+            return child, ora
+
+        return ora
+
+    def _create_pattern_match_problem(self, problem_data: dict) -> xml.dom.minidom.Element:
+        """
+        Create pattern match problem OLX.
+        """
+        raise NotImplementedError
diff --git a/src/cc2olx/olx_generators/video.py b/src/cc2olx/olx_generators/video.py
new file mode 100644
index 00000000..0b86fddd
--- /dev/null
+++ b/src/cc2olx/olx_generators/video.py
@@ -0,0 +1,18 @@
+import xml.dom.minidom
+from typing import List
+
+from cc2olx.olx_generators import AbstractOlxGenerator
+from cc2olx.utils import element_builder
+
+
+class VideoOlxGenerator(AbstractOlxGenerator):
+    """
+    Generate OLX for video content.
+    """
+
+    def create_nodes(self, content: dict) -> List[xml.dom.minidom.Element]:
+        xml_element = element_builder(self._doc)
+        youtube_video_id = content["youtube"]
+        attributes = {"youtube": f"1.00:{youtube_video_id}", "youtube_id_1_0": content["youtube"]}
+        video_element = xml_element("video", children=None, attributes=attributes)
+        return [video_element]
diff --git a/src/cc2olx/templates/external_webcontent.html b/src/cc2olx/templates/external_webcontent.html
new file mode 100644
index 00000000..fc39edfb
--- /dev/null
+++ b/src/cc2olx/templates/external_webcontent.html
@@ -0,0 +1,10 @@
+<html>
+    <head>
+        <meta http-equiv="Content-Type" content="text/html; charset=utf-8"/>
+    </head>
+    <body>
+        <p>
+            <a href="{olx_static_path}" alt="{resource_relative_path}">{resource_relative_path}<a>
+        </p>
+    </body>
+</html>
diff --git a/src/cc2olx/templates/image_webcontent.html b/src/cc2olx/templates/image_webcontent.html
new file mode 100644
index 00000000..c55beeb7
--- /dev/null
+++ b/src/cc2olx/templates/image_webcontent.html
@@ -0,0 +1,10 @@
+<html>
+    <head>
+        <meta http-equiv="Content-Type" content="text/html; charset=utf-8"/>
+    </head>
+    <body>
+        <p>
+            <img src="{olx_static_path}" alt="{static_filename}">
+        </p>
+    </body>
+</html>
diff --git a/src/cc2olx/xml/__init__.py b/src/cc2olx/xml/__init__.py
new file mode 100644
index 00000000..e69de29b
diff --git a/src/cc2olx/xml/cc_xml.py b/src/cc2olx/xml/cc_xml.py
new file mode 100644
index 00000000..b0871a6f
--- /dev/null
+++ b/src/cc2olx/xml/cc_xml.py
@@ -0,0 +1,501 @@
+from collections import defaultdict
+from typing import Dict, List, Optional, Type, TypeVar
+
+from lxml import etree
+
+
+QTI_NAMESPACE = "http://www.imsglobal.org/xsd/ims_qtiasiv1p2"
+
+
+class CommonCartridgeElementBase(etree.ElementBase):
+    """
+    Base Common Cartridge XML element.
+    """
+
+    NODE_NAMESPACES: List[str]
+    NODE_NAME: str
+
+
+class CommonCartridgeElementClassLookup(etree.CustomElementClassLookup):
+    """
+    The lookup class for Common Cartridge XML elements.
+    """
+
+    _element_classes = defaultdict(dict)
+
+    def lookup(
+        self,
+        node_type: str,
+        document: etree._Document,
+        namespace: Optional[dict],
+        name: Optional[str],
+    ) -> Optional[Type[CommonCartridgeElementBase]]:
+        if node_type == "element":
+            return self._element_classes.get(namespace, {}).get(name.lower(), CommonCartridgeElementBase)
+        return None
+
+
+CommonCartridgeElementType = TypeVar("CommonCartridgeElementType", bound=CommonCartridgeElementBase)
+
+
+def common_cartridge_element(cls: CommonCartridgeElementType) -> CommonCartridgeElementType:
+    """
+    Add a type to the Common Cartridge XML lookup.
+    """
+    for namespace in cls.NODE_NAMESPACES:
+        CommonCartridgeElementClassLookup._element_classes[namespace][cls.NODE_NAME] = cls
+
+    return cls
+
+
+@common_cartridge_element
+class WebLink(CommonCartridgeElementBase):
+    """
+    Represent <webLink> Common Cartridge element.
+    """
+
+    SEARCH_NAMESPACE_OPTIONS = {
+        "imswl_xmlv1p1": "http://www.imsglobal.org/xsd/imsccv1p1/imswl_v1p1",
+        "imswl_xmlv1p2": "http://www.imsglobal.org/xsd/imsccv1p2/imswl_v1p2",
+        "imswl_xmlv1p3": "http://www.imsglobal.org/xsd/imsccv1p3/imswl_v1p3",
+    }
+    NODE_NAMESPACES = list(SEARCH_NAMESPACE_OPTIONS.values())
+    NODE_NAME = "weblink"
+
+    def get_title(self, resource_type: str) -> CommonCartridgeElementBase:
+        """
+        Provide <title> child tag.
+        """
+        return self.find("wl:title", self._define_search_namespace(resource_type))
+
+    def get_url(self, resource_type: str) -> CommonCartridgeElementBase:
+        """
+        Provide <url> child tag.
+        """
+        return self.find("wl:url", self._define_search_namespace(resource_type))
+
+    def _define_search_namespace(self, resource_type: str) -> Dict[str, str]:
+        """
+        Define a search namespace based on resource type.
+        """
+        return {"wl": self.SEARCH_NAMESPACE_OPTIONS.get(resource_type)}
+
+
+@common_cartridge_element
+class BasicLtiLink(CommonCartridgeElementBase):
+    """
+    Represent <cartridge_basiclti_link> Common Cartridge element.
+    """
+
+    SEARCH_NAMESPACES = {
+        "blti": "http://www.imsglobal.org/xsd/imsbasiclti_v1p0",
+        "lticp": "http://www.imsglobal.org/xsd/imslticp_v1p0",
+        "lticm": "http://www.imsglobal.org/xsd/imslticm_v1p0",
+    }
+    NODE_NAMESPACES = ["http://www.imsglobal.org/xsd/imslticc_v1p0"]
+    NODE_NAME = "cartridge_basiclti_link"
+
+    @property
+    def title(self) -> CommonCartridgeElementBase:
+        """
+        Provide <title> child tag.
+        """
+        return self.find("blti:title", self.SEARCH_NAMESPACES)
+
+    @property
+    def description(self) -> CommonCartridgeElementBase:
+        """
+        Provide <description> child tag.
+        """
+        return self.find("blti:description", self.SEARCH_NAMESPACES)
+
+    @property
+    def secure_launch_url(self) -> Optional[CommonCartridgeElementBase]:
+        """
+        Provide <secure_launch_url> child tag.
+        """
+        return self.find("blti:secure_launch_url", self.SEARCH_NAMESPACES)
+
+    @property
+    def launch_url(self) -> Optional[CommonCartridgeElementBase]:
+        """
+        Provide <launch_url> child tag.
+        """
+        return self.find("blti:launch_url", self.SEARCH_NAMESPACES)
+
+    @property
+    def width(self) -> Optional[CommonCartridgeElementBase]:
+        """
+        Provide width property descendant tag.
+        """
+        return self.find("blti:extensions/lticm:property[@name='selection_width']", self.SEARCH_NAMESPACES)
+
+    @property
+    def height(self) -> Optional[CommonCartridgeElementBase]:
+        """
+        Provide height property descendant tag.
+        """
+        return self.find("blti:extensions/lticm:property[@name='selection_height']", self.SEARCH_NAMESPACES)
+
+    @property
+    def custom(self) -> Optional[CommonCartridgeElementBase]:
+        """
+        Provide <custom> child tag.
+        """
+        return self.find("blti:custom", self.SEARCH_NAMESPACES)
+
+    @property
+    def canvas_tool_id(self) -> Optional[CommonCartridgeElementBase]:
+        """
+        Provide Canvas tool identifier property descendant tag.
+        """
+        return self.find("blti:extensions/lticm:property[@name='tool_id']", self.SEARCH_NAMESPACES)
+
+
+@common_cartridge_element
+class DiscussionTopic(CommonCartridgeElementBase):
+    """
+    Represent discussion <topic> Common Cartridge element.
+    """
+
+    SEARCH_NAMESPACE_OPTIONS = {
+        "imsdt_xmlv1p1": "http://www.imsglobal.org/xsd/imsccv1p1/imsdt_v1p1",
+        "imsdt_xmlv1p2": "http://www.imsglobal.org/xsd/imsccv1p2/imsdt_v1p2",
+        "imsdt_xmlv1p3": "http://www.imsglobal.org/xsd/imsccv1p3/imsdt_v1p3",
+    }
+    NODE_NAMESPACES = list(SEARCH_NAMESPACE_OPTIONS.values())
+    NODE_NAME = "topic"
+
+    def get_title(self, resource_type: str) -> CommonCartridgeElementBase:
+        """
+        Provide <title> child tag.
+        """
+        return self.find("dt:title", self._define_search_namespace(resource_type))
+
+    def get_text(self, resource_type: str) -> CommonCartridgeElementBase:
+        """
+        Provide <text> child tag.
+        """
+        return self.find("dt:text", self._define_search_namespace(resource_type))
+
+    def _define_search_namespace(self, resource_type: str) -> Dict[str, str]:
+        """
+        Define a search namespace based on resource type.
+        """
+        return {"dt": self.SEARCH_NAMESPACE_OPTIONS.get(resource_type)}
+
+
+@common_cartridge_element
+class QtiElement(CommonCartridgeElementBase):
+    """
+    Represent <questestinterop> Common Cartridge element.
+    """
+
+    SEARCH_NAMESPACES = {"qti": QTI_NAMESPACE}
+    NODE_NAMESPACES = [QTI_NAMESPACE]
+    NODE_NAME = "questestinterop"
+
+    @property
+    def items(self) -> List["QtiItem"]:
+        """
+        Provide <item> child tags.
+        """
+        return self.findall(".//qti:section/qti:item", self.SEARCH_NAMESPACES)
+
+
+@common_cartridge_element
+class QtiItem(CommonCartridgeElementBase):
+    """
+    Represent QTI <item> Common Cartridge element.
+    """
+
+    SEARCH_NAMESPACES = {"qti": QTI_NAMESPACE}
+    NODE_NAMESPACES = [QTI_NAMESPACE]
+    NODE_NAME = "item"
+
+    @property
+    def presentation(self) -> "QtiPresentation":
+        """
+        Provide <presentation> child tag.
+        """
+        return self.find("qti:presentation", self.SEARCH_NAMESPACES)
+
+    @property
+    def description(self) -> str:
+        """
+        Provide <mattext> descendant tag.
+        """
+        return self.presentation.mattext.text
+
+    @property
+    def resprocessing(self) -> "QtiResprocessing":
+        """
+        Provide <resprocessing> child tag.
+        """
+        return self.find("qti:resprocessing", self.SEARCH_NAMESPACES)
+
+    @property
+    def qtimetadatafields(self) -> List["QtiMetadataField"]:
+        """
+        Provide <qtimetadatafield> descendant tag.
+        """
+        return self.findall("qti:itemmetadata/qti:qtimetadata/qti:qtimetadatafield", self.SEARCH_NAMESPACES)
+
+    @property
+    def profile(self) -> str:
+        """
+        Provide ``cc_profile`` value from problem metadata.
+
+        This field is mandatory for problem, so the exception is thrown if
+        it's not present.
+
+        Example of metadata structure:
+        ```
+        <itemmetadata>
+          <qtimetadata>
+            <qtimetadatafield>
+              <fieldlabel>cc_profile</fieldlabel>
+              <fieldentry>cc.true_false.v0p1</fieldentry>
+            </qtimetadatafield>
+          </qtimetadata>
+        </itemmetadata>
+        ```
+        """
+        for field in self.qtimetadatafields:
+            label = field.fieldlabel.text
+            entry = field.fieldentry.text
+
+            if label == "cc_profile":
+                return entry
+
+        raise ValueError('QTI metadata must contain "cc_profile" field.')
+
+    @property
+    def solution(self) -> Optional["QtiSolution"]:
+        """
+        Provide <solution> descendant tag.
+        """
+        return self.find("qti:itemfeedback/qti:solution", self.SEARCH_NAMESPACES)
+
+    def get_itemfeedback(self, response_type: Optional[str] = None) -> Optional["QtiItemFeedback"]:
+        """
+        Provide <itemfeedback> child tag.
+        """
+        selector = "qti:itemfeedback"
+        if response_type:
+            selector = f"{selector}[@ident='{response_type}']"
+        return self.find(selector, self.SEARCH_NAMESPACES)
+
+
+@common_cartridge_element
+class QtiMetadataField(CommonCartridgeElementBase):
+    """
+    Represent QTI <qtimetadatafield> Common Cartridge element.
+    """
+
+    SEARCH_NAMESPACES = {"qti": QTI_NAMESPACE}
+    NODE_NAMESPACES = [QTI_NAMESPACE]
+    NODE_NAME = "qtimetadatafield"
+
+    @property
+    def fieldlabel(self) -> CommonCartridgeElementBase:
+        """
+        Provide <fieldlabel> child tag.
+        """
+        return self.find("qti:fieldlabel", self.SEARCH_NAMESPACES)
+
+    @property
+    def fieldentry(self) -> CommonCartridgeElementBase:
+        """
+        Provide <fieldentry> child tag.
+        """
+        return self.find("qti:fieldentry", self.SEARCH_NAMESPACES)
+
+
+@common_cartridge_element
+class QtiPresentation(CommonCartridgeElementBase):
+    """
+    Represent QTI <presentation> Common Cartridge element.
+    """
+
+    SEARCH_NAMESPACES = {"qti": QTI_NAMESPACE}
+    NODE_NAMESPACES = [QTI_NAMESPACE]
+    NODE_NAME = "presentation"
+
+    @property
+    def response_labels(self) -> List["QtiResponseLabel"]:
+        """
+        Provide <response_label> descendant tags.
+        """
+        return self.findall("qti:response_lid/qti:render_choice/qti:response_label", self.SEARCH_NAMESPACES)
+
+    @property
+    def mattext(self) -> CommonCartridgeElementBase:
+        """
+        Provide <mattext> descendant tag.
+        """
+        return self.find("qti:material/qti:mattext", self.SEARCH_NAMESPACES)
+
+
+@common_cartridge_element
+class QtiResponseLabel(CommonCartridgeElementBase):
+    """
+    Represent QTI <response_label> Common Cartridge element.
+    """
+
+    SEARCH_NAMESPACES = {"qti": QTI_NAMESPACE}
+    NODE_NAMESPACES = [QTI_NAMESPACE]
+    NODE_NAME = "response_label"
+
+    @property
+    def mattext(self) -> CommonCartridgeElementBase:
+        """
+        Provide <mattext> descendant tag.
+        """
+        return self.find("qti:material/qti:mattext", self.SEARCH_NAMESPACES)
+
+
+@common_cartridge_element
+class QtiResprocessing(CommonCartridgeElementBase):
+    """
+    Represent QTI <resprocessing> Common Cartridge element.
+    """
+
+    SEARCH_NAMESPACES = {"qti": QTI_NAMESPACE}
+    NODE_NAMESPACES = [QTI_NAMESPACE]
+    NODE_NAME = "resprocessing"
+
+    @property
+    def respconditions(self) -> List["QtiRespcondition"]:
+        """
+        Provide <respcondition> descendant tags.
+        """
+        return self.findall("qti:respcondition", self.SEARCH_NAMESPACES)
+
+
+@common_cartridge_element
+class QtiRespcondition(CommonCartridgeElementBase):
+    """
+    Represent QTI <respcondition> Common Cartridge element.
+    """
+
+    SEARCH_NAMESPACES = {"qti": QTI_NAMESPACE}
+    NODE_NAMESPACES = [QTI_NAMESPACE]
+    NODE_NAME = "respcondition"
+
+    @property
+    def varequals(self) -> List[CommonCartridgeElementBase]:
+        """
+        Provide <varequal> descendant tags.
+        """
+        return self.findall("qti:conditionvar/qti:varequal", self.SEARCH_NAMESPACES)
+
+    @property
+    def and_varequals(self) -> List[CommonCartridgeElementBase]:
+        """
+        Provide <varequal> descendant tags wrapped by <and> tag.
+        """
+        return self.findall("qti:conditionvar/qti:and/qti:varequal", self.SEARCH_NAMESPACES)
+
+    @property
+    def or_varequals(self) -> List[CommonCartridgeElementBase]:
+        """
+        Provide <varequal> descendant tags wrapped by <or> tag.
+        """
+        return self.findall("qti:conditionvar/qti:or/qti:varequal", self.SEARCH_NAMESPACES)
+
+    @property
+    def varsubstrings(self) -> List[CommonCartridgeElementBase]:
+        """
+        Provide <varsubstring> descendant tags.
+        """
+        return self.findall("qti:conditionvar/qti:varsubstring", self.SEARCH_NAMESPACES)
+
+    def get_display_feedback(self, response_type: str) -> Optional[CommonCartridgeElementBase]:
+        """
+        Provide <displayfeedback> child tag.
+        """
+        return self.find(f"qti:displayfeedback[@linkrefid='{response_type}']", self.SEARCH_NAMESPACES)
+
+
+@common_cartridge_element
+class QtiSolution(CommonCartridgeElementBase):
+    """
+    Represent QTI <solution> Common Cartridge element.
+    """
+
+    SEARCH_NAMESPACES = {"qti": QTI_NAMESPACE}
+    NODE_NAMESPACES = [QTI_NAMESPACE]
+    NODE_NAME = "solution"
+
+    @property
+    def mattext(self) -> CommonCartridgeElementBase:
+        """
+        Provide <mattext> descendant tag.
+        """
+        return self.find("qti:solutionmaterial//qti:material//qti:mattext", self.SEARCH_NAMESPACES)
+
+
+@common_cartridge_element
+class QtiItemFeedback(CommonCartridgeElementBase):
+    """
+    Represent QTI <itemfeedback> Common Cartridge element.
+    """
+
+    SEARCH_NAMESPACES = {"qti": QTI_NAMESPACE}
+    NODE_NAMESPACES = [QTI_NAMESPACE]
+    NODE_NAME = "itemfeedback"
+
+    @property
+    def flow_mat(self) -> "QtiFlowMat":
+        """
+        Provide <flow_mat> child tag.
+        """
+        return self.find("qti:flow_mat", self.SEARCH_NAMESPACES)
+
+
+@common_cartridge_element
+class QtiFlowMat(CommonCartridgeElementBase):
+    """
+    Represent QTI <flow_mat> Common Cartridge element.
+    """
+
+    SEARCH_NAMESPACES = {"qti": QTI_NAMESPACE}
+    NODE_NAMESPACES = [QTI_NAMESPACE]
+    NODE_NAME = "flow_mat"
+
+    @property
+    def material(self) -> "QtiMaterial":
+        """
+        Provide <material> child tag.
+        """
+        return self.find("qti:material", self.SEARCH_NAMESPACES)
+
+
+@common_cartridge_element
+class QtiMaterial(CommonCartridgeElementBase):
+    """
+    Represent QTI <material> Common Cartridge element.
+    """
+
+    SEARCH_NAMESPACES = {"qti": QTI_NAMESPACE}
+    NODE_NAMESPACES = [QTI_NAMESPACE]
+    NODE_NAME = "material"
+
+    @property
+    def mattext(self) -> CommonCartridgeElementBase:
+        """
+        Provide <mattext> child tag.
+        """
+        return self.find("qti:mattext", self.SEARCH_NAMESPACES)
+
+
+class CommonCartridgeXmlParser(etree.XMLParser):
+    """
+    An XML parser configured to return Common Cartridge element objects.
+    """
+
+    def __init__(self, **kwargs):
+        super().__init__(**kwargs)
+
+        self.set_element_class_lookup(CommonCartridgeElementClassLookup())

From b55f9184cb0440094c9010e0240d64886d875e39 Mon Sep 17 00:00:00 2001
From: Myhailo Chernyshov <mykhailo.chernyshov@raccoongang.com>
Date: Wed, 15 Jan 2025 11:50:09 +0200
Subject: [PATCH 3/7] refactor: [FC-0063] Block type processors are integrated
 into the script workflow

---
 setup.py                      |   2 +-
 src/cc2olx/constants.py       |   2 +-
 src/cc2olx/django_settings.py |   2 -
 src/cc2olx/filesystem.py      |   4 +-
 src/cc2olx/main.py            |  30 +-
 src/cc2olx/models.py          | 189 +---------
 src/cc2olx/olx.py             | 337 ++----------------
 src/cc2olx/parser.py          |  46 +++
 src/cc2olx/qti.py             | 624 ----------------------------------
 src/cc2olx/settings.py        |  59 +---
 10 files changed, 111 insertions(+), 1184 deletions(-)
 delete mode 100644 src/cc2olx/django_settings.py
 create mode 100644 src/cc2olx/parser.py
 delete mode 100644 src/cc2olx/qti.py

diff --git a/setup.py b/setup.py
index 0df0a5f1..e222ad67 100644
--- a/setup.py
+++ b/setup.py
@@ -25,7 +25,7 @@
         "Programming Language :: Python :: 3.8",
         "Topic :: Utilities",
     ],
-    description=("Command line tool, that converts Common Cartridge " "courses to Open edX Studio imports."),
+    description="Command line tool, that converts Common Cartridge courses to Open edX Studio imports.",
     entry_points={"console_scripts": ["cc2olx=cc2olx.main:main"]},
     install_requires=load_requirements("requirements/base.in"),
     license="GNU Affero General Public License",
diff --git a/src/cc2olx/constants.py b/src/cc2olx/constants.py
index 1a3b14ff..cdc9fe1f 100644
--- a/src/cc2olx/constants.py
+++ b/src/cc2olx/constants.py
@@ -2,7 +2,7 @@
 OLX_STATIC_PATH_TEMPLATE = f"/{OLX_STATIC_DIR}/{{static_filename}}"
 WEB_RESOURCES_DIR_NAME = "web_resources"
 
-LINK_HTML = "<a href='{url}'>{text}</a>"
+LINK_HTML = '<a href="{url}">{text}</a>'
 YOUTUBE_LINK_PATTERN = r"youtube.com/watch\?v=(?P<video_id>[-\w]+)"
 CDATA_PATTERN = r"<!\[CDATA\[(?P<content>.*?)\]\]>"
 
diff --git a/src/cc2olx/django_settings.py b/src/cc2olx/django_settings.py
deleted file mode 100644
index c13f3ec2..00000000
--- a/src/cc2olx/django_settings.py
+++ /dev/null
@@ -1,2 +0,0 @@
-USE_I18N = False
-USE_TZ = False
diff --git a/src/cc2olx/filesystem.py b/src/cc2olx/filesystem.py
index 2ad20e77..9c4eb921 100644
--- a/src/cc2olx/filesystem.py
+++ b/src/cc2olx/filesystem.py
@@ -3,9 +3,9 @@
 import zipfile
 
 from xml.etree import ElementTree
-from lxml import etree
 
 from cc2olx.utils import clean_file_name
+from cc2olx.xml.cc_xml import CommonCartridgeXmlParser
 
 logger = logging.getLogger()
 
@@ -32,7 +32,7 @@ def get_xml_tree(path_src):
         # We are using this parser with recover and encoding options so that we are
         # able to parse malformed xml without much issue. The xml that we are
         # anticipating can even be having certain non-acceptable characters like &nbsp.
-        parser = etree.XMLParser(encoding="utf-8", recover=True, ns_clean=True)
+        parser = CommonCartridgeXmlParser(encoding="utf-8", recover=True, ns_clean=True)
         tree = ElementTree.parse(str(path_src), parser=parser)
         return tree
     except ElementTree.ParseError:
diff --git a/src/cc2olx/main.py b/src/cc2olx/main.py
index 981955d7..8cae4486 100644
--- a/src/cc2olx/main.py
+++ b/src/cc2olx/main.py
@@ -6,13 +6,13 @@
 from pathlib import Path
 
 import django
+from django.conf import settings
 
-from cc2olx import filesystem
-from cc2olx import olx
+from cc2olx import filesystem, olx
 from cc2olx.cli import parse_args, RESULT_TYPE_FOLDER, RESULT_TYPE_ZIP
 from cc2olx.constants import OLX_STATIC_DIR
 from cc2olx.models import Cartridge
-from cc2olx.settings import collect_settings
+from cc2olx.parser import parse_options
 
 
 def convert_one_file(
@@ -58,23 +58,22 @@ def convert_one_file(
 def main():
     initialize_django()
 
-    parsed_args = parse_args()
-    settings = collect_settings(parsed_args)
+    args = parse_args()
+    options = parse_options(args)
 
-    workspace = settings["workspace"]
-    link_file = settings["link_file"]
-    passport_file = settings["passport_file"]
-    relative_links_source = settings["relative_links_source"]
+    workspace = options["workspace"]
+    link_file = options["link_file"]
+    passport_file = options["passport_file"]
+    relative_links_source = options["relative_links_source"]
 
     # setup logger
-    logging_config = settings["logging_config"]
-    logging.basicConfig(level=logging_config["level"], format=logging_config["format"])
+    logging.basicConfig(level=options["log_level"], format=settings.LOG_FORMAT)
     logger = logging.getLogger()
 
     with tempfile.TemporaryDirectory() as tmpdirname:
         temp_workspace = Path(tmpdirname) / workspace.stem
 
-        for input_file in settings["input_files"]:
+        for input_file in options["input_files"]:
             try:
                 convert_one_file(
                     input_file,
@@ -83,15 +82,14 @@ def main():
                     passport_file,
                     relative_links_source,
                 )
-
             except Exception:
                 logger.exception("Error while converting %s file", input_file)
 
-        if settings["output_format"] == RESULT_TYPE_FOLDER:
+        if options["output_format"] == RESULT_TYPE_FOLDER:
             shutil.rmtree(str(workspace), ignore_errors=True)
             shutil.copytree(str(temp_workspace), str(workspace))
 
-        if settings["output_format"] == RESULT_TYPE_ZIP:
+        if options["output_format"] == RESULT_TYPE_ZIP:
             shutil.make_archive(str(workspace), "zip", str(temp_workspace))
 
     logger.info("Conversion completed")
@@ -103,7 +101,7 @@ def initialize_django():
     """
     Initialize the Django package.
     """
-    os.environ.setdefault("DJANGO_SETTINGS_MODULE", "cc2olx.django_settings")
+    os.environ.setdefault("DJANGO_SETTINGS_MODULE", "cc2olx.settings")
     django.setup()
 
 
diff --git a/src/cc2olx/models.py b/src/cc2olx/models.py
index dc5690ea..e6cefc6f 100644
--- a/src/cc2olx/models.py
+++ b/src/cc2olx/models.py
@@ -1,19 +1,16 @@
-import imghdr
 import logging
 import os.path
 import re
-from textwrap import dedent
 import zipfile
+from pathlib import Path
+from textwrap import dedent
+from typing import Optional
 
 from cc2olx import filesystem
-from cc2olx.constants import OLX_STATIC_PATH_TEMPLATE
 from cc2olx.dataclasses import OlxToOriginalStaticFilePaths
 from cc2olx.external.canvas import ModuleMeta
-from cc2olx.qti import QtiParser
 from cc2olx.utils import clean_file_name
 
-from .utils import simple_slug
-
 logger = logging.getLogger()
 
 MANIFEST = "imsmanifest.xml"
@@ -295,7 +292,7 @@ def flatten(self, container):
                 output.extend(leaves)
         return output
 
-    def define_resource(self, idref):
+    def define_resource(self, idref: Optional[str]) -> dict:
         """
         Define a resource by its identifier.
         """
@@ -305,104 +302,6 @@ def define_resource(self, idref):
             resource = self.resources_by_id.get(module_item_idref)
         return resource
 
-    def get_resource_content(self, identifier):
-        """
-        Get the resource named by `identifier`.
-
-        If the resource can be retrieved, returns a tuple: the first element
-        indicates the type of content, either "html" or "link".  The second
-        element is a dict with details, which vary by the type.
-
-        If the resource can't be retrieved, returns a tuple of None, None.
-
-        """
-        res = self.resources_by_id.get(identifier)
-        if res is None and self.is_canvas_flavor:
-            res = self.resources_by_id.get(self.module_meta.get_identifierref(identifier))
-        if res is None:
-            logger.info("Missing resource: %s", identifier)
-            return None, None
-
-        res_type = res["type"]
-
-        if res_type == "webcontent":
-            res_relative_path = res["children"][0].href
-            res_filename = self._res_filename(res_relative_path)
-            if res_filename.suffix == ".html":
-                try:
-                    with open(str(res_filename), encoding="utf-8") as res_file:
-                        html = res_file.read()
-                except:  # noqa: E722
-                    logger.error("Failure reading %s from id %s", res_filename, identifier)  # noqa: E722
-                    raise
-                return "html", {"html": html}
-            elif "web_resources" in str(res_filename) and imghdr.what(str(res_filename)):
-                static_filename = str(res_filename).split("web_resources/")[1]
-                olx_static_path = OLX_STATIC_PATH_TEMPLATE.format(static_filename=static_filename)
-                self.olx_to_original_static_file_paths.web_resources[olx_static_path] = static_filename
-                html = (
-                    '<html><head><meta http-equiv="Content-Type" content="text/html; charset=utf-8"/>'
-                    '</head><body><p><img src="{}" alt="{}"></p></body></html>'.format(olx_static_path, static_filename)
-                )
-                return "html", {"html": html}
-            elif "web_resources" not in str(res_filename):
-                olx_static_path = OLX_STATIC_PATH_TEMPLATE.format(static_filename=res_relative_path)
-                # This webcontent is outside of ``web_resources`` directory
-                # So we need to manually copy it to OLX_STATIC_DIR
-                self.olx_to_original_static_file_paths.extra[olx_static_path] = res_relative_path
-                html = (
-                    '<html><head><meta http-equiv="Content-Type" content="text/html; charset=utf-8"/>'
-                    '</head><body><p><a href="{}" alt="{}">{}<a></p></body></html>'.format(
-                        olx_static_path, res_relative_path, res_relative_path
-                    )
-                )
-                return "html", {"html": html}
-            else:
-                logger.info("Skipping webcontent: %s", res_filename)
-                return None, None
-
-        # Match any of imswl_xmlv1p1, imswl_xmlv1p2 etc
-        elif re.match(r"^imswl_xmlv\d+p\d+$", res_type):
-            tree = filesystem.get_xml_tree(self._res_filename(res["children"][0].href))
-            root = tree.getroot()
-            namespaces = {
-                "imswl_xmlv1p1": "http://www.imsglobal.org/xsd/imsccv1p1/imswl_v1p1",
-                "imswl_xmlv1p2": "http://www.imsglobal.org/xsd/imsccv1p2/imswl_v1p2",
-                "imswl_xmlv1p3": "http://www.imsglobal.org/xsd/imsccv1p3/imswl_v1p3",
-            }
-            ns = {"wl": namespaces[res_type]}
-            title = root.find("wl:title", ns).text
-            url = root.find("wl:url", ns).get("href")
-            return "link", {"href": url, "text": title}
-
-        # Match any of imsbasiclti_xmlv1p0, imsbasiclti_xmlv1p3 etc
-        elif re.match(r"^imsbasiclti_xmlv\d+p\d+$", res_type):
-            data = self._parse_lti(res)
-            # Canvas flavored courses have correct url in module meta for lti links
-            if self.is_canvas_flavor:
-                item_data = self.module_meta.get_external_tool_item_data(identifier)
-                if item_data:
-                    data["launch_url"] = item_data.get("url", data["launch_url"])
-            return "lti", data
-
-        # Match any of imsqti_xmlv1p2/imscc_xmlv1p1/assessment, imsqti_xmlv1p3/imscc_xmlv1p3/assessment etc
-        elif re.match(r"^imsqti_xmlv\d+p\d+/imscc_xmlv\d+p\d+/assessment$", res_type):
-            res_filename = self._res_filename(res["children"][0].href)
-            qti_parser = QtiParser(res_filename)
-            return "qti", qti_parser.parse_qti()
-
-        # Match any of imsdt_xmlv1p1, imsdt_xmlv1p2, imsdt_xmlv1p3 etc
-        elif re.match(r"^imsdt_xmlv\d+p\d+$", res_type):
-            data = self._parse_discussion(res, res_type)
-            return "discussion", data
-
-        else:
-            text = f"Unimported content: type = {res_type!r}"
-            if "href" in res:
-                text += ", href = {!r}".format(res["href"])
-            logger.info("%s", text)
-            return "html", {"html": text}
-
     def load_manifest_extracted(self):
         manifest = self._extract()
 
@@ -718,83 +617,3 @@ def _parse_dependency(self, node):
     def _parse_resource_metadata(self, node):
         # TODO: this
         return None
-
-    def _res_filename(self, file_name):
-        return self.directory / file_name
-
-    def _parse_lti(self, resource):
-        """
-        Parses LTI resource.
-        """
-
-        tree = filesystem.get_xml_tree(self._res_filename(resource["children"][0].href))
-        root = tree.getroot()
-        ns = {
-            "blti": "http://www.imsglobal.org/xsd/imsbasiclti_v1p0",
-            "lticp": "http://www.imsglobal.org/xsd/imslticp_v1p0",
-            "lticm": "http://www.imsglobal.org/xsd/imslticm_v1p0",
-        }
-        title = root.find("blti:title", ns).text
-        description = root.find("blti:description", ns).text
-        launch_url = root.find("blti:secure_launch_url", ns)
-        if launch_url is None:
-            launch_url = root.find("blti:launch_url", ns)
-        if launch_url is not None:
-            launch_url = launch_url.text
-        else:
-            launch_url = ""
-        width = root.find("blti:extensions/lticm:property[@name='selection_width']", ns)
-        if width is None:
-            width = "500"
-        else:
-            width = width.text
-        height = root.find("blti:extensions/lticm:property[@name='selection_height']", ns)
-        if height is None:
-            height = "500"
-        else:
-            height = height.text
-        custom = root.find("blti:custom", ns)
-        if custom is None:
-            parameters = dict()
-        else:
-            parameters = {option.get("name"): option.text for option in custom}
-        # For Canvas flavored CC, tool_id can be used as lti_id if present
-        tool_id = root.find("blti:extensions/lticm:property[@name='tool_id']", ns)
-        if tool_id is None:
-            # Create a simple slug lti_id from title
-            lti_id = simple_slug(title)
-        else:
-            lti_id = tool_id.text
-        data = {
-            "title": title,
-            "description": description,
-            "launch_url": launch_url,
-            "height": height,
-            "width": width,
-            "custom_parameters": parameters,
-            "lti_id": lti_id,
-        }
-        return data
-
-    def _parse_discussion(self, res, res_type):
-        """
-        Parses discussion content.
-        """
-
-        namespaces = {
-            "imsdt_xmlv1p1": "http://www.imsglobal.org/xsd/imsccv1p1/imsdt_v1p1",
-            "imsdt_xmlv1p2": "http://www.imsglobal.org/xsd/imsccv1p2/imsdt_v1p2",
-            "imsdt_xmlv1p3": "http://www.imsglobal.org/xsd/imsccv1p3/imsdt_v1p3",
-        }
-
-        data = {"dependencies": []}
-        for child in res["children"]:
-            if isinstance(child, ResourceFile):
-                tree = filesystem.get_xml_tree(self._res_filename(child.href))
-                root = tree.getroot()
-                ns = {"dt": namespaces[res_type]}
-                data["title"] = root.find("dt:title", ns).text
-                data["text"] = root.find("dt:text", ns).text
-            elif isinstance(child, ResourceDependency):
-                data["dependencies"].append(self.get_resource_content(child.identifierref))
-        return data
diff --git a/src/cc2olx/olx.py b/src/cc2olx/olx.py
index 8cb285ee..b7b161c5 100644
--- a/src/cc2olx/olx.py
+++ b/src/cc2olx/olx.py
@@ -1,14 +1,15 @@
-import html as HTMLParser
 import json
 import logging
-import re
-import urllib
 import xml.dom.minidom
-from lxml import html
-from cc2olx.iframe_link_parser import KalturaIframeLinkParser
+from typing import List, Type
+
+from django.conf import settings
+from django.utils.module_loading import import_string
 
-from cc2olx.qti import QtiExport
-from cc2olx.utils import clean_from_cdata, element_builder, passport_file_parser
+from cc2olx.content_processors import AbstractContentProcessor
+from cc2olx.dataclasses import ContentProcessorContext
+from cc2olx.iframe_link_parser import KalturaIframeLinkParser
+from cc2olx.utils import passport_file_parser
 
 logger = logging.getLogger()
 
@@ -28,25 +29,23 @@ class OlxExport:
     OLX guide: https://edx.readthedocs.io/projects/edx-open-learning-xml/en/latest/
     """
 
-    # content types
-    HTML = "html"
-    LINK = "link"
-    VIDEO = "video"
-    LTI = "lti"
-    QTI = "qti"
-    DISCUSSION = "discussion"
-
     def __init__(self, cartridge, link_file=None, passport_file=None, relative_links_source=None):
         self.cartridge = cartridge
         self.doc = None
         self.link_file = link_file
         self.passport_file = passport_file
         self.relative_links_source = relative_links_source
-        self.iframe_link_parser = None
-        if link_file:
-            self.iframe_link_parser = KalturaIframeLinkParser(self.link_file)
+        self.iframe_link_parser = KalturaIframeLinkParser(self.link_file) if link_file else None
         self.lti_consumer_present = False
         self.lti_consumer_ids = set()
+        self._content_processor_types = self._load_content_processor_types()
+
+    @staticmethod
+    def _load_content_processor_types() -> List[Type[AbstractContentProcessor]]:
+        """
+        Load content processor types.
+        """
+        return [import_string(processor_path) for processor_path in settings.CONTENT_PROCESSORS]
 
     def xml(self):
         self.doc = xml.dom.minidom.Document()
@@ -108,7 +107,7 @@ def policy(self):
 
         lti_passports = self._get_lti_passport_list()
 
-        if self.lti_consumer_present:
+        if self.lti_consumer_ids:
             policy["course/course"]["advanced_modules"] = ["lti_consumer"]
 
         if len(lti_passports):
@@ -157,8 +156,7 @@ def _add_olx_nodes(self, element, course_data, tags):
         leaf = not tags
         for element_data in course_data:
             if leaf:
-                content_type, details = self._get_content(element_data)
-                children = self._create_olx_nodes(content_type, details)
+                children = self._create_olx_nodes(element_data)
             else:
                 children = [self.doc.createElement(tags[0])]
 
@@ -175,146 +173,13 @@ def _add_olx_nodes(self, element, course_data, tags):
                 if "children" in element_data:
                     self._add_olx_nodes(child, element_data["children"], tags[1:])
 
-    def _get_content(self, element_data):
-        """
-        Gets content type and details from element's data.
-        """
-
-        content_type = None
-        details = None
-
-        if "identifierref" in element_data:
-            idref = element_data["identifierref"]
-            content_type, details = self.cartridge.get_resource_content(idref)
-
-        if content_type is None or not details:
-            content_type = self.HTML
-            details = {
-                "html": "<p>MISSING CONTENT</p>",
-            }
-
-        if content_type == self.LINK:
-            content_type, details = process_link(details)
-
-        return content_type, details
-
-    def _process_static_links(self, html):
-        """
-        Process static links like src and href to have appropriate links.
-        """
-        items = re.findall(r'(src|href)\s*=\s*"(.+?)"', html)
-
-        def process_wiki_reference(item, html):
-            """
-            Replace $WIKI_REFERENCE$ with edx /jump_to_id/<url_name>
-            """
-            search_key = urllib.parse.unquote(item).replace("$WIKI_REFERENCE$/pages/", "")
-
-            # remove query params and add suffix .html to match with resource_id_by_href
-            search_key = search_key.split("?")[0] + ".html"
-            for key in self.cartridge.resource_id_by_href.keys():
-                if key.endswith(search_key):
-                    replace_with = "/jump_to_id/{}".format(self.cartridge.resource_id_by_href[key])
-                    html = html.replace(item, replace_with)
-                    return html
-            logger.warn("Unable to process Wiki link - %s", item)
-            return html
-
-        def process_canvas_reference(item, html):
-            """
-            Replace $CANVAS_OBJECT_REFERENCE$ with edx /jump_to_id/<url_name>
-            """
-            object_id = urllib.parse.unquote(item).replace("$CANVAS_OBJECT_REFERENCE$/quizzes/", "/jump_to_id/")
-            html = html.replace(item, object_id)
-            return html
-
-        def process_ims_cc_filebase(item, html):
-            """
-            Replace $IMS-CC-FILEBASE$ with /static
-            """
-            new_item = urllib.parse.unquote(item).replace("$IMS-CC-FILEBASE$", "/static")
-            # skip query parameters for static files
-            new_item = new_item.split("?")[0]
-            # &amp; is not valid in an URL. But some file seem to have it when it should be &
-            new_item = new_item.replace("&amp;", "&")
-            html = html.replace(item, new_item)
-            return html
-
-        def process_external_tools_link(item, html):
-            """
-            Replace $CANVAS_OBJECT_REFERENCE$/external_tools/retrieve with appropriate external link
-            """
-            external_tool_query = urllib.parse.urlparse(item).query
-            # unescape query that has been HTML encoded so it can be parsed correctly
-            unescaped_external_tool_query = HTMLParser.unescape(external_tool_query)
-            external_tool_url = urllib.parse.parse_qs(unescaped_external_tool_query).get("url", [""])[0]
-            html = html.replace(item, external_tool_url)
-            return html
-
-        def process_relative_external_links(item, html):
-            """
-            Turn static file URLs outside OLX_STATIC_DIR into absolute URLs.
-
-            Allow to avoid a situation when the original course page links have
-            relative URLs, such URLs weren't included into the exported Common
-            Cartridge course file that causes broken URLs in the imported OeX
-            course. The function adds the origin source to URLs to make them
-            absolute ones.
-            """
-            if self.relative_links_source is None or item in self.cartridge.olx_to_original_static_file_paths.all:
-                return html
-
-            url = urllib.parse.urljoin(self.relative_links_source, item)
-            html = html.replace(item, url)
-            return html
-
-        for _, item in items:
-            if "IMS-CC-FILEBASE" in item:
-                html = process_ims_cc_filebase(item, html)
-            elif "WIKI_REFERENCE" in item:
-                html = process_wiki_reference(item, html)
-            elif "external_tools" in item:
-                html = process_external_tools_link(item, html)
-            elif "CANVAS_OBJECT_REFERENCE" in item:
-                html = process_canvas_reference(item, html)
-            else:
-                html = process_relative_external_links(item, html)
-
-        return html
-
-    def _process_static_links_from_details(self, details):
-        """
-        Take a variable and recursively find & escape all static links within strings
-
-        Args:
-            self: self
-            details: A dictionary or list of dictionaries containing node data.
-
-        Returns:
-            details: Returns detail data with static link
-                        escaped to an OLX-friendly format.
-        """
-
-        if isinstance(details, str):
-            return self._process_static_links(details)
-
-        if isinstance(details, list):
-            for index, value in enumerate(details):
-                details[index] = self._process_static_links_from_details(value)
-        elif isinstance(details, dict):
-            for key, value in details.items():
-                details[key] = self._process_static_links_from_details(value)
-
-        return details
-
-    def _create_olx_nodes(self, content_type, details):
+    def _create_olx_nodes(self, element_data: dict) -> List["xml.dom.minidom.Element"]:
         """
         This helps to create OLX node of different type. For eg HTML, VIDEO, QTI, LTI,
         Discussion.
 
         Args:
-            content_type ([str]): The type of node that has to be created.
-            details (Dict[str, str]): Dictionary of the element and content of the element.
+            element_data (dict): a normalized CC element data.
 
         Raises:
             OlxExportException: Exception when nodes are not able to be created.
@@ -322,157 +187,17 @@ def _create_olx_nodes(self, content_type, details):
         Returns:
             [List]: List of OLX nodes that needs to be written.
         """
-
-        nodes = []
-        details = self._process_static_links_from_details(details)
-
-        if content_type == self.HTML:
-            nodes += self._process_html(details)
-
-        elif content_type == self.VIDEO:
-            nodes += self._create_video_node(details)
-
-        elif content_type == self.LTI:
-            # There is an LTI resource
-            # Add lti_consumer in policy with lti_passports
-            self.lti_consumer_present = True
-            self.lti_consumer_ids.add(details["lti_id"])
-            nodes.append(self._create_lti_node(details))
-
-        elif content_type == self.QTI:
-            qti_export = QtiExport(self.doc)
-            nodes += qti_export.create_qti_node(details)
-
-        elif content_type == self.DISCUSSION:
-            nodes += self._create_discussion_node(details)
-
-        else:
-            raise OlxExportException(f'Content type "{content_type}" is not supported.')
-
-        return nodes
-
-    def _create_video_node(self, details):
-        """
-        This function creates Video OLX nodes.
-
-        Args:
-            details (Dict[str, str]): Dictionary that has Video tag value.
-
-        Returns:
-            [OLX Element]: Video OLX element.
-        """
-        xml_element = element_builder(self.doc)
-        attributes = {"youtube": "1.00:" + details["youtube"], "youtube_id_1_0": details["youtube"]}
-        child = xml_element("video", children=None, attributes=attributes)
-        return [child]
-
-    def _process_html(self, details):
-        """
-        This function helps to process the html and gives out
-        corresponding HTML or Video OLX nodes.
-
-        Args:
-            details (Dict[str, str]): Dictionary that has HTML tag value.
-
-        Returns:
-            List[OLX Element]: List of html/Video OLX element.
-        """
-        video_olx = []
-        nodes = []
-        child = self.doc.createElement("html")
-        html = self._process_static_links(details["html"])
-        if self.link_file:
-            html, video_olx = self._process_html_for_iframe(html)
-        html = clean_from_cdata(html)
-        txt = self.doc.createCDATASection(html)
-        child.appendChild(txt)
-        nodes.append(child)
-        for olx in video_olx:
-            nodes.append(olx)
-        return nodes
-
-    def _process_html_for_iframe(self, html_str):
-        """
-        This function helps to parse the iframe with
-        embedded video, to be converted into video xblock.
-
-        Args:
-            html_str ([str]): Html file content.
-
-        Returns:
-            html_str [str]: The html content of the file, if iframe is present
-                            and converted into xblock then iframe is removed
-                            from the HTML.
-            video_olx [List[xml]]: List of xml children, i.e video xblock.
-        """
-        video_olx = []
-        parsed_html = html.fromstring(html_str)
-        iframes = parsed_html.xpath("//iframe")
-        if not iframes:
-            return html_str, video_olx
-        video_olx, converted_iframes = self.iframe_link_parser.get_video_olx(self.doc, iframes)
-        if video_olx:
-            # If video xblock is present then we modify the HTML to remove the iframe
-            # hence we need to convert the modified HTML back to string. We also remove
-            # the parent if there are no other children.
-            for iframe in converted_iframes:
-                parent = iframe.getparent()
-                parent.remove(iframe)
-                if not parent.getchildren():
-                    parent.getparent().remove(parent)
-            return html.tostring(parsed_html).decode("utf-8"), video_olx
-        return html_str, video_olx
-
-    def _create_lti_node(self, details):
-        node = self.doc.createElement("lti_consumer")
-        custom_parameters = "[{params}]".format(
-            params=", ".join(
-                [
-                    '"{key}={value}"'.format(
-                        key=key,
-                        value=value,
-                    )
-                    for key, value in details["custom_parameters"].items()
-                ]
-            ),
+        idref = element_data.get("identifierref")
+        context = ContentProcessorContext(
+            iframe_link_parser=self.iframe_link_parser,
+            lti_consumer_ids=self.lti_consumer_ids,
+            relative_links_source=self.relative_links_source,
         )
-        node.setAttribute("custom_parameters", custom_parameters)
-        node.setAttribute("description", details["description"])
-        node.setAttribute("display_name", details["title"])
-        node.setAttribute("inline_height", details["height"])
-        node.setAttribute("inline_width", details["width"])
-        node.setAttribute("launch_url", details["launch_url"])
-        node.setAttribute("modal_height", details["height"])
-        node.setAttribute("modal_width", details["width"])
-        node.setAttribute("xblock-family", "xblock.v1")
-        node.setAttribute("lti_id", details["lti_id"])
-        return node
-
-    def _create_discussion_node(self, details):
-        node = self.doc.createElement("discussion")
-        node.setAttribute("display_name", "")
-        node.setAttribute("discussion_category", details["title"])
-        node.setAttribute("discussion_target", details["title"])
-        html_node = self.doc.createElement("html")
-        txt = "MISSING CONTENT" if details["text"] is None else details["text"]
-        txt = clean_from_cdata(txt)
-        txt = self.doc.createCDATASection(txt)
-        html_node.appendChild(txt)
-        return [html_node, node]
-
-
-def process_link(details):
-    """
-    Possibly convert a link to a video.
-    """
 
-    # YouTube links can be like this: https://www.youtube.com/watch?v=gQ-cZRmHfs4&amp;amp;list=PL5B350D511278A56B
-    ytmatch = re.search(r"youtube.com/watch\?v=([-\w]+)", details["href"])
-    if ytmatch:
-        return "video", {"youtube": ytmatch.group(1)}
+        for processor_type in self._content_processor_types:
+            processor = processor_type(self.cartridge, context)
 
-    details = {
-        "html": "<a href='{}'>{}</a>".format(details["href"], details.get("text", "")),
-    }
+            if olx_nodes := processor.process(idref):
+                return olx_nodes
 
-    return "html", details
+        raise OlxExportException(f'The resource with "{idref}" identifier value is not supported.')
diff --git a/src/cc2olx/parser.py b/src/cc2olx/parser.py
new file mode 100644
index 00000000..72834748
--- /dev/null
+++ b/src/cc2olx/parser.py
@@ -0,0 +1,46 @@
+from pathlib import Path
+
+COMMON_CARTRIDGE_FILE_EXTENSION = ".imscc"
+
+
+def _is_cartridge_file(path):
+    return path.is_file() and path.suffix == COMMON_CARTRIDGE_FILE_EXTENSION
+
+
+def _get_files(parsed_args):
+    """
+    Collects all Common Cartridge files from list of files and directories.
+    """
+
+    files = set()
+
+    for path in parsed_args.inputs:
+        if not path.exists():
+            raise FileNotFoundError
+
+        if _is_cartridge_file(path):
+            files.add(path)
+
+        if path.is_dir():
+            for input_file in path.iterdir():
+                if _is_cartridge_file(input_file):
+                    files.add(input_file)
+
+    return files
+
+
+def parse_options(args):
+    """
+    Parses script options from argparse arguments.
+    """
+    input_files = _get_files(args)
+
+    return {
+        "input_files": input_files,
+        "output_format": args.result,
+        "log_level": args.loglevel,
+        "workspace": Path.cwd() / args.output,
+        "link_file": args.link_file,
+        "passport_file": args.passport_file,
+        "relative_links_source": args.relative_links_source,
+    }
diff --git a/src/cc2olx/qti.py b/src/cc2olx/qti.py
deleted file mode 100644
index 444ab7ab..00000000
--- a/src/cc2olx/qti.py
+++ /dev/null
@@ -1,624 +0,0 @@
-import logging
-import re
-import urllib.parse
-import xml.dom.minidom
-from collections import OrderedDict
-from html import unescape
-
-from lxml import etree, html
-
-from cc2olx import filesystem
-
-from .utils import element_builder
-
-logger = logging.getLogger()
-
-# problem types
-MULTIPLE_CHOICE = "cc.multiple_choice.v0p1"
-MULTIPLE_RESPONSE = "cc.multiple_response.v0p1"
-FILL_IN_THE_BLANK = "cc.fib.v0p1"
-ESSAY = "cc.essay.v0p1"
-BOOLEAN = "cc.true_false.v0p1"
-PATTERN_MATCH = "cc.pattern_match.v0p1"
-RESPROCESSING_TYPES = ["general_fb", "correct_fb", "general_incorrect_fb"]
-
-
-class QtiError(Exception):
-    """
-    Exception type for Qti parsing/conversion errors.
-    """
-
-
-class QtiExport:
-    """
-    Contains methods for processing and conversion
-    IMS Question & Test Interoperability (QTI) <= v1.2 into OLX markup
-    """
-
-    FIB_PROBLEM_TEXTLINE_SIZE_BUFFER = 10
-
-    def __init__(self, root_xml_doc):
-        self.doc = root_xml_doc
-
-    def create_qti_node(self, details):
-        """
-        Creates OLX xml node, that represents content of unit with problems.
-
-        Args:
-            details: list of dictionaries, where each contains data to
-                render problem.
-        """
-
-        problems = []
-
-        for problem_data in details:
-            cc_profile = problem_data["cc_profile"]
-            create_problem = self._problem_creators_map.get(cc_profile)
-
-            if create_problem is None:
-                raise QtiError('Unknown cc_profile: "{}"'.format(problem_data["cc_profile"]))
-
-            problem = create_problem(problem_data)
-
-            # sometimes we might want to have additional items from one cc item
-            if isinstance(problem, list) or isinstance(problem, tuple):
-                problems += problem
-            else:
-                problems.append(problem)
-
-        return problems
-
-    @property
-    def _problem_creators_map(self):
-        """
-        Returns: mapping between Common Cartridge profile value and function
-            that creates actual problem node.
-
-        Note: Since True/False problems in OLX are constructed identically to
-            OLX Multiple Choice problems, we reuse `_create_multiple_choice_problem`
-            for BOOLEAN type problems
-        """
-        return {
-            MULTIPLE_CHOICE: self._create_multiple_choice_problem,
-            MULTIPLE_RESPONSE: self._create_multiple_response_problem,
-            FILL_IN_THE_BLANK: self._create_fib_problem,
-            ESSAY: self._create_essay_problem,
-            BOOLEAN: self._create_multiple_choice_problem,
-            PATTERN_MATCH: self._create_pattern_match_problem,
-        }
-
-    def _create_problem_description(self, description_html_str):
-        """
-        Material texts can come in form of escaped HTML markup, which
-        can't be considered as valid XML. ``xml.dom.minidom`` has no
-        features to convert HTML to XML, so we use lxml parser here.
-
-        Args:
-            description_html_str: escaped HTML string
-
-        Returns: instance of ``xml.dom.minidom.Node``
-        """
-        description_html_str = unescape(description_html_str)
-
-        description_html_str = urllib.parse.unquote(description_html_str)
-
-        element = html.fromstring(description_html_str)
-        xml_string = etree.tostring(element)
-        description = xml.dom.minidom.parseString(xml_string).firstChild
-
-        return description
-
-    def _add_choice(self, parent, is_correct, text):
-        """
-        Appends choices to given ``checkboxgroup`` or ``choicegroup`` parent.
-        """
-        choice = self.doc.createElement("choice")
-        choice.setAttribute("correct", "true" if is_correct else "false")
-        self._set_text(choice, text)
-        parent.appendChild(choice)
-
-    def _set_text(self, node, new_text):
-        text_node = self.doc.createTextNode(new_text)
-        node.appendChild(text_node)
-
-    def _create_multiple_choice_problem(self, problem_data):
-        """
-        Creates XML node of problem.
-        """
-
-        problem = self.doc.createElement("problem")
-        problem_content = self.doc.createElement("multiplechoiceresponse")
-
-        problem_description = self._create_problem_description(problem_data["problem_description"])
-
-        choice_group = self.doc.createElement("choicegroup")
-        choice_group.setAttribute("type", "MultipleChoice")
-
-        for choice_data in problem_data["choices"].values():
-            self._add_choice(choice_group, choice_data["correct"], choice_data["text"])
-
-        problem_content.appendChild(problem_description)
-        problem_content.appendChild(choice_group)
-        problem.appendChild(problem_content)
-
-        return problem
-
-    def _create_multiple_response_problem(self, problem_data):
-        """
-        Create XML node for multiple response problem. Sets partial_credit to EDC by default.
-        """
-
-        el = element_builder(self.doc)
-
-        problem_description = self._create_problem_description(problem_data["problem_description"])
-
-        # fmt: off
-        problem = el('problem', [
-            el('choiceresponse', [
-
-                problem_description,
-
-                el('checkboxgroup', [
-                    el('choice',
-                        choice['text'],
-                        {'correct': 'true' if choice['correct'] else 'false'}
-                       )
-                    for choice in problem_data['choices'].values()
-                ], {'type': 'MultipleChoice'})
-
-            ], {'partial_credit': 'EDC'})
-        ])
-        # fmt: on
-        return problem
-
-    def _create_fib_problem(self, problem_data):
-        """
-        Creates XML node of fill in the blank problems
-        """
-
-        # Track maximum answer length for textline at the bottom
-        max_answer_length = 0
-
-        problem = self.doc.createElement("problem")
-
-        # Set the primary answer on the stringresponse
-        # and set the type to case insensitive
-        problem_content = self.doc.createElement("stringresponse")
-        problem_content.setAttribute("answer", problem_data["answer"])
-        problem_content.setAttribute("type", self._build_fib_problem_type(problem_data))
-
-        if len(problem_data["answer"]) > max_answer_length:
-            max_answer_length = len(problem_data["answer"])
-
-        problem_description = self._create_problem_description(problem_data["problem_description"])
-        problem_content.appendChild(problem_description)
-
-        # For any (optional) additional accepted answers, add an
-        # additional_answer element with that answer
-        for answer in problem_data.get("additional_answers", []):
-            additional_answer = self.doc.createElement("additional_answer")
-            additional_answer.setAttribute("answer", answer)
-            problem_content.appendChild(additional_answer)
-
-            if len(answer) > max_answer_length:
-                max_answer_length = len(answer)
-
-        # Add a textline element with the max answer length plus a buffer
-        textline = self.doc.createElement("textline")
-        textline.setAttribute("size", str(max_answer_length + self.FIB_PROBLEM_TEXTLINE_SIZE_BUFFER))
-        problem_content.appendChild(textline)
-
-        problem.appendChild(problem_content)
-
-        return problem
-
-    @staticmethod
-    def _build_fib_problem_type(problem_data):
-        """
-        Build `stringresponse` OLX type for a fill in the blank problem.
-        """
-        problem_types = ["ci"]
-
-        if problem_data["is_regexp"]:
-            problem_types.append("regexp")
-
-        return " ".join(problem_types)
-
-    def _create_essay_problem(self, problem_data):
-        """
-        Given parsed essay problem data, returns a openassessment component. If a sample
-        solution provided, returns that as a HTML block before openassessment.
-        """
-
-        description = problem_data["problem_description"]
-
-        el = element_builder(self.doc)
-
-        if any(key in RESPROCESSING_TYPES for key in problem_data.keys()):
-            resp_samples = [
-                el("name", "Feedback"),
-                el("label", "Feedback"),
-                el("prompt", "Example Feedback"),
-            ]
-
-            for desc, key in zip(["General", "Correct", "Incorrect"], RESPROCESSING_TYPES):
-                resp_samples.append(
-                    el(
-                        "option",
-                        [el("name", desc), el("label", desc), el("explanation", problem_data.get(key, desc))],
-                        {"points": "0"},
-                    )
-                )
-            criterion = el("criterion", resp_samples, {"feedback": "optional"})
-        else:
-            criterion = el(
-                "criterion",
-                [
-                    el("name", "Ideas"),
-                    el("label", "Ideas"),
-                    el("prompt", "Example criterion"),
-                    el(
-                        "option",
-                        [el("name", "Poor"), el("label", "Poor"), el("explanation", "Explanation")],
-                        {"points": "0"},
-                    ),
-                    el(
-                        "option",
-                        [el("name", "Good"), el("label", "Good"), el("explanation", "Explanation")],
-                        {"points": "1"},
-                    ),
-                ],
-                {"feedback": "optional"},
-            )
-
-        # fmt: off
-        ora = el(
-            'openassessment',
-            [
-                el('title', 'Open Response Assessment'),
-                el('assessments', [
-                    el(
-                        'assessment',
-                        None,
-                        attributes={'name': 'staff-assessment', 'required': 'True'}
-                    )
-                ]),
-                el('prompts', [
-                    el('prompt', [
-                        el('description', description)
-                    ])
-                ]),
-                el('rubric', [
-                    criterion,
-                    el('feedbackprompt', 'Feedback prompt text'),
-                    el('feedback_default_text', 'Feedback prompt default text'),
-                ])
-            ],
-            {
-                'url_name': problem_data['ident'],
-                'text_response': 'required',
-                'prompts_type': 'html'
-            }
-        )
-        # fmt: on
-
-        # if a sample solution exists add on top of ora, because
-        # olx doesn't have a sample solution equivalent.
-        if problem_data.get("sample_solution"):
-            child = el("html", self.doc.createCDATASection(problem_data["sample_solution"]))
-            return child, ora
-
-        return ora
-
-    def _create_pattern_match_problem(self, problem_data):
-        raise NotImplementedError
-
-
-class QtiParser:
-    """
-    Used to parse Qti xml resource.
-    """
-
-    # Xml namespaces
-    NS = {"qti": "http://www.imsglobal.org/xsd/ims_qtiasiv1p2"}
-
-    def __init__(self, resource_filename):
-        self.resource_filename = resource_filename
-
-    def parse_qti(self):
-        """
-        Parses resource of ``imsqti_xmlv1p2/imscc_xmlv1p1/assessment`` type.
-        """
-
-        tree = filesystem.get_xml_tree(self.resource_filename)
-        root = tree.getroot()
-
-        # qti xml can contain multiple problems represented by <item/> elements
-        problems = root.findall(".//qti:section/qti:item", self.NS)
-
-        parsed_problems = []
-
-        for i, problem in enumerate(problems):
-            data = {}
-
-            attributes = problem.attrib
-
-            # We're adding unique string to identifier here to handle cases,
-            # when we're getting malformed course (due to a weird Canvas behaviour)
-            # with equal identifiers. LMS doesn't support blocks with the same identifiers.
-            data["ident"] = attributes["ident"] + str(i)
-            if title := attributes.get("title"):
-                data["title"] = title
-
-            cc_profile = self._parse_problem_profile(problem)
-            data["cc_profile"] = cc_profile
-
-            parse_problem = self._problem_parsers_map.get(cc_profile)
-
-            if parse_problem is None:
-                raise QtiError(f'Unknown cc_profile: "{cc_profile}"')
-
-            try:
-                data.update(parse_problem(problem))
-                parsed_problems.append(data)
-            except NotImplementedError:
-                logger.info("Problem with ID %s can't be converted.", problem.attrib.get("ident"))
-                logger.info("    Profile %s is not supported.", cc_profile)
-                logger.info("    At file %s.", self.resource_filename)
-
-        return parsed_problems
-
-    def _parse_problem_profile(self, problem):
-        """
-        Returns ``cc_profile`` value from problem metadata. This field is mandatory for problem,
-        so we throw exception if it's not present.
-
-        Example of metadata structure:
-        ```
-        <itemmetadata>
-          <qtimetadata>
-            <qtimetadatafield>
-              <fieldlabel>cc_profile</fieldlabel>
-              <fieldentry>cc.true_false.v0p1</fieldentry>
-            </qtimetadatafield>
-          </qtimetadata>
-        </itemmetadata>
-        ```
-        """
-
-        metadata = problem.findall("qti:itemmetadata/qti:qtimetadata/qti:qtimetadatafield", self.NS)
-
-        for field in metadata:
-            label = field.find("qti:fieldlabel", self.NS).text
-            entry = field.find("qti:fieldentry", self.NS).text
-
-            if label == "cc_profile":
-                return entry
-
-        raise ValueError('Problem metadata must contain "cc_profile" field.')
-
-    @property
-    def _problem_parsers_map(self):
-        """
-        Returns: mapping between Common Cartridge profile value and function
-            that parses actual problem node.
-
-        Note: Since True/False problems in QTI are constructed identically to
-            QTI Multiple Choice problems, we reuse `_parse_multiple_choice_problem`
-            for BOOLEAN type problems
-        """
-        return {
-            MULTIPLE_CHOICE: self._parse_multiple_choice_problem,
-            MULTIPLE_RESPONSE: self._parse_multiple_response_problem,
-            FILL_IN_THE_BLANK: self._parse_fib_problem,
-            ESSAY: self._parse_essay_problem,
-            BOOLEAN: self._parse_multiple_choice_problem,
-            PATTERN_MATCH: self._parse_pattern_match_problem,
-        }
-
-    def _parse_fixed_answer_question_responses(self, presentation):
-        """
-        Returns dictionary where keys are response identifiers and values are
-        response data.
-
-        Example of ``<response_lid/>`` structure for the following profiles:
-            - ``cc.multiple_choice.v0p1``
-            - ``cc.multiple_response.v0p1``
-            - ``cc.true_false.v0p1``
-        ```
-        <response_lid ident="response1" rcardinality="Single">
-          <render_choice>
-            <response_label ident="8157">
-              <material>
-                <mattext texttype="text/plain">Response 1</mattext>
-              </material>
-            </response_label>
-            <response_label ident="4226">
-              <material>
-                <mattext texttype="text/plain">Response 2</mattext>
-              </material>
-            </response_label>
-          </render_choice>
-        </response_lid>
-        ```
-        """
-        responses = OrderedDict()
-
-        for response in presentation.findall("qti:response_lid/qti:render_choice/qti:response_label", self.NS):
-            response_id = response.attrib["ident"]
-            responses[response_id] = {
-                "text": response.find("qti:material/qti:mattext", self.NS).text or "",
-                "correct": False,
-            }
-
-        return responses
-
-    def _mark_correct_responses(self, resprocessing, responses):
-        """
-        Example of ``<resprocessing/>`` structure for the following profiles:
-            - ``cc.multiple_choice.v0p1``
-            - ``cc.true_false.v0p1``
-        ```
-        <resprocessing>
-          <outcomes>
-            <decvar maxvalue="100" minvalue="0" varname="SCORE" vartype="Decimal"/>
-          </outcomes>
-          <respcondition continue="Yes">
-            <conditionvar>
-              <varequal respident="response1">8157</varequal>
-            </conditionvar>
-            <displayfeedback feedbacktype="Response" linkrefid="8157_fb"/>
-          </respcondition>
-          <respcondition continue="Yes">
-            <conditionvar>
-              <varequal respident="response1">5534</varequal>
-            </conditionvar>
-            <displayfeedback feedbacktype="Response" linkrefid="5534_fb"/>
-          </respcondition>
-          <respcondition continue="No">
-            <conditionvar>
-              <varequal respident="response1">4226</varequal>
-            </conditionvar>
-            <setvar action="Set" varname="SCORE">100</setvar>
-            <displayfeedback feedbacktype="Response" linkrefid="correct_fb"/>
-          </respcondition>
-        </resprocessing>
-        ```
-
-        This XML is a sort of instruction about how responses should be evaluated. In this
-        particular example we have three correct answers with ids: 8157, 5534, 4226.
-
-        Example of ``<resprocessing/>`` structure for ``cc.multiple_response.v0p1``:
-        ```
-        <resprocessing>
-          <outcomes>
-            <decvar maxvalue="100" minvalue="0" varname="SCORE" vartype="Decimal"/>
-          </outcomes>
-          <respcondition continue="No">
-            <conditionvar>
-              <and>
-                <varequal respident="response1">1759</varequal>
-                <not>
-                  <varequal respident="response1">5954</varequal>
-                </not>
-                <varequal respident="response1">8170</varequal>
-                <varequal respident="response1">9303</varequal>
-                <not>
-                  <varequal respident="response1">15</varequal>
-                </not>
-              </and>
-            </conditionvar>
-          </respcondition>
-        </resprocessing>
-        ```
-        Above example is for a multiple response type problem. In this example 1759, 8170 and
-        9303 are correct answers while 15 and 5954 are not. Note that this code also support
-        ``or`` opearator too.
-
-        For now, we just consider these responses correct in OLX, but according specification,
-        conditions can be arbitrarily nested, and score can be computed by some formula, so to
-        implement 100% conversion we need to write new XBlock.
-        """
-
-        for respcondition in resprocessing.findall("qti:respcondition", self.NS):
-            correct_answers = respcondition.findall("qti:conditionvar/qti:varequal", self.NS)
-
-            if len(correct_answers) == 0:
-                correct_answers = respcondition.findall("qti:conditionvar/qti:and/qti:varequal", self.NS)
-                correct_answers += respcondition.findall("qti:conditionvar/qti:or/qti:varequal", self.NS)
-
-            for ans in correct_answers:
-                responses[ans.text]["correct"] = True
-
-            if respcondition.attrib.get("continue", "No") == "No":
-                break
-
-    def _parse_multiple_choice_problem(self, problem):
-        """
-        Returns ``problem_description``, ``choices`` and marks the correct answer
-        """
-        data = {}
-
-        presentation = problem.find("qti:presentation", self.NS)
-        resprocessing = problem.find("qti:resprocessing", self.NS)
-
-        data["problem_description"] = presentation.find("qti:material/qti:mattext", self.NS).text
-
-        data["choices"] = self._parse_fixed_answer_question_responses(presentation)
-        self._mark_correct_responses(resprocessing, data["choices"])
-
-        return data
-
-    def _parse_multiple_response_problem(self, problem):
-        """
-        Returns ``problem_description``, ``choices`` and marks all the correct answers.
-        """
-        return self._parse_multiple_choice_problem(problem)
-
-    def _parse_fib_problem(self, problem):
-        """
-        Returns ``problem_description``, ``answer``, and ``additional_answers``
-        """
-        data = {}
-
-        presentation = problem.find("qti:presentation", self.NS)
-        resprocessing = problem.find("qti:resprocessing", self.NS)
-
-        data["problem_description"] = presentation.find("qti:material/qti:mattext", self.NS).text
-
-        answers = []
-        patterns = []
-        for respcondition in resprocessing.findall("qti:respcondition", self.NS):
-            for varequal in respcondition.findall("qti:conditionvar/qti:varequal", self.NS):
-                answers.append(varequal.text)
-
-            for varsubstring in respcondition.findall("qti:conditionvar/qti:varsubstring", self.NS):
-                patterns.append(varsubstring.text)
-
-            if respcondition.attrib.get("continue", "No") == "No":
-                break
-
-        data["is_regexp"] = bool(patterns)
-        if data["is_regexp"]:
-            data["answer"] = patterns.pop(0)
-            answers = [re.escape(answer) for answer in answers]
-            data["additional_answers"] = [*patterns, *answers]
-        else:
-            # Primary answer is the first one, additional answers are what is left
-            data["answer"] = answers.pop(0)
-            data["additional_answers"] = answers
-
-        return data
-
-    def _parse_essay_problem(self, problem):
-        """
-        Parses `cc.essay.v0p1` problem type and returns dictionary with
-        presentation & sample solution if exists.
-        """
-
-        data = {}
-        presentation = problem.find("qti:presentation", self.NS)
-        itemfeedback = problem.find("qti:itemfeedback", self.NS)
-        solution = problem.find("qti:itemfeedback/qti:solution", self.NS)
-
-        data["problem_description"] = presentation.find("qti:material/qti:mattext", self.NS).text
-
-        if solution is not None:
-            sample_solution_selector = "qti:solutionmaterial//qti:material//qti:mattext"
-            data["sample_solution"] = solution.find(sample_solution_selector, self.NS).text
-
-        if itemfeedback is not None:
-            for resp_type in RESPROCESSING_TYPES:
-                response_text = self._essay_response_processing(problem, resp_type)
-                if response_text:
-                    data[resp_type] = response_text
-        return data
-
-    def _essay_response_processing(self, problem, resp_type):
-        respconditions = problem.find("qti:resprocessing/qti:respcondition", self.NS)
-        if respconditions.find(f"qti:displayfeedback[@linkrefid='{resp_type}']", self.NS) is not None:
-            text_selector = f"qti:itemfeedback[@ident='{resp_type}']/qti:flow_mat/qti:material/qti:mattext"
-            return problem.find(text_selector, self.NS).text
-
-    def _parse_pattern_match_problem(self, problem):
-        raise NotImplementedError
diff --git a/src/cc2olx/settings.py b/src/cc2olx/settings.py
index 5055a01c..f1225c56 100644
--- a/src/cc2olx/settings.py
+++ b/src/cc2olx/settings.py
@@ -1,52 +1,17 @@
 from pathlib import Path
 
-COMMON_CARTRIDGE_FILE_EXTENSION = ".imscc"
+BASE_DIR = Path(__file__).resolve().parent
+TEMPLATES_DIR = BASE_DIR / "templates"
 
+LOG_FORMAT = "{%(filename)s:%(lineno)d} - %(message)s"
 
-def _is_cartridge_file(path):
-    return path.is_file() and path.suffix == COMMON_CARTRIDGE_FILE_EXTENSION
+CONTENT_PROCESSORS = [
+    "cc2olx.content_processors.VideoContentProcessor",
+    "cc2olx.content_processors.LtiContentProcessor",
+    "cc2olx.content_processors.QtiContentProcessor",
+    "cc2olx.content_processors.DiscussionContentProcessor",
+    "cc2olx.content_processors.HtmlContentProcessor",
+]
 
-
-def _get_files(parsed_args):
-    """
-    Collects all Common Cartridge files from list of files and directories.
-    """
-
-    files = set()
-
-    for path in parsed_args.inputs:
-        if not path.exists():
-            raise FileNotFoundError
-
-        if _is_cartridge_file(path):
-            files.add(path)
-
-        if path.is_dir():
-            for input_file in path.iterdir():
-                if _is_cartridge_file(input_file):
-                    files.add(input_file)
-
-    return files
-
-
-def collect_settings(parsed_args):
-    """
-    Collects settings dictionary from argparse arguments.
-    """
-
-    input_files = _get_files(parsed_args)
-    log_level = parsed_args.loglevel
-    logging_config = {
-        "level": log_level,
-        "format": "{%(filename)s:%(lineno)d} - %(message)s",
-    }
-    settings = {
-        "input_files": input_files,
-        "output_format": parsed_args.result,
-        "logging_config": logging_config,
-        "workspace": Path.cwd() / parsed_args.output,
-        "link_file": parsed_args.link_file,
-        "passport_file": parsed_args.passport_file,
-        "relative_links_source": parsed_args.relative_links_source,
-    }
-    return settings
+USE_I18N = False
+USE_TZ = False

From 253b223fcbd35a483cef5c5d229ef91d68b39af1 Mon Sep 17 00:00:00 2001
From: Myhailo Chernyshov <mykhailo.chernyshov@raccoongang.com>
Date: Wed, 15 Jan 2025 12:29:04 +0200
Subject: [PATCH 4/7] test: [FC-0063] Content processors are tested

---
 pytest.ini                                    |   2 +-
 tests/conftest.py                             |  46 ++---
 .../imscc_file/web_link_content.xml           |   2 +-
 .../studio_course_xml/course.xml              |  26 ++-
 tests/test_content_parsers/__init__.py        |   0
 tests/test_content_parsers/test_html.py       | 191 ++++++++++++++++++
 tests/test_content_parsers/test_lti.py        |  18 ++
 tests/test_content_parsers/test_qti.py        |  42 ++++
 tests/test_content_parsers/test_video.py      |  24 +++
 tests/test_main.py                            |  27 ++-
 tests/test_models.py                          |  95 +--------
 tests/test_olx.py                             | 185 +----------------
 tests/test_olx_generators/__init__.py         |   0
 tests/test_olx_generators/test_discussion.py  |  44 ++++
 tests/test_olx_generators/test_html.py        |  65 ++++++
 tests/test_olx_generators/test_qti.py         |  17 ++
 tests/test_olx_generators/test_video.py       |  14 ++
 tests/{test_settings.py => test_options.py}   |  13 +-
 18 files changed, 488 insertions(+), 323 deletions(-)
 create mode 100644 tests/test_content_parsers/__init__.py
 create mode 100644 tests/test_content_parsers/test_html.py
 create mode 100644 tests/test_content_parsers/test_lti.py
 create mode 100644 tests/test_content_parsers/test_qti.py
 create mode 100644 tests/test_content_parsers/test_video.py
 create mode 100644 tests/test_olx_generators/__init__.py
 create mode 100644 tests/test_olx_generators/test_discussion.py
 create mode 100644 tests/test_olx_generators/test_html.py
 create mode 100644 tests/test_olx_generators/test_qti.py
 create mode 100644 tests/test_olx_generators/test_video.py
 rename tests/{test_settings.py => test_options.py} (53%)

diff --git a/pytest.ini b/pytest.ini
index 11c3a49d..179a37a5 100644
--- a/pytest.ini
+++ b/pytest.ini
@@ -1,3 +1,3 @@
 [pytest]
 usefixtures = chdir_to_workspace
-DJANGO_SETTINGS_MODULE = cc2olx.django_settings
+DJANGO_SETTINGS_MODULE = cc2olx.settings
diff --git a/tests/conftest.py b/tests/conftest.py
index 31b10605..d6a14a77 100644
--- a/tests/conftest.py
+++ b/tests/conftest.py
@@ -4,7 +4,6 @@
 import shutil
 import zipfile
 
-import xml.dom.minidom
 from pathlib import Path
 from tempfile import NamedTemporaryFile
 from xml.dom.minidom import parse
@@ -13,8 +12,7 @@
 
 from cc2olx.cli import parse_args
 from cc2olx.models import Cartridge
-from cc2olx.olx import OlxExport
-from cc2olx.settings import collect_settings
+from cc2olx.parser import parse_options
 
 
 @pytest.fixture(scope="session")
@@ -78,30 +76,38 @@ def studio_course_xml(fixtures_data_dir):
     return parse(course_xml_filename).toprettyxml()
 
 
+@pytest.fixture(scope="session")
+def relative_links_source() -> str:
+    """
+    Provide a relative links source.
+    """
+    return "https://relative.source.domain"
+
+
 @pytest.fixture
-def settings(imscc_file, link_map_csv):
+def options(imscc_file, link_map_csv, relative_links_source):
     """
-    Basic settings fixture.
+    Basic options fixture.
     """
 
-    parsed_args = parse_args(["-i", str(imscc_file), "-f", str(link_map_csv)])
+    args = parse_args(["-i", str(imscc_file), "-f", str(link_map_csv), "-s", relative_links_source])
 
-    _settings = collect_settings(parsed_args)
+    options = parse_options(args)
 
-    yield _settings
+    yield options
 
-    shutil.rmtree(_settings["workspace"], ignore_errors=True)
+    shutil.rmtree(options["workspace"], ignore_errors=True)
 
 
 @pytest.fixture
-def cartridge(imscc_file, settings):
-    cartridge = Cartridge(imscc_file, settings["workspace"])
+def cartridge(imscc_file, options):
+    cartridge = Cartridge(imscc_file, options["workspace"])
     cartridge.load_manifest_extracted()
     cartridge.normalize()
 
     yield cartridge
 
-    shutil.rmtree(str(settings["workspace"] / imscc_file.stem))
+    shutil.rmtree(str(options["workspace"] / imscc_file.stem))
 
 
 @pytest.fixture(scope="session")
@@ -289,19 +295,3 @@ def expected_cleaned_cdata_containing_html(fixtures_data_dir: Path) -> str:
     """
     html_without_cdata_path = fixtures_data_dir / "html_files/cleaned-cdata-containing-html.html"
     return html_without_cdata_path.read_text()
-
-
-@pytest.fixture
-def bare_olx_exporter(cartridge: Cartridge) -> OlxExport:
-    """
-    Provides bare OLX exporter.
-
-    Args:
-        cartridge (Cartridge): Cartridge class instance.
-
-    Returns:
-        OlxExport: OlxExport instance.
-    """
-    olx_exporter = OlxExport(cartridge)
-    olx_exporter.doc = xml.dom.minidom.Document()
-    return olx_exporter
diff --git a/tests/fixtures_data/imscc_file/web_link_content.xml b/tests/fixtures_data/imscc_file/web_link_content.xml
index 7d6b1880..d7a1ef83 100644
--- a/tests/fixtures_data/imscc_file/web_link_content.xml
+++ b/tests/fixtures_data/imscc_file/web_link_content.xml
@@ -1,5 +1,5 @@
 <?xml version="1.0" encoding="UTF-8"?>
 <webLink xmlns="http://www.imsglobal.org/xsd/imsccv1p3/imswl_v1p3" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.imsglobal.org/xsd/imsccv1p3/imswl_v1p3 http://www.imsglobal.org/profile/cc/ccv1p3/ccv1p3_imswl_v1p3.xsd">
     <title>Web Link Content</title>
-    <url href="http://web-link"/>
+    <url href="/web-link"/>
 </webLink>
diff --git a/tests/fixtures_data/studio_course_xml/course.xml b/tests/fixtures_data/studio_course_xml/course.xml
index f494f616..f0162820 100644
--- a/tests/fixtures_data/studio_course_xml/course.xml
+++ b/tests/fixtures_data/studio_course_xml/course.xml
@@ -152,7 +152,17 @@
 				<discussion display_name="Discussion" discussion_category="Discussion Topic" discussion_target="Discussion Topic" url_name="discussion_topic"/>
 			</vertical>
 			<vertical display_name="Image File Webcontent" url_name="xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx">
-				<html display_name="Image File Webcontent" url_name="resource_5_image_file"><![CDATA[<html><head><meta http-equiv="Content-Type" content="text/html; charset=utf-8"/></head><body><p><img src="/static/elearning.png" alt="elearning.png"></p></body></html>]]></html>
+				<html display_name="Image File Webcontent" url_name="resource_5_image_file"><![CDATA[<html>
+    <head>
+        <meta http-equiv="Content-Type" content="text/html; charset=utf-8"/>
+    </head>
+    <body>
+        <p>
+            <img src="/static/elearning.png" alt="elearning.png">
+        </p>
+    </body>
+</html>
+]]></html>
 			</vertical>
 			<vertical display_name="Wiki Content" url_name="xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx">
 				<html display_name="Wiki Content" url_name="resource_6_wiki_content"><![CDATA[<html>
@@ -227,10 +237,20 @@
 				<video edx_video_id="42d2a5e2-bced-45d6-b8dc-2f5901c9fdd0" display_name="Video With Other Content" url_name="resource_9_video"/>
 			</vertical>
 			<vertical display_name="PDF Outside of Web Resources" url_name="xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx">
-				<html display_name="PDF Outside of Web Resources" url_name="pdf_dependency"><![CDATA[<html><head><meta http-equiv="Content-Type" content="text/html; charset=utf-8"/></head><body><p><a href="/static/extra_files/example.pdf" alt="extra_files/example.pdf">extra_files/example.pdf<a></p></body></html>]]></html>
+				<html display_name="PDF Outside of Web Resources" url_name="pdf_dependency"><![CDATA[<html>
+    <head>
+        <meta http-equiv="Content-Type" content="text/html; charset=utf-8"/>
+    </head>
+    <body>
+        <p>
+            <a href="/static/extra_files/example.pdf" alt="extra_files/example.pdf">extra_files/example.pdf<a>
+        </p>
+    </body>
+</html>
+]]></html>
 			</vertical>
 			<vertical display_name="Web Link Content" url_name="xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx">
-				<html display_name="Web Link Content" url_name="resource_8_web_link_content"><![CDATA[<a href='http://web-link'>Web Link Content</a>]]></html>
+				<html display_name="Web Link Content" url_name="resource_8_web_link_content"><![CDATA[<a href="https://relative.source.domain/web-link">Web Link Content</a>]]></html>
 			</vertical>
 		</sequential>
 	</chapter>
diff --git a/tests/test_content_parsers/__init__.py b/tests/test_content_parsers/__init__.py
new file mode 100644
index 00000000..e69de29b
diff --git a/tests/test_content_parsers/test_html.py b/tests/test_content_parsers/test_html.py
new file mode 100644
index 00000000..bfbc51c1
--- /dev/null
+++ b/tests/test_content_parsers/test_html.py
@@ -0,0 +1,191 @@
+from pathlib import Path
+from unittest.mock import MagicMock, Mock, patch
+
+import pytest
+
+from cc2olx.content_parsers import HtmlContentParser
+
+
+class TestHtmlContentParser:
+    def test_parse_content_returns_default_content_if_there_is_no_resource_identifier(self):
+        parser = HtmlContentParser(Mock(), Mock())
+        expected_content = {"html": "<p>MISSING CONTENT</p>"}
+
+        actual_content = parser._parse_content(None)
+
+        assert actual_content == expected_content
+
+    def test_parse_content_returns_default_content_if_the_resource_is_missed_in_cartridge(self):
+        cartridge_mock = Mock(define_resource=Mock(return_value=None))
+        parser = HtmlContentParser(cartridge_mock, Mock())
+        expected_content = {"html": "<p>MISSING CONTENT</p>"}
+
+        actual_content = parser._parse_content(Mock())
+
+        assert actual_content == expected_content
+
+    @patch("cc2olx.content_parsers.html.logger")
+    def test_parse_content_logs_missing_resource(self, logger_mock):
+        cartridge_mock = Mock(define_resource=Mock(return_value=None))
+        parser = HtmlContentParser(cartridge_mock, Mock())
+        idref_mock = Mock()
+
+        parser._parse_content(idref_mock)
+
+        logger_mock.info.assert_called_once_with("Missing resource: %s", idref_mock)
+
+    @patch("cc2olx.content_parsers.html.HtmlContentParser._parse_web_link_content", Mock(return_value=None))
+    @patch("cc2olx.content_parsers.html.HtmlContentParser.is_known_unprocessed_resource_type", Mock(return_value=True))
+    def test_parse_content_returns_default_content_for_known_unprocessed_resource_types(self):
+        parser = HtmlContentParser(MagicMock(), Mock())
+        expected_content = {"html": "<p>MISSING CONTENT</p>"}
+
+        actual_content = parser._parse_content(Mock())
+
+        assert actual_content == expected_content
+
+    @pytest.mark.parametrize(
+        "resource_type",
+        [
+            "imsbasiclti_xmlv1p2",
+            "imsbasiclti_xmlv1p3",
+            "imsqti_xmlv1p3/imscc_xmlv1p1/assessment",
+            "imsqti_xmlv1p3/imscc_xmlv1p3/assessment",
+            "imsdt_xmlv1p2",
+            "imsdt_xmlv1p3",
+        ],
+    )
+    def test_known_unprocessed_resource_types_is_detected(self, resource_type):
+        parser = HtmlContentParser(Mock(), Mock())
+
+        assert parser.is_known_unprocessed_resource_type(resource_type) is True
+
+    @pytest.mark.parametrize("resource_type", ["imsbasicabc_xmlv1p2", "imsexample_xmlv1p3", "not_cc_type", "imsscorm"])
+    def test_not_known_unprocessed_resource_types_is_detected(self, resource_type):
+        parser = HtmlContentParser(Mock(), Mock())
+
+        assert parser.is_known_unprocessed_resource_type(resource_type) is False
+
+    @pytest.mark.parametrize(
+        "resource_type",
+        ["unsupported_resource_type", "chess_game_xmlv1p1", "drag_and_drop_xmlv1p1", "imsab_xmlv1p2"],
+    )
+    @patch("cc2olx.content_parsers.html.HtmlContentParser._parse_web_link_content", Mock(return_value=None))
+    @patch("cc2olx.content_parsers.html.HtmlContentParser._parse_not_imported_content")
+    def test_parse_content_parses_not_imported_content(self, parse_not_imported_content_mock, resource_type):
+        cartridge_mock = Mock(define_resource=Mock(return_value={"type": "imsqti_xmlv1p2"}))
+        parser = HtmlContentParser(cartridge_mock, Mock())
+
+        actual_content = parser._parse_content(Mock())
+
+        assert actual_content == parse_not_imported_content_mock.return_value
+
+    @patch("cc2olx.content_parsers.html.imghdr.what", Mock(return_value=None))
+    def test_parse_webcontent_returns_default_content_for_unknown_webcontent_type_from_web_resources_dir(self):
+        parser = HtmlContentParser(
+            Mock(build_resource_file_path=Mock(return_value=Path("web_resources/unknown/path/to/file.ext"))),
+            Mock(),
+        )
+        expected_content = {"html": "<p>MISSING CONTENT</p>"}
+
+        actual_content = parser._parse_webcontent(Mock(), MagicMock())
+
+        assert actual_content == expected_content
+
+    @patch("cc2olx.content_parsers.html.logger")
+    @patch("cc2olx.content_parsers.html.imghdr.what", Mock(return_value=None))
+    def test_parse_webcontent_logs_skipping_webcontent(self, logger_mock):
+        resource_file_path = Path("web_resources/unknown/path/to/file.ext")
+        parser = HtmlContentParser(Mock(build_resource_file_path=Mock(return_value=resource_file_path)), Mock())
+
+        parser._parse_webcontent(Mock(), MagicMock())
+
+        logger_mock.info.assert_called_once_with("Skipping webcontent: %s", resource_file_path)
+
+    @patch("cc2olx.content_parsers.html.logger")
+    @patch("cc2olx.content_parsers.html.open", Mock(side_effect=FileNotFoundError))
+    def test_webcontent_html_file_reading_failure_is_logged(self, logger_mock):
+        parser = HtmlContentParser(Mock(), Mock())
+        idref_mock = Mock()
+        resource_file_path_mock = Mock()
+
+        with pytest.raises(FileNotFoundError):
+            parser._parse_webcontent_html_file(idref_mock, resource_file_path_mock)
+
+        logger_mock.error.assert_called_once_with("Failure reading %s from id %s", resource_file_path_mock, idref_mock)
+
+    @pytest.mark.parametrize(
+        "resource,message",
+        [
+            (
+                {"type": "some_type_mock", "href": "https://example.com/some/type/link/"},
+                "Not imported content: type = 'some_type_mock', href = 'https://example.com/some/type/link/'",
+            ),
+            ({"type": "some_type_mock"}, "Not imported content: type = 'some_type_mock'"),
+        ],
+    )
+    @patch("cc2olx.content_parsers.html.logger")
+    def test_not_imported_content_parsing_with_href_in_resource(self, logger_mock, resource, message):
+        parser = HtmlContentParser(Mock(), Mock())
+        expected_content = {"html": message}
+
+        actual_content = parser._parse_not_imported_content(resource)
+
+        logger_mock.info.assert_called_once_with("%s", message)
+        assert actual_content == expected_content
+
+    def test_parsing_results(self, cartridge):
+        parser = HtmlContentParser(cartridge, Mock())
+
+        assert parser.parse("resource_1_course") == {
+            "html": "Not imported content: type = 'associatedcontent/imscc_xmlv1p1/learning-application-resource', "
+            "href = 'course_settings/canvas_export.txt'"
+        }
+
+        assert parser.parse("resource_3_vertical") == {
+            "html": '<html>\n<head>\n<meta http-equiv="Content-Type" content="text/html; charset=utf-8"/>\n'
+            "<title>Vertical</title>\n"
+            '<meta name="identifier" content="resource_3_vertical"/>\n'
+            '<meta name="editing_roles" content="teachers"/>\n'
+            '<meta name="workflow_state" content="active"/>\n'
+            "</head>\n<body>\n"
+            '<img src="/static/QuizImages/fractal.jpg" alt="fractal.jpg"'
+            ' width="500" height="375" />\n'
+            "<p>Fractal Image <a "
+            'href="/static/QuizImages/fractal.jpg?canvas_download=1" '
+            'target="_blank">Fractal Image</a></p>\n'
+            "</body>\n</html>\n"
+        }
+
+        assert parser.parse("resource_6_wiki_content") == {
+            "html": '<html>\n<head>\n<meta http-equiv="Content-Type" content="text/html; charset=utf-8"/>\n'
+            "<title>Vertical</title>\n"
+            '<meta name="identifier" content="resource_6_wiki_content"/>\n'
+            '<meta name="editing_roles" content="teachers"/>\n'
+            '<meta name="workflow_state" content="active"/>\n'
+            "</head>\n<body>\n"
+            '<p>Lorem ipsum...</p>\n<a href="/jump_to_id/resource_6_wiki_content">Wiki Content</a>'
+            "\n</body>\n</html>\n"
+        }
+
+        assert parser.parse("resource_7_canvas_content") == {
+            "html": '<html>\n<head>\n<meta http-equiv="Content-Type" content="text/html; charset=utf-8"/>\n'
+            "<title>Vertical</title>\n"
+            '<meta name="identifier" content="resource_7_canvas_content"/>\n'
+            '<meta name="editing_roles" content="teachers"/>\n'
+            '<meta name="workflow_state" content="active"/>\n'
+            "</head>\n<body>\n"
+            '<p>Lorem ipsum...</p>\n<a href="/jump_to_id/abc">Canvas Content</a>'
+            "\n</body>\n</html>\n"
+        }
+
+        assert parser.parse("resource_module-|-introduction") == {
+            "html": '<html>\n<head>\n<meta http-equiv="Content-Type" content="text/html; charset=utf-8"/>\n'
+            "<title>Vertical</title>\n"
+            '<meta name="identifier" content="resource_module-|-introduction"/>\n'
+            '<meta name="editing_roles" content="teachers"/>\n'
+            '<meta name="workflow_state" content="active"/>\n'
+            "</head>\n<body>\n"
+            '<p>Lorem ipsum...</p>\n<a href="/jump_to_id/resource_6_wiki_content">Wiki Content</a>'
+            "\n</body>\n</html>\n"
+        }
diff --git a/tests/test_content_parsers/test_lti.py b/tests/test_content_parsers/test_lti.py
new file mode 100644
index 00000000..fc55841e
--- /dev/null
+++ b/tests/test_content_parsers/test_lti.py
@@ -0,0 +1,18 @@
+from unittest.mock import Mock
+
+from cc2olx.content_parsers import LtiContentParser
+
+
+class TestLtiContentParser:
+    def test_parsing_results(self, cartridge):
+        parser = LtiContentParser(cartridge, Mock())
+
+        assert parser.parse("resource_2_lti") == {
+            "title": "Learning Tools Interoperability",
+            "description": "https://www.imsglobal.org/activity/learning-tools-interoperability",
+            "launch_url": "https://lti.local/launch",
+            "height": "500",
+            "width": "500",
+            "custom_parameters": {},
+            "lti_id": "learning_tools_interoperability",
+        }
diff --git a/tests/test_content_parsers/test_qti.py b/tests/test_content_parsers/test_qti.py
new file mode 100644
index 00000000..d27e33c7
--- /dev/null
+++ b/tests/test_content_parsers/test_qti.py
@@ -0,0 +1,42 @@
+from unittest.mock import MagicMock, Mock, PropertyMock, call, patch
+
+import pytest
+
+from cc2olx.content_parsers import QtiContentParser
+from cc2olx.exceptions import QtiError
+
+
+class TestQtiContentParser:
+    @pytest.mark.parametrize("cc_profile", ["unknown_profile", "cc.chess.v0p1", "cc.drag_and_drop.v0p1", "123"])
+    def test_parse_problem_raises_qti_error_if_cc_profile_is_unknown(self, cc_profile):
+        parser = QtiContentParser(Mock(), Mock())
+        problem_mock = MagicMock(profile=cc_profile)
+
+        with pytest.raises(QtiError) as exc_info:
+            parser._parse_problem(problem_mock, Mock(), Mock())
+
+        assert str(exc_info.value) == f'Unknown cc_profile: "{cc_profile}"'
+
+    @patch("cc2olx.content_parsers.qti.logger")
+    def test_parse_problem_logs_inability_to_process_problem(self, logger_mock):
+        parser = QtiContentParser(Mock(), Mock())
+        ident_mock = MagicMock()
+        resource_file_path_mock = Mock()
+        cc_profile_mock = Mock()
+        problem_mock = Mock(profile=cc_profile_mock, attrib={"ident": ident_mock})
+        expected_logger_info_call_args_list = [
+            call("Problem with ID %s can't be converted.", ident_mock),
+            call("    Profile %s is not supported.", cc_profile_mock),
+            call("    At file %s.", resource_file_path_mock),
+        ]
+
+        with patch(
+            "cc2olx.content_parsers.qti.QtiContentParser._problem_parsers_map",
+            new_callable=PropertyMock,
+        ) as problem_parsers_map_mock:
+            problem_parsers_map_mock.return_value = {cc_profile_mock: Mock(side_effect=NotImplementedError)}
+
+            parser._parse_problem(problem_mock, Mock(), resource_file_path_mock)
+
+        assert logger_mock.info.call_count == 3
+        assert logger_mock.info.call_args_list == expected_logger_info_call_args_list
diff --git a/tests/test_content_parsers/test_video.py b/tests/test_content_parsers/test_video.py
new file mode 100644
index 00000000..f77d8b30
--- /dev/null
+++ b/tests/test_content_parsers/test_video.py
@@ -0,0 +1,24 @@
+from unittest.mock import Mock, patch
+
+from cc2olx.content_parsers import VideoContentParser
+
+
+class TestVideoContentParser:
+    def test_parse_content_returns_none_if_there_is_no_resource_identifier(self):
+        parser = VideoContentParser(Mock(), Mock())
+
+        actual_content = parser._parse_content(None)
+
+        assert actual_content is None
+
+    @patch(
+        "cc2olx.content_parsers.video.VideoContentParser._parse_web_link_content",
+        Mock(return_value={"href": "youtube.com/watch?v=ABCDeF12345"}),
+    )
+    def test_parse_content_parses_youtube_link(self):
+        parser = VideoContentParser(Mock(), Mock())
+        expected_content = {"youtube": "ABCDeF12345"}
+
+        actual_content = parser._parse_content(Mock())
+
+        assert actual_content == expected_content
diff --git a/tests/test_main.py b/tests/test_main.py
index 69d88842..f1066a23 100644
--- a/tests/test_main.py
+++ b/tests/test_main.py
@@ -5,14 +5,19 @@
 from .utils import format_xml
 
 
-def test_convert_one_file(settings, imscc_file, studio_course_xml):
+def test_convert_one_file(options, imscc_file, studio_course_xml):
     """
     Tests, that ``convert_one_file`` call for ``imscc`` file results in
     tar.gz archive with olx course.
     """
     expected_tgz_members_num = 7
 
-    convert_one_file(imscc_file, settings["workspace"], settings["link_file"])
+    convert_one_file(
+        imscc_file,
+        options["workspace"],
+        options["link_file"],
+        relative_links_source=options["relative_links_source"],
+    )
 
     tgz_path = str((imscc_file.parent / "output" / imscc_file.stem).with_suffix(".tar.gz"))
 
@@ -28,36 +33,36 @@ def test_convert_one_file(settings, imscc_file, studio_course_xml):
                 break
 
 
-def test_main(mocker, imscc_file, settings):
+def test_main(mocker, imscc_file, options):
     """
     Tests, that invocation of main function results in converted ``.imscc`` file.
     """
 
     mocker.patch("cc2olx.main.parse_args")
-    mocker.patch("cc2olx.main.collect_settings", return_value=settings)
+    mocker.patch("cc2olx.main.parse_options", return_value=options)
 
     main()
 
     # workspace has been created
-    assert settings["workspace"].exists()
+    assert options["workspace"].exists()
 
     # content of imscc has been extracted
-    assert (settings["workspace"] / imscc_file.stem).exists()
+    assert (options["workspace"] / imscc_file.stem).exists()
 
     # archived olx course has been generated
-    assert (settings["workspace"] / imscc_file.stem).with_suffix(".tar.gz").exists()
+    assert (options["workspace"] / imscc_file.stem).with_suffix(".tar.gz").exists()
 
 
-def test_main_zip_output(mocker, settings):
+def test_main_zip_output(mocker, options):
     """
     Tests, that ``--result zip`` cli option works fine.
     """
 
-    settings["output_format"] = RESULT_TYPE_ZIP
+    options["output_format"] = RESULT_TYPE_ZIP
 
     mocker.patch("cc2olx.main.parse_args")
-    mocker.patch("cc2olx.main.collect_settings", return_value=settings)
+    mocker.patch("cc2olx.main.parse_options", return_value=options)
 
     main()
 
-    assert settings["workspace"].with_suffix(".zip").exists()
+    assert options["workspace"].with_suffix(".zip").exists()
diff --git a/tests/test_models.py b/tests/test_models.py
index 0b26b07d..fab6e07d 100644
--- a/tests/test_models.py
+++ b/tests/test_models.py
@@ -5,12 +5,12 @@
 from cc2olx.models import Cartridge, ResourceFile
 
 
-def test_cartridge_initialize(imscc_file, settings):
+def test_cartridge_initialize(imscc_file, options):
     """
     Tests, that ``Cartridge`` initializes without errors.
     """
 
-    cartridge = Cartridge(imscc_file, settings["workspace"])
+    cartridge = Cartridge(imscc_file, options["workspace"])
 
     assert cartridge.normalized is None
     assert cartridge.resources is None
@@ -19,12 +19,12 @@ def test_cartridge_initialize(imscc_file, settings):
     assert cartridge.file_path == imscc_file
 
 
-def test_load_manifest_extracted(imscc_file, settings, temp_workspace_dir):
+def test_load_manifest_extracted(imscc_file, options, temp_workspace_dir):
     """
     Tests, that all resources and metadata are loaded fine.
     """
 
-    cartridge = Cartridge(imscc_file, settings["workspace"])
+    cartridge = Cartridge(imscc_file, options["workspace"])
     cartridge.load_manifest_extracted()
 
     cartridge_version = "1.3.0"
@@ -42,8 +42,8 @@ def test_load_manifest_extracted(imscc_file, settings, temp_workspace_dir):
     assert isinstance(cartridge.resources[0]["children"][0], ResourceFile)
 
 
-def test_cartridge_normalize(imscc_file, settings):
-    cartridge = Cartridge(imscc_file, settings["workspace"])
+def test_cartridge_normalize(imscc_file, options):
+    cartridge = Cartridge(imscc_file, options["workspace"])
     cartridge.load_manifest_extracted()
     cartridge.normalize()
 
@@ -299,86 +299,3 @@ def test_cartridge_normalize(imscc_file, settings):
         "identifier": "org_1",
         "structure": "rooted-hierarchy",
     }
-
-
-def test_cartridge_get_resource_content(cartridge):
-    assert cartridge.get_resource_content("resource_1_course") == (
-        "html",
-        {
-            "html": "Unimported content: type = 'associatedcontent/imscc_xmlv1p1/learning-application-resource', "
-            "href = 'course_settings/canvas_export.txt'"
-        },
-    )
-
-    assert cartridge.get_resource_content("resource_2_lti") == (
-        "lti",
-        {
-            "title": "Learning Tools Interoperability",
-            "description": "https://www.imsglobal.org/activity/learning-tools-interoperability",
-            "launch_url": "https://lti.local/launch",
-            "height": "500",
-            "width": "500",
-            "custom_parameters": {},
-            "lti_id": "learning_tools_interoperability",
-        },
-    )
-
-    assert cartridge.get_resource_content("resource_3_vertical") == (
-        "html",
-        {
-            "html": '<html>\n<head>\n<meta http-equiv="Content-Type" content="text/html; charset=utf-8"/>\n'
-            "<title>Vertical</title>\n"
-            '<meta name="identifier" content="resource_3_vertical"/>\n'
-            '<meta name="editing_roles" content="teachers"/>\n'
-            '<meta name="workflow_state" content="active"/>\n'
-            "</head>\n<body>\n"
-            '<img src="%24IMS-CC-FILEBASE%24/QuizImages/fractal.jpg" alt="fractal.jpg"'
-            ' width="500" height="375" />\n'
-            "<p>Fractal Image <a "
-            'href="%24IMS-CC-FILEBASE%24/QuizImages/fractal.jpg?canvas_download=1" '
-            'target="_blank">Fractal Image</a></p>\n'
-            "</body>\n</html>\n"
-        },
-    )
-
-    assert cartridge.get_resource_content("resource_6_wiki_content") == (
-        "html",
-        {
-            "html": '<html>\n<head>\n<meta http-equiv="Content-Type" content="text/html; charset=utf-8"/>\n'
-            "<title>Vertical</title>\n"
-            '<meta name="identifier" content="resource_6_wiki_content"/>\n'
-            '<meta name="editing_roles" content="teachers"/>\n'
-            '<meta name="workflow_state" content="active"/>\n'
-            "</head>\n<body>\n"
-            '<p>Lorem ipsum...</p>\n<a href="%24WIKI_REFERENCE%24/pages/wiki_content">Wiki Content</a>'
-            "\n</body>\n</html>\n"
-        },
-    )
-
-    assert cartridge.get_resource_content("resource_7_canvas_content") == (
-        "html",
-        {
-            "html": '<html>\n<head>\n<meta http-equiv="Content-Type" content="text/html; charset=utf-8"/>\n'
-            "<title>Vertical</title>\n"
-            '<meta name="identifier" content="resource_7_canvas_content"/>\n'
-            '<meta name="editing_roles" content="teachers"/>\n'
-            '<meta name="workflow_state" content="active"/>\n'
-            "</head>\n<body>\n"
-            '<p>Lorem ipsum...</p>\n<a href="%24CANVAS_OBJECT_REFERENCE%24/quizzes/abc">Canvas Content</a>'
-            "\n</body>\n</html>\n"
-        },
-    )
-
-    assert cartridge.get_resource_content("resource_module-|-introduction") == (
-        "html",
-        {
-            "html": '<html>\n<head>\n<meta http-equiv="Content-Type" content="text/html; charset=utf-8"/>\n'
-            "<title>Vertical</title>\n"
-            '<meta name="identifier" content="resource_module-|-introduction"/>\n'
-            '<meta name="editing_roles" content="teachers"/>\n'
-            '<meta name="workflow_state" content="active"/>\n'
-            "</head>\n<body>\n"
-            '<p>Lorem ipsum...</p>\n<a href="%24WIKI_REFERENCE%24/pages/wiki_content">Wiki Content</a>'
-            "\n</body>\n</html>\n"
-        },
-    )
diff --git a/tests/test_olx.py b/tests/test_olx.py
index a35d67c6..792f804f 100644
--- a/tests/test_olx.py
+++ b/tests/test_olx.py
@@ -1,16 +1,12 @@
 import json
-from unittest.mock import Mock
-
-import lxml
 import xml.dom.minidom
 
 from cc2olx import olx
-
 from .utils import format_xml
 
 
-def test_olx_export_xml(cartridge, link_map_csv, studio_course_xml):
-    xml = olx.OlxExport(cartridge, link_map_csv).xml()
+def test_olx_export_xml(cartridge, link_map_csv, studio_course_xml, relative_links_source):
+    xml = olx.OlxExport(cartridge, link_map_csv, relative_links_source=relative_links_source).xml()
 
     assert format_xml(xml) == format_xml(studio_course_xml)
 
@@ -25,132 +21,6 @@ def test_olx_export_wiki_page_disabled(cartridge, link_map_csv, studio_course_xm
             assert tab["is_hidden"]
 
 
-def test_process_link():
-    details = {"href": "https://example.com/path"}
-    details_with_youtube_link = {"href": "https://www.youtube.com/watch?v=gQ-cZRmHfs4&amp;amp;list=PL5B350D511278A56B"}
-
-    assert olx.process_link(details) == (
-        "html",
-        {"html": "<a href='{}'></a>".format(details["href"])},
-    )
-
-    assert olx.process_link(details_with_youtube_link) == (
-        "video",
-        {"youtube": "gQ-cZRmHfs4"},
-    )
-
-
-class TestOlXExporeterHTMLProcessing:
-    """
-    Test the OLX exporter for HTML parsing flow.
-    """
-
-    def test_html_cleaning_from_cdata(
-        self,
-        mocker,
-        bare_olx_exporter,
-        cdata_containing_html,
-        expected_cleaned_cdata_containing_html,
-    ):
-        """
-        Test that CDATA cleaning function is called during HTML processing.
-
-        Args:
-            mocker (MockerFixture): MockerFixture instance.
-            bare_olx_exporter (OlxExport): bare OLX exporter.
-            cdata_containing_html (str): HTML that contains CDATA tags.
-            expected_cleaned_cdata_containing_html (str): Expected HTML after
-                successful cleaning.
-        """
-        details = {"html": cdata_containing_html}
-
-        clean_from_cdata_mock = mocker.patch(
-            "cc2olx.olx.clean_from_cdata",
-            return_value=expected_cleaned_cdata_containing_html,
-        )
-
-        bare_olx_exporter._process_html(details)
-
-        clean_from_cdata_mock.assert_called_once()
-
-    def test_processed_html_content_is_wrapped_into_cdata(self, bare_olx_exporter, cdata_containing_html):
-        """
-        Test that processed HTML content is wrapped into CDATA section.
-
-        Args:
-            bare_olx_exporter (OlxExport): bare OLX exporter.
-            cdata_containing_html (str): HTML that contains CDATA tags.
-        """
-        details = {"html": cdata_containing_html}
-
-        result_html, *__ = bare_olx_exporter._process_html(details)
-
-        assert isinstance(result_html.childNodes[0], xml.dom.minidom.CDATASection)
-
-
-class TestOlXExporeterIframeParser:
-    """
-    Test the olx exporter for iframe link parsing flow
-    """
-
-    def _get_oxl_exporter(self, cartridge, link_map_csv):
-        """
-        Helper function to create olx exporter.
-
-        Args:
-            cartridge ([Cartridge]): Cartridge class instance.
-            link_map_csv ([str]): Csv file path.
-
-        Returns:
-            [OlxExport]: OlxExport instance.
-        """
-        olx_exporter = olx.OlxExport(cartridge, link_file=link_map_csv)
-        olx_exporter.doc = xml.dom.minidom.Document()
-        return olx_exporter
-
-    def test_process_html_for_iframe_video_blocks(self, cartridge, link_map_csv, iframe_content):
-        """
-        Test if the iframe is getting parsed and video blocks being generated.
-
-        Args:
-            cartridge ([Cartridge]): Cartridge class instance.
-            link_map_csv ([str]): Csv file path.
-            iframe_content ([str]): Html file content.
-        """
-        olx_exporter = self._get_oxl_exporter(cartridge, link_map_csv)
-        _, video_olx = olx_exporter._process_html_for_iframe(iframe_content)
-        assert len(video_olx) == 1
-
-    def test_process_html_for_iframe_html_removed(self, cartridge, link_map_csv, iframe_content):
-        """
-        Test if iframe is removed from html.
-
-        Args:
-            cartridge ([Cartridge]): Cartridge class instance.
-            link_map_csv ([str]): Csv file path.
-            iframe_content ([str]): Html file content.
-        """
-        olx_exporter = self._get_oxl_exporter(cartridge, link_map_csv)
-        html_str, _ = olx_exporter._process_html_for_iframe(iframe_content)
-        html = lxml.html.fromstring(html_str)
-        iframe = html.xpath("//iframe")
-        assert len(iframe) == 0
-
-    def test_create_olx_nodes(self, cartridge, link_map_csv, iframe_content):
-        """
-        Test create olx nodes with html content.
-
-        Args:
-            cartridge ([Cartridge]): Cartridge class instance.
-            link_map_csv ([str]): Csv file path.
-            iframe_content ([str]): Html file content.
-        """
-        olx_exporter = self._get_oxl_exporter(cartridge, link_map_csv)
-        nodes = olx_exporter._create_olx_nodes("html", {"html": iframe_content})
-        # Html xblock and video xblock
-        assert len(nodes) == 2
-
-
 class TestOlxExporterLtiPolicy:
     def _get_oxl_exporter(self, cartridge, passports_csv):
         """
@@ -167,11 +37,10 @@ def _get_oxl_exporter(self, cartridge, passports_csv):
         olx_exporter.doc = xml.dom.minidom.Document()
         return olx_exporter
 
-    def test_lti_consumer_present_set_to_true(self, cartridge, passports_csv):
+    def test_lti_consumer_ids_are_defined(self, cartridge, passports_csv):
         olx_exporter = self._get_oxl_exporter(cartridge, passports_csv)
         _ = olx_exporter.xml()
 
-        assert olx_exporter.lti_consumer_present is True
         assert olx_exporter.lti_consumer_ids == {"external_tool_lti", "learning_tools_interoperability"}
 
     def test_policy_contains_advanced_module(self, cartridge, passports_csv, caplog):
@@ -193,51 +62,3 @@ def test_policy_contains_advanced_module(self, cartridge, passports_csv, caplog)
         assert ["Missing LTI Passport for learning_tools_interoperability. Using default."] == [
             rec.message for rec in caplog.records
         ]
-
-
-class TestDiscussionParsing:
-    """
-    Test the OLX exporter for discussion parsing flow.
-    """
-
-    def test_discussion_content_cleaning_from_cdata(
-        self,
-        mocker,
-        bare_olx_exporter,
-        cdata_containing_html,
-        expected_cleaned_cdata_containing_html,
-    ):
-        """
-        Test that CDATA cleaning function is called during discussion parsing.
-
-        Args:
-            mocker (MockerFixture): MockerFixture instance.
-            bare_olx_exporter (OlxExport): bare OLX exporter.
-            cdata_containing_html (str): HTML that contains CDATA tags.
-            expected_cleaned_cdata_containing_html (str): Expected HTML after
-                successful cleaning.
-        """
-        details = {"dependencies": [], "title": Mock(), "text": cdata_containing_html}
-
-        clean_from_cdata_mock = mocker.patch(
-            "cc2olx.olx.clean_from_cdata",
-            return_value=expected_cleaned_cdata_containing_html,
-        )
-
-        bare_olx_exporter._create_discussion_node(details)
-
-        clean_from_cdata_mock.assert_called_once()
-
-    def test_discussion_decription_is_wrapped_into_cdata(self, bare_olx_exporter, cdata_containing_html):
-        """
-        Test that processed HTML content is wrapped into CDATA section.
-
-        Args:
-            bare_olx_exporter (OlxExport): bare OLX exporter.
-            cdata_containing_html (str): HTML that contains CDATA tags.
-        """
-        details = {"dependencies": [], "title": Mock(), "text": cdata_containing_html}
-
-        discussion_decription_html, __ = bare_olx_exporter._create_discussion_node(details)
-
-        assert isinstance(discussion_decription_html.childNodes[0], xml.dom.minidom.CDATASection)
diff --git a/tests/test_olx_generators/__init__.py b/tests/test_olx_generators/__init__.py
new file mode 100644
index 00000000..e69de29b
diff --git a/tests/test_olx_generators/test_discussion.py b/tests/test_olx_generators/test_discussion.py
new file mode 100644
index 00000000..fedc1146
--- /dev/null
+++ b/tests/test_olx_generators/test_discussion.py
@@ -0,0 +1,44 @@
+import xml.dom.minidom
+from unittest.mock import Mock, patch
+
+from cc2olx.olx_generators import DiscussionOlxGenerator
+
+
+class TestDiscussionOlxGenerator:
+    def test_discussion_content_cleaning_from_cdata(
+        self,
+        cdata_containing_html,
+        expected_cleaned_cdata_containing_html,
+    ):
+        """
+        Test that CDATA cleaning function is called during discussion parsing.
+
+        Args:
+            cdata_containing_html (str): HTML that contains CDATA tags.
+            expected_cleaned_cdata_containing_html (str): Expected HTML after
+                successful cleaning.
+        """
+        generator = DiscussionOlxGenerator(Mock())
+        content = {"dependencies": [], "title": Mock(), "text": cdata_containing_html}
+
+        with patch(
+            "cc2olx.olx_generators.discussion.clean_from_cdata",
+            return_value=expected_cleaned_cdata_containing_html,
+        ) as clean_from_cdata_mock:
+            generator.create_nodes(content)
+
+            clean_from_cdata_mock.assert_called_once()
+
+    def test_discussion_description_is_wrapped_into_cdata(self, cdata_containing_html):
+        """
+        Test that processed HTML content is wrapped into CDATA section.
+
+        Args:
+            cdata_containing_html (str): HTML that contains CDATA tags.
+        """
+        generator = DiscussionOlxGenerator(Mock())
+        content = {"dependencies": [], "title": Mock(), "text": cdata_containing_html}
+
+        discussion_description_html, __ = generator.create_nodes(content)
+
+        assert isinstance(discussion_description_html.childNodes[0], xml.dom.minidom.CDATASection)
diff --git a/tests/test_olx_generators/test_html.py b/tests/test_olx_generators/test_html.py
new file mode 100644
index 00000000..ad9d4414
--- /dev/null
+++ b/tests/test_olx_generators/test_html.py
@@ -0,0 +1,65 @@
+import xml.dom.minidom
+from unittest.mock import patch
+
+import lxml
+
+from cc2olx.dataclasses import OlxGeneratorContext
+from cc2olx.iframe_link_parser import KalturaIframeLinkParser
+from cc2olx.olx_generators import HtmlOlxGenerator
+
+
+class TestHtmlOlxGenerator:
+    def test_process_html_for_iframe_provides_video_blocks(self, iframe_content, link_map_csv):
+        context = OlxGeneratorContext(iframe_link_parser=KalturaIframeLinkParser(link_map_csv), lti_consumer_ids=set())
+        generator = HtmlOlxGenerator(context)
+
+        _, video_olx = generator._process_html_for_iframe(iframe_content)
+
+        assert len(video_olx) == 1
+        assert video_olx[0].nodeName == "video"
+
+    def test_process_html_for_iframe_removes_iframes_from_html(self, iframe_content, link_map_csv):
+        context = OlxGeneratorContext(iframe_link_parser=KalturaIframeLinkParser(link_map_csv), lti_consumer_ids=set())
+        generator = HtmlOlxGenerator(context)
+
+        html_str, _ = generator._process_html_for_iframe(iframe_content)
+
+        html = lxml.html.fromstring(html_str)
+        iframe = html.xpath("//iframe")
+        assert len(iframe) == 0
+
+    def test_html_cleaning_from_cdata(self, cdata_containing_html, expected_cleaned_cdata_containing_html):
+        """
+        Test that CDATA cleaning function is called during HTML processing.
+
+        Args:
+            cdata_containing_html (str): HTML that contains CDATA tags.
+            expected_cleaned_cdata_containing_html (str): Expected HTML after
+                successful cleaning.
+        """
+        context = OlxGeneratorContext(iframe_link_parser=None, lti_consumer_ids=set())
+        generator = HtmlOlxGenerator(context)
+        content = {"html": cdata_containing_html}
+
+        with patch(
+            "cc2olx.olx_generators.html.clean_from_cdata",
+            return_value=expected_cleaned_cdata_containing_html,
+        ) as clean_from_cdata_mock:
+            generator.create_nodes(content)
+
+            clean_from_cdata_mock.assert_called_once()
+
+    def test_processed_html_content_is_wrapped_into_cdata(self, cdata_containing_html):
+        """
+        Test that processed HTML content is wrapped into CDATA section.
+
+        Args:
+            cdata_containing_html (str): HTML that contains CDATA tags.
+        """
+        context = OlxGeneratorContext(iframe_link_parser=None, lti_consumer_ids=set())
+        generator = HtmlOlxGenerator(context)
+        content = {"html": cdata_containing_html}
+
+        result_html, *__ = generator.create_nodes(content)
+
+        assert isinstance(result_html.childNodes[0], xml.dom.minidom.CDATASection)
diff --git a/tests/test_olx_generators/test_qti.py b/tests/test_olx_generators/test_qti.py
new file mode 100644
index 00000000..0e563106
--- /dev/null
+++ b/tests/test_olx_generators/test_qti.py
@@ -0,0 +1,17 @@
+from unittest.mock import Mock
+
+import pytest
+
+from cc2olx.exceptions import QtiError
+from cc2olx.olx_generators import QtiOlxGenerator
+
+
+class TestQtiOlxGenerator:
+    @pytest.mark.parametrize("cc_profile", ["unknown_profile", "cc.chess.v0p1", "cc.drag_and_drop.v0p1", "123"])
+    def test_create_nodes_raises_qti_error_if_cc_profile_is_unknown(self, cc_profile):
+        generator = QtiOlxGenerator(Mock())
+
+        with pytest.raises(QtiError) as exc_info:
+            generator.create_nodes([{"cc_profile": cc_profile}])
+
+        assert str(exc_info.value) == f'Unknown cc_profile: "{cc_profile}"'
diff --git a/tests/test_olx_generators/test_video.py b/tests/test_olx_generators/test_video.py
new file mode 100644
index 00000000..b82737f4
--- /dev/null
+++ b/tests/test_olx_generators/test_video.py
@@ -0,0 +1,14 @@
+from unittest.mock import Mock
+
+from cc2olx.olx_generators import VideoOlxGenerator
+
+
+class TestVideoOlxGenerator:
+    def test_nodes_creation(self):
+        generator = VideoOlxGenerator(Mock())
+        expected_video_xml = '<video youtube="1.00:ABCDeF12345" youtube_id_1_0="ABCDeF12345"/>'
+
+        nodes = generator.create_nodes({"youtube": "ABCDeF12345"})
+
+        assert len(nodes) == 1
+        assert nodes[0].toxml() == expected_video_xml
diff --git a/tests/test_settings.py b/tests/test_options.py
similarity index 53%
rename from tests/test_settings.py
rename to tests/test_options.py
index 468a7b1d..2f09defb 100644
--- a/tests/test_settings.py
+++ b/tests/test_options.py
@@ -1,23 +1,20 @@
 from pathlib import Path
 
 from cc2olx.cli import parse_args
-from cc2olx.settings import collect_settings
+from cc2olx.parser import parse_options
 
 
-def test_collect_settings(imscc_file):
+def test_parse_options(imscc_file):
     parsed_args = parse_args(["-i", str(imscc_file)])
 
-    settings = collect_settings(parsed_args)
+    options = parse_options(parsed_args)
 
-    assert settings == {
+    assert options == {
         "input_files": {imscc_file},
         "output_format": parsed_args.result,
         "workspace": Path.cwd() / "output",
         "link_file": None,
         "passport_file": None,
-        "logging_config": {
-            "level": parsed_args.loglevel,
-            "format": "{%(filename)s:%(lineno)d} - %(message)s",
-        },
+        "log_level": parsed_args.loglevel,
         "relative_links_source": None,
     }

From 37b091b912155a4235e2ade5e6004aeb660391e4 Mon Sep 17 00:00:00 2001
From: Myhailo Chernyshov <mykhailo.chernyshov@raccoongang.com>
Date: Thu, 23 Jan 2025 13:21:20 +0200
Subject: [PATCH 5/7] feat: [FC-0063] PDF blocks processing is implemented

---
 src/cc2olx/cli.py                          | 35 +++++++++++
 src/cc2olx/constants.py                    |  2 +-
 src/cc2olx/content_parsers/__init__.py     |  5 +-
 src/cc2olx/content_parsers/abc.py          | 21 +++++++
 src/cc2olx/content_parsers/html.py         | 34 ++++++-----
 src/cc2olx/content_parsers/pdf.py          | 71 ++++++++++++++++++++++
 src/cc2olx/content_parsers/utils.py        | 50 ++++++++++++++-
 src/cc2olx/content_processors.py           |  9 +++
 src/cc2olx/dataclasses.py                  | 37 ++++++++---
 src/cc2olx/enums.py                        | 19 ++++++
 src/cc2olx/main.py                         | 13 +++-
 src/cc2olx/models.py                       |  2 +-
 src/cc2olx/olx.py                          | 19 +++++-
 src/cc2olx/olx_generators/__init__.py      |  2 +
 src/cc2olx/olx_generators/pdf.py           | 16 +++++
 src/cc2olx/parser.py                       |  1 +
 src/cc2olx/settings.py                     |  5 ++
 src/cc2olx/templates/image_webcontent.html |  2 +-
 18 files changed, 310 insertions(+), 33 deletions(-)
 create mode 100644 src/cc2olx/content_parsers/pdf.py
 create mode 100644 src/cc2olx/olx_generators/pdf.py

diff --git a/src/cc2olx/cli.py b/src/cc2olx/cli.py
index 3aec86bd..8e6903df 100644
--- a/src/cc2olx/cli.py
+++ b/src/cc2olx/cli.py
@@ -1,12 +1,39 @@
 import argparse
+import logging
 
 from pathlib import Path
 
+from cc2olx.enums import SupportedCustomBlockContentType
 from cc2olx.validators.cli import link_source_validator
 
 RESULT_TYPE_FOLDER = "folder"
 RESULT_TYPE_ZIP = "zip"
 
+logger = logging.getLogger()
+
+
+class AppendIfAllowedAction(argparse._AppendAction):
+    """
+    Store a list and append only allowed argument values to the list.
+    """
+
+    NOT_ALLOWED_CHOICE_MESSAGE = (
+        "The choice {choice_name!r} is not allowed for {argument_name} argument. It will be ignored during processing."
+    )
+
+    def __init__(self, *args, **kwargs):
+        super().__init__(*args, **kwargs)
+
+        self._choices = self.choices
+        self.choices = None
+
+    def __call__(self, parser, namespace, values, option_string=None):
+        if values in self._choices:
+            super().__call__(parser, namespace, values, option_string)
+        else:
+            argument_name = "/".join(self.option_strings)
+            logger.warning(self.NOT_ALLOWED_CHOICE_MESSAGE.format(choice_name=values, argument_name=argument_name))
+
 
 def parse_args(args=None):
     parser = argparse.ArgumentParser(
@@ -78,4 +105,12 @@ def parse_args(args=None):
         type=link_source_validator,
         help="The relative links source in the format '<scheme>://<netloc>', e.g. 'https://example.com'",
     )
+    parser.add_argument(
+        "-c",
+        "--content_types_with_custom_blocks",
+        action=AppendIfAllowedAction,
+        default=[],
+        choices=list(SupportedCustomBlockContentType.__members__.values()),
+        help="Names of content types for which custom xblocks will be used.",
+    )
     return parser.parse_args(args)
diff --git a/src/cc2olx/constants.py b/src/cc2olx/constants.py
index cdc9fe1f..0a1ca0c2 100644
--- a/src/cc2olx/constants.py
+++ b/src/cc2olx/constants.py
@@ -1,5 +1,5 @@
 OLX_STATIC_DIR = "static"
-OLX_STATIC_PATH_TEMPLATE = f"/{OLX_STATIC_DIR}/{{static_filename}}"
+OLX_STATIC_PATH_TEMPLATE = f"/{OLX_STATIC_DIR}/{{static_file_path}}"
 WEB_RESOURCES_DIR_NAME = "web_resources"
 
 LINK_HTML = '<a href="{url}">{text}</a>'
diff --git a/src/cc2olx/content_parsers/__init__.py b/src/cc2olx/content_parsers/__init__.py
index 269855b2..135d8b95 100644
--- a/src/cc2olx/content_parsers/__init__.py
+++ b/src/cc2olx/content_parsers/__init__.py
@@ -1,15 +1,18 @@
-from cc2olx.content_parsers.abc import AbstractContentParser
+from cc2olx.content_parsers.abc import AbstractContentParser, AbstractContentTypeWithCustomBlockParser
 from cc2olx.content_parsers.discussion import DiscussionContentParser
 from cc2olx.content_parsers.html import HtmlContentParser
 from cc2olx.content_parsers.lti import LtiContentParser
+from cc2olx.content_parsers.pdf import PdfContentParser
 from cc2olx.content_parsers.qti import QtiContentParser
 from cc2olx.content_parsers.video import VideoContentParser
 
 __all__ = [
     "AbstractContentParser",
+    "AbstractContentTypeWithCustomBlockParser",
     "DiscussionContentParser",
     "HtmlContentParser",
     "LtiContentParser",
+    "PdfContentParser",
     "QtiContentParser",
     "VideoContentParser",
 ]
diff --git a/src/cc2olx/content_parsers/abc.py b/src/cc2olx/content_parsers/abc.py
index 6a9c04d5..82e03e66 100644
--- a/src/cc2olx/content_parsers/abc.py
+++ b/src/cc2olx/content_parsers/abc.py
@@ -3,6 +3,7 @@
 
 from cc2olx.content_parsers.utils import StaticLinkProcessor
 from cc2olx.dataclasses import ContentParserContext
+from cc2olx.enums import SupportedCustomBlockContentType
 from cc2olx.models import Cartridge
 
 
@@ -29,3 +30,23 @@ def _parse_content(self, idref: Optional[str]) -> Optional[Union[list, dict]]:
         """
         Parse content of the resource with the specified identifier.
         """
+
+
+class AbstractContentTypeWithCustomBlockParser(AbstractContentParser, ABC):
+    """
+    Abstract base class for content type with custom block parsing.
+    """
+
+    CUSTOM_BLOCK_CONTENT_TYPE: SupportedCustomBlockContentType
+
+    def _parse_content(self, idref: Optional[str]) -> Optional[Union[list, dict]]:
+        if idref and self._context.is_content_type_with_custom_block_used(self.CUSTOM_BLOCK_CONTENT_TYPE):
+            if resource := self._cartridge.define_resource(idref):
+                return self._parse_resource_content(resource)
+        return None
+
+    @abstractmethod
+    def _parse_resource_content(self, resource: dict) -> Optional[Union[list, dict]]:
+        """
+        Parse resource content.
+        """
diff --git a/src/cc2olx/content_parsers/html.py b/src/cc2olx/content_parsers/html.py
index 187fe44b..b7115a6f 100644
--- a/src/cc2olx/content_parsers/html.py
+++ b/src/cc2olx/content_parsers/html.py
@@ -6,9 +6,10 @@
 
 from django.conf import settings
 
-from cc2olx.constants import LINK_HTML, OLX_STATIC_PATH_TEMPLATE, WEB_RESOURCES_DIR_NAME
+from cc2olx.constants import LINK_HTML
 from cc2olx.content_parsers import AbstractContentParser
 from cc2olx.content_parsers.mixins import WebLinkParserMixin
+from cc2olx.content_parsers.utils import WebContent
 from cc2olx.enums import CommonCartridgeResourceType
 
 logger = logging.getLogger()
@@ -44,16 +45,16 @@ def _parse_webcontent(self, idref: str, resource: dict) -> Dict[str, str]:
         """
         Parse the resource with "webcontent" type.
         """
-        resource_file = resource["children"][0]
-        resource_relative_link = resource_file.href
-        resource_file_path = self._cartridge.build_resource_file_path(resource_relative_link)
+        web_content = WebContent(self._cartridge, resource["children"][0])
+        resource_file_path = web_content.resource_file_path
+        is_web_content_from_web_resources_dir = web_content.is_from_web_resources_dir()
 
         if resource_file_path.suffix == HTML_FILENAME_SUFFIX:
             content = self._parse_webcontent_html_file(idref, resource_file_path)
-        elif WEB_RESOURCES_DIR_NAME in str(resource_file_path) and imghdr.what(str(resource_file_path)):
-            content = self._parse_image_webcontent_from_web_resources_dir(resource_file_path)
-        elif WEB_RESOURCES_DIR_NAME not in str(resource_file_path):
-            content = self._parse_webcontent_outside_web_resources_dir(resource_relative_link)
+        elif is_web_content_from_web_resources_dir and imghdr.what(str(resource_file_path)):
+            content = self._parse_image_webcontent_from_web_resources_dir(web_content)
+        elif not is_web_content_from_web_resources_dir:
+            content = self._parse_webcontent_outside_web_resources_dir(web_content)
         else:
             logger.info("Skipping webcontent: %s", resource_file_path)
             content = self.DEFAULT_CONTENT
@@ -73,28 +74,31 @@ def _parse_webcontent_html_file(idref: str, resource_file_path: Path) -> Dict[st
             raise
         return {"html": html}
 
-    def _parse_image_webcontent_from_web_resources_dir(self, resource_file_path: Path) -> Dict[str, str]:
+    def _parse_image_webcontent_from_web_resources_dir(self, web_content: WebContent) -> Dict[str, str]:
         """
         Parse webcontent image from "web_resources" directory.
         """
-        static_filename = str(resource_file_path).split(f"{WEB_RESOURCES_DIR_NAME}/")[1]
-        olx_static_path = OLX_STATIC_PATH_TEMPLATE.format(static_filename=static_filename)
-        self._cartridge.olx_to_original_static_file_paths.add_web_resource_path(olx_static_path, resource_file_path)
+        olx_static_path = web_content.olx_static_path
+        self._cartridge.olx_to_original_static_file_paths.add_web_resource_path(
+            olx_static_path,
+            web_content.resource_file_path,
+        )
         image_webcontent_tpl_path = settings.TEMPLATES_DIR / "image_webcontent.html"
 
         with open(image_webcontent_tpl_path, encoding="utf-8") as image_webcontent_tpl:
             tpl_content = image_webcontent_tpl.read()
-            html = tpl_content.format(olx_static_path=olx_static_path, static_filename=static_filename)
+            html = tpl_content.format(olx_static_path=olx_static_path, static_file_path=web_content.static_file_path)
 
         return {"html": html}
 
-    def _parse_webcontent_outside_web_resources_dir(self, resource_relative_path: str) -> Dict[str, str]:
+    def _parse_webcontent_outside_web_resources_dir(self, web_content: WebContent) -> Dict[str, str]:
         """
         Parse webcontent located outside "web_resources" directory.
         """
+        olx_static_path = web_content.olx_static_path
+        resource_relative_path = web_content.resource_relative_path
         # This webcontent is outside ``web_resources`` directory
         # So we need to manually copy it to OLX_STATIC_DIR
-        olx_static_path = OLX_STATIC_PATH_TEMPLATE.format(static_filename=resource_relative_path)
         self._cartridge.olx_to_original_static_file_paths.add_extra_path(olx_static_path, resource_relative_path)
         external_webcontent_tpl_path = settings.TEMPLATES_DIR / "external_webcontent.html"
 
diff --git a/src/cc2olx/content_parsers/pdf.py b/src/cc2olx/content_parsers/pdf.py
new file mode 100644
index 00000000..73f0a021
--- /dev/null
+++ b/src/cc2olx/content_parsers/pdf.py
@@ -0,0 +1,71 @@
+import urllib
+from typing import Dict, Optional
+
+from cc2olx.content_parsers import AbstractContentTypeWithCustomBlockParser
+from cc2olx.content_parsers.mixins import WebLinkParserMixin
+from cc2olx.content_parsers.utils import WebContent
+from cc2olx.enums import CommonCartridgeResourceType, SupportedCustomBlockContentType
+
+
+class PdfContentParser(WebLinkParserMixin, AbstractContentTypeWithCustomBlockParser):
+    """
+    PDF resource content parser.
+    """
+
+    CUSTOM_BLOCK_CONTENT_TYPE = SupportedCustomBlockContentType.PDF
+
+    def _parse_resource_content(self, resource: dict) -> Optional[Dict[str, str]]:
+        if resource["type"] == CommonCartridgeResourceType.WEB_CONTENT:
+            return self._parse_webcontent(resource)
+        elif web_link_content := self._parse_web_link_content(resource):
+            return self._transform_web_link_content_to_pdf(web_link_content)
+        return None
+
+    def _parse_webcontent(self, resource: dict) -> Optional[Dict[str, str]]:
+        """
+        Parse the resource with "webcontent" type.
+        """
+        web_content = WebContent(self._cartridge, resource["children"][0])
+        resource_file_path = web_content.resource_file_path
+
+        if resource_file_path.suffix in SupportedCustomBlockContentType.PDF.file_extensions:
+            return (
+                self._parse_pdf_webcontent_from_web_resources_dir(web_content)
+                if web_content.is_from_web_resources_dir()
+                else self._parse_pdf_webcontent_outside_web_resources_dir(web_content)
+            )
+        return None
+
+    def _parse_pdf_webcontent_from_web_resources_dir(self, web_content: WebContent) -> Dict[str, str]:
+        """
+        Parse webcontent PDF file from "web_resources" directory.
+        """
+        olx_static_path = web_content.olx_static_path
+        self._cartridge.olx_to_original_static_file_paths.add_web_resource_path(
+            olx_static_path,
+            web_content.resource_file_path,
+        )
+        return {"url": olx_static_path}
+
+    def _parse_pdf_webcontent_outside_web_resources_dir(self, web_content: WebContent) -> Dict[str, str]:
+        """
+        Parse webcontent PDF file located outside "web_resources" directory.
+        """
+        olx_static_path = web_content.olx_static_path
+        self._cartridge.olx_to_original_static_file_paths.add_extra_path(
+            olx_static_path,
+            web_content.resource_relative_path,
+        )
+        return {"url": olx_static_path}
+
+    @staticmethod
+    def _transform_web_link_content_to_pdf(web_link_content: Dict[str, str]) -> Optional[Dict[str, str]]:
+        """
+        Build PDF block data from Web Link resource data.
+        """
+        web_link_url = web_link_content["href"]
+        does_web_link_point_to_pdf_file = any(
+            urllib.parse.urlparse(web_link_url).path.endswith(file_extension)
+            for file_extension in SupportedCustomBlockContentType.PDF.file_extensions
+        )
+        return {"url": web_link_url} if does_web_link_point_to_pdf_file else None
diff --git a/src/cc2olx/content_parsers/utils.py b/src/cc2olx/content_parsers/utils.py
index 9ded5986..6b76a847 100644
--- a/src/cc2olx/content_parsers/utils.py
+++ b/src/cc2olx/content_parsers/utils.py
@@ -2,10 +2,12 @@
 import logging
 import re
 import urllib
+from pathlib import Path
 from typing import TypeVar, Optional
 
+from cc2olx.constants import OLX_STATIC_PATH_TEMPLATE, WEB_RESOURCES_DIR_NAME
 from cc2olx.dataclasses import LinkKeywordProcessor
-from cc2olx.models import Cartridge
+from cc2olx.models import Cartridge, ResourceFile
 
 logger = logging.getLogger()
 
@@ -125,3 +127,49 @@ def _process_relative_external_links(self, link: str, html: str) -> str:
 
         url = urllib.parse.urljoin(self._relative_links_source, link)
         return html.replace(link, url)
+
+
+class WebContent:
+    """
+    Represent Common Cartridge web content resource type.
+    """
+
+    def __init__(self, cartridge: Cartridge, resource_file: ResourceFile) -> None:
+        self._resource_relative_path = resource_file.href
+        self._resource_file_path = cartridge.build_resource_file_path(self._resource_relative_path)
+
+    @property
+    def resource_relative_path(self) -> str:
+        """
+        Resource file path inside .imscc file.
+        """
+        return self._resource_relative_path
+
+    @property
+    def resource_file_path(self) -> Path:
+        """
+        Absolute file path of unpacked resource in the filesystem.
+        """
+        return self._resource_file_path
+
+    @property
+    def static_file_path(self) -> str:
+        """
+        File path inside OLX_STATIC_DIR.
+        """
+        if self.is_from_web_resources_dir():
+            return str(self._resource_file_path).split(f"{WEB_RESOURCES_DIR_NAME}/")[1]
+        return self._resource_relative_path
+
+    @property
+    def olx_static_path(self) -> str:
+        """
+        OLX static file path.
+        """
+        return OLX_STATIC_PATH_TEMPLATE.format(static_file_path=self.static_file_path)
+
+    def is_from_web_resources_dir(self) -> bool:
+        """
+        Whether resource file is located in "web_resources" directory.
+        """
+        return WEB_RESOURCES_DIR_NAME in str(self._resource_file_path)
diff --git a/src/cc2olx/content_processors.py b/src/cc2olx/content_processors.py
index 26391d32..404c8aa0 100644
--- a/src/cc2olx/content_processors.py
+++ b/src/cc2olx/content_processors.py
@@ -87,3 +87,12 @@ class DiscussionContentProcessor(AbstractContentProcessor):
 
     content_parser_class = content_parsers.DiscussionContentParser
     olx_generator_class = olx_generators.DiscussionOlxGenerator
+
+
+class PdfContentProcessor(AbstractContentProcessor):
+    """
+    PDF content processor.
+    """
+
+    content_parser_class = content_parsers.PdfContentParser
+    olx_generator_class = olx_generators.PdfOlxGenerator
diff --git a/src/cc2olx/dataclasses.py b/src/cc2olx/dataclasses.py
index 47f22ed5..88f651f5 100644
--- a/src/cc2olx/dataclasses.py
+++ b/src/cc2olx/dataclasses.py
@@ -1,5 +1,5 @@
-from dataclasses import dataclass, field
 from collections import ChainMap
+from types import MappingProxyType
 from typing import Callable, Dict, List, NamedTuple, Optional, Set
 
 import attrs
@@ -7,31 +7,40 @@
 from cc2olx.iframe_link_parser import IframeLinkParser
 
 
-@dataclass
+@attrs.define(slots=False)
 class OlxToOriginalStaticFilePaths:
     """
     Provide OLX static file to Common cartridge static file mappings.
     """
 
     # Static files from `web_resources` directory
-    web_resources: Dict[str, str] = field(default_factory=dict)
+    _web_resources: Dict[str, str] = attrs.field(factory=dict)
     # Static files that are outside of `web_resources` directory, but still required
-    extra: Dict[str, str] = field(default_factory=dict)
+    _extra: Dict[str, str] = attrs.field(factory=dict)
+
+    @property
+    def extra(self) -> MappingProxyType:
+        """
+        Provide static files located outside "web_resources" directory.
+
+        The returned value is read-only mapping.
+        """
+        return MappingProxyType(self._extra)
 
     def add_web_resource_path(self, olx_static_path: str, cc_static_path: str) -> None:
         """
         Add web resource static file mapping.
         """
-        self.web_resources[olx_static_path] = cc_static_path
+        self._web_resources[olx_static_path] = cc_static_path
 
     def add_extra_path(self, olx_static_path: str, cc_static_path: str) -> None:
         """
         Add extra static file mapping.
         """
-        self.extra[olx_static_path] = cc_static_path
+        self._extra[olx_static_path] = cc_static_path
 
-    def __post_init__(self) -> None:
-        self.all = ChainMap(self.extra, self.web_resources)
+    def __attrs_post_init__(self) -> None:
+        self.all = ChainMap(self._extra, self._web_resources)
 
 
 class LinkKeywordProcessor(NamedTuple):
@@ -96,6 +105,13 @@ class ContentParserContextMixin:
     """
 
     relative_links_source: Optional[str]
+    _content_types_with_custom_blocks: List[str]
+
+    def is_content_type_with_custom_block_used(self, content_type: str) -> bool:
+        """
+        Decide whether a content type with custom block is used.
+        """
+        return content_type in self._content_types_with_custom_blocks
 
 
 class ContentParserContext(ContentParserContextMixin):
@@ -113,7 +129,10 @@ def from_content_processor_context(
         """
         Create the content parser context from the content processor context.
         """
-        return cls(content_processor_context.relative_links_source)
+        return cls(
+            content_processor_context.relative_links_source,
+            content_processor_context._content_types_with_custom_blocks,
+        )
 
 
 @attrs.define(frozen=True, slots=False)
diff --git a/src/cc2olx/enums.py b/src/cc2olx/enums.py
index 8b213e08..31a06dba 100644
--- a/src/cc2olx/enums.py
+++ b/src/cc2olx/enums.py
@@ -1,3 +1,5 @@
+from typing import Set
+
 from enum import Enum
 
 
@@ -26,3 +28,20 @@ class QtiQuestionType(str, Enum):
     ESSAY = "cc.essay.v0p1"
     BOOLEAN = "cc.true_false.v0p1"
     PATTERN_MATCH = "cc.pattern_match.v0p1"
+
+
+class SupportedCustomBlockContentType(str, Enum):
+    """
+    Enumerate supported custom block content types.
+    """
+
+    PDF = "pdf"
+
+    @property
+    def file_extensions(self) -> Set[str]:
+        """
+        Provide file extensions the block content type supports.
+        """
+        return {
+            SupportedCustomBlockContentType.PDF: {".pdf"},
+        }[self]
diff --git a/src/cc2olx/main.py b/src/cc2olx/main.py
index 8cae4486..b24b253c 100644
--- a/src/cc2olx/main.py
+++ b/src/cc2olx/main.py
@@ -21,14 +21,23 @@ def convert_one_file(
     link_file=None,
     passport_file=None,
     relative_links_source=None,
+    content_types_with_custom_blocks=None,
 ):
+    content_types_with_custom_blocks = content_types_with_custom_blocks or []
+
     filesystem.create_directory(workspace)
 
     cartridge = Cartridge(input_file, workspace)
     cartridge.load_manifest_extracted()
     cartridge.normalize()
 
-    olx_export = olx.OlxExport(cartridge, link_file, passport_file, relative_links_source)
+    olx_export = olx.OlxExport(
+        cartridge,
+        link_file,
+        passport_file,
+        relative_links_source,
+        content_types_with_custom_blocks,
+    )
     olx_filename = cartridge.directory.parent / (cartridge.directory.name + "-course.xml")
     policy_filename = cartridge.directory.parent / "policy.json"
 
@@ -65,6 +74,7 @@ def main():
     link_file = options["link_file"]
     passport_file = options["passport_file"]
     relative_links_source = options["relative_links_source"]
+    content_types_with_custom_blocks = options["content_types_with_custom_blocks"]
 
     # setup logger
     logging.basicConfig(level=options["log_level"], format=settings.LOG_FORMAT)
@@ -81,6 +91,7 @@ def main():
                     link_file,
                     passport_file,
                     relative_links_source,
+                    content_types_with_custom_blocks,
                 )
             except Exception:
                 logger.exception("Error while converting %s file", input_file)
diff --git a/src/cc2olx/models.py b/src/cc2olx/models.py
index e6cefc6f..1c92f013 100644
--- a/src/cc2olx/models.py
+++ b/src/cc2olx/models.py
@@ -377,7 +377,7 @@ def get_course_run(self):
 
     def build_resource_file_path(self, file_name: str) -> Path:
         """
-        Build the resource file path.
+        Build the absolute file path of unpacked resource in the filesystem.
         """
         return self.directory / file_name
 
diff --git a/src/cc2olx/olx.py b/src/cc2olx/olx.py
index b7b161c5..674ec5c2 100644
--- a/src/cc2olx/olx.py
+++ b/src/cc2olx/olx.py
@@ -29,7 +29,14 @@ class OlxExport:
     OLX guide: https://edx.readthedocs.io/projects/edx-open-learning-xml/en/latest/
     """
 
-    def __init__(self, cartridge, link_file=None, passport_file=None, relative_links_source=None):
+    def __init__(
+        self,
+        cartridge,
+        link_file=None,
+        passport_file=None,
+        relative_links_source=None,
+        content_types_with_custom_blocks=None,
+    ):
         self.cartridge = cartridge
         self.doc = None
         self.link_file = link_file
@@ -39,6 +46,7 @@ def __init__(self, cartridge, link_file=None, passport_file=None, relative_links
         self.lti_consumer_present = False
         self.lti_consumer_ids = set()
         self._content_processor_types = self._load_content_processor_types()
+        self._content_types_with_custom_blocks = content_types_with_custom_blocks or []
 
     @staticmethod
     def _load_content_processor_types() -> List[Type[AbstractContentProcessor]]:
@@ -101,18 +109,22 @@ def policy(self):
                         "name": "Progress",
                         "type": "progress",
                     },
-                ]
+                ],
+                "advanced_modules": [],
             }
         }
 
         lti_passports = self._get_lti_passport_list()
 
         if self.lti_consumer_ids:
-            policy["course/course"]["advanced_modules"] = ["lti_consumer"]
+            policy["course/course"]["advanced_modules"].append("lti_consumer")
 
         if len(lti_passports):
             policy["course/course"]["lti_passports"] = lti_passports
 
+        for xblock_name in self._content_types_with_custom_blocks:
+            policy["course/course"]["advanced_modules"].append(xblock_name)
+
         return json.dumps(policy)
 
     def _get_lti_passport_list(self):
@@ -192,6 +204,7 @@ def _create_olx_nodes(self, element_data: dict) -> List["xml.dom.minidom.Element
             iframe_link_parser=self.iframe_link_parser,
             lti_consumer_ids=self.lti_consumer_ids,
             relative_links_source=self.relative_links_source,
+            content_types_with_custom_blocks=self._content_types_with_custom_blocks,
         )
 
         for processor_type in self._content_processor_types:
diff --git a/src/cc2olx/olx_generators/__init__.py b/src/cc2olx/olx_generators/__init__.py
index 546237d7..4f086f59 100644
--- a/src/cc2olx/olx_generators/__init__.py
+++ b/src/cc2olx/olx_generators/__init__.py
@@ -2,6 +2,7 @@
 from cc2olx.olx_generators.discussion import DiscussionOlxGenerator
 from cc2olx.olx_generators.html import HtmlOlxGenerator
 from cc2olx.olx_generators.lti import LtiOlxGenerator
+from cc2olx.olx_generators.pdf import PdfOlxGenerator
 from cc2olx.olx_generators.qti import QtiOlxGenerator
 from cc2olx.olx_generators.video import VideoOlxGenerator
 
@@ -10,6 +11,7 @@
     "DiscussionOlxGenerator",
     "HtmlOlxGenerator",
     "LtiOlxGenerator",
+    "PdfOlxGenerator",
     "QtiOlxGenerator",
     "VideoOlxGenerator",
 ]
diff --git a/src/cc2olx/olx_generators/pdf.py b/src/cc2olx/olx_generators/pdf.py
new file mode 100644
index 00000000..96f2ff83
--- /dev/null
+++ b/src/cc2olx/olx_generators/pdf.py
@@ -0,0 +1,16 @@
+import xml.dom.minidom
+from typing import List
+
+from cc2olx.olx_generators import AbstractOlxGenerator
+from cc2olx.utils import element_builder
+
+
+class PdfOlxGenerator(AbstractOlxGenerator):
+    """
+    Generate OLX for PDFs.
+    """
+
+    def create_nodes(self, content: dict) -> List[xml.dom.minidom.Element]:
+        el = element_builder(self._doc)
+        pdf_node = el("pdf", [], {"url": content["url"]})
+        return [pdf_node]
diff --git a/src/cc2olx/parser.py b/src/cc2olx/parser.py
index 72834748..14f193bf 100644
--- a/src/cc2olx/parser.py
+++ b/src/cc2olx/parser.py
@@ -43,4 +43,5 @@ def parse_options(args):
         "link_file": args.link_file,
         "passport_file": args.passport_file,
         "relative_links_source": args.relative_links_source,
+        "content_types_with_custom_blocks": args.content_types_with_custom_blocks,
     }
diff --git a/src/cc2olx/settings.py b/src/cc2olx/settings.py
index f1225c56..e1efc0af 100644
--- a/src/cc2olx/settings.py
+++ b/src/cc2olx/settings.py
@@ -5,7 +5,12 @@
 
 LOG_FORMAT = "{%(filename)s:%(lineno)d} - %(message)s"
 
+CUSTOM_BLOCKS_CONTENT_PROCESSORS = [
+    "cc2olx.content_processors.PdfContentProcessor",
+]
+
 CONTENT_PROCESSORS = [
+    *CUSTOM_BLOCKS_CONTENT_PROCESSORS,
     "cc2olx.content_processors.VideoContentProcessor",
     "cc2olx.content_processors.LtiContentProcessor",
     "cc2olx.content_processors.QtiContentProcessor",
diff --git a/src/cc2olx/templates/image_webcontent.html b/src/cc2olx/templates/image_webcontent.html
index c55beeb7..b174e22a 100644
--- a/src/cc2olx/templates/image_webcontent.html
+++ b/src/cc2olx/templates/image_webcontent.html
@@ -4,7 +4,7 @@
     </head>
     <body>
         <p>
-            <img src="{olx_static_path}" alt="{static_filename}">
+            <img src="{olx_static_path}" alt="{static_file_path}">
         </p>
     </body>
 </html>

From c73a504853ae6937fe124de10a798de844735642 Mon Sep 17 00:00:00 2001
From: Myhailo Chernyshov <mykhailo.chernyshov@raccoongang.com>
Date: Thu, 23 Jan 2025 13:21:35 +0200
Subject: [PATCH 6/7] test: [FC-0063] PDF blocks processing is tested

---
 tests/conftest.py                             |  28 +++-
 .../fixtures_data/imscc_file/imsmanifest.xml  |  18 ++-
 .../imscc_file/web_resources/PEP_8.pdf        | Bin 0 -> 15493 bytes
 .../{ => weblinks}/web_link_content.xml       |   0
 .../imscc_file/weblinks/web_link_to_pdf.xml   |   5 +
 .../studio_course_xml/course.xml              |  18 +--
 tests/test_cli.py                             |  50 ++++++
 tests/test_content_parsers/test_abc.py        |  28 ++++
 tests/test_content_parsers/test_html.py       |  26 ++--
 tests/test_content_parsers/test_lti.py        |   4 +-
 tests/test_content_parsers/test_pdf.py        | 145 ++++++++++++++++++
 tests/test_content_parsers/test_qti.py        |   6 +-
 tests/test_content_parsers/test_video.py      |   6 +-
 tests/test_main.py                            |   3 +-
 tests/test_models.py                          |  28 +++-
 tests/test_olx.py                             |  33 ++--
 tests/test_options.py                         |   1 +
 tests/utils.py                                |  10 ++
 18 files changed, 362 insertions(+), 47 deletions(-)
 create mode 100644 tests/fixtures_data/imscc_file/web_resources/PEP_8.pdf
 rename tests/fixtures_data/imscc_file/{ => weblinks}/web_link_content.xml (100%)
 create mode 100644 tests/fixtures_data/imscc_file/weblinks/web_link_to_pdf.xml
 create mode 100644 tests/test_content_parsers/test_abc.py
 create mode 100644 tests/test_content_parsers/test_pdf.py

diff --git a/tests/conftest.py b/tests/conftest.py
index d6a14a77..cc1d7a2e 100644
--- a/tests/conftest.py
+++ b/tests/conftest.py
@@ -3,9 +3,9 @@
 import os
 import shutil
 import zipfile
-
 from pathlib import Path
 from tempfile import NamedTemporaryFile
+from typing import List
 from xml.dom.minidom import parse
 
 import pytest
@@ -13,6 +13,7 @@
 from cc2olx.cli import parse_args
 from cc2olx.models import Cartridge
 from cc2olx.parser import parse_options
+from .utils import build_multi_value_args
 
 
 @pytest.fixture(scope="session")
@@ -84,13 +85,32 @@ def relative_links_source() -> str:
     return "https://relative.source.domain"
 
 
+@pytest.fixture(scope="session")
+def content_types_with_custom_blocks() -> List[str]:
+    """
+    Provide content types with custom blocks.
+    """
+    return ["pdf"]
+
+
 @pytest.fixture
-def options(imscc_file, link_map_csv, relative_links_source):
+def options(imscc_file, link_map_csv, relative_links_source, content_types_with_custom_blocks):
     """
     Basic options fixture.
     """
-
-    args = parse_args(["-i", str(imscc_file), "-f", str(link_map_csv), "-s", relative_links_source])
+    content_types_with_custom_blocks_args = build_multi_value_args("-c", content_types_with_custom_blocks)
+
+    args = parse_args(
+        [
+            "-i",
+            str(imscc_file),
+            "-f",
+            str(link_map_csv),
+            "-s",
+            relative_links_source,
+            *content_types_with_custom_blocks_args,
+        ]
+    )
 
     options = parse_options(args)
 
diff --git a/tests/fixtures_data/imscc_file/imsmanifest.xml b/tests/fixtures_data/imscc_file/imsmanifest.xml
index 4a03a111..b33c0e72 100644
--- a/tests/fixtures_data/imscc_file/imsmanifest.xml
+++ b/tests/fixtures_data/imscc_file/imsmanifest.xml
@@ -66,12 +66,18 @@
                     <item identifier="video" identifierref="resource_9_video">
                         <title>Video With Other Content</title>
                     </item>
-                    <item identifier="pdf_outside_resource" identifierref="pdf_dependency">
+                    <item identifier="pdf_web_resource" identifierref="resource_pdf_1">
+                        <title>PDF from Web Resources</title>
+                    </item>
+                    <item identifier="pdf_outside_resource" identifierref="resource_pdf_2">
                         <title>PDF Outside of Web Resources</title>
                     </item>
                     <item identifier="web_link_content" identifierref="resource_8_web_link_content">
                         <title>Web Link Content</title>
                     </item>
+                    <item identifier="web_link_to_pdf" identifierref="resource_web_link_to_pdf">
+                        <title>Web Link to PDF file</title>
+                    </item>
                 </item>
                 <item identifier="sequence2">
                     <title>Sequence2</title>
@@ -155,11 +161,17 @@
         <resource identifier="resource_7_canvas_content" type="webcontent" href="canvas_content/canvas_content.html">
             <file href="canvas_content/canvas_content.html"/>
         </resource>
-        <resource identifier="pdf_dependency" type="webcontent">
+        <resource identifier="resource_pdf_1" type="webcontent">
+            <file href="web_resources/PEP_8.pdf" />
+        </resource>
+        <resource identifier="resource_pdf_2" type="webcontent">
             <file href="extra_files/example.pdf" />
         </resource>
         <resource identifier="resource_8_web_link_content" type="imswl_xmlv1p3">
-            <file href="web_link_content.xml"/>
+            <file href="weblinks/web_link_content.xml"/>
+        </resource>
+        <resource identifier="resource_web_link_to_pdf" type="imswl_xmlv1p3">
+            <file href="weblinks/web_link_to_pdf.xml"/>
         </resource>
         <resource identifier="resource_external_lti_tool" type="imsbasiclti_xmlv1p0">
             <file href="resource_external_lti_tool.xml"/>
diff --git a/tests/fixtures_data/imscc_file/web_resources/PEP_8.pdf b/tests/fixtures_data/imscc_file/web_resources/PEP_8.pdf
new file mode 100644
index 0000000000000000000000000000000000000000..dbf2162917cba7ae01675c123d7bdcebfd01384d
GIT binary patch
literal 15493
zcmaib1yq~q7HtJ7Rvd~4DQ+P_f);moCqQs_C|0C+Deh3gi@OweFU8#o6!+rrLTB!s
zxp&^XFZ?SB=Rbb-`PL$2zf=;FU;(m%QD2VjY^|UI0qg*KV=GjCel}4j7}Uky2|zDz
z?`3IY17+i6We4cdYXO0L069xLR}X*(50@bqSdRf9?BHMn(}WqzTDq`tg1A{hTyRBM
zDK&XHW`K>QH4GpLGqJXZD~eh;+1tX{cz9UZS-~I<Fe`)$pb9mEI$8c{$AHSF<YaH^
zY661?R<*W-vcdBM*z)keZ~RWk(%w!C>H-7Mi}7->a{$?a92`Ip2Nwv!#Li9!zu<cE
z_NM<^MNkkGW@q|PCg`tnO`rfEDw~KrfK9>P$rft!mlEe+N)nbfF7V9QBy8Y0h`~(k
zO<|~Paxgn{7YhIo!XYRKaCU*W%@)-oU0q=SwVfU7>w)I3Hv59)ELh3Q!e?1n3FYGP
zr+^P1?u6>3vB4c>pvDd?I^qFQj=_a!TY<)2V2wvZ2kx=Hcj&vcT!~_aI>7Am4tfuf
zAoIs}Im#M_4R;yp>}I5sJYiG#h1IKP`l+I7rUZSiNfjSSGlIlJ5GI~Cmdw6O3ogF$
z)rwRq<}WmA(DJ+#GKt`XHi$~nuqX>)dD_QCT6w{$1X46UBbcOnXZqfldC75W*-2{A
zPLl}kw(uQ3H0aM#{%jS;UtLi1bbtZal%VGD;#FYI_O4DQFlPW9GVsxvsKQ(Ty1%E!
zrUvtH0kBEi!WBjSd=>rkRazgFP29spQq|>Qm~c}`5a3}LD)6?mN!Z)DJjf)#0Pr8O
z2dO;F)DkLU?*Y(dhYL9&aPV+K;P~MI16d(J2!sdjQWS0pvvY9<Jj_f5l}**f$<@R~
z3F`D)$PNeB@3#Q1KSTXl+rzJaqW-VioFCk|!ZU%xLe|pM8KC>n0u}wgfB}3+<Uj2G
zh$n6XvxUcgK$6`b5_n($<iQ&53ZM%w?T;|>qHuwdIpDWrc!i?UVgPnQL3knXH}rOJ
zbg@4?fE-|kzoI_)`Cmb$;Q1;6c>W#jca|#u^a=W#&j;=Q<x|Yw#MKtwLpa!>cIE(j
zm>r9{>cg%Axc?pJcYXgIhMk?`Z()G{I$m`DmDHaD0RCUl^)NFvCm0-K3a+;B?z01a
zoBziE{<gnzmbRAg!R!9jwujjN)kS!E3Q$`(SpQq?cf0;W8N~3%#QsAFW&r$|`Csz@
zK4A3E=KX;a;BO@V4JZ#y`oFaIp*j_Ndw5r6|23~a@cD2<0lqx4FwY0{{UrqaZWJ6e
z(qa!ffZwqncIIDw{M%Xe2gF37E>IhL^9Lv9@Vb8kAC5GrleM&+nf=3-{RzcCC4bz5
znF8RO1A{yMbA|qu>L2s|Tfo1q&L8I>5CA`sxw+t5{J+jhxDMp+r{$hEiig_7%>C>A
z43<h$+BiA0Sm}-7Oc+OsX+=!1sR+SmAQl#<Fcpd{f|%5!VtUj%wJ0>TVzk+S#^M@u
z+%5pCrLBG;!MKhigOT{oTcs}+>Kyk=^&lD<%boN4yOERItb?s4NXxmv=GSw9f$Plk
zbiTn?k)d*r5J#(2MOJk0h?}xPx0JnREr-bT^KP69h%PV1EV+mI^6X!EYlCr8TEuR*
zJvWP8e&sZ`WYPP)jFA`<a+rkp$=~CA_2G=E*ehzre;O~$AU3>os4=WlQP=`>{hZW$
z#vHT07JM=SxgT2XJqRr%r;-_E*89eN?-{a+F>degy)J^6ot1wdNq_v}crkdhh~Mu!
z4Yp6%u4oogB6Hf5``Luhspvh0()~|}&nBjYMjkh|{Fc~aebqra;!E2-fnH23lspV(
z-ExlooV?J~to5^}1BB><H^)<w@BJv&UMDBlX?aA(|Gbuf5$PPh%&$wiLIkOz21uwe
zB?N@lQ^hp9x-#oFM5fnqGmVg2!(di~bJ&yw(LHfbsKO!*Wt2^yn3$^i7LnwzaXNli
zlJQ1&&PKF?jmJFCr}MdaMr10NqxL~r0+(oQNhvkbjN|bb1Ir!f#teFu5-)okhrb4q
zt?6U47>s0$oABLu#KDg?MkSHY`@`-tX!;R(VJ<OGf6}7-q%^;gJ&r~DNzMIDk=%&<
z5Urn%t<3+XRiytZ5<P{M7~)X}Ubcu45YeBKNH(AT4w9gP^&;2Uh$z^9T@B|xk})4o
zOB!mF5E++`t|gD(N?aIuA7uqA`pmd&nu<`ARQ|?lHA^MP>P-}f!be^sT={qR38@9-
z(;^tH8sU!=KXhMETE!iSSv|=V8)|j4dYs8@f?VB=`CX0oF;A32q@PGeYalp7;fYY-
z?3=t^o;Y6ryzgqumS7fNe}$y-2;MgfU^1Qvg~yqXZ<5W%<cu&gQ2AB6Aue7w)Z00%
zMij13H~V>_%^q)#?Oudb`Fr`_a%75|KOy{1x=gi<T$Oy~Z$75CjFXDYk9;A>l5^P#
z8^<L5P`T>&QF!^fDxDy}P&mS$3C5o^{H{fEa}?)L=!0`>7TX%54(eBbB!9y1MmPF8
zENkLbq#nTHM<pK<TB}{`yoHKCpZF(z!}L$;_aMr^{F=@h+9E2HjrK;f*W+a|l7Tp3
z*S(ym3-HiN=jqqClTS)>T#stEc!{RQUbbSm5FJXoczRRlv#nvAc3c=V#FRX`H)+7}
zz|{|qO|yLFfu@h~RlPgP#nu~hL1OAnOU7j2eORPW4o0i|DfO~hgWw%qL!jNGMQQFQ
z2cIaO9wZ)-H$d(P7G!H59emb(b3SkZntgTySs?I>Bma=~h$8-o@O12g<WzPRVV=q)
zem}HDL3c~x5ZHirQx=Iiy3iW3Ww6ZEfO+xEfjjEkZR_4CX!$e8{s-jM(ovIBz@g(6
z;vouAR<_|2Ne0v#eA}q|7+;n(RlKKnZ{NOYL2Q;$9P4N`w;(yx_CmNwk8JrIb3yUb
z(+lt7$=;)8`n7|t@(ZS_ICA9uPjvolqj5(`TQFk8d(>Oh8wykJ1YZm>>(;5CwXF-S
zNk3h^h%b-?o_fb+A~uVUbh(da{d8{?IOTUJjlBMexIA}yeW7p#+CyljUh|zr^iDE(
z(k#i=<EQBNQPclmjKZJd+m}|%H*DV}PbHUosz^Ni4Um1Q)`Y#N@1Br-;(p_oQ|q7g
zJ!^GjY{>%iV#I>&Vg$x7XaBV2gV58KZ1>fc&n*KN_<P8{@&`{^KA!ta{$xAaw1`|p
z?%sO3>}P!S$93PF?0fy^+pA=Q(-!tziW^0_d-yd1xxMd5zMH)_lB2_k%~~~mlp=?(
zl@pY2BNB#+U4yTjjcM(PJ-PWvW7_QUgp|&BeDwIG<iOg&O^1Nuq*uDECz*7A+<H9q
zVknQI7DJG_<k5MLLb%^&{xp7*h_&lZ7pe{U>>ukLSEt6T_5p-v-%bLgSc+bh%eL7}
z^C4)+?+pf#iT727UXXY8D(rI7jW!NGYGKX6)MhF+5$x=pE4P;G(jqCB;I72Q3Y;8e
zvcc8}PS`ic-X*51<SJ^}3XO>VfFZ))lEPJ?wkt#jVmUFwXuysu@vptdcIJ(+Q?`4X
zs310%b0mqyZD?FMO>{)sxtkNpUu#q>sBk@#V59ai^4u6XMRp)1HK)@1DE8tOEM3pH
zzH(u|tV-Lv^thM;?Xfu1Czqf_&9V!TX&SQEN<>x%o&B#PX0(E*g9K_xZO;J1w%8}5
zJzSmnb6d)8lyg+M-3Q$kg;*(5-vr$RN$~ah7y3ny(8{PcSL%sEP2Ei}1jQ+Yb(zu_
zGC`AAS*VScWqdUsat5%T`h}%jbM7y(Q#+UAe!SGQ!F;W&$JmTKbl&EUIhMqn#bQi|
zhSC1A|1ie&D5U&c<HIJ)i`%WkSmcx}@o6HDUv4YN?OpA}j%gQ(RECc1f(&<f-Yf_+
zvRFwqP>hxU{7Y7^v9>#UJ?7_3elJ?EZZX=pr#=Xs1G>G3<C%lEw2_=EI5dJ|^m`>{
z=0r-Cu^T$;R|(cRkJOK>9eEFp%?OtJx<dDps8x=tudvCCW;{58=t#8a8WW4nTd>{2
z^CBv{((tgm<inBiS~R>r%c<UZ?dFvGB)gX6A-uLht~xVu*N(E_4$yub7&bUe`VE|t
zfgta!C8RsVRYp<SINfAJ^7`$bF-2M6?m>WjokX4TH06!PG{Y{AbC*cD_B>7V2M2~l
zCGX;WzF59rKc?I2Sjj_^y0|+XC%f+kir+ttwr}k-B5)h1esPPmODfcsE)*1c&Uj;2
z>U|(t#Up13!vD&ECg23Z954}ov9MJXaqEv!PBOi)Yx#?7ZloDo>KmHfe6UE4LoB;)
zo!Eueg~WI`dATyb;a6>M?HieL8KUl6|6}Mn<%Dmw;z>JqE!hl6!X%>Gj<}J<fU+k<
zZBUNjs|Bj}K8=>Apxch{?!+ckviZ?@&S3{joyjyxrg-{d*tLA8>Y|~q-y>P?x4qzQ
zglW}2a2>7>+Z$NwGE0-qW1F-(Hq)fCFVie__9j9wcOzdzW421oX@g(SuSrd)DCxnd
zbVgzs?L;D&`;c~iXof@eA=ds9njhXG-W{{|%hXP=GR{dS!4dP3jH6U!IA)k1mZACu
zepEPD*G#xM9vk$BZ9i^;bNorXCewk^V$MzVv3vh*f893HL`EU@#I;p%gUUidW<j&e
zE$Hm|neKKSE#}?$n?*uzron~QVWprT3})6yqj|+=OkJD7Br{K!!h%G9wt1&gM}|hD
z328S8-&9_Fa6pOqq+OC3N&oAK+c(1aQhMh8^DQDulGh03Bwd0lC@UIm-Hcs2UF+e5
zSgsl$v)oZ$BUYCo;@psOg($$ZPYYJTyYwU971psfs??`D$gwgB6awfDavOumcpPnV
z5sOfp(xUZmnXa(sSb1l-E*6M)KT?=vk+k4_q*e_=N|5JKRDX(QYd*F%@(l4Px@>#N
zENLulRrBz6Y+8+=y>E?7>sDQ3n5HYa{hg18kn^(G36)z1w5V-~;j5N#)|gv)x*5Z-
zwvCU}BT<}8n&C+m9U|0&mI>77VDc#JKzre$RY!0_O)D;z_z(PB?55uN<StD$`{lu^
zOmcjdAGinDlc<hI+QGP+B|fWt7H3qQd88W8<u{E+sDeRvi_;6=%3kFClD1(@3ntqm
z^(d$IeeUJUW~@vj$mjc|LYL^nQe|99aHiO41(d*EB{!1H|A(knh`kC)W9r+UjWy;I
z%GJE+;1zk~_)P|GdcP8Hsmq{aadif_o`G+HgzOt5W!5}1{DWN~r-<G@s2YmclZw<{
zqi+Rl!oINxD#$aFyxwM-ZYnIR;4MGiG)aO`j2;me<-INoxygJE#7&DD8@DSWWtzO?
zuPS|$>6X5;`Rd9*tVec+U1nn~qX6sV6kiq=7nEQT-7}MhWiC0ISL+}G5p%3J6fa8T
z?C?5q$ZXY-KuZ|!t66O_CgF!Naz?N%tF3kI^CDWG+VM}JElG8yX;&YU(JGBjk6+M0
zV=j0GI_;8COH;!#d^kwN*dkx_U{{n`ssY`eEXI((V%||(#0?W8-lm(Hm{e0NETm^c
zOG*q14-|jX9&p3oGP2{?m>x^b-IJLCt2EQ$_&#JwYf>m&I+klO&X^;D_X5A#L+5pd
zvY)-$%6U~aqUYjRNI<ha{;5O;z13}r-1rPr1f+$D=#A+;Fg7O0)Ko7vCEZnxklCrm
zBYl)GO<)+C%i4?Z!a7Z0Vfg3cl!Nz|7##MG4xCmVn@89}D?$BU87!ldCj`%{Pq{=F
zG%{-X#;RVCFn=o6A=4tO%bx(1C1~%Y3_hDoOf7z5iT+a!JU2FvGjt3-Ar})jlwG>9
z*gP#sG;17~AY%@%$o0&uS3Z^tBYs-(jI(b@OkG~NdOp$_n*u|BZ(aw?>oOD?w($$;
z^hDs~+RR<NtJ!W*Lg&#Qmt-;FZmqoO$NBkj*RERYy;Y?M+n6}>khdic65NUhS8l}-
zChpuW%i3*IvwY*>xutD1HCd}-*6r&H`pRyQRF~tJL*<v<wXI|AvR;IIpBXY4GJ{1U
zUPDuNKhh6rt%t+RC2Q7h85+AF;L3ruaIR^A1)m{^F37^7yKto_6tvUG+4iY8x2m(#
zPM(vNsA*+xFyM$cC9VrHC1~PpMsyIfDaIo<4jBo{bn#@*l_n*S`}EN>4)FF%+DgGs
zZ!J@0a87}HuUf~z<%x36$PdToJ_?7AM&3lX=zdRPR=$+W!ZokYifkm_jy@iJ1<=vz
z)fZbpNc$9h=G083<+2!B)(0|j3NX6L$90~Y(#LH-ZPc4@)r=OiVC5LC9&5z$q#LU4
zp~pdWkqkC40C`n)J294OzpgU7IWoZHzofjhu@AGlS@V-nHS-#1Po*EYA)G+NIor$g
zn9Up6cB(-?qus3W*>HCXyOLgWm1a#{9Dg|*OhY#<UQeI^d99ah-f*fMjOoWXQ?MDG
z&v__Q9|Y0;oV!?q;AX8~a&Y-g>ITbCh88#aWg}5BiZ{36b;gZ*LmmarC^Xp6A`4<|
zA$6V6pdt3*<429?O4oe%e0!Q^w~`*qV|3dd%a`^RA9Bv~#U)px4Q!)p4922_nN2x`
zF9j3=1;$$M`}BSDzTEhEMVBiEjrx7<YW8zyGLWC|Z^W%-q*_w6n!U_$I(E0;gPx}I
zy*vEggJ`QVLTa+GnaUjH{j2UIBV0p)B9rubdFRVJJrk=@wO3rQ8#2}9$XGv5VH!?(
zPbnkCf^q6kw6O{@U8+=;6XAI;V3unAc?d_qNhyZuGDT|LR+qYcsRgw$b5}CS?fl1I
zw@6-DhA|B#Y&>QEO5nGKC)pB4e<ZV~7J1BV{<V@3`RL9n@6njJnR%)FXyR+0WF7>b
z^n~VbZi)6LZBot0MOEUx^XYD~8w*>7o&{Fstn~}T=5~d1ajG_Q`1AN~e3pZ4q$VZt
zOg|>AWyXtChsFu<<$b3KUM+bcjW%XBJXclK>=g5jGdy%xddu*cMszTre}3#pINB$z
z<ugrSU;WdC7a?1(L>Jz?`cRd98?UZAG7c^dPyd0ETrsp|xfQ@DR0=3%S5%Y#fuNq-
zWmT?S!Hk+PMaX{XQ}jNNj^uq(W(TEzh5yLvFXdJ>!e?cVN<@5%btMIgLd*vk``Z)L
z6Ywq9eOr1|S5S39Ly3`U!o|m-mP9F&gB1?yuvCVTtj$_vYm!KY6!{5Z=<t%Aw@1(J
zP8MmZ_ZG8iL(^_^$%#4mSM8;@!T^=yS^F{nQv8+)HQ&_z8J%;*S@^}&YqP8B?sXDJ
z1LZ|u;TQyp)_UC|{9Wb#T#4tVj1?*f=GxLTuV&s>To;$ZzMA=rTm^H&65MiNu1D&t
zXGHy9s%k@PE$qwY*%nLHAs`**n2O;F^-n5HR@EZfG@?rmpI3jyH{!R*)pLs$m}h5}
zObM0tsq<yjbJg;(H&vbPeVX^T;x!pza#m+Gw|g_!p_Z*l(raAtEOGGF+n1_Ug~cfy
z8^*epzK@wEcWe;@<UgyBOpJ|-JT+?aitx(wD%F9hv8keMJIo}u#yzIQvv?+lHi*KE
zR)kW7X@hF<Bq@~xnS<LjJY^<^LqkF$&=d>(jMZF&XN$bTS&s9p_1E=lq_M#XfxrP#
zhYciW*Ps3<=WiOomDQ<7#56aE$y=>Gro6E<l9ivNwUMVnIG+Xz)LFdGaSTk%@eD`A
zL{HYHH5b=J<j%ISu#>gh21jQ(i<J8;$iyv`9{fCzWh+g&>uiKB{U}XBux^?u;LVxb
z&%#k-KG|g5&Ztrbx|yD52nncE9(Pxi%ObT8{}eSD^GQ^zEjH8>m|J}_7RAyCE$%?S
zCg^BBZ*LYK#NSe4QmGREr0X85P@qy+rG@^<aAoSs)%O-$uFfYvRVtu(Eo!@sh)5Dn
zp}}9|qjOaCOQ7rZY)5~Gj%^``yJN4<bwg*~?*8=CCu~Zg3Lds8`_3IYZYP<Nw`Hff
zXzeG3det2%JFc(6R@H{z6hY6%lJBJ{PGFJ|+CX3+P+bOJWyd*+hLU!ikF;L94P92b
zS+m#t(krknEhbfW2+ceG-~^RGzU%@>nxM}^@CDoRNtqH^t>S`tnWAg{zJEHjLR=o%
zORmgHzrCcl#oSAgKxTIPB-4c6aHq(e-I8O*%o~F?((E#^?Pdw6sl8aVK6Xm3cr`LS
zTxkp>FOW|TXOru?L@Zz$E@;Gk>y_iQ2a!~`p9nVb@rICB<81b@e%<D1#9m_yiQ0b?
zRnaHQS9{_Y8MgH$gZhY#y3%!G>}J<&4!Q%~Tv`Yhk$(<s0%`8Kfy_(#_kcXkLw3<k
z({f!9NTCa;J-GXaafv`viZzJ4?I=XVccYdhC5SNd!<$purf&rY6KGcv-ggIsKgUPB
z66r)=8e$-OVWE(0;|x4nVc1%F_V#&ST#Rj{nKohqT?f9g3RkP`(c9#)?Pu71D=b9Q
z9uk=ngH&c*z+ik<Is+LstAymYA2hU;-_<jh)eZ`B><!X3Hq|3HuaY&s7F{ybvn14W
zo5>NmpH7hdvLKjc{$0h<-?`DQWfxd0U$@@NwIW$N?~SpfZq{>8yN{jqNu?0iikcvy
zPp#M?wXh?mVdMA<lbzC%2IXXQrzEw{9{yb6OxO17K+H)29B<ybxicLH_paA%@u;p5
zSJ|g=MRXc2+Si;yxpR#B(79=@sAjpL$;qX{=@(y{)P&D6&Q3U9?<DEkSJ*($$NBqy
zO;~fLWSlWscX34-0d<3P7W?gsCXlVQ>*NB@i(e`Ge&{8nXUu1M{lP{uC7(V`Z&KM!
zd8Qhc*6*wQ%VXwX;7-l$gB-X2g<9H2M@s^W;R$*K`Qi=JA;i=#;56{LRp!Lk66sOP
z-PFfX$<WDAu0TW7S0=)K`8D#-mgEFJzBh`%L+Fp<>f`FE8La86>H3u|-!%2Be2*l}
zqEcK%ew|BL1&!AvMh%bAie3eelMqbg6RUXWBZVhpDWx5EY#QE<LZuYWATC7&<)g}#
zx}Ei+R9Vtx8(*@A67W&z`<nZT&JXWCF62;0QHR1h*O&}*`Lpq4;;~_Q6`BP~X7ZUX
zg|<Nn2AR`=Psxyxgh<eD3VX&u7uuMl7-*-5cjS;^B$0gXi4?&#*^6HDYkB1FMf~Uk
z<vhhY@0uoZH^I3L;|;vqC}ryvByZ^^et1;TDnn1#uk-~oT4uAhrJUa{rmPy-DMo3n
z161F&wN=@*(ufxaHqv^>*|#27KPS``oEDX`VSg1!e^S72=O^x&QyTEPP`9|k^pN|f
zsU=MN1xdO1ub&PH>Rk~h-_=kGD#{#IpK7|Xl0)$)rF>1GZtw0pXWyzOwUnJ6&lMHS
zqKnonU<)?ZJ14rS+h#H`y&!M!9IdLPsM{axQb(*eOA|-^kyMkeH|b`%vmD=^*5ga+
znBrX%mpbb=Sg4q6psl`J-Z7Hbbsiyb=!^!@7SEQ2*^T_{(@HG=R?%9+D7rVcNXO5@
zpY$vCFt%>4Z0?x*NH)+dD!86{EAe=&)7LTO8hMrYJZBYCRS5jmUYcRN6O=;x^5rYy
zxb6aMP5~Kn+VaUk?8N)`3t1%^@7R0F43c8|_DayqIZY)h=GRjqo?Y7Z5|_96lTGF%
zIun=Ys4KbkE-YuR3I5cm%Rmfk#pQCO>>U_~Dk%9$L-Mej1gpK1!cr>q;!0%GXX;$B
z!hfASB7f#^fPzrQKw-giNc23#AtCd2@O0jYiZln}<P+u)Z<0tFpAoZV^bXt@sLkSU
z%7a?e!4OfGks>Q7t4=$Zgj|^lRd<D8Zp|+ely6G$!!%?K7v`n+<0Liqc(1Fdg<AG=
z6!`@s^5)eC1pQq4807QJ7i;WJ8t8;f6EXL{u6g(AP5PuEPcn$nAJZqjf9LdbNGjLF
zHnqAfS;DM8=DVDk>bw5!ghA@vxR80I()ezo=pm-{U8Ah`A!^CtRmc6uER4C~fd0+=
zLCaY@L175Jd{JMh)`uxN1z<3jHNti=R_KJ91IO-Z`~Y}?aZHL{ONG3;;!HzABTl`{
z;Dw_LFGAnw&h&05FCL|2pou`Ta*tpLqx&}f^HVLykk?*F>+8xPO^+gQ#=5x!-af5R
z*TSsne}tx36z1Z~BkrNN|K1aSaEWIpQp$9)h%h{@d;IKO<SIk|ODAC(r*5r1?CY<L
z!Bb3i#U}{dS`>Qp{+=hs_aJN}>y64uYcpjKh*4UcR@zd8UvukgtV|}~Mne4Y{8m#e
ziX6>YAf37l%ge9DN~LR{&$5H)bRBKSPWn!7d7?bn#g)l)OHHytTL=rmv7VI>D+19C
zq!X``e9tUx%Z=ll_4RZ+G=ikOK3u$Kr|7=sZ-4Ybc!Bih_v~aHxML2-Q=3tk2HtM0
z6#No?95LH^MOzwBD=}VSBeP1pQQksuw@cw?4F<C3ONGV>>e>bjCSo3Yl<wb{)&s*#
z>qweZGJ0%JWwyu_X`<_!RN#METw^O{C#rkq=p4p~jNp}yZy)6^w8<o;GLX8i_y&JA
z{Gy&;psuc&mX#D!VjE%PSaXyDnOI@Xs~NH#tr_JKPn$^1uma0Sv}q-0;HT)t;G-Z6
zaKi*rszI`mro|&T6@m`+Xc2+=sQv0~bb)+<#x!+;^aw%#lY}6QPYyEFQ|TEytOvI9
zQ}i}=kzDV%!YNxzB+7w1K{ePb@zAMp*D%%I<zs*E=a4~jqJuc;a1*bAfQ@sc%bC)5
zhTf}u7udHyA7_wIzV}GMk)LL&lg0vk{iyP~WcY(x!iDoqPQNj-YJs!s%=29CAT=m*
z<qlaG`<p1?MUso=S9HUA_&`|&`Eb>>UR4=}5`L!!u+=l+w}8NNX?y#*W-j5J^X-AN
zm>Qw&__6pgu&QeAmc(3qT##j<<yEN~sxLaR-r@qd(VDNiEr-K-J&c@7n^=u!1!FB(
zI@e4;(3i&7B0ZM~XZ?fIV!rH;s6H>%V~A4bQsI}}){EfxQ&DeO!pLMLJm;<w&8cP!
z#x197J+zzNGpn3bn2=u7zmv@yZfKqG6g6K8H!`@@va4Q5$L_^&K^!ZJGJ$vsn@IF#
z9-yj!7*<Y8NYrFobYB_FP01VD-fiB_Eq9ge=QJqg7+LHoY000N_{N^A|9)@nORFkx
zpnePOYPHm!$*d;^W2xr)pdM8+L6Wt1Xs)LT9YaMq>pY$@6Seln`|f-y&KzmRxY_tz
z8B9;Cmrb#$A&<zSQ45#6VjVe+&k@)v3&#dSKQd++elHj=$bF)LRc@Xp>#1i^x@=nK
z<^;)$!P$+@$Z3=bj{PoWX}<NU;L~_IIxUj3*oe$2wojg~T8nJyxOsvc*^exrQ}lkW
z2~qjPh&dyd>5X{HK}OEjXA7=j?gQ(~u+i^97M3bir@Eg);*j^BhG`Ax^GtL$@o#l1
z_{9vxtfO5x-+DGv=?asd@I4BiY2#1KS{slhZ^Z2(t}`p<{_Y@BAJRcQN8CevpGwu$
zAIYixwEm00Q%~zBN#=TM^$crfbH(p;7iv8ZhAvXBHy3S*qCJO(2)b*feVq<|kqI<J
zUk404(QwO+?A%YG^J7+4X0^|>iKxy#>y>mWGSN&-%<!1i7TV!mBaGlnZCB45Dn5<Z
zyrxDY-i%yW(6BqXL`bUE^o~1tL|6k6P5SzJ#+5?<=Wz3Nz;+6S->m*?f#^t&G_3RR
zbLA)p^K1dOa}DX<Vc^8Gjcd}PZU^7KU&N#7sg##F6wkPG?3jJt?G=x;a)N2U^yQXm
zb8d%nRtu}R7h)EOSL-CG8?2nCd>!0br_?vMIn?k{o4>Lit0d;q5Y%D7L)NCBq9hWj
zFNpovEhVgBqDBIa<z?d5?LS8HiLI^3l_~Vb(*>)_Fs6+%&hW?T9;*fQ=Y$(eGBT)f
zcvWx(lcS?licSTQqlJB(Pm98w<kz4cE~(GmK>O^`aD=*+OAM@?(29eCClTWEsK1$0
z3xRd}mryEH1FQovkql870|sq+xy|F5Qi3n1o!p324PYKJS0Xs(GD$MrQs=Vajp+77
z&q+GJ%oN)o;~JVrW>~)GKu0Q|HU0&Dkuqw8PGpUT6Nj!MRj5236rfTv+6pdoWc^an
zzM~AA8E4$vXc*=F_*~zsGg-qRgv@_rlq;khN+)qkFZ;5awEWxK`JR-(fOgD$f>OQW
zjuJ&h@r%3N))i`==Drx-Z`8<EnLi%c7L${r>&46}lP+gP1M&x~1G>&JI%I5u#*6~Y
ze$eHQQjR4Heir_<yB{IfvL)=@LRCH8ozSZt+aVMiC5N1Bc}jsje4}U;S?6^zAhaaF
zih4G^z5VNO1Xm-(>j_sG`a(AODJWJS+XCfTgk{V=bI<DP^>pC(z~Q~`CvP#)b%M_A
zz@r`CLAY&Iv85sW)i*j0rxUe>GN%JOk{KS_WjdFIF|ulm)n%u{DLKEs#jw$C^5)eB
zsinGTj!vHq1<La7Cv#PcDa{OU$^du7{PO5}XX)57spQCCue|eDf2B1fH&W0D6ON!H
zE3r8Bn&W0M51vv~zVIF_;v$mY{+5s+8^K&JQ&fw4b(z=1m2Hs0wVu56@itEOvr5#-
zwh5DZUv_I2R~v1_*^;JTxR=O|pKy!tm)p{vDQ~}9i6#TqyV@lF7|A)_8kG#2_?;=m
zDom@Z=Bu-NnU;;LZADp5Z^c{Q1)fsAn&W(5xll&ePd<1#BvCh6=y$gXR^Jq>Ty0)%
z=xOx(aaqclGANr$gM5T;yT`}FYTgx(znojX8l&wFq0;rb3TnEaNHF72fE(lp&LHg;
zy%p>bD;F4ZBJ~p-PJk+;S?o;rkDHPtJIHT{U0cvincezcv21NPE_&O*tVB|ZD4=a%
z<=rZCGV><V%?cfk?#oCMCiy-tqi=ZEV%PL;GnFk_zPcMNqxSqIzJ_-Dj*|n9tgjPY
z(`(6fQ!;IyKK~pnC|mJj53fPLN1Lsuo)n_J<~>=SkZ4L$R=y}OD%h>Pdq)1?+)4VE
z<D#z(%nTlNiEmUeyaUk__wK5cwR8YD%=fN%P^RWF2?=VbQ*4(*PXDVF$H_Iv68=)_
zbaygcOGWxME-s|y(>~)m1$pU1o}D8eP3U4Lw^37%#s+P?BT1UfMXfU~VfUz-wr~2G
zNBS2Uo};Gf023yts^@p3wNsfpjQP%B$C{}L8oB#}l75FH9z$=N9JY^<*D*PEpL~*k
z#piaT_}yx1>Z{N27`oZOpcNQAxz(1Re5yc=pZ9on)_JDl`zF@B&&m_JP+;>&Gi11X
z9aSghastC%kYV_z*WANXWV%EWj8ropAfQlMpD)Rj-VNP4KV5Krd?u#RRR@H;*Su;9
zQ_0ROF430mh4lN)drSDEQ1K3KK5LR51n6D*)yk97nfdXt8OV+`XAl;`LLmLfYC@Y?
zHZQaE+nSCIx1aYBB+F;Dzl$h?p=l*j29SIS`A*)g9i8?{zVd>5AD_P>dPU(7J;KH?
zmay#0uEH@DOIyY=e!Sw4v_aShmG~d(6@i2CEqN{e8sF5GF)ff-M4O`%Rp>IF_@xKj
z;G`;&z30ck8MtJ#QmVlNQlq2EJyH1SKwHhzlGAg^LUvORtBTbaee}bs`8<yEzRH#k
z{_TM8p85K3ui)QmxJ6u3yxSo#qka87dY)g2?iSsWmL>ku<a#HY_D5pi=5&vrdi?It
zqkC~2uTH=9)`9E0v{aEb0q1s9Z<@__1BWq(_SLkrOyV{Lxj0&kZNcl`C1&otvm<^o
zpF(qP#?d{=33``m4E*bf{Gvk}FYXVHqNjdc<cpBnS)xcvyn5Qj5w%Vjv>vYIrf}gH
zOh1o`oTSuhoZ?ph)>t){CZ%5*#jK9~#o}Cka3zHp4qmnqd-~0|gRkSox42%AV`OCH
zk;+jTR24}FHyWK}tRqGu?!tXr42Pc4E=QT>O=4Kq7%|P`RbAsYmBsgUFs(FVF5x=>
zBxaH-tcs}jhc`ml00pVS$dB!N98hlG$X--JJY6z0j%9u(nX)<fj-Resjy$$gD3JG6
z*5e^WA02N3$!CirjUiFFhdNd6gq;UCnr$aEN90FOriF112-&(NhPw=+b7*Hh1riNk
z*o}vuhkb#?;I9JO<7im1N8Sa$+<bmycM7KR<xl^#c6-fZRuM!&D1<fAZ7G3sE{b~4
z5FH`Q5Y#Ej!I5tK%-&)=g8IeAvs`fz3L@KBAXPJIAXU{l$dP53DYi~kFJwp=$B)$j
zr&8)OUniSsd50d_Y$GU_Va;^<Ju$hh9QJ{jt=bJ9=&oRX*1Y3R8ftYKF{OkO>o4tt
zJkQ5(8kXgMjbL_#kbC)XHC+U?ScM`hIX~i{bi~96wf~NkEx(MfRL}U9Xr2|ccys7>
zMCHh7)?W40xkt(C$U%njU}ifRqEDbJP^5^#&Cl8_G4>w8#rM2yg213g^s54S|66EU
zhR|V%Ryet;JG7m^<M4@HU{6=|>dRxfqBwKF6+%U1<Z8}w#}U*=#{;8C2zLh7dM4HQ
z{y7x`fD6|oS=#x%Sg8B+JmQXSvQ_5G6<m`7*!MMKlDCVrBO1DctBKd%?d-{0e4TDQ
zePBl`o93YB3ehW213p&|75O^T5FT~%!|~)F(s(`JD@}7b6Js4RbD_4x_9fZ`=$+sK
zCr3d2erNj%y0umSXtGz7acwSK3z0+}diSO5MgI>XOw6=Fhoehlt$nv-uNW?B@fbXI
z(-*7I7aVfeKX5*4g#p!7NTq`wGi_nT`X8%Uz0!$3rTH#MlcP5qLG$4&0?X+WZUD-+
zUUyzx_JHw-DgsN;clz&?G@N^QffjVnws4kpvgyAY&>*6#1o`599A@U-dS>v6Mu&Qy
zxBzNxfuT!Xggr$+Nk5f5nQcjh-~7qJ6c}Rs{L;U0G5$?_HG{FV3{4J59Gt_Wif{+1
zYRHZB!?V(uh;JG_g7#>VeX6$#v<lRjp2;`2tRmb3#7gm{pg?e)a(nSthp(E>kaxN=
z$X@e3cMIh^-(7Hah^_<GaeJ`SOYrV;t`tISh;%z9LBX9OMQ`Ly!Xc|1j!|_6YEs5h
zHvVk%Uan6Ys(H)B2uEGF#o~qwaJhbR?R;ubUSQ4OC?r<jQ`u7`Q(@p!Zz_B|p)-Lr
zVU{4H5;Bgl9V+9PUoP!|8`nVeLLA3}#UXGo<wvUWGApD-c=-GYGJGee8Jx+DP&VK5
ze>+3^F$wRWBP8?uk*o)KUm(^UZ$FYh$$NyAGpTotog_!7w54NA?~}-mEA$tA3@EqB
z&QL!`akkslCpC@^EI6^buk|fB%{6``B#lLG@{vz`jp0<<=Ts{E&bfza2l08Y-oK&+
zO&Mo0nwTUykbs9D+lj#Er}Avtze;YH=nYORU>+&*8A-@Vc)PV^P!v!ofHIU%m=q<J
zI&P(C_b^@Ja~ZZ3x5%D^_NWB??6Zm9F3DhBlOerdlhZ#C3K-_*w4(N6-8VI618Ba1
zmuXYb9+Q~bMKGI?j!3?_Hnn?H=Xp~P;pkbX$^JaT6cklwk7$m^`f3XiJL6T#4QwJk
z7a094x|<*+2YcnCRx^qzkFaq%I2Vn|#_0XM{9>yw!x}A-ef*INQ51GY&!KztN-cSZ
z54q@P4IY$(BqTSfZcI}>Qt30|#dG4!U&Q;z#QUejZe{L=3Km8sQZ;jjC3A;#wJX@Q
zE1Py57<L^twa|t+hl;c>{XM`gzz-)=^ZsPqa$bxj9t?Xvj1l<7i{Z|Lv7jItg}b_|
zYLkiN))>h>pmiiwFU-jOBawt0pPhR*GC4-Y?b#E)K=e;s8d_{op$r_@dgae4q!fxi
zV|SA8BtMQN+tGR+OTJSlY$b;sX~U#I8~eV$#)@a62X*SBP7)whYb6EHuLZ3Jw|5%{
zlfN%Dxvd8nc3qJHLQHPg0a?z+FRn?>(3Cpvh<EN8#w#%yvcAClC|eF6{gf*D{P=q`
zjgC2{vcSnl9trG4v|mO=SQ#egJ*X$b`w{qF!u#^?8;yf;ddbS~jNfN<U)evplrHiU
z>h0FL!znq?=ubME7x7Ig33Z)T7I?9<OpIhqM)@9A{toqhrO6pv0CV`n!De)3R}F^;
z_fDQjeV$MGorv0q^z-bH<Mr(sHA-ti%E`98>;xuDa9QGySE<^#Ld)e0HeZTf;xIA4
z(ef$!hRFc|I=hzNJ?hQY65L2u?>hDiPx&IprPR82^5WzZiCzqy#>JzcY%RaXq12O0
zPmDJeKdEl@X$+~cxihk8^ybKwi{zamj48JiDa-oSIHtKEc(s&JK=Zn?OR1=d3F4Z2
zk!NUq=7E}5`6dWGx?7^mYsfXyuPGby$Zf>vn$+tIy(*VjZcDImup3YHpyj9WehJ{%
z7E$7T2Pxgra*KOCOWBs9l_Xz&g1G$=3hWn|i}QXJF0#;94KqUR*A4<frOURjM%RPC
zWXs;{WIL~*GVztfYT#|iJiRoRi8%2T)v#1vLARttaw5po{^plBuIUjtu1k4-G1yL+
zqssULSam)?&0B6zVzHA&S^Wt)-(ng6r!dP6N2Fu~liMNW6Tq6-SDCkZ8~C^ps2fqm
zuTtcz=Tq)g;+5-#`YVIKT5(T>Z=8s@vO8OP;wPt0l*H%n^x%NE_a6WzG|g-{%UK}P
ze7W>|JW_lPdmNr)LY?jwpHl3fG~u}sdm`5is-M)~{K9timT*z|AW*o^|Jj<!WXiSj
z*Uz8)R#`id<bqwG_Np;+@q|nUW-GhAUn#0KSnp6Z-?698aJH}BgbnQ7oJ-7wm46y2
zt#+REx~yJUi1#!IEN;`w(pZ@FCjBXIEPK+aiSnf8)iPiG{7?D4JQs1l%sDa)XWGoU
z1#*_<7U@}5W^965usz}MMmGFI8C`m2%apc(nf494(20IyHMVpN;Px_tal1|7rZIii
zEeo&)ziUW$X9rhgY+8dgNE{?jkeYyHbyf4;gVQ=TIJNT&>|+)!F|(M^H=`ijP=+L>
zkMl+!ox+&S){J#;eJ!@nonwljLI^ci9ZqMbVcR!iXKXkVEz1+sk@Dl37r0GBbS?7%
zhP@$j%YKJC?CbZdlwACmUvu<tYE7Fm6A`7FM!$^cT11p&?6}zJdl?){n%yndpAb0B
z)&jgT&4ry^3i4*^U7e;J3mZMoOchTwwyjcTs;ikQK0vr29Q9peQ}Y7+t_#_12UV^U
z9=dUpWRf$yB{n$r*4xXDg~*;~YKxNqd+YbLoSYo$c3*tD@g^5%s?|kRFWj9>d6|D!
zX|Xi9X`aW+jlF96>SCo|6R{V~7`mX?@XB57AO(jLa8zhyQWm2Ll|Cs{yL;Vcny|O3
zlXR=>=2y`lv<e=<)3LPH9*=CnuhS^uCnVhP=nC)Do5R6pddlJ?fS?he%V78(VPp)o
z9<1FGJDgGX<V_HB@iVZi?cPs|au%x%!*Q~W&4X9xsHg}y7)VcoxPVrdtyv5d7p{ea
z6`FjDdlz3tNfQ*W8sGowqq|j3KX#|w>yTced^dSexTMMU&TV&l8hJ*b@z?Gg^*bbY
z#B;>1LQ_l+)dh5c^tus@A|ChPn=W0?s^hvCeIhOFWl=$1<X%J%hAe!&FsIA<M^y;j
zSr~HcOgIUf{n0csnvvIR#yj_qtHmUh|49@A{)6rCz~>QzIh#0HI=~5KfAD)AXcz!C
zHA^@dLjmTlVs8tzQ&MFSv9~dmSA%QVK+WM~1ynX+XA?LL1i%9UvI5~eFCJ932S*Pg
z77id6D~O$k6Y{`OfZ1vQctETW9x#ZT6HeTLI!M7R%`IF2TwENiKz0ZSZYd3CLRgvz
z+nL+I0B|bMLslZc`9v(7oIG$PPB1rs1;oz9$^~ZU0s%PKK_FHx2%KU8War>y<>7`W
z0q2iAn8B$HFb)9lzgR@Tf3RpCbpNpUt9-!k{=g|5B2Z`8gTnv23#zWhF2AW(a9+@Z
z<^xlM16~}Q{9!LCEhZ0jfU~Jg;mxpg@%$}T^>l`J;$OrL6_~lDvx}1_fL<6*c7ws`
zI*LxFFel3g0?)t9;6hc`2ln0ryXS#>gvzG*K(*23=H_PQ0l|9!r>?LAI5^q$0U!um
z%mHsF7dM0(-dHYH2n0^!&<B8l08Su)3&;+)fKLFx#RJggWPh-G_yL1KtUO?DE-rll
zHy3~#0^s<!YaVzY9(b48*|~Whs6lXA7bh1hkdp%h)(1d<zrE<gdoHH=JGFn2T>i#@
z`d=gy4j$0oDJJ?c16CdESmNhb;o7+o%aW_Sk4-G}pBS79FL?X2MCl8&plKUi957j?
z<1xPPgl-H+mV7GoEl8-s@<|Tkw)mJN^CCU3%OU7Fa)DNC!25YSJO#m;RB?s*qROsv
zjoZ%fCx9!L(V0|yH$~&^!#Cmw5+7o${1>XNNVy{>g?K(yU{zKiylMJ!I=fx#CKeiC
zV~9qW<hH;!WY|4bi2c14MZSaXO{E<qRRg0pe7YDXJVN)S=*zn<XBAh0dpr4F!Ma@@
zg|+WvZ|JFc$)5_)iqU<F%%|c-?w3l6V|`7_8;nw8uvL8G^9`Igx#>`E_HiHne^Yux
z+m}*5mezb)(z*yu(iK;n1B4fe3l8u6yuKT(pR<u@#9;n&h5yEA`hy+x2ax}b#|I&N
zgZ}>r7Po^_Bp(3xZ=AA7{cD9yq3}h5qZ&@e`n@?16g4$_bvw%kRwbNG2}i@<m`xr|
zFf&v*5ZO_GQ{sL<0k}9hL7V_Hz`tccIREM40kHeG46gDI83!l4!vD|%f_b>$5&uI5
z=a0cL_}?;a?tl0Lf*#QOpSD1D5FF3{DPxC#;YY@Q$#^*6$Hsrk;3wTbV*ok-sRyUN
z{=*jZ&lnHI{X-AVo%}Bu5CmcWZ#^Iw$obzr1%f&M-e(slDEv5ddY}xeT6)1AM#T2O
mY6CndJun`BpGObt{V+~v7pRlV?_mNt*@0ZBFJFo)O8g&(T<{D4

literal 0
HcmV?d00001

diff --git a/tests/fixtures_data/imscc_file/web_link_content.xml b/tests/fixtures_data/imscc_file/weblinks/web_link_content.xml
similarity index 100%
rename from tests/fixtures_data/imscc_file/web_link_content.xml
rename to tests/fixtures_data/imscc_file/weblinks/web_link_content.xml
diff --git a/tests/fixtures_data/imscc_file/weblinks/web_link_to_pdf.xml b/tests/fixtures_data/imscc_file/weblinks/web_link_to_pdf.xml
new file mode 100644
index 00000000..b2368c36
--- /dev/null
+++ b/tests/fixtures_data/imscc_file/weblinks/web_link_to_pdf.xml
@@ -0,0 +1,5 @@
+<?xml version="1.0" encoding="UTF-8"?>
+<webLink xmlns="http://www.imsglobal.org/xsd/imsccv1p3/imswl_v1p3" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.imsglobal.org/xsd/imsccv1p3/imswl_v1p3 http://www.imsglobal.org/profile/cc/ccv1p3/ccv1p3_imswl_v1p3.xsd">
+    <title>PEP 312 – Simple Implicit Lambda</title>
+    <url href="https://pdf.storage.com/python/proposals/PEP_312.pdf"/>
+</webLink>
diff --git a/tests/fixtures_data/studio_course_xml/course.xml b/tests/fixtures_data/studio_course_xml/course.xml
index f0162820..8b6c37dc 100644
--- a/tests/fixtures_data/studio_course_xml/course.xml
+++ b/tests/fixtures_data/studio_course_xml/course.xml
@@ -236,22 +236,18 @@
 </html>]]></html>
 				<video edx_video_id="42d2a5e2-bced-45d6-b8dc-2f5901c9fdd0" display_name="Video With Other Content" url_name="resource_9_video"/>
 			</vertical>
+			<vertical display_name="PDF from Web Resources" url_name="xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx">
+				<pdf display_name="PDF from Web Resources" url="/static/PEP_8.pdf" url_name="resource_pdf_1"/>
+			</vertical>
 			<vertical display_name="PDF Outside of Web Resources" url_name="xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx">
-				<html display_name="PDF Outside of Web Resources" url_name="pdf_dependency"><![CDATA[<html>
-    <head>
-        <meta http-equiv="Content-Type" content="text/html; charset=utf-8"/>
-    </head>
-    <body>
-        <p>
-            <a href="/static/extra_files/example.pdf" alt="extra_files/example.pdf">extra_files/example.pdf<a>
-        </p>
-    </body>
-</html>
-]]></html>
+				<pdf display_name="PDF Outside of Web Resources" url="/static/extra_files/example.pdf" url_name="resource_pdf_2"/>
 			</vertical>
 			<vertical display_name="Web Link Content" url_name="xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx">
 				<html display_name="Web Link Content" url_name="resource_8_web_link_content"><![CDATA[<a href="https://relative.source.domain/web-link">Web Link Content</a>]]></html>
 			</vertical>
+			<vertical display_name="Web Link to PDF file" url_name="xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx">
+				<pdf display_name="Web Link to PDF file" url="https://pdf.storage.com/python/proposals/PEP_312.pdf" url_name="resource_web_link_to_pdf"/>
+			</vertical>
 		</sequential>
 	</chapter>
 	<chapter display_name="Sequence2" url_name="sequence2">
diff --git a/tests/test_cli.py b/tests/test_cli.py
index 5c81cd23..0845b482 100644
--- a/tests/test_cli.py
+++ b/tests/test_cli.py
@@ -1,9 +1,11 @@
 from argparse import Namespace
 from pathlib import Path
+from unittest.mock import MagicMock, patch
 
 import pytest
 
 from cc2olx.cli import parse_args
+from .utils import build_multi_value_args
 
 
 def test_parse_args(imscc_file):
@@ -26,6 +28,7 @@ def test_parse_args(imscc_file):
         passport_file=None,
         output="output",
         relative_links_source=None,
+        content_types_with_custom_blocks=[],
     )
 
 
@@ -44,6 +47,7 @@ def test_parse_args_csv_file(imscc_file, link_map_csv):
         passport_file=None,
         output="output",
         relative_links_source=None,
+        content_types_with_custom_blocks=[],
     )
 
 
@@ -60,6 +64,7 @@ def test_parse_args_passport_file(imscc_file, passports_csv):
         passport_file=passports_csv,
         output="output",
         relative_links_source=None,
+        content_types_with_custom_blocks=[],
     )
 
 
@@ -79,6 +84,7 @@ def test_parse_args_with_correct_relative_links_source(imscc_file: Path) -> None
         passport_file=None,
         output="output",
         relative_links_source=relative_links_source,
+        content_types_with_custom_blocks=[],
     )
 
 
@@ -90,3 +96,47 @@ def test_parse_args_with_incorrect_relative_links_source(imscc_file: Path) -> No
 
     with pytest.raises(SystemExit):
         parse_args(["-i", str(imscc_file), "-s", relative_links_source])
+
+
+def test_parse_args_with_correct_content_types_with_custom_blocks(imscc_file: Path) -> None:
+    """
+    Positive input test for content types with custom blocks argument.
+    """
+    content_types_with_custom_blocks = ["pdf"]
+    content_types_with_custom_blocks_args = build_multi_value_args("-c", content_types_with_custom_blocks)
+
+    parsed_args = parse_args(["-i", str(imscc_file), *content_types_with_custom_blocks_args])
+
+    assert parsed_args == Namespace(
+        inputs=[imscc_file],
+        loglevel="INFO",
+        result="folder",
+        link_file=None,
+        passport_file=None,
+        output="output",
+        relative_links_source=None,
+        content_types_with_custom_blocks=content_types_with_custom_blocks,
+    )
+
+
+@pytest.mark.parametrize(
+    "content_type_with_custom_block",
+    ["word_document", "poll", "survey", "feedback", "image", "audio", "llm"],
+)
+@patch("cc2olx.cli.logger")
+def test_parse_args_with_incorrect_content_types_with_custom_blocks(
+    logger_mock: MagicMock,
+    imscc_file: Path,
+    content_type_with_custom_block: str,
+) -> None:
+    """
+    Test arguments parser logs incorrect content types with custom blocks.
+    """
+    expected_log_message = (
+        f"The choice '{content_type_with_custom_block}' is not allowed for -c/--content_types_with_custom_blocks "
+        f"argument. It will be ignored during processing."
+    )
+
+    parse_args(["-i", str(imscc_file), "-c", content_type_with_custom_block])
+
+    logger_mock.warning.assert_called_once_with(expected_log_message)
diff --git a/tests/test_content_parsers/test_abc.py b/tests/test_content_parsers/test_abc.py
new file mode 100644
index 00000000..bdb7b336
--- /dev/null
+++ b/tests/test_content_parsers/test_abc.py
@@ -0,0 +1,28 @@
+from unittest.mock import Mock, patch
+
+from cc2olx.content_parsers import AbstractContentTypeWithCustomBlockParser
+
+
+@patch("cc2olx.content_parsers.abc.AbstractContentTypeWithCustomBlockParser.__abstractmethods__", frozenset())
+class TestAbstractContentTypeWithCustomBlockParser:
+    parser_type = AbstractContentTypeWithCustomBlockParser
+
+    def test_parse_content_returns_none_if_idref_is_none(self):
+        parser = self.parser_type(Mock(), Mock())
+
+        assert parser._parse_content(None) is None
+
+    def test_parse_content_returns_none_if_content_type_with_custom_block_is_not_used(self):
+        parser = self.parser_type(Mock(), Mock())
+        parser._context = Mock(is_content_type_with_custom_block_used=Mock(return_value=False))
+        parser.CUSTOM_BLOCK_CONTENT_TYPE = Mock()
+
+        assert parser._parse_content(Mock()) is None
+
+    def test_parse_content_returns_none_if_resource_is_not_found(self):
+        parser = self.parser_type(Mock(), Mock())
+        parser._context = Mock(is_content_type_with_custom_block_used=Mock(return_value=True))
+        parser._cartridge = Mock(define_resource=Mock(return_value=None))
+        parser.CUSTOM_BLOCK_CONTENT_TYPE = Mock()
+
+        assert parser._parse_content(Mock()) is None
diff --git a/tests/test_content_parsers/test_html.py b/tests/test_content_parsers/test_html.py
index bfbc51c1..fc63e773 100644
--- a/tests/test_content_parsers/test_html.py
+++ b/tests/test_content_parsers/test_html.py
@@ -7,8 +7,10 @@
 
 
 class TestHtmlContentParser:
+    parser_type = HtmlContentParser
+
     def test_parse_content_returns_default_content_if_there_is_no_resource_identifier(self):
-        parser = HtmlContentParser(Mock(), Mock())
+        parser = self.parser_type(Mock(), Mock())
         expected_content = {"html": "<p>MISSING CONTENT</p>"}
 
         actual_content = parser._parse_content(None)
@@ -17,7 +19,7 @@ def test_parse_content_returns_default_content_if_there_is_no_resource_identifie
 
     def test_parse_content_returns_default_content_if_the_resource_is_missed_in_cartridge(self):
         cartridge_mock = Mock(define_resource=Mock(return_value=None))
-        parser = HtmlContentParser(cartridge_mock, Mock())
+        parser = self.parser_type(cartridge_mock, Mock())
         expected_content = {"html": "<p>MISSING CONTENT</p>"}
 
         actual_content = parser._parse_content(Mock())
@@ -27,7 +29,7 @@ def test_parse_content_returns_default_content_if_the_resource_is_missed_in_cart
     @patch("cc2olx.content_parsers.html.logger")
     def test_parse_content_logs_missing_resource(self, logger_mock):
         cartridge_mock = Mock(define_resource=Mock(return_value=None))
-        parser = HtmlContentParser(cartridge_mock, Mock())
+        parser = self.parser_type(cartridge_mock, Mock())
         idref_mock = Mock()
 
         parser._parse_content(idref_mock)
@@ -37,7 +39,7 @@ def test_parse_content_logs_missing_resource(self, logger_mock):
     @patch("cc2olx.content_parsers.html.HtmlContentParser._parse_web_link_content", Mock(return_value=None))
     @patch("cc2olx.content_parsers.html.HtmlContentParser.is_known_unprocessed_resource_type", Mock(return_value=True))
     def test_parse_content_returns_default_content_for_known_unprocessed_resource_types(self):
-        parser = HtmlContentParser(MagicMock(), Mock())
+        parser = self.parser_type(MagicMock(), Mock())
         expected_content = {"html": "<p>MISSING CONTENT</p>"}
 
         actual_content = parser._parse_content(Mock())
@@ -56,13 +58,13 @@ def test_parse_content_returns_default_content_for_known_unprocessed_resource_ty
         ],
     )
     def test_known_unprocessed_resource_types_is_detected(self, resource_type):
-        parser = HtmlContentParser(Mock(), Mock())
+        parser = self.parser_type(Mock(), Mock())
 
         assert parser.is_known_unprocessed_resource_type(resource_type) is True
 
     @pytest.mark.parametrize("resource_type", ["imsbasicabc_xmlv1p2", "imsexample_xmlv1p3", "not_cc_type", "imsscorm"])
     def test_not_known_unprocessed_resource_types_is_detected(self, resource_type):
-        parser = HtmlContentParser(Mock(), Mock())
+        parser = self.parser_type(Mock(), Mock())
 
         assert parser.is_known_unprocessed_resource_type(resource_type) is False
 
@@ -74,7 +76,7 @@ def test_not_known_unprocessed_resource_types_is_detected(self, resource_type):
     @patch("cc2olx.content_parsers.html.HtmlContentParser._parse_not_imported_content")
     def test_parse_content_parses_not_imported_content(self, parse_not_imported_content_mock, resource_type):
         cartridge_mock = Mock(define_resource=Mock(return_value={"type": "imsqti_xmlv1p2"}))
-        parser = HtmlContentParser(cartridge_mock, Mock())
+        parser = self.parser_type(cartridge_mock, Mock())
 
         actual_content = parser._parse_content(Mock())
 
@@ -82,7 +84,7 @@ def test_parse_content_parses_not_imported_content(self, parse_not_imported_cont
 
     @patch("cc2olx.content_parsers.html.imghdr.what", Mock(return_value=None))
     def test_parse_webcontent_returns_default_content_for_unknown_webcontent_type_from_web_resources_dir(self):
-        parser = HtmlContentParser(
+        parser = self.parser_type(
             Mock(build_resource_file_path=Mock(return_value=Path("web_resources/unknown/path/to/file.ext"))),
             Mock(),
         )
@@ -96,7 +98,7 @@ def test_parse_webcontent_returns_default_content_for_unknown_webcontent_type_fr
     @patch("cc2olx.content_parsers.html.imghdr.what", Mock(return_value=None))
     def test_parse_webcontent_logs_skipping_webcontent(self, logger_mock):
         resource_file_path = Path("web_resources/unknown/path/to/file.ext")
-        parser = HtmlContentParser(Mock(build_resource_file_path=Mock(return_value=resource_file_path)), Mock())
+        parser = self.parser_type(Mock(build_resource_file_path=Mock(return_value=resource_file_path)), Mock())
 
         parser._parse_webcontent(Mock(), MagicMock())
 
@@ -105,7 +107,7 @@ def test_parse_webcontent_logs_skipping_webcontent(self, logger_mock):
     @patch("cc2olx.content_parsers.html.logger")
     @patch("cc2olx.content_parsers.html.open", Mock(side_effect=FileNotFoundError))
     def test_webcontent_html_file_reading_failure_is_logged(self, logger_mock):
-        parser = HtmlContentParser(Mock(), Mock())
+        parser = self.parser_type(Mock(), Mock())
         idref_mock = Mock()
         resource_file_path_mock = Mock()
 
@@ -126,7 +128,7 @@ def test_webcontent_html_file_reading_failure_is_logged(self, logger_mock):
     )
     @patch("cc2olx.content_parsers.html.logger")
     def test_not_imported_content_parsing_with_href_in_resource(self, logger_mock, resource, message):
-        parser = HtmlContentParser(Mock(), Mock())
+        parser = self.parser_type(Mock(), Mock())
         expected_content = {"html": message}
 
         actual_content = parser._parse_not_imported_content(resource)
@@ -135,7 +137,7 @@ def test_not_imported_content_parsing_with_href_in_resource(self, logger_mock, r
         assert actual_content == expected_content
 
     def test_parsing_results(self, cartridge):
-        parser = HtmlContentParser(cartridge, Mock())
+        parser = self.parser_type(cartridge, Mock())
 
         assert parser.parse("resource_1_course") == {
             "html": "Not imported content: type = 'associatedcontent/imscc_xmlv1p1/learning-application-resource', "
diff --git a/tests/test_content_parsers/test_lti.py b/tests/test_content_parsers/test_lti.py
index fc55841e..c1be8e89 100644
--- a/tests/test_content_parsers/test_lti.py
+++ b/tests/test_content_parsers/test_lti.py
@@ -4,8 +4,10 @@
 
 
 class TestLtiContentParser:
+    parser_type = LtiContentParser
+
     def test_parsing_results(self, cartridge):
-        parser = LtiContentParser(cartridge, Mock())
+        parser = self.parser_type(cartridge, Mock())
 
         assert parser.parse("resource_2_lti") == {
             "title": "Learning Tools Interoperability",
diff --git a/tests/test_content_parsers/test_pdf.py b/tests/test_content_parsers/test_pdf.py
new file mode 100644
index 00000000..6b8b6849
--- /dev/null
+++ b/tests/test_content_parsers/test_pdf.py
@@ -0,0 +1,145 @@
+from unittest.mock import Mock, patch
+
+import pytest
+
+from cc2olx.content_parsers import PdfContentParser
+
+
+class TestPdfContentParser:
+    parser_type = PdfContentParser
+
+    def test_parse_resource_content_parses_webcontent(self):
+        parser = self.parser_type(Mock(), Mock())
+        resource = {"type": "webcontent"}
+        parse_webcontent_mock = Mock()
+        parser._parse_webcontent = parse_webcontent_mock
+
+        parsed_content = parser._parse_resource_content(resource)
+
+        parse_webcontent_mock.assert_called_once_with(resource)
+        assert parsed_content == parse_webcontent_mock.return_value
+
+    def test_parse_resource_content_transforms_web_link_content_to_pdf(self):
+        parser = self.parser_type(Mock(), Mock())
+        web_link_content_mock = Mock()
+        transform_web_link_content_to_pdf_mock = Mock()
+        parser._parse_web_link_content = Mock(return_value=web_link_content_mock)
+        parser._transform_web_link_content_to_pdf = transform_web_link_content_to_pdf_mock
+        resource = {"type": "imswl_xmlv1p3"}
+
+        parsed_content = parser._parse_resource_content(resource)
+
+        parser._parse_web_link_content.assert_called_once_with(resource)
+        transform_web_link_content_to_pdf_mock.assert_called_once_with(web_link_content_mock)
+        assert parsed_content == transform_web_link_content_to_pdf_mock.return_value
+
+    @pytest.mark.parametrize(
+        "file_suffix",
+        [".docx", ".mp3", ".mp4", ".png", ".jpeg", ".ods", ".csv", ".xls", ".pptx", ".txt"],
+    )
+    def test_parse_webcontent_returns_none_if_resource_file_is_not_pdf(self, file_suffix):
+        cartridge_mock = Mock()
+        parser = self.parser_type(Mock(), Mock())
+        parser._cartridge = cartridge_mock
+        web_content_file_mock = Mock()
+        resource = {"children": [web_content_file_mock]}
+
+        with patch(
+            "cc2olx.content_parsers.pdf.WebContent",
+            return_value=Mock(resource_file_path=Mock(suffix=file_suffix)),
+        ) as web_content_mock:
+            parsed_webcontent = parser._parse_webcontent(resource)
+
+            web_content_mock.assert_called_once_with(cartridge_mock, web_content_file_mock)
+            assert parsed_webcontent is None
+
+    @patch(
+        "cc2olx.content_parsers.pdf.WebContent",
+        return_value=Mock(resource_file_path=Mock(suffix=".pdf"), is_from_web_resources_dir=Mock(return_value=True)),
+    )
+    def test_parse_webcontent_parses_pdf_from_web_resources_dir(self, web_content_mock):
+        parser = self.parser_type(Mock(), Mock())
+        cartridge_mock = Mock()
+        parse_pdf_webcontent_from_web_resources_dir_mock = Mock()
+        parser._cartridge = cartridge_mock
+        parser._parse_pdf_webcontent_from_web_resources_dir = parse_pdf_webcontent_from_web_resources_dir_mock
+        web_content_file_mock = Mock()
+        resource = {"children": [web_content_file_mock]}
+
+        parsed_webcontent = parser._parse_webcontent(resource)
+
+        web_content_mock.assert_called_once_with(cartridge_mock, web_content_file_mock)
+        parse_pdf_webcontent_from_web_resources_dir_mock.assert_called_once_with(web_content_mock.return_value)
+        assert parsed_webcontent == parse_pdf_webcontent_from_web_resources_dir_mock.return_value
+
+    @patch(
+        "cc2olx.content_parsers.pdf.WebContent",
+        return_value=Mock(resource_file_path=Mock(suffix=".pdf"), is_from_web_resources_dir=Mock(return_value=False)),
+    )
+    def test_parse_webcontent_parses_pdf_outside_web_resources_dir(self, web_content_mock):
+        parser = self.parser_type(Mock(), Mock())
+        cartridge_mock = Mock()
+        parse_pdf_webcontent_outside_web_resources_dir_mock = Mock()
+        parser._cartridge = cartridge_mock
+        parser._parse_pdf_webcontent_outside_web_resources_dir = parse_pdf_webcontent_outside_web_resources_dir_mock
+        web_content_file_mock = Mock()
+        resource = {"children": [web_content_file_mock]}
+
+        parsed_webcontent = parser._parse_webcontent(resource)
+
+        web_content_mock.assert_called_once_with(cartridge_mock, web_content_file_mock)
+        parse_pdf_webcontent_outside_web_resources_dir_mock.assert_called_once_with(web_content_mock.return_value)
+        assert parsed_webcontent == parse_pdf_webcontent_outside_web_resources_dir_mock.return_value
+
+    def test_pdf_webcontent_from_web_resources_dir_parsing(self):
+        web_content_mock = Mock()
+        cartridge_mock = Mock()
+        parser = self.parser_type(Mock(), Mock())
+        parser._cartridge = cartridge_mock
+        expected_content = {"url": web_content_mock.olx_static_path}
+
+        actual_content = parser._parse_pdf_webcontent_from_web_resources_dir(web_content_mock)
+
+        cartridge_mock.olx_to_original_static_file_paths.add_web_resource_path.assert_called_once_with(
+            web_content_mock.olx_static_path,
+            web_content_mock.resource_file_path,
+        )
+        assert actual_content == expected_content
+
+    def test_pdf_webcontent_outside_web_resources_dir_parsing(self):
+        web_content_mock = Mock()
+        cartridge_mock = Mock()
+        parser = self.parser_type(Mock(), Mock())
+        parser._cartridge = cartridge_mock
+        expected_content = {"url": web_content_mock.olx_static_path}
+
+        actual_content = parser._parse_pdf_webcontent_outside_web_resources_dir(web_content_mock)
+
+        cartridge_mock.olx_to_original_static_file_paths.add_extra_path.assert_called_once_with(
+            web_content_mock.olx_static_path,
+            web_content_mock.resource_relative_path,
+        )
+        assert actual_content == expected_content
+
+    @pytest.mark.parametrize(
+        "web_link_url",
+        ["https://example.com/html_content.html", "http://example.com/video.mp4", "/path/to/audio.wav"],
+    )
+    def test_transform_web_link_content_to_pdf_returns_none_if_web_link_does_not_point_to_pdf_file(self, web_link_url):
+        parser = self.parser_type(Mock(), Mock())
+        web_link_content = {"href": web_link_url}
+
+        assert parser._transform_web_link_content_to_pdf(web_link_content) is None
+
+    @pytest.mark.parametrize(
+        "web_link_url",
+        ["https://example.com/PEP_8.pdf", "http://example.com/imscc_profilev1p2-Overview.pdf", "/static/example.pdf"],
+    )
+    def test_transform_web_link_content_to_pdf_when_web_link_points_to_pdf_file(self, web_link_url):
+        parser = self.parser_type(Mock(), Mock())
+        web_link_content = {"href": web_link_url}
+        expected_content = {"url": web_link_url}
+
+        actual_content = parser._transform_web_link_content_to_pdf(web_link_content)
+
+        assert actual_content == expected_content
diff --git a/tests/test_content_parsers/test_qti.py b/tests/test_content_parsers/test_qti.py
index d27e33c7..45b94998 100644
--- a/tests/test_content_parsers/test_qti.py
+++ b/tests/test_content_parsers/test_qti.py
@@ -7,9 +7,11 @@
 
 
 class TestQtiContentParser:
+    parser_type = QtiContentParser
+
     @pytest.mark.parametrize("cc_profile", ["unknown_profile", "cc.chess.v0p1", "cc.drag_and_drop.v0p1", "123"])
     def test_parse_problem_raises_qti_error_if_cc_profile_is_unknown(self, cc_profile):
-        parser = QtiContentParser(Mock(), Mock())
+        parser = self.parser_type(Mock(), Mock())
         problem_mock = MagicMock(profile=cc_profile)
 
         with pytest.raises(QtiError) as exc_info:
@@ -19,7 +21,7 @@ def test_parse_problem_raises_qti_error_if_cc_profile_is_unknown(self, cc_profil
 
     @patch("cc2olx.content_parsers.qti.logger")
     def test_parse_problem_logs_inability_to_process_problem(self, logger_mock):
-        parser = QtiContentParser(Mock(), Mock())
+        parser = self.parser_type(Mock(), Mock())
         ident_mock = MagicMock()
         resource_file_path_mock = Mock()
         cc_profile_mock = Mock()
diff --git a/tests/test_content_parsers/test_video.py b/tests/test_content_parsers/test_video.py
index f77d8b30..6ad04bad 100644
--- a/tests/test_content_parsers/test_video.py
+++ b/tests/test_content_parsers/test_video.py
@@ -4,8 +4,10 @@
 
 
 class TestVideoContentParser:
+    parser_type = VideoContentParser
+
     def test_parse_content_returns_none_if_there_is_no_resource_identifier(self):
-        parser = VideoContentParser(Mock(), Mock())
+        parser = self.parser_type(Mock(), Mock())
 
         actual_content = parser._parse_content(None)
 
@@ -16,7 +18,7 @@ def test_parse_content_returns_none_if_there_is_no_resource_identifier(self):
         Mock(return_value={"href": "youtube.com/watch?v=ABCDeF12345"}),
     )
     def test_parse_content_parses_youtube_link(self):
-        parser = VideoContentParser(Mock(), Mock())
+        parser = self.parser_type(Mock(), Mock())
         expected_content = {"youtube": "ABCDeF12345"}
 
         actual_content = parser._parse_content(Mock())
diff --git a/tests/test_main.py b/tests/test_main.py
index f1066a23..a13dc501 100644
--- a/tests/test_main.py
+++ b/tests/test_main.py
@@ -10,13 +10,14 @@ def test_convert_one_file(options, imscc_file, studio_course_xml):
     Tests, that ``convert_one_file`` call for ``imscc`` file results in
     tar.gz archive with olx course.
     """
-    expected_tgz_members_num = 7
+    expected_tgz_members_num = 8
 
     convert_one_file(
         imscc_file,
         options["workspace"],
         options["link_file"],
         relative_links_source=options["relative_links_source"],
+        content_types_with_custom_blocks=options["content_types_with_custom_blocks"],
     )
 
     tgz_path = str((imscc_file.parent / "output" / imscc_file.stem).with_suffix(".tar.gz"))
diff --git a/tests/test_models.py b/tests/test_models.py
index fab6e07d..5848d1c6 100644
--- a/tests/test_models.py
+++ b/tests/test_models.py
@@ -37,7 +37,7 @@ def test_load_manifest_extracted(imscc_file, options, temp_workspace_dir):
         "version": cartridge_version,
     }
 
-    assert len(cartridge.resources) == 18
+    assert len(cartridge.resources) == 20
     assert len(cartridge.resources[0]["children"]) == 6
     assert isinstance(cartridge.resources[0]["children"][0], ResourceFile)
 
@@ -173,11 +173,23 @@ def test_cartridge_normalize(imscc_file, options):
                                 "identifierref": None,
                                 "title": "Video With Other Content",
                             },
+                            {
+                                "children": [
+                                    {
+                                        "identifier": "pdf_web_resource",
+                                        "identifierref": "resource_pdf_1",
+                                        "title": "PDF from Web Resources",
+                                    }
+                                ],
+                                "identifier": "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx",
+                                "identifierref": None,
+                                "title": "PDF from Web Resources",
+                            },
                             {
                                 "children": [
                                     {
                                         "identifier": "pdf_outside_resource",
-                                        "identifierref": "pdf_dependency",
+                                        "identifierref": "resource_pdf_2",
                                         "title": "PDF Outside of Web Resources",
                                     }
                                 ],
@@ -197,6 +209,18 @@ def test_cartridge_normalize(imscc_file, options):
                                 "identifierref": None,
                                 "title": "Web Link Content",
                             },
+                            {
+                                "children": [
+                                    {
+                                        "identifier": "web_link_to_pdf",
+                                        "identifierref": "resource_web_link_to_pdf",
+                                        "title": "Web Link to PDF file",
+                                    }
+                                ],
+                                "identifier": "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx",
+                                "identifierref": None,
+                                "title": "Web Link to PDF file",
+                            },
                         ],
                         "identifier": "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx",
                         "identifierref": None,
diff --git a/tests/test_olx.py b/tests/test_olx.py
index 792f804f..f361713d 100644
--- a/tests/test_olx.py
+++ b/tests/test_olx.py
@@ -5,8 +5,19 @@
 from .utils import format_xml
 
 
-def test_olx_export_xml(cartridge, link_map_csv, studio_course_xml, relative_links_source):
-    xml = olx.OlxExport(cartridge, link_map_csv, relative_links_source=relative_links_source).xml()
+def test_olx_export_xml(
+    cartridge,
+    link_map_csv,
+    studio_course_xml,
+    relative_links_source,
+    content_types_with_custom_blocks,
+):
+    xml = olx.OlxExport(
+        cartridge,
+        link_map_csv,
+        relative_links_source=relative_links_source,
+        content_types_with_custom_blocks=content_types_with_custom_blocks,
+    ).xml()
 
     assert format_xml(xml) == format_xml(studio_course_xml)
 
@@ -22,7 +33,7 @@ def test_olx_export_wiki_page_disabled(cartridge, link_map_csv, studio_course_xm
 
 
 class TestOlxExporterLtiPolicy:
-    def _get_oxl_exporter(self, cartridge, passports_csv):
+    def _get_oxl_exporter(self, cartridge, passports_csv, content_types_with_custom_blocks):
         """
         Helper function to create olx exporter.
 
@@ -33,23 +44,27 @@ def _get_oxl_exporter(self, cartridge, passports_csv):
         Returns:
             [OlxExport]: OlxExport instance.
         """
-        olx_exporter = olx.OlxExport(cartridge, passport_file=passports_csv)
+        olx_exporter = olx.OlxExport(
+            cartridge,
+            passport_file=passports_csv,
+            content_types_with_custom_blocks=content_types_with_custom_blocks,
+        )
         olx_exporter.doc = xml.dom.minidom.Document()
         return olx_exporter
 
-    def test_lti_consumer_ids_are_defined(self, cartridge, passports_csv):
-        olx_exporter = self._get_oxl_exporter(cartridge, passports_csv)
+    def test_lti_consumer_ids_are_defined(self, cartridge, passports_csv, content_types_with_custom_blocks):
+        olx_exporter = self._get_oxl_exporter(cartridge, passports_csv, content_types_with_custom_blocks)
         _ = olx_exporter.xml()
 
         assert olx_exporter.lti_consumer_ids == {"external_tool_lti", "learning_tools_interoperability"}
 
-    def test_policy_contains_advanced_module(self, cartridge, passports_csv, caplog):
-        olx_exporter = self._get_oxl_exporter(cartridge, passports_csv)
+    def test_policy_contains_advanced_module(self, cartridge, passports_csv, content_types_with_custom_blocks, caplog):
+        olx_exporter = self._get_oxl_exporter(cartridge, passports_csv, content_types_with_custom_blocks)
         _ = olx_exporter.xml()
         caplog.clear()
         policy = json.loads(olx_exporter.policy())
 
-        assert policy["course/course"]["advanced_modules"] == ["lti_consumer"]
+        assert policy["course/course"]["advanced_modules"] == ["lti_consumer", *content_types_with_custom_blocks]
         # Converting to set because the order might change
         assert set(policy["course/course"]["lti_passports"]) == {
             "codio:my_codio_key:my_codio_secret",
diff --git a/tests/test_options.py b/tests/test_options.py
index 2f09defb..789bb5fa 100644
--- a/tests/test_options.py
+++ b/tests/test_options.py
@@ -17,4 +17,5 @@ def test_parse_options(imscc_file):
         "passport_file": None,
         "log_level": parsed_args.loglevel,
         "relative_links_source": None,
+        "content_types_with_custom_blocks": [],
     }
diff --git a/tests/utils.py b/tests/utils.py
index b8f39bd6..d56c4e93 100644
--- a/tests/utils.py
+++ b/tests/utils.py
@@ -1,3 +1,6 @@
+import itertools
+from typing import List
+
 import xmlformatter
 
 formatter = xmlformatter.Formatter(compress=True, encoding_output="UTF-8")
@@ -5,3 +8,10 @@
 
 def format_xml(xml):
     return formatter.format_string(xml)
+
+
+def build_multi_value_args(arg_name: str, values: List[str]):
+    """
+    Build arguments list for multi-value arguments.
+    """
+    return list(itertools.chain(*[(arg_name, value) for value in values]))

From 3d8faaaad5b5471ea121ec14de4f5a31e24e60d3 Mon Sep 17 00:00:00 2001
From: Myhailo Chernyshov <mykhailo.chernyshov@raccoongang.com>
Date: Thu, 23 Jan 2025 13:22:24 +0200
Subject: [PATCH 7/7] docs: [FC-0063] Content types with custom blocks support
 is documented

---
 README.rst | 17 ++++++++++++++++-
 1 file changed, 16 insertions(+), 1 deletion(-)

diff --git a/README.rst b/README.rst
index de8201c3..0aa81b25 100644
--- a/README.rst
+++ b/README.rst
@@ -16,6 +16,7 @@ Converted:
 - Some videos
 - LTI links
 - QTI assessments
+- PDF files
 
 Not converted:
 
@@ -60,10 +61,24 @@ The link map file can be supplied using `-f` or `--link_file`::
 
 If the original course content contains relative links and the resources
 (images, documents etc) the links point to are not included into the exported
-course dump, you can specify their source using `-s` flag:
+course dump, you can specify their source using `-s` flag::
 
     cc2olx -i <IMSCC_FILE> -s <RELATIVE_LINKS_SOURCE>
 
+If some custom xBlocks are installed on the target Open edX instance, the
+corresponding blocks can be specified by `-c` argument. If the content that
+such xBlocks can render are found during the course converting, they will be
+used. The argument values correspond to the xBlock names to specify in
+`advanced_modules` inside a course advanced settings.
+
+Supported Custom xBlocks:
+
+- `pdf <https://github.com/raccoongang/xblock-pdf>`_
+
+Argument usage example::
+
+    cc2olx -i <IMSCC_FILE> -c <CUSTOM_BLOCK_1_NAME> -c <CUSTOM_BLOCK_2_NAME>
+
 Dockerization
 -------------