add AminoAcidTokenizerFast

kleinhenz · kleinhenz · commit 73b39364735a · 2025-01-14T21:56:45.000Z
This attempts to clarify/simplify the definition of tokenizer subclasses
diff --git a/src/lobster/assets/amino_acid_tokenizer/__init__.py b/src/lobster/assets/amino_acid_tokenizer/__init__.py
diff --git a/src/lobster/assets/amino_acid_tokenizer/special_tokens_map.json b/src/lobster/assets/amino_acid_tokenizer/special_tokens_map.json
@@ -0,0 +1,7 @@
+{
+  "cls_token": "<cls>",
+  "eos_token": "<eos>",
+  "mask_token": "<mask>",
+  "pad_token": "<pad>",
+  "unk_token": "<unk>"
+}
diff --git a/src/lobster/assets/amino_acid_tokenizer/tokenizer.json b/src/lobster/assets/amino_acid_tokenizer/tokenizer.json
@@ -0,0 +1,176 @@
+{
+  "version": "1.0",
+  "truncation": null,
+  "padding": null,
+  "added_tokens": [
+    {
+      "id": 0,
+      "content": "<cls>",
+      "single_word": false,
+      "lstrip": false,
+      "rstrip": false,
+      "normalized": false,
+      "special": true
+    },
+    {
+      "id": 1,
+      "content": "<pad>",
+      "single_word": false,
+      "lstrip": false,
+      "rstrip": false,
+      "normalized": false,
+      "special": true
+    },
+    {
+      "id": 2,
+      "content": "<eos>",
+      "single_word": false,
+      "lstrip": false,
+      "rstrip": false,
+      "normalized": false,
+      "special": true
+    },
+    {
+      "id": 3,
+      "content": "<unk>",
+      "single_word": false,
+      "lstrip": false,
+      "rstrip": false,
+      "normalized": false,
+      "special": true
+    },
+    {
+      "id": 32,
+      "content": "<mask>",
+      "single_word": false,
+      "lstrip": false,
+      "rstrip": false,
+      "normalized": false,
+      "special": true
+    }
+  ],
+  "normalizer": null,
+  "pre_tokenizer": null,
+  "post_processor": {
+    "type": "TemplateProcessing",
+    "single": [
+      {
+        "SpecialToken": {
+          "id": "<cls>",
+          "type_id": 0
+        }
+      },
+      {
+        "Sequence": {
+          "id": "A",
+          "type_id": 0
+        }
+      },
+      {
+        "SpecialToken": {
+          "id": "<eos>",
+          "type_id": 0
+        }
+      }
+    ],
+    "pair": [
+      {
+        "SpecialToken": {
+          "id": "<cls>",
+          "type_id": 0
+        }
+      },
+      {
+        "Sequence": {
+          "id": "A",
+          "type_id": 0
+        }
+      },
+      {
+        "SpecialToken": {
+          "id": "<eos>",
+          "type_id": 0
+        }
+      },
+      {
+        "Sequence": {
+          "id": "B",
+          "type_id": 1
+        }
+      },
+      {
+        "SpecialToken": {
+          "id": "<eos>",
+          "type_id": 1
+        }
+      }
+    ],
+    "special_tokens": {
+      "<cls>": {
+        "id": "<cls>",
+        "ids": [
+          0
+        ],
+        "tokens": [
+          "<cls>"
+        ]
+      },
+      "<eos>": {
+        "id": "<eos>",
+        "ids": [
+          2
+        ],
+        "tokens": [
+          "<eos>"
+        ]
+      }
+    }
+  },
+  "decoder": null,
+  "model": {
+    "type": "BPE",
+    "dropout": null,
+    "unk_token": "<unk>",
+    "continuing_subword_prefix": null,
+    "end_of_word_suffix": null,
+    "fuse_unk": false,
+    "byte_fallback": false,
+    "ignore_merges": true,
+    "vocab": {
+      "<cls>": 0,
+      "<pad>": 1,
+      "<eos>": 2,
+      "<unk>": 3,
+      "L": 4,
+      "A": 5,
+      "G": 6,
+      "V": 7,
+      "S": 8,
+      "E": 9,
+      "R": 10,
+      "T": 11,
+      "I": 12,
+      "D": 13,
+      "P": 14,
+      "K": 15,
+      "Q": 16,
+      "N": 17,
+      "F": 18,
+      "Y": 19,
+      "M": 20,
+      "H": 21,
+      "W": 22,
+      "C": 23,
+      "X": 24,
+      "B": 25,
+      "U": 26,
+      "Z": 27,
+      "O": 28,
+      ".": 29,
+      "-": 30,
+      "<null_1>": 31,
+      "<mask>": 32
+    },
+    "merges": []
+  }
+}
diff --git a/src/lobster/assets/amino_acid_tokenizer/tokenizer_config.json b/src/lobster/assets/amino_acid_tokenizer/tokenizer_config.json
@@ -0,0 +1,55 @@
+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<cls>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "<eos>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32": {
+      "content": "<mask>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": null,
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "<cls>",
+  "eos_token": "<eos>",
+  "extra_special_tokens": {},
+  "mask_token": "<mask>",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<pad>",
+  "sep_token": null,
+  "tokenizer_class": "PreTrainedTokenizerFast",
+  "unk_token": "<unk>"
+}
diff --git a/src/lobster/tokenization/__init__.py b/src/lobster/tokenization/__init__.py
@@ -14,3 +14,5 @@
     PT5TeacherForcingTransform,
     PT5TokenizerTransform,
 )
+
+from ._amino_acid import AminoAcidTokenizerFast
diff --git a/src/lobster/tokenization/_amino_acid.py b/src/lobster/tokenization/_amino_acid.py
@@ -0,0 +1,99 @@
+import importlib.resources
+
+from tokenizers import Tokenizer
+from tokenizers.models import BPE
+from tokenizers.processors import TemplateProcessing
+from transformers import PreTrainedTokenizerFast
+
+AA_VOCAB = {
+    "<cls>": 0,
+    "<pad>": 1,
+    "<eos>": 2,
+    "<unk>": 3,
+    "L": 4,
+    "A": 5,
+    "G": 6,
+    "V": 7,
+    "S": 8,
+    "E": 9,
+    "R": 10,
+    "T": 11,
+    "I": 12,
+    "D": 13,
+    "P": 14,
+    "K": 15,
+    "Q": 16,
+    "N": 17,
+    "F": 18,
+    "Y": 19,
+    "M": 20,
+    "H": 21,
+    "W": 22,
+    "C": 23,
+    "X": 24,
+    "B": 25,
+    "U": 26,
+    "Z": 27,
+    "O": 28,
+    ".": 29,
+    "-": 30,
+    "<null_1>": 31,
+    "<mask>": 32,
+}
+
+PRETRAINED_TOKENIZER_PATH = importlib.resources.files("lobster") / "assets" / "amino_acid_tokenizer"
+
+
+def _make_amino_acid_tokenizer() -> PreTrainedTokenizerFast:
+    """Create a `PreTrainedTokenizerFast` object for tokenization of protein sequences.
+
+    To create the tokenizer config stored under lobster/assets/amino_acid_tokenizer we run
+
+    ```
+    tokenizer = _make_amino_acid_tokenizer()
+    tokenizer.save_pretrained("src/lobster/assets/amino_acid_tokenizer")
+    ```
+
+    This can now be loaded using
+    `PreTrainedTokenizerFast.from_pretrained("src/lobster/assets/amino_acid_tokenizer")`
+    """
+    # BPE with no merges => just use input vocab
+    tok = Tokenizer(BPE(AA_VOCAB, merges=[], unk_token="<unk>", ignore_merges=True))
+
+    # bert style post processing
+    tok.post_processor = TemplateProcessing(
+        single="<cls> $A <eos>",
+        pair="<cls> $A <eos> $B:1 <eos>:1",
+        special_tokens=[("<cls>", 0), ("<eos>", 2)],  # NOTE must match ids from AA_VOCAB
+    )
+
+    tok = PreTrainedTokenizerFast(
+        tokenizer_object=tok,
+        bos_token=None,
+        eos_token="<eos>",
+        unk_token="<unk>",
+        sep_token=None,
+        pad_token="<pad>",
+        cls_token="<cls>",
+        mask_token="<mask>",
+    )
+
+    return tok
+
+
+class AminoAcidTokenizerFast(PreTrainedTokenizerFast):
+    padding_side = "right"
+    truncation_side = "right"
+    model_input_names = ["input_ids", "attention_mask"]
+
+    def __init__(self):
+        super().__init__(
+            tokenizer_file=str(PRETRAINED_TOKENIZER_PATH / "tokenizer.json"),
+            bos_token=None,
+            eos_token="<eos>",
+            unk_token="<unk>",
+            sep_token=None,
+            pad_token="<pad>",
+            cls_token="<cls>",
+            mask_token="<mask>",
+        )

Original file line number	Diff line number	Diff line change
`@@ -14,3 +14,5 @@`
`14`	`14`	`PT5TeacherForcingTransform,`
`15`	`15`	`PT5TokenizerTransform,`
`16`	`16`	`)`
	`17`	`+`
	`18`	`+from ._amino_acid import AminoAcidTokenizerFast`