Skip to content

Pipeline ‐ Textgrader‐pt‐br

Vanessa Soares edited this page Feb 6, 2025 · 3 revisions

Configuração Inicial

Na branch textgrader-pt-br-v2 siga as instruções abaixo: Instale as dependências do projeto: make setup

Acesse a pasta textgrader-pt-br/scripts

Pipeline

1. Criando o dataset

Passo responsável por transformar os arquivos .json contendo as redações com seus temas em dataframes e salválos como csv na pasta definida em OUTPUT_DF no arquivo settings.py.

Execute python create_dataset.py

Ao final dessa etapa, é gerado o arquivo textgrader-pt-br/data/df_geral.parquet

2. Extraindo informações

Passo responsável pela extração das notas que cada redação obteve em cada competencia, além de extrair features básicas e dividir em datasets de treino e teste.

Execute python extract_features.py

Ao final dessa etapa, são gerados os arquivos:

  • textgrader-pt-br/data/df_train.parquet
  • textgrader-pt-br/data/df_train.parquet

3. Vectorize

Passo responsável responsável por usar o conjunto de treino para treinar o vetorizador de textos .

Execute python vectorize.py

Ao final, são gerados os seguintes arquivos:

  • textgrader-pt-br/data/TF_IDF_32_train.parquet

  • textgrader-pt-br/data/TF_IDF_64_train.parquet

  • textgrader-pt-br/data/TF_IDF_32_test.parquet

  • textgrader-pt-br/data/TF_IDF_64_test.parquet

4. Fit Predict

Realiza o pipeline de treino e previsão tanto de forma geral, quanto de forma separada por tema e gera relatórios ao final do processamento.

Execute python fit_predict.py

Ao final, são gerados dois arquivos .json como relatório final, contendo os respectivos scores:

Clone this wiki locally