-
Notifications
You must be signed in to change notification settings - Fork 1
Pipeline ‐ Textgrader‐pt‐br
Na branch textgrader-pt-br-v2
siga as instruções abaixo:
Instale as dependências do projeto: make setup
Acesse a pasta textgrader-pt-br/scripts
Passo responsável por transformar os arquivos .json contendo as redações com seus temas em dataframes e salválos como csv na pasta definida em OUTPUT_DF
no arquivo settings.py
.
Execute
python create_dataset.py
Ao final dessa etapa, é gerado o arquivo textgrader-pt-br/data/df_geral.parquet
Passo responsável pela extração das notas que cada redação obteve em cada competencia, além de extrair features básicas e dividir em datasets de treino e teste.
Execute
python extract_features.py
Ao final dessa etapa, são gerados os arquivos:
textgrader-pt-br/data/df_train.parquet
textgrader-pt-br/data/df_train.parquet
Passo responsável responsável por usar o conjunto de treino para treinar o vetorizador de textos .
Execute
python vectorize.py
Ao final, são gerados os seguintes arquivos:
-
textgrader-pt-br/data/TF_IDF_32_train.parquet
-
textgrader-pt-br/data/TF_IDF_64_train.parquet
-
textgrader-pt-br/data/TF_IDF_32_test.parquet
-
textgrader-pt-br/data/TF_IDF_64_test.parquet
Realiza o pipeline de treino e previsão tanto de forma geral, quanto de forma separada por tema e gera relatórios ao final do processamento.
Execute
python fit_predict.py
Ao final, são gerados dois arquivos .json como relatório final, contendo os respectivos scores: