Skip to content

Commit

Permalink
✨ Data Linting - Merge pull request (#10)
Browse files Browse the repository at this point in the history
Add data linting
Add CI build to test data linting on PR or push to main
Fix CRLF -> LF newlines in Boston Housing
Add ICML coauthors dataset
  • Loading branch information
hayesall authored Aug 6, 2021
2 parents 05c6b89 + 8df1e7e commit ee2b374
Show file tree
Hide file tree
Showing 82 changed files with 495,747 additions and 677,846 deletions.
19 changes: 19 additions & 0 deletions .github/workflows/data-lint.yml
Original file line number Diff line number Diff line change
@@ -0,0 +1,19 @@
name: Lint Datasets
on:
push:
branches: [ main ]
tags: '*'
pull_request:
branches: [ main ]

jobs:
test:
name: Lint Datasets
runs-on: ubuntu-latest
steps:

- name: 👀 Checkout
uses: actions/checkout@v2

- name: 🚨 Run Linter
run: bash lint_datasets.sh
4 changes: 4 additions & 0 deletions .gitignore
Original file line number Diff line number Diff line change
@@ -1 +1,5 @@
build/
linter
linter-darwin-amd64
linter-linux-amd64
linter-windows-amd64.exe
40 changes: 40 additions & 0 deletions lint_datasets.sh
Original file line number Diff line number Diff line change
@@ -0,0 +1,40 @@
#!/usr/bin/env bash

# SYNOPSIS: Lint datasets in the srlearn/ directory
# This is currently written to run from the base of the repository.

RED='\033[0;31m'
LIGHTGREEN='\033[1;32m'
NC='\033[0m'


# Download the linter binary if it doesn't exist.
if [[ ! -f linter ]]; then
curl -L https://github.com/srlearn/linter/releases/latest/download/linter-linux-amd64 > linter
chmod 755 linter
fi


(
lint_error=0
cd srlearn/

for file in $(find -type f \( -not -name "background.txt" -not -name "README.md" -not -name "*.log" \)); do

../linter -tokens -file=$file 2> token_err.log
n_token_errors=$(wc -l token_err.log | cut -d ' ' -f 1)

if [[ ${n_token_errors} != 0 ]]; then
echo -e "Linting ${file} -- ${RED}error${NC} - ${n_token_errors} errors"
lint_error=2
else
echo -e "Linting ${file} -- ${LIGHTGREEN}ok${NC}"
fi

done
rm -f token_err.log

exit $lint_error
)

exit $?
332 changes: 166 additions & 166 deletions srlearn/boston_housing/boston_housing/test/test_facts.txt
Original file line number Diff line number Diff line change
@@ -1,166 +1,166 @@
tax(id139,437).
zn(id139,0).
dis(id139,9).
age(id139,5).
crim(id139,4).
b(id139,2).
nox(id139,8).
rm(id139,8).
rad(id139,4).
indus(id139,8).
chas(id139,0).
ptratio(id139,7).
lstat(id139,5).
nox(id433,7).
zn(id433,0).
dis(id433,8).
crim(id433,9).
rm(id433,2).
indus(id433,10).
chas(id433,0).
tax(id433,666).
ptratio(id433,10).
age(id433,4).
lstat(id433,4).
rad(id433,24).
b(id433,7).
tax(id95,270).
nox(id95,2).
crim(id95,6).
dis(id95,4).
lstat(id95,8).
ptratio(id95,2).
rm(id95,10).
rad(id95,4).
chas(id95,0).
b(id95,1).
indus(id95,7).
zn(id95,28).
age(id95,4).
dis(id336,3).
b(id336,1).
nox(id336,3).
zn(id336,0).
rad(id336,5).
crim(id336,6).
chas(id336,0).
tax(id336,224).
age(id336,8).
lstat(id336,2).
rm(id336,5).
indus(id336,5).
ptratio(id336,10).
crim(id23,5).
chas(id23,0).
lstat(id23,5).
tax(id23,307).
nox(id23,1).
b(id23,1).
dis(id23,1).
rm(id23,6).
age(id23,9).
indus(id23,3).
zn(id23,0).
zn(id23,0).
age(id438,6).
rad(id438,24).
b(id438,7).
rm(id438,6).
lstat(id438,6).
zn(id438,0).
dis(id438,9).
crim(id438,10).
ptratio(id438,10).
indus(id438,10).
chas(id438,0).
nox(id438,9).
tax(id438,666).
nox(id65,6).
tax(id65,216).
ptratio(id65,3).
crim(id65,1).
rad(id65,3).
zn(id65,17.5).
rm(id65,4).
dis(id65,5).
age(id65,1).
lstat(id65,2).
b(id65,2).
indus(id65,1).
chas(id65,0).
rad(id248,7).
ptratio(id248,5).
b(id248,8).
zn(id248,22).
age(id248,2).
rm(id248,10).
nox(id248,5).
chas(id248,0).
crim(id248,4).
tax(id248,330).
indus(id248,5).
dis(id248,5).
lstat(id248,8).
lstat(id159,9).
rad(id159,5).
indus(id159,9).
tax(id159,403).
crim(id159,5).
rm(id159,5).
chas(id159,0).
zn(id159,0).
dis(id159,9).
nox(id159,7).
ptratio(id159,9).
b(id159,9).
age(id159,6).
rad(id56,5).
tax(id56,226).
rm(id56,3).
lstat(id56,1).
dis(id56,5).
indus(id56,1).
ptratio(id56,2).
nox(id56,6).
b(id56,4).
crim(id56,1).
age(id56,10).
chas(id56,0).
zn(id56,90).
indus(id430,10).
zn(id430,0).
tax(id430,666).
dis(id430,8).
rm(id430,2).
nox(id430,10).
age(id430,7).
rad(id430,24).
b(id430,7).
chas(id430,0).
crim(id430,9).
lstat(id430,6).
age(id91,4).
indus(id91,4).
rm(id91,2).
chas(id91,0).
crim(id91,6).
zn(id91,0).
rad(id91,2).
tax(id91,270).
ptratio(id91,2).
dis(id91,6).
lstat(id91,2).
b(id91,2).
dis(id355,5).
rm(id355,7).
age(id355,10).
ptratio(id355,7).
tax(id355,334).
zn(id355,80).
lstat(id355,2).
rad(id355,4).
b(id355,5).
crim(id355,6).
chas(id355,0).
nox(id355,6).
indus(id355,1).
tax(id139,437).
zn(id139,0).
dis(id139,9).
age(id139,5).
crim(id139,4).
b(id139,2).
nox(id139,8).
rm(id139,8).
rad(id139,4).
indus(id139,8).
chas(id139,0).
ptratio(id139,7).
lstat(id139,5).
nox(id433,7).
zn(id433,0).
dis(id433,8).
crim(id433,9).
rm(id433,2).
indus(id433,10).
chas(id433,0).
tax(id433,666).
ptratio(id433,10).
age(id433,4).
lstat(id433,4).
rad(id433,24).
b(id433,7).
tax(id95,270).
nox(id95,2).
crim(id95,6).
dis(id95,4).
lstat(id95,8).
ptratio(id95,2).
rm(id95,10).
rad(id95,4).
chas(id95,0).
b(id95,1).
indus(id95,7).
zn(id95,28).
age(id95,4).
dis(id336,3).
b(id336,1).
nox(id336,3).
zn(id336,0).
rad(id336,5).
crim(id336,6).
chas(id336,0).
tax(id336,224).
age(id336,8).
lstat(id336,2).
rm(id336,5).
indus(id336,5).
ptratio(id336,10).
crim(id23,5).
chas(id23,0).
lstat(id23,5).
tax(id23,307).
nox(id23,1).
b(id23,1).
dis(id23,1).
rm(id23,6).
age(id23,9).
indus(id23,3).
zn(id23,0).
zn(id23,0).
age(id438,6).
rad(id438,24).
b(id438,7).
rm(id438,6).
lstat(id438,6).
zn(id438,0).
dis(id438,9).
crim(id438,10).
ptratio(id438,10).
indus(id438,10).
chas(id438,0).
nox(id438,9).
tax(id438,666).
nox(id65,6).
tax(id65,216).
ptratio(id65,3).
crim(id65,1).
rad(id65,3).
zn(id65,17.5).
rm(id65,4).
dis(id65,5).
age(id65,1).
lstat(id65,2).
b(id65,2).
indus(id65,1).
chas(id65,0).
rad(id248,7).
ptratio(id248,5).
b(id248,8).
zn(id248,22).
age(id248,2).
rm(id248,10).
nox(id248,5).
chas(id248,0).
crim(id248,4).
tax(id248,330).
indus(id248,5).
dis(id248,5).
lstat(id248,8).
lstat(id159,9).
rad(id159,5).
indus(id159,9).
tax(id159,403).
crim(id159,5).
rm(id159,5).
chas(id159,0).
zn(id159,0).
dis(id159,9).
nox(id159,7).
ptratio(id159,9).
b(id159,9).
age(id159,6).
rad(id56,5).
tax(id56,226).
rm(id56,3).
lstat(id56,1).
dis(id56,5).
indus(id56,1).
ptratio(id56,2).
nox(id56,6).
b(id56,4).
crim(id56,1).
age(id56,10).
chas(id56,0).
zn(id56,90).
indus(id430,10).
zn(id430,0).
tax(id430,666).
dis(id430,8).
rm(id430,2).
nox(id430,10).
age(id430,7).
rad(id430,24).
b(id430,7).
chas(id430,0).
crim(id430,9).
lstat(id430,6).
age(id91,4).
indus(id91,4).
rm(id91,2).
chas(id91,0).
crim(id91,6).
zn(id91,0).
rad(id91,2).
tax(id91,270).
ptratio(id91,2).
dis(id91,6).
lstat(id91,2).
b(id91,2).
dis(id355,5).
rm(id355,7).
age(id355,10).
ptratio(id355,7).
tax(id355,334).
zn(id355,80).
lstat(id355,2).
rad(id355,4).
b(id355,5).
crim(id355,6).
chas(id355,0).
nox(id355,6).
indus(id355,1).
Loading

0 comments on commit ee2b374

Please sign in to comment.