added data scraper code

underspecified · underspecified · commit a1b80b847545 · 2020-04-18T11:18:30.000+09:00
diff --git a/bin/update_data.sh b/bin/update_data.sh
@@ -0,0 +1,32 @@
+#!/usr/bin/env bash
+
+SCRIPT_DIR=$(dirname "$(greadlink -f "${BASH_SOURCE[0]}")")
+ROOT_DIR=$(dirname "$SCRIPT_DIR")
+SRC_DIR="${ROOT_DIR}/src"
+DATA_DIR="${SRC_DIR}/data"
+
+function echo_and_eval() {
+  echo "$@"
+  eval "$@"
+}
+
+# get google spreadsheet csv files
+echo_and_eval "(cd ${SRC_DIR} && ts-node get_csv_files.ts)"
+
+# normalize csv files
+for x in "${DATA_DIR}"/*.csv; do
+    echo_and_eval "python3 ${ROOT_DIR}/py/normalize_csv_files.py ${x} \
+> ${x/.csv/.yomi.csv}"
+    echo_and_eval "mv ${x/.csv/.yomi.csv} ${x}"
+    #echo_and_eval "open ${x}"
+done
+
+# aggregate area hotlines
+HOTLINES="${DATA_DIR}/hokkaido.csv ${DATA_DIR}/tohoku.csv \
+${DATA_DIR}/kanto.csv ${DATA_DIR}/chubu.csv ${DATA_DIR}/kansai.csv \
+${DATA_DIR}/chugoku.csv ${DATA_DIR}/shikoku.csv ${DATA_DIR}/kyushu_okinawa.csv"
+echo_and_eval "python3 ${ROOT_DIR}/py/concat_csv_files.py ${HOTLINES} \
+> ${DATA_DIR}/all.csv"
+
+# convert csv files to json
+echo_and_eval "(cd ${SRC_DIR} && ts-node make_json_files.ts)"
diff --git a/py/concat_csv_files.py b/py/concat_csv_files.py
@@ -0,0 +1,19 @@
+import csv
+import sys
+
+
+def main():
+    csv_files = sys.argv[1:]
+    for i, csv_file in enumerate(csv_files):
+        with open(csv_file) as f:
+            reader = csv.DictReader(f)
+            header = reader.fieldnames
+            writer = csv.DictWriter(sys.stdout, fieldnames=header)
+            if i == 0:
+                writer.writeheader()
+            for row in reader:
+                writer.writerow(row)
+
+
+if __name__ == '__main__':
+    main()
diff --git a/py/list_prefs.py b/py/list_prefs.py
@@ -0,0 +1,17 @@
+import json
+import sys
+
+PREF = [ "北海道", "青森県", "岩手県", "宮城県", "秋田県", "山形県", "福島県", "茨城県", "栃木県", "群馬県", "埼玉県", "千葉県", "東京都", "神奈川県", "新潟県", "富山県", "石川県", "福井県", "山梨県", "長野県", "岐阜県", "静岡県", "愛知県", "三重県", "滋賀県", "京都府", "大阪府", "兵庫県", "奈良県", "和歌山県", "鳥取県", "島根県", "岡山県", "広島県", "山口県", "徳島県", "香川県", "愛媛県", "高知県", "福岡県", "佐賀県", "長崎県", "熊本県", "大分県", "宮崎県", "鹿児島県", "沖縄県" ]
+
+
+def main():
+    json_file = sys.argv[1]
+    with open(json_file) as f:
+        json_obj = json.load(f)
+        areas = json_obj['area']
+        for a in areas:
+            print('\t'.join([a['name_jp'], a['url']]))
+
+
+if __name__ == '__main__':
+    main()
diff --git a/py/normalize_csv_files.py b/py/normalize_csv_files.py
@@ -0,0 +1,93 @@
+import csv
+import re
+import sys
+
+import MeCab
+import jaconv
+import romkan
+
+tagger = MeCab.Tagger('-Oyomi')
+tokenizer = MeCab.Tagger('-Owakati')
+
+
+def get_yomi_str(line: str) -> str:
+    tokenized = tokenizer.parse(line)
+    yomi = tagger.parse(tokenized).strip()
+    romaji = romkan.to_hepburn(yomi)
+    toks = [x.capitalize()
+            for x in romaji.split(' ')]
+    return ' '.join(toks)
+
+
+def get_yomi(row):
+    try:
+        center = row['センター名'].strip()
+        yomi = row['Center Name'].strip()
+        return yomi if yomi else get_yomi_str(center)
+    except KeyError:
+        return ''
+
+
+def update_row(row):
+    return {k: get_yomi(row) if k == 'Center Name' else v
+            for k, v in row.items()}
+
+
+dash_re = re.compile(r'(?<![ぁ-んァ-ン])ー')
+ws_re = re.compile(r'  +')
+
+
+def normalize_line(line):
+    half = jaconv.z2h(
+        jaconv.normalize(line),
+        kana=False, digit=True, ascii=True
+    )
+    stripped = half.strip()
+    dashed = dash_re.sub('-', stripped)
+    return ws_re.sub(' ', dashed)
+
+
+def normalize_phone(line):
+    return (
+        normalize_line(line)
+        .replace('(', '-')
+        .replace(')', '-')
+    )
+
+
+phone_re = re.compile(r'(phone|電話)')
+
+
+def normalize(line, field=''):
+    if phone_re.match(field.lower()):
+        return normalize_phone(line)
+    else:
+        return normalize_line(line)
+
+
+def normalize_row(row):
+    return {k: normalize(v)
+            for k, v in row.items()}
+
+
+def main():
+    csv_files = sys.argv[1:]
+    for i, csv_file in enumerate(csv_files):
+        with open(csv_file) as f:
+            reader = csv.DictReader(f)
+            if ('センター名' in reader.fieldnames and
+                    'Center Name' not in reader.fieldnames):
+                header = reader.fieldnames + ['Center Name', ]
+            else:
+                header = reader.fieldnames
+            writer = csv.DictWriter(sys.stdout, fieldnames=header)
+            if i == 0:
+                writer.writeheader()
+            for row in reader:
+                updated = update_row(row)
+                normalized = normalize_row(updated)
+                writer.writerow(normalized)
+
+
+if __name__ == '__main__':
+    main()
diff --git a/py/requirements.txt b/py/requirements.txt
@@ -0,0 +1,7 @@
+MeCab
+bs4
+genmonads
+html_table_extractor
+jaconv
+requests
+romkan
diff --git a/py/scrape_hokenjo.py b/py/scrape_hokenjo.py
@@ -0,0 +1,77 @@
+import csv
+import requests
+import sys
+from typing import Tuple, List
+
+from bs4 import BeautifulSoup
+from genmonads.iterator import miter
+from genmonads.option import option
+from genmonads.mtry import mtry
+from genmonads.syntax import mfor
+from html_table_extractor.extractor import Extractor
+
+
+def table2lists(table):
+    extractor = Extractor(table)
+    extractor.parse()
+    return extractor.return_list()
+
+
+def get_all_tables(url):
+    html = requests.get(url).content
+    soup = BeautifulSoup(html, 'html.parser')
+    return soup.find_all('table')
+
+
+def scrape_table_text(url):
+    for table in get_all_tables(url):
+        for row in table2lists(table):
+            yield row
+
+
+def scrape_prefecture_url(li):
+    prefecture = li.string
+    url = option(li.find('a')).get_or_else('')
+    return prefecture, url
+
+
+# noinspection PyUnresolvedReferences
+def scrape_hokenjo_table(url: str) -> List[Tuple[str, str, str]]:
+    return mfor(
+        (region, prefecture, url)
+        for table in miter(get_all_tables(url))
+        for tr in miter(table.find_all('tr'))
+        for region in mtry(lambda: tr.find('th').string).to_miter()
+        for td in option(tr.find('td')).to_miter()
+        for li in miter(td.find_all('li'))
+        for a in option(li.find('a')).to_miter()
+        for prefecture in mtry(lambda: a.string).to_miter()
+        for url in mtry(lambda: a['href']).to_miter()
+    ).to_list()
+
+
+def clean_url(url):
+    return url.split('#')[0]
+
+
+def scrape_hokenjo_urls(url: str):
+    return {clean_url(u): True
+            for _, _, u in scrape_hokenjo_table(url)}.keys()
+
+
+def is_header(row):
+    return row[0] in ['設置主体：', '都道府県名']
+
+
+def main():
+    urls = sys.argv[1:]
+    writer = csv.writer(sys.stdout, csv.excel_tab)
+    for u in urls:
+        for uu in scrape_hokenjo_urls(u):
+            for row in scrape_table_text(uu):
+                if not is_header(row):
+                    writer.writerow(row)
+
+
+if __name__ == '__main__':
+    main()
diff --git a/src/get_csv_files.ts b/src/get_csv_files.ts
@@ -0,0 +1,134 @@
+import * as CF from "cross-fetch"
+import * as E from "fp-ts/lib/Either"
+import * as TE from "fp-ts/lib/TaskEither"
+import { promises as fs } from "fs"
+import { array } from "fp-ts/lib/Array"
+import { pipe } from "fp-ts/lib/pipeable"
+import { TaskEither, taskEither, tryCatch } from "fp-ts/lib/TaskEither"
+import * as R from "rambda"
+
+import { run } from "./under_util"
+
+const makeSpreadsheetUrl = (key: string, gid: string): string =>
+  `https://docs.google.com/spreadsheets/d/e/${key}/pub?` +
+  `gid=${gid}&single=true&output=csv`
+
+const fetchGoogleSpreadSheetCsv = (
+  key: string,
+  gid: string
+): TaskEither<Error, string> => {
+  const url = makeSpreadsheetUrl(key, gid)
+  return tryCatch(
+    () =>  CF.fetch(url).then((x) => x.text()),
+    E.toError
+  )
+}
+
+const makeCsvFile = (
+  fn: string,
+  key: string,
+  gid: string
+): TaskEither<Error, string> => {
+  const csv = `${fn}.csv`
+  const writeM = (file: string, data: string): TaskEither<Error, void> =>
+    tryCatch(() => fs.writeFile(csv, data), E.toError)
+
+  return pipe(
+    fetchGoogleSpreadSheetCsv(key, gid),
+    TE.chain(R.partial(writeM, csv)),
+    TE.map(_ => csv)
+  )
+}
+
+const makeCsvFile_ = (
+  [fn, key, gid]: [string, string, string]
+): TaskEither<Error, string> =>
+  makeCsvFile(fn, key, gid)
+
+// eslint-disable-next-line
+// noinspection JSUnusedLocalSymbols
+const cleanSheetName = (sheet: string): string =>
+  sheet
+    .trim()
+    .toLowerCase()
+    .replace('Foreign-language', '')
+    .replace('[/- ]', '_')
+
+// noinspection SpellCheckingInspection
+const key: string =
+  '2PACX-1vRd6DGCaxlPwhfgpH_b9jhBHxJ-k-iVXmtOYDVq2w_' +
+  'qJutKk8nKN4iToAqPjtUw7kzh7cZSJuRV8Yra'
+
+// noinspection SpellCheckingInspection
+export const gids: Record<string, string> = {
+  'hotlines': '2133443778',
+  //'contents': '151378524',
+  'hokkaido': '2127938906',
+  'tohoku': '1010845727',
+  'kanto': '1686906593',
+  'chubu': '1422675244',
+  'kansai': '843788725',
+  'chugoku': '730111385',
+  'shikoku': '623669625',
+  'kyushu_okinawa': '1647012312',
+  'menu': '151378524',
+  'translations': '340977019',
+  'webpages': '1947687836',
+}
+
+// noinspection JSUnusedGlobalSymbols
+export const areas: Array<string> =
+  ['hotlines', 'hokkaido', 'tohoku', 'kanto', 'chubu', 'kansai', 'chugoku',
+   'shikoku', 'kyushu_okinawa', 'all']
+
+// noinspection JSUnusedGlobalSymbols
+export const sheets: Array<string> =
+  Object.keys(gids)
+
+export const makeFn = (sheet: string): string =>
+  `data/${sheet}`
+
+// noinspection JSUnusedGlobalSymbols
+export const getSheet = (fn: string): string =>
+  fn.split('/')[3]
+
+// noinspection JSUnusedGlobalSymbols
+export const fns: Array<string> =
+  sheets.map(makeFn)
+
+const fnKeyGids: Array<[string, string, string]> =
+  Object
+    .entries(gids)
+    .map(([sheet, gid]) =>
+      [makeFn(sheet), key, gid]
+    )
+
+const logError = (e: Error): void =>
+  console.error(e)
+
+// noinspection JSUnusedLocalSymbols
+// eslint-disable-next-line
+const logFile = (file: string): void =>
+  console.log(`wrote file "${file}"`)
+
+const logFiles = (files: Array<string>): void => {
+  const msg = files.map(file => `wrote file "${file}"`).join('\n')
+  console.log(msg)
+}
+
+export const makeAllCsvFiles = (): Promise<void> => {
+  const makeCsvFiles: TaskEither<Error, Array<string>> =
+    array.traverse(taskEither)(fnKeyGids, makeCsvFile_)
+
+  return run(makeCsvFiles)
+    .then(E.fold(logError, logFiles))
+    .catch(logError)
+}
+
+function main(): void {
+  makeAllCsvFiles().then()
+}
+
+if (require.main === module) {
+  main()
+}
diff --git a/src/make_hotline_data.ts b/src/make_hotline_data.ts
@@ -0,0 +1,11 @@
+import { makeAllCsvFiles } from "./get_csv_files"
+import { writeCsvFileToJsonFiles } from "./make_json_files"
+
+function main() {
+  makeAllCsvFiles()
+    .then(_ =>  writeCsvFileToJsonFiles())
+}
+
+if (require.main === module) {
+  main()
+}
diff --git a/src/make_json_files.ts b/src/make_json_files.ts
diff --git a/src/under_util.ts b/src/under_util.ts
diff --git a/src/util.js b/src/util.js