Arddweud a Macsen
Transcription and Macsen
Dyma'r sgriptiau a ddefnyddiwyd i hyfforddi'r modelau DeepSpeech Mozilla a ddefnyddir ar gyfer adnabod lleferydd Cymraeg o fewn y rhaglenni cod agored Macsen a'r Trawsgrifiwr Cymraeg ym mis Mawrth 2020 (20.03)
These are the scripts used to train the Mozilla DeepSpeech models used for Welsh language speech recognition in the open source Macsen - Welsh Language Voice Assistant App and Welsh Transcriber applications in March 2020 (20.03)
Mae'r angen llwytho i lawr y ddata hyfforddi a phrofi ar wahân o CommonVoice ac o'r porth technolegau iaith. Y data dylid llwytho i lawr o'r porth technolegau iaith yw:
-
set profi Macsen Macsen test set:
http://techiaith.cymru/deepspeech/macsen/datasets/macsen_200121.tar.gz -
set profi Arddweud Transcription test set :
http://techiaith.cymru/deepspeech/arddweud/datasets/arddweud_testset_200303.tar.gz
Er bod maint y data Cymraeg yn CommonVoice yn annigonol ar gyfer hyfforddi adnabod lleferydd Cymraeg cyflawn, mae'r sgriptiau yn llwyddo i ddarparu modelau defnyddiol ac ymarferol drwy ddefnyddio dulliau dysgu trosglwyddol i addasu modelau Saesneg DeepSpeech gyda data Cymraeg.
Although the amount of Welsh data in CommonVoice is insufficient for training a complete Welsh language speech recognition engine, these scripts still succeed in providing a practical capability by using transfer learning methods to adapt DeepSpeech project's English models with Welsh data
Mae'r modelau wedi eu hyfforddi ar gael o / The trained models are available from