ENGLISH

Mae Corpws Hanesyddol yr Iaith Gymraeg 1500-1850 yn gasgliad o destunau Cymraeg ar ffurf electronig o’r cyfnod 1500-1850. Mae’n gynnyrch prosiect i amgodio testunau Cymraeg o’r cyfnod a gyllidwyd gan yr Arts and Humanities Research Board (AHRB Resource Enhancement Award RE11900) yn Adran Ieithyddiaeth Prifysgol Caergrawnt rhwng 2001 a 2004. Prif Ymchwilydd y prosiect oedd David Willis, tra bu Ingo Mittendorf yn Gymrawd Ymchwil arno. Amcan y prosiect oedd dechrau darparu adnodd electronig archwiliadwy ar gyfer ymchwil ieithyddol, llenyddol a hanesyddol, yn debyg i gorpysau sydd eisoes ar gael ar gyfer ieithoedd fel Saesneg, Ffrangeg, Almaeneg a Gwyddeleg. Deliodd prosiect Caergrawnt â’r cyfnod Cymraeg Cynnar Diweddar. Mae prosiectau eraill ym Mhrifysgol Cymru wedi darparu neu mae nhw wrthi’n darparu deunyddiau cyffelyb ar gyfer cyfnodau cynharach. Er i’r prosiect orffen yn 2004, gobeithir y bydd adnoddau ar gael i ehangu’r corpws yn y dyfodol.

Cafodd y corpws ei gynllunio i adlewyrchu amrywiaeth gyfoethog y testunau Cymraeg sy’n hysbys yn ystod y cyfnod 1500-1850 gan gynnwys testunau a samplau o destunau o wahanol lefelau arddull ac o darddiadau daearyddol amrywiol. Mae nifer o’r testunau a gynhwysir ynddo heb fod ar gael mewn argraffiadau cyfoes digonol, neu maent ar gael ar ffurf wedi’i diweddaru yn unig; felly mae’r corpws hefyd yn caniat‡u ymchwilwyr i ddarllen nifer o’r testunau ar ffurf gyfleus am y tro cyntaf. Hyderir y bydd hyn yn annog ymchwil ieithyddol, llenyddol a hanesyddol pellach ar y testunau hyn.

Extensible Markup Language (XML) yw’r iaith a ddefnyddiwyd i amgodio’r corpws mewn fformat sy’n cydymffurfio â’r safonau a osodwyd gan y Fenter Amgodio Testunau (Text Encoding Initiviate, TEI). Dylai hyn sicrhau ei gadwraeth tymor hir, ac ar yr un pryd mae’n cynnig hyblygrwydd yn y modd y gellir arddangos y testunau a’u defnyddio. Gellir edrych ar ffeiliau’r corpws ar y We yn y fan hon, ac maent hefyd ar gael i’w dadlwytho ar sawl ffurf fel: ffeiliau plaen XML, ffeiliau HTML gweladwy mewn dwy ffurf (diplomatig ac wedi’i olygu); fel ffeiliau corpws wedi eu haddasu i’w defnyddio gyda’r pecyn meddalwedd ‘Concordance’; ac fel mynegeion gwe. Er nad oes tagio gramadegol i’w gael yn y corpws, mae’r ffeiliau XML yn cynnwys peth amgodio wedi ei gynllunio i symleiddio defnyddioldeb y corpws fel ffynhonnell ar gyfer ymchwil ieithyddol. Ymwna hyn yn bennaf ag amrywiaethau sillafu ac orgraff. Cedwir y sillafu gwreiddiol, ond ceir tagio yn achos amryfusedd ac amrywiaeth orthograffig sylweddol, ac fe’i defnyddir yn y mynegeion a’r cydgordiadau. Dogfennir confensiynau golygyddol eraill yma.

Trefnir y corpws i grwpiau o wahanol fathau o destunau er mwyn cynrychioli amrywiaeth arddull yr iaith Gymraeg, tra’n caniat‡u gwahaniaethau yn yr amrediad neilltuol o’r mathau o destunau sydd yn bodoli o wahanol gyfnodau. Mae’r testunau felly’n cynnwys dramâu, llythyrau personol, baledi, rhyddiaith wleidyddol (ddidactig), ysgrythur, naratif hanesyddol, naratif rhyddiaith, a naratif grefyddol. Ar gyfer pob testun cynhwysir sampl o tua 15,000 o eiriau. Yn achos testunau ble mae’r hyd cyfan yn llai na tua 20,000 o eiriau, ac hefyd yn achos y testunau dramatig (yr anterliwtiau), yr ydym fel rheol wedi dewis cynnwys y testun yn ei gyfanwaith. Yn ei gyfanrwydd mae’r corpws yn cynnwys oddeutu 420,000 o eiriau o 30 testun.

© University of Cambridge 2004
Diweddarwyd: 
Last update: