Project:About: Difference between revisions

From ahotsak.eus datuak
m
no edit summary
(Created page with "ahotsak.eus wikidatara hurbildu Egitasmoaren deskribapena =Egungo egoera= ahotsak.eus gunean, herritarren ahozko lekukotasunak biltzen dituzte. Momentu honetan, 6.204 hizla...")
 
mNo edit summary
 
(3 intermediate revisions by one other user not shown)
Line 1: Line 1:
ahotsak.eus wikidatara hurbildu
'''Ahotsak corpusa wikidatara hurbildu: Egitasmoaren deskribapena'''
 
Egitasmoaren deskribapena


=Egungo egoera=
=Egungo egoera=


ahotsak.eus gunean, herritarren ahozko lekukotasunak biltzen dituzte. Momentu honetan, 6.204 hizlariri grabatutako 61.416 bideo-pasarte bildu dituzte, 362 udalerritan egindakoak. Transkripzioen corpusak 10.089 bideoren transkripzioak ditu, 3.115.603 testu-hitz osatzen dituztenak. 3.809 sarrerako lemategian, testu-hitzak jasota daude hierarkia batean: lema - aldaera - hitza, adibidez: "irten" - "irten, urten, erten" - "irtendakoan", "ertendakun", "urteten", ... Lema bakoitzari dagokion hierarkia lemaren azpian ikus daiteke html errepresentazio batean, adibidez: https://ahotsak.eus/corpusa/lema/irten/ (“aldaerak eta hitzak” atalean).
ahotsak.eus gunean, herritarren ahozko lekukotasunak biltzen ditugu. Momentu honetan, 6.204 hizlariri grabatutako 61.416 bideo-pasarte bildu dira, 362 udalerritan egindakoak. Transkripzioen corpusak 10.089 bideoren transkripzioak ditu, 3.115.603 testu-hitz osatzen dituztenak. 3.809 sarrerako lemategian, testu-hitzak jasota daude hierarkia batean: lema - aldaera - hitza, adibidez: "irten" - "irten, urten, erten" - "irtendakoan", "ertendakun", "urteten", ... Lema bakoitzari dagokion hierarkia lemaren azpian ikus daiteke html errepresentazio batean, adibidez: https://ahotsak.eus/corpusa/lema/irten/ (“aldaerak eta hitzak” atalean).


Lemaren html sarrerara daraman lotura wikidatako lemen ("lexemen") azpian jasota dago, wikidatan bereziki sortutako “external identifier” [http://www.wikidata.org/entity/P7559 ''propietate bat''] erabilita. Beraz, wikidatako euskal lexemen sarreretatik ahotsak-eko sarreretara salto egin daiteke. Horretaz gain, wikidatako lexemen sarreretan, Elhuyar hiztegirako lotura dago jasota, besteak beste. Lema mailan, beraz, ahotsak.eus-eko eta Elhuyarreko lemen artean lotura sortua da, eta wikidata da lotune edo igarobidea. Etxe ezberdineko baliabide lexikal ezberdinen artean sortu den lehenengo lotura-sorta da hori: wikidatan ez bada, ez dago horrelakorik. Gainera, Larramendiren Hiztegi Hirukoitza bezalako baliabide lexikal historikoak ere Wikidatara gehitu dira, eta haietako lexemak wikidatakoekin lotzeko bidea proposatu da.
Lemaren html sarrerara daraman lotura wikidatako lemen ("lexemen") azpian jasota dago, wikidatan bereziki sortutako “external identifier” [http://www.wikidata.org/entity/P7559 ''propietate bat''] erabilita. Beraz, wikidatako euskal lexemen sarreretatik ahotsak-eko sarreretara salto egin daiteke. Horretaz gain, wikidatako lexemen sarreretan, Elhuyar hiztegirako lotura dago jasota, besteak beste. Lema mailan, beraz, ahotsak.eus-eko eta Elhuyarreko lemen artean lotura sortua da, eta wikidata da lotune edo igarobidea. Etxe ezberdineko baliabide lexikal ezberdinen artean sortu den lehenengo lotura-sorta da hori: wikidatan ez bada, ez dago horrelakorik. Gainera, Larramendiren Hiztegi Hirukoitza bezalako baliabide lexikal historikoak ere Wikidatara gehitu dira, eta haietako lexemak wikidatakoekin lotzeko bidea proposatu da.
Line 37: Line 35:
* Lehenengo fasean, ahotsak.eus-eko bideoak eta transkripzioak &quot;external identifier&quot; bitartez lotu ditugu wikibasera. Bideoak eta transkripzioak fisikoki wikibasera (edo zuzenean Wikimediara, audio zatiak Commonsera eta Wikidatara eta transkripzioak Wikisourcera) igaroaraztea merezi duen, eta nola egin litekeen, aztertuko dugu.<br />
* Lehenengo fasean, ahotsak.eus-eko bideoak eta transkripzioak &quot;external identifier&quot; bitartez lotu ditugu wikibasera. Bideoak eta transkripzioak fisikoki wikibasera (edo zuzenean Wikimediara, audio zatiak Commonsera eta Wikidatara eta transkripzioak Wikisourcera) igaroaraztea merezi duen, eta nola egin litekeen, aztertuko dugu.<br />


* Forma dialektalak EB-ko formekin lotzeko bidea prestatuko dugu, hau da, lemaren mailan ez ezik, formaren mailan ere lotura esplizitu bihurtzeko metodologia garatu: &quot;erteten&quot; &gt; &quot;irtetzen&quot;. Datu-eredua eta lan-fluxua proposatuko dugu, eta aztertu noraino automatiza daitekeen lotura haien esleipena (antzekotasun grafikoa, machine learning...).<br />
* Forma dialektalak EB-ko formekin lotzeko bidea prestatuko dugu, hau da, lemaren mailan ez ezik, formaren mailan ere lotura esplizitu bihurtzeko metodologia garatu: &quot;erteten&quot; &gt; &quot;irteten&quot;. Datu-eredua eta lan-fluxua proposatuko dugu, eta aztertu noraino automatiza daitekeen lotura haien esleipena (antzekotasun grafikoa, machine learning...).<br />


* ahotsak.eus-en, Koldo Zuazoren euskalkien sailkapena [https://ahotsak.eus/euskalkiak/zuhaitza/ ''islaturik''] dago. Sailkapena wikibase-n jasoko dugu. Horrela, testu-hitzen agerpenak herriarekin, eta haren bitartez, euskalkiekin erlazionatuko dira, euskalkiaren araberako bilaketa edo iragazketak ahalbidetuz. Euskalkien sailkapenaren isla wikidatan ere jasotzeko baldintzak aztertuko ditugu. Forma dialektalak dagokien euskalkira lotuko dira, wikidatako [https://www.wikidata.org/wiki/Property:P7481 ''propietate bat''] erabiliz.<br />
* ahotsak.eus-en, Koldo Zuazoren euskalkien sailkapena [https://ahotsak.eus/euskalkiak/zuhaitza/ ''islaturik''] dago. Sailkapena wikibase-n jasoko dugu. Horrela, testu-hitzen agerpenak herriarekin, eta haren bitartez, euskalkiekin erlazionatuko dira, euskalkiaren araberako bilaketa edo iragazketak ahalbidetuz. Euskalkien sailkapenaren isla wikidatan ere jasotzeko baldintzak aztertuko ditugu. Forma dialektalak dagokien euskalkira lotuko dira, wikidatako [https://www.wikidata.org/wiki/Property:P7481 ''propietate bat''] erabiliz.<br />