Project:About

Ahotsak corpusa wikidatara hurbildu: Egitasmoaren deskribapena

Egungo egoera

ahotsak.eus gunean, herritarren ahozko lekukotasunak biltzen ditugu. Momentu honetan, 6.204 hizlariri grabatutako 61.416 bideo-pasarte bildu dira, 362 udalerritan egindakoak. Transkripzioen corpusak 10.089 bideoren transkripzioak ditu, 3.115.603 testu-hitz osatzen dituztenak. 3.809 sarrerako lemategian, testu-hitzak jasota daude hierarkia batean: lema - aldaera - hitza, adibidez: "irten" - "irten, urten, erten" - "irtendakoan", "ertendakun", "urteten", ... Lema bakoitzari dagokion hierarkia lemaren azpian ikus daiteke html errepresentazio batean, adibidez: https://ahotsak.eus/corpusa/lema/irten/ (“aldaerak eta hitzak” atalean).

Lemaren html sarrerara daraman lotura wikidatako lemen ("lexemen") azpian jasota dago, wikidatan bereziki sortutako “external identifier” propietate bat erabilita. Beraz, wikidatako euskal lexemen sarreretatik ahotsak-eko sarreretara salto egin daiteke. Horretaz gain, wikidatako lexemen sarreretan, Elhuyar hiztegirako lotura dago jasota, besteak beste. Lema mailan, beraz, ahotsak.eus-eko eta Elhuyarreko lemen artean lotura sortua da, eta wikidata da lotune edo igarobidea. Etxe ezberdineko baliabide lexikal ezberdinen artean sortu den lehenengo lotura-sorta da hori: wikidatan ez bada, ez dago horrelakorik. Gainera, Larramendiren Hiztegi Hirukoitza bezalako baliabide lexikal historikoak ere Wikidatara gehitu dira, eta haietako lexemak wikidatakoekin lotzeko bidea proposatu da.

Wikidatako lexema sarreretan, lemei dagozkien forma flexionatuak jasota daude, Euskara Batukoak. Forma bakoitzak bere ezaugarri gramatikalak ditu, adibidez, "irten", aditzoina, "irtengo", geroaldia.

ahotsak.eus-eko lema sarreretan, aldiz, forma dialektalak jasota daude, grafiari eta lematizazioari dagokionez, Ahotsak Elkarteak erabiltzen dituen irizpideen arabera. Forma dialektal bakoitza agertokiekin lotuta dago, hau da, bideoarekin, transkripzioarekin eta haien metadatuekin (data eta herriarekin, hizlariarekin, teknikariarekin…). Lotura horiek ez dira zentzu teknikoan ‘semantiko’ edo esanguratsuak, hau da, makina batek ez ditu ulertzen, ezin dira zuzenean berrerabili.

Egitasmoak eta metodologia

Berehalakoak (lehenengo fasea)

  • Wikidatan jasotako ahotsak.eus-erako zenbait lotura apurturik daude. Haiek zuzendu egingo ditugu, hau da, apurtutakoak eguneratu edo kendu, eta falta direnak jaso. ahotsak.eus-eko lema batzuk ere problematikoak dira, bestelako baliabideetan lema bezala ez baitira jasotzen, ahotsak-eko “dagoz” lema, esaterako. Horrelakoen aurrean zer egin erabakiko dugu.
  • Wikibase batean (Wikimedia Germany-k eskainitako "Wikibase as a Service" bitartez, momentu honetan wbstack.com helbidean dagoena), ahotsak.eus-eko hainbat datu jasoko dugu, bertan elkarrekin lotzeko, azken helburua wikidatara bidaltzea edota wikidatarekin federatzea izanda. Jokabide horren abantail nagusia zera da: Zuzenean has gaitezke datu-ereduak sortzen eta datuak biltzen, wikidatako baldintzei erreparatzea bigarren fase batera utziz. [‘Wikibase’ wikidataren azpian dagoen softwarea da. ‘Wikibase as a Service’ esan nahi du edonork sor dezakeela bere ‘wikidata propioa’, wikidata nagusiarekin guztiz bateragarria dena. Hemendik aurrera, propio sortutako wikibase horri ‘wikibase’ deituko diogu, eta wikidata.org-en azpian dagoen wikibase-ri, berriz, ‘wikidata’.]
    • Aldaera dialektalak. Euskara Batuko (EB) lemaren berdina ez den aldaera oro ("urten", "erten"), lexema gisa jasoko da, EB-ko lemara loturik.
    • Aldaera dialektal bakoitzari dagozkion testu-hitzak eta agerpenak. Haien azpian ("qualifier" gisa), herria eta grabazioaren data jasoko da. Grabazioaren kodeak ahotsak.eus-eko grabazioen atalera eramango du, dagokion tokira. Herriaren adierazpena wikidata item bitartez egingo da. Herriak wikibasean jasoko dira, wikidatan duten identifikatzailearekin. Horrela, mapak sor daitezke, adibidez.
    • Adibidea, are-kutxa gisa erabiltzen ari garen wikibase batean: https://datuak.filosarea.org/wiki/Lexeme:L49361
    • ahotsak.eus webgunea garatzen dutenekin harremanak ditugu; datuak zuzenean erabiltzeko aukera ematea eskatuko diegu, html errepresentazioetatik, posible bada ere, erauzi behar ez izateko.


Bigarren fasea

  • Wikibase sortu berritik wikidatara zer datu bidali aztertuko dugu. Hainbat arazo landu behar dira horretarako, besteak beste, wikidatan sortu behar diren propietateak, eta datu lexikografikoek wikidatan duten eredua. Azken horri dagokionez, arazo pisutsuak aipatu behar dira: Momentu honetan, wikidatako lexemak kategoria gramatikal (POS) bakarrekoak dira, nahiz eta morfologia berdina izan (izenkiak ere ez dira batera jasotzen, "izen" eta "adjektibo" gisa banandurik baizik.) Bestetik, aditz izenaren forma aditzaren sarreran jasotzen da. ahotsak.eus-ek, aldiz, ez du POS batere bereizten (hau da, "agindu" izena eta "agindu" aditza lema beraren azpian datoz, forma guztiak barne). Homonimoen auzia ere hor dago ("baso", oihana vs. "baso", edalontzia): ahotsak-en, baturik daude, eta wikidatan, auzi hori ez dago erabakita, oraindik, kasu horietan Elhuyar hiztegiko sarrera bakarra jaso da eta, eta ez biak. Wikidatan dauden euskarazko datu lexikalen inguruan, beraz, zer bide hartu ez dago alde guztiei begira erabakita momentu honetan. Afera ez da erraza, etorkizunean garatuko den Abstract Wikipediaren kasuan, POS hori funtsezkoa baita modu matematikoan hizkuntzen arteko parekatzeak egiteko.
  • Jokuan dauden auzien inguruan proposamenak garatuko ditugu, eta eragile interesatuekin eztabaidatu (Ahotsak, Elhuyar, Wikidatako "Lexicographical data" komunitatea, IXA, Euskal Filologia...). Irizpide teknikoak eta filologikoak hartuko ditugu aintzat. Eztabaida honen garrantzia ezin da gutxietsi, etorkizunean edozein baliabide lexikalari, edozein hiztegi digitalizatu, edozein termino-bildumari wikidatan sarrera (edo lotura) emateko molde edo eredua orain erabakiko baita.
  • Lehenengo fasean, ahotsak.eus-eko bideoak eta transkripzioak "external identifier" bitartez lotu ditugu wikibasera. Bideoak eta transkripzioak fisikoki wikibasera (edo zuzenean Wikimediara, audio zatiak Commonsera eta Wikidatara eta transkripzioak Wikisourcera) igaroaraztea merezi duen, eta nola egin litekeen, aztertuko dugu.
  • Forma dialektalak EB-ko formekin lotzeko bidea prestatuko dugu, hau da, lemaren mailan ez ezik, formaren mailan ere lotura esplizitu bihurtzeko metodologia garatu: "erteten" > "irtetzen". Datu-eredua eta lan-fluxua proposatuko dugu, eta aztertu noraino automatiza daitekeen lotura haien esleipena (antzekotasun grafikoa, machine learning...).
  • ahotsak.eus-en, Koldo Zuazoren euskalkien sailkapena islaturik dago. Sailkapena wikibase-n jasoko dugu. Horrela, testu-hitzen agerpenak herriarekin, eta haren bitartez, euskalkiekin erlazionatuko dira, euskalkiaren araberako bilaketa edo iragazketak ahalbidetuz. Euskalkien sailkapenaren isla wikidatan ere jasotzeko baldintzak aztertuko ditugu. Forma dialektalak dagokien euskalkira lotuko dira, wikidatako propietate bat erabiliz.


Onurak

Lehenengo fasean, ekarpen nagusia zera da: Aldaera dialektalak, haiei dagozkien testu-hitzak (formak), eta agerpenaren tokia eta data erlazionatzea. Horrela galdetu daiteke: forma bat zein herritakoa izan daitekeen, Bizkaiko forma bati Lapurterazko zein forma dagokion, Azkoitian zer formak erabiltzen diren. Horrelako bilaketak ahotsak.eus-eko uneko webgunean ezin dira egin, ez API bitartez, behintzat (informazioa eskuz atera behar da html-tik). API-ren balizko erabiltzailea hiztegi-agregatzaile bat izan daiteke, euskalbar, edo garatu berri den Itzuli Plus gehigarriaren modukoa.

Bigarren fasean landuko duguna lortzen dugun heinean, hau da, forma dialektalen eta EB-ko formen arteko erlazioak, forma mailan ere jakintza dialektala izango du eskura hiztegi-tresna edo bestaleko aplikazio batek. Horrela, testu dialektal baten formak EB-ko formez errepresenta daitezke, edo EB-ko forma bat herri jakin baten hizkeran. Edozein testuren jatorria kokatzen laguntzeko ere erabil dezake tresna batek.

Wikidatako eta inguruko datu lexikografikoei begira, bide berriak zabalduko ditugu bi zentzutan: Alde batetik, jasotako formak dokumentatuak izango dira guztiak (benetan agertu dira), wikidatako formen artean hipotetikoak ere dauden bitartean (txantiloi estandar baten arabera sortu dira). Bestetik, ahozko hizkuntzatik abiatzen den egitasmo lexikografikoa da, baliabide lexikal gehien-gehienak (Elhuyar, OEH, Sarasolaren hiztegiak…) idatzizko corpusetan oinarritzen diren bitartean. Bi munduetako baliabideak elkarrekin lotzea aurrera-pauso garrantzitsua dela, eta baliabide lexikal ezberdinen artean wikidata lotune nagusitzat hartzea aukera egokia dela uste dugu. Hastapenak besterik ez ditugu egin momentu honetan; etorkizunean baliabide gehiago sare semantikoan sartzeko oinarriak lantzeko unea da orain, eta horretarako ekarpena egingo dugu egitasmo honekin.