Hankkeen julkinen kuvaus |
Yhdistäen korpuslingvistiikan pitkät perinteet ja kieliteknologian viimeisimmät innovaatiot hanke tarkastelee web-rekistereitä — internetissä tavattuja, tilanteisesti määriteltyjä tekstejä kuten uutisia, blogjea ja käyttöohjeita — massiivisen monikielisessä mittakaavassa. Hanke 1) määrittää rekistereiden kieltenvälisiä eroja sekä tuottaa kattavan kuvauksen web-rekistereistä kuudella kielellä; 2) kehittää koneoppimismenetelmiä rekistereiden mallintamiseen ja automaattiseen
tunnistukseen massiivisen monikielisessä ympäristössä; 3) tunnistaa rekisterit Universal Parsebanks -kokoelmasta, joka sisältää lähes 100 miljoonaa sanaa internetistä koneellisesti koottua tekstiä 64 kielellä. Hanke tuottaa elintärkeää tietoa kielenkäytöstä internetissä ja tuo uusia mahdollisuuksia sekä kielentutkimukselle että kaikille tekstimuotoista big dataa hyödyntäville aloille.
|
|