Suomen Akatemia  
 
 
 
 
 
Rahoituspäätös
 
Hakija / Yhteyshenkilö Laippala, Veronika
Organisaatio Turun yliopisto
Tutkimusaihe Rekisterit massiivisen monikielisissä internet-aineistoissa
Päätös 331297
Päätöspvm 28.05.2020
Rahoituskausi 01.09.2020 - 31.08.2024
Rahoitus (€) 480 000
   
Hankkeen julkinen kuvaus
Yhdistäen korpuslingvistiikan pitkät perinteet ja kieliteknologian viimeisimmät innovaatiot hanke tarkastelee web-rekistereitä — internetissä tavattuja, tilanteisesti määriteltyjä tekstejä kuten uutisia, blogjea ja käyttöohjeita — massiivisen monikielisessä mittakaavassa. Hanke 1) määrittää rekistereiden kieltenvälisiä eroja sekä tuottaa kattavan kuvauksen web-rekistereistä kuudella kielellä; 2) kehittää koneoppimismenetelmiä rekistereiden mallintamiseen ja automaattiseen tunnistukseen massiivisen monikielisessä ympäristössä; 3) tunnistaa rekisterit Universal Parsebanks -kokoelmasta, joka sisältää lähes 100 miljoonaa sanaa internetistä koneellisesti koottua tekstiä 64 kielellä. Hanke tuottaa elintärkeää tietoa kielenkäytöstä internetissä ja tuo uusia mahdollisuuksia sekä kielentutkimukselle että kaikille tekstimuotoista big dataa hyödyntäville aloille.