Corpus-Driven Analysis of Multi-Word Terms Including the Word ‘Risk’ in English, French and Lithuanian

  • Oksana Smirnova
  • Sigita Rackevičienė
Keywords: descriptive terminology, corpus driven analysis, financial terms, term extraction, term formation patterns

Abstract

ANGLŲ, PRANCŪZŲ IR LIETUVIŲ KALBŲ DAUGIA ŽODŽIŲ TERMINŲ SU ŽODŽIU RIZIKA ANALIZĖ TEKSTYNŲ LINGVISTIKOS METODAIS
    Straipsnyje pristatomi deskriptyviosios terminologijos tyrimo principai bei empirinis daugiažodžių terminų su žodžiu rizika tyrimas, kurio tikslas – taikant tekstynų lingvistikos metodus, surinkti terminus iš ES finansų srities dokumentų tekstynų ir atlikti jų formaliosios sandaros analizę.
    Tyrimo tikslams buvo sukaupti keturi tekstynai: finansų srities dokumentų anglų kalba (802 933 žodžiai), prancūzų kalba (940 655 žodžiai) ir lietuvių kalba (639 279 žodžiai) bei lygiagretusis anglų–prancūzų–lietuvių kalbų tekstynas. Iš tekstynų surinkta 210 terminų, kuriuose žodis rizika eina pagrindiniu dėmeniu: 70 angliškų terminų ir po tiek pat jų atitikmenų prancūzų ir lietuvių kalbomis. Žodžio rizika pasirinkimą lėmė tai, kad šis žodis buvo dažniausias visų trijų kalbų tekstynuose.
    Terminų atpažinimui ir surinkimui buvo naudojamos dvi kompiuterinės progra-
mos – AntConc ir AntPConc. Dirbta tokiais etapais:
    • dažniausių žodžių, galinčių būti terminų branduoliu, angliškame, prancūziškame ir lietuviškame tekstynuose nustatymas ir vieno iš jų (žodžio rizika) atrinkimas tolesnei analizei;
    • žodžio rizika kolokacijų ir daiktavardinių junginių su pagrindiniu dėmeniu rizika ir jo kairiaisiais bei dešiniaisiais kolokatais nustatymas angliškame tekstyne;
    • daiktavardinių junginių, laikytinų daugiažodžiais terminais, atrinkimas;
    • atrinktų angliškų terminų prancūziškų ir lietuviškų atitikmenų nustatymas.
    Pritaikyta metodologija leido rezultatyviai surinkti daugiažodžius terminus iš daugiakalbių tekstynų. Tai duoda pagrindą teigti, kad ji gali būti taikoma terminų kaupimui bei tyrimams.
    Surinktų terminų formaliosios sandaros analizė atskleidė keletą svarbių terminų darybos tendencijų tiriamose kalbose:
    • vyraujantis terminų tipas pagal dėmenų skaičių visose trijose tiriamose kalbose yra dvižodžiai terminai; tai rodo, kad ES terminų kūrėjai laikosi kalbos ekonomijos principo ir stengiasi kurti kuo trumpesnius daugiažodžius terminus;
    • tik keletas angliškų ir prancūziškų terminų turi daugiau kaip 2–3 dėmenis; tuo tarpu lietuviški terminai, susidedantys iš 4 ir daugiau dėmenų, sudaro beveik ketvirtadalį surinktų terminų;
    • anglų ir lietuvių kalbų terminų darybos modeliuose vyrauja prepozicinė ir post­ pozicinė modifikacija, o prancūzų kalbos – postpozicinė modifikacija;
    • daugumos anglų ir lietuvių kalbų terminų priklausomieji dėmenys yra daiktavardžiai ir būdvardžiai, o prancūzų kalboje – prielinksninės konstrukcijos.
    Formaliosios sandaros analizės rezultatai suteikia informacijos, kuri gali būti naudinga terminų kūrėjams ir vertėjams. Tyrimo metu nustatyti sintaksinių struktūrų modeliai gali būti taikomi, kuriant kompiuterinius lingvistinius metodus automatiniam terminų atpažinimui be iš anksto pasirinktų raktinių žodžių.

Section
Terminology and the Present