Статья из книги “Sanotaan tyylin näin”, 2016 год, тема которой понятна из ее названия. В качестве приложения нейросетевой перевод.
Kuinka monta sanaa on suomen kielessä?
Luettelen viisi estettä, jotka tekevät otsikon kysymykseen vastaamisen mahdottomaksi.
Ensimmäinen este: sanan käsite on hankala määritellä. Termiä sana voidaan käyttää monella tapaa. Kun ruvetaan laskemaan, onko laskemisen kohteena sanan perusmuoto, lekseeminen sana eli sanakirjoissa käytettävä hakusana, vai otetaanko laskuihin mukaan yhden sanan kaikki taivutusmuodot? Olkoon hakusana vaikkapa substantiivi talo. Sillä on aika paljon taivutusmuotoja: talon, taloa, taloissa ja niin edelleen. Lisäksi näihin muotoihin voi kiinnittää possessiivisuffikseja (talollamme) ja liitepartikkeleita (talottakohan). Kun tarkkaan lasketaan ja otetaan kaikki mahdolliset yhdistelmät huomioon, yhdellä substantiivilla on taivutusmuotoja yli 2000. Tämä on sitä paitsi vasta alkua: teonsanalla tämmöisiä taivutusmuotoja on yli 12 000, jos nominaalimuodot (puhuva, puhuttava, puhunut, puhumaan jne.) kaikkine sija-muotoineen lasketaan mukaan. Kun siis suomen sanavaroja lasketaan, lasketaanko kaikki tekstissä tai puheessa esiintyvät sananmuodot omiksi sanoikseen vai lasketaanko esimerkiksi talo-sanan kaikki muodot yhdeksi sanaksi?
Toinen este: suomen kieli on moniselitteinen ja laaja ilmiö. Otetaanko laskutoimitukseen mukaan kaikki mahdolliset kielimuodot, puhekieli ja kirjakieli ja verkossa käytettävä kieli? Suomessa suomea puhua pälpättää joka päivä lähes viisi miljoonaa suuta ja rajojen ulkopuolella muutama satatuhatta lisää. Kyllä siihen puhetulvaan sanoja mahtuu. Painettua tekstiä ilmestyy joka päivä tuhansia sivuja, ja verkko pullistelee painamatonta. Sanoja, sanoja…
Entä rajataanko suomen kieltä ajallisesti? On määritelmä-kysymys, mihin ajankohtaan suomen kielen synty sijoitetaan, siis milloin sen katsotaan riittävästi eronneen sisarkielistään. Väljästi ottaen voidaan katsoa, että suomen kieli on ollut olemassa ajanlaskumme alusta, suurimman osan ajasta siten vain puhuttuna. Tuona aikana on paljon sanastoa kadonnut, mutta paljon on säilynyt nykyaikaan. Osa säilyneestäkin sanastosta on käynyt hyvin harvinaiseksi. Otetaanko laskelmassa huomioon vaikkapa ajoneuvotermi juko’ jalaksien etupäitä yhdistävä poikkipuu’?
Suomen kielessä on kymmeniä ja taas kymmeniä erityisaloja, joilla on oma sanastonsa. Pitääkö nämä erityissanastot sisällyttää laskelmaan? Jos ei sisällytetä, missä menee yleiskielen ja erityiskielen sanaston raja? Kuuluuko lääketieteen termi refraktio ’silmän kliinisesti määritetty taittovirhe’ yleiskieleen? Ongelmaksi nousevat kieleen pyrkivät lainasanat ennen (mahdollista) vakiintumistaan. Sana nailon eräs polyamidi’ on epäilemättä nykysuomen yleiskieltä, mutta kun se 1940-luvulla nylon-muodossa teki tuloaan, ei sanojen laskija varmaankaan olisi kelpuuttanut sitä kokoelmaansa. Samoihin aikoihin kolkutteli suomen kielen portteja radar, mutta se ei päässyt sisään – sen korvasi omapohjainen tutka.
Nämä kaksi ensimmäistä estettä johdattanevat sanojen-laskijan kohti päätöstä: jotta laskutoimitus ei kaatuisi heti lähtökuoppiin, lienee parasta keskittyä nykysuomen kirjakieleen ja valita kohteiksi lekseemit, sanojen hakumuodot, sekä välttää erityisalojen sanastoa. Päätös on viisas, ja sen varassa pääsee eteenpäin, mutta pitää muistaa, että mahdollinen lopputulos ei enää ole tarkka; paljon sanoja on hyljätty.
Kolmas este: miten suhtautua polysemiaan ja homonymiaan? Polysemia on sitä, että yhdellä sanalla on monia, toisistaan paljonkin poikkeavia merkityksiä. Sana laskea merkitsee muun muassa alenemista (nousemisen vastakohtana), kaatamista (vrt. juomanlaskija), laskeutumista (aurinko laskee), sallimista (Isä ei laskenut lapsia elokuviin), laskutoimitusten suorittamista (hän yrittää laskea suomen sanojen lukumäärän). Katsotaanko laskelmassamme kaikki laskea-sanat yhdeksi sanaksi vai, kunkin merkityksen mukaan, useammaksi? Entäpä hiiri jyrsijälajia ja tietokoneen hallinta-laitetta merkitsevänä? ”Posketon viheltäjä” kuvasi radion musiikkiohjelman juontaja belgialaista Toots Thielemansia. Puhekielen posketon merkitsee älytöntä, uskomatonta, ja tätä lienee juontajakin tarkoittanut, koska kirjaimellisesti otettuna posketon viheltäjä on melkoinen luonnonoikku. Yhtä kaikki, päätettäväksi jää, montako sanaa tässä on kyseessä. Homonymia taas on sitä, että eri alkuperää olevilla, erimerkityksisillä sanoilla on yhteneväisiä sananmuotoja. Lasketaanko kuusi eräs puulaji’ ja kuusi ’6’ yhdeksi vai kahdeksi sanaksi?
Neljäs este: suomi on johdoskieli. Perussanoihin voidaan liittää erilaisia johtimia, jotka luovat kantasanasta uuden sanan. Substantiivista metsä voidaan johtaa toinen substantiivi metsikkö tai vaikkapa teonsana metsästää. Teonsanasta juosta on johdettavissa esimerkiksi teonsana juoksahdella ja substantiivi juoksu. Substantiiveja muodostavia johtimia on noin 70, verbejä muodostavia johtimia nelisenkymmentä, adjektiivejakin saa aikaan toistakymmenellä johtimella, samoin adverbeja. Hyvin suuri osa johtimista on produktiivisia, eli ne ovat koko ajan käytössä, ja ne voi liittää mihin kantasanaan hyvänsä. Minkä hyvänsä kielen nimestä voi johtaa tälle kielelle kääntämistä merkitsevän teonsanan: espanjantaa, kroatiantaa, turkintaa. Maailmassa on kieliä toki rajallinen määrä, kuutisentuhatta. Karttuupa sanoja laskettavaksi niistäkin. Sitten noista kääntämisverbeistä voi johtaa kääntämisen tuloksen: espanjannos, kroatiannos, turkinnos. Jos olisi mahdollista saada selville kantasanojen lukumäärä, se olisi kerrottava produktiivisten johdinten määrällä, jotta päästäisiin lähelle sanojen kokonaismäärää.
Viides este: suomessa on helppo muodostaa yhdyssanoja. Perussanoja voi yhdistää melko vapaasti keskenään. Yhdyssanan osat ovat selvästi nähtävissä, vaikka usein merkitys on muuta kuin osiensa summa. Niinpä kerrostalo on talo, jossa on kerroksia, lentokone on kone, joka lentää, mutta lautakunta ei ole laudasta koostuva kunta. (Tässä tapauksessa on lähdettävä laudan vanhasta merkityksestä ’pöytä’: saman pöydän ääressä istuva ryhmä, pöytäkunta.) Soratie on soralla päällystetty tie, mutta rautatie ei ole raudalla päällystetty tie, vaan rautaa on käytetty hieman toisin. Yhdyssanoja voi liittää toisiin perussanoihin tai yhdyssanoihin: parisuhdelaki, siltatyömaa, täysjyvävehnäjauho.
Monet yhdyssanat ovat täysin vakiintuneita, kielessä pitkän päivätyön tehneitä, kuten vaikkapa metsämies, sadonkorjuu, vaaliluettelo ja ylioppilastutkintolautakunta. Yhdyssanoja voidaan luoda tarpeen mukaan myös tilapäiskäyttöön. Yhdyssanojen muodostaminen on niin luonnollinen ja kieleen kiinteästi kuuluva menetelmä, että uudetkin, juuri syntyvät yhdyssanat selittävät saman tien itse itsensä. Vuoden 2014 loppupuolella oli edennyt syyteharkintaan paljon huomiota herättänyt rikostutkinta, jossa epäiltynä oli poliisimies. Lehtiotsikot kertoivat: useita syytteitä seurantalaiteyhtiösotkuista. Selvää on, että seurantalaite on sana, jota tarvitaan ja käytetään yleisesti, ja myös seurantalaiteyhtiö on käyttökelpoinen yhdyssana. Sen sijaan seurantalaiteyhtiösotku tuskin lunastaa paikkaa vakiintuneiden yhdyssanojen joukossa. Silti se on ilmestymisyhteydessään täyttänyt selvän ilmaisutarpeen.
Suomen kielen perussanastosta voi muodostaa yhdyssanoja rajattomasti. Näin luotuja yhdyssanoja voi yhdistellä toisiin perussanoihin tai yhdyssanoihin. Yhdyssanakin on sana, eli siitä voidaan muodostaa johdoksia, uusia sanoja. Tämä kaikki lisää sanastonlaskijan ahdistusta: yhdyssanojen määrää on mahdoton laskea.
Luultavasti edellä lukijan eteen kasaamani viisi estettä riittävät osoittamaan sitkeimmällekin yrittäjälle, että suomen kielen sanojen määrää ei koskaan saada selville. Sama koskee kaikkia luonnollisia kieliä. Tämä lopputulos tuntuu kieltämättä lohduttomalta ja jotenkin epäreilulta. Kai lukumääristä jotain myönteistäkin voidaan sanoa? Voidaan kyllä. Suomen sanastoa on koottu erilaisiin arkistoihin ja julkaistu erilaisissa sanakirjoissa. Ainakin niissä olevien sanojen määrä voidaan laskea.
Ennen kuin mennään arkistoihin ja sanakirjojen ääreen, pitää kuitenkin muistaa, että nekään eivät sisällä suomen kielen koko sanastoa. Arkistoissa on vain se, mitä niihin on koottu, ja sanakirjoissa on vain ne sanat, jotka toimittajat ovat esiteltäviksi valinneet. Paljon varsinkin johdoksia ja yhdyssanoja on jätetty pois. Kuten tiedetään, mistä hyvänsä adjektiivista voi –sti-johtimella muodostaa adverbin: kova: kovasti, mukava: mukavasti, runsas: runsaasti. Tämä on sellaista hiljaista tietoa, jota sanakirjan tekijä käyttää hyväkseen. Juuri minkään suomen sanakirjan hakusanoihin ei sisälly tuttuja –sti-adverbeja. Näin säästyy tavattomasti tilaa. Tekijä ja lukija ovat sopineet, että –sti-adverbit voi lukija itse muodostaa ja ymmärtää. Sama koskee vaikkapa jonkin puutetta merkitseviä –ton-adjektiiveja; vain erityismerkityksen saaneet –ton-johdokset selitetään, kuten edellä mainittu posketon.
On myös johdoksia, joita sanakirjoissa on esitelty vain valikoiden. Useista teonsanoista voi muodostaa –skele-johtimella uusia sanoja, jotka merkitsevät kantasanan ilmoittaman tekemisen toistumista, esimerkiksi hakea: haeskella, miettiä: mietiskellä. Eräässä vuonna 2012 julkaistussa selvityksessä on haettu verkkoteksteistä kaikki tuolloin saatavilla olleet k-alkuiset –skele-johdokset. Niitä löytyi 99, sellaisia kuin kauhoskella, kielleskellä. Esimerkiksi Nykysuomen sanakirjaan näitä k-alkuisia –skele-johdoksia on otettu 26, Kielitoimiston sanakirjaan kahdeksan.
Suomen sanaston laajin esittely on Elias Lönnrotin kokoama Suomalais-ruotsalainen sanakirja, joka ilmestyi vuosina 1866-1880 ja 1886. Suomen sanojen selityskielenä on ruotsi. Kirja sisältää noin 217 000 hakusanaa. Joukossa on tosin Lönnrotin teorioimia sanoja, joita ei koskaan todellisuudessa ole käytetty. Ja nykylukijalle on selvää, mitä kirjasta puuttuu: vuoden 1886 jälkeen kieleen tulleet sanat, valtava sanamäärä.
Suunnilleen yhtä laaja on Nykysuomen sanakirja. Se ilmestyi vuosina 1951-1961. Hakusanoja on vähän yli 200 000. Näistä on johdoksia noin neljännes ja yhdyssanoja lähes kaksi kolmasosaa. Johtamattomia perussanoja on noin 18 000. Jos näistä karsitaan pois nuori vierasperäinen sanasto, jäljelle jää 6000 sanaa. Tämän verran nykysuomen käyttäjille on siis periytynyt vanhaa sanastoa kielen alkuhämäristä lähtien. Nykysuomen sanakirjan pohjana oleva aines on kerätty 1900-luvun alkupuolella. Tässä kokoelmassa hakusanoja on noin 800 000. Kirjaan päätynyt sanasto on siis vain neljäsosa arkiston koko määrästä. Pois on jätetty lähinnä yhdyssubstantiiveja, johdoksia ja kovin murteellisiksi tulkittuja sanoja. Ja tietenkin tästä sanakirjasta puuttuu 70 viime vuoden aikana kieleen tullut sanasto.
Parhaillaan ilmestyvä Suomen murteiden sanakirja tulee sisältämään noin 300 000 hakusanaa. Tämä verkkosanakirja, jonka alkuosa on ilmestynyt painettunakin, kuvaa 1900-luvun alun puhuttua suomea.
Oman aikamme sanavarantoja kuvaa Kielitoimiston sanakirja. Siinä on hakusanoja noin 100 000. Teoksen tuorein painettu versio on ilmestynyt vuonna 2012. Vuoden 2014 lopulta lähtien sanakirjan päivitettävä sähköinen versio on ollut vapaasti luettavissa verkossa. Semmoiset sanat kuin ajatus-hautomo ja lasikatto kuuluvat tämän teoksen esiteltäviin. Kielitoimiston sanakirjan perustana on Nykysuomen sanakirja. Vanhentuneita ja harvinaistuneita sanoja on jätetty pois, samoin arvattavasti yhdyssanoja ja johdoksia, jotta on saatu tilaa 1900-luvun alkupuolen jälkeen kieleen tulleille sanoille.
Kotimaisten kielten keskuksessa on tekeillä semmoinenkin sanakirja, joka valmistuttuaan tulee poikkeuksellisesti sisältämään kaikki kuvaamansa kielimuodon sanat. Kyseessä on Vanhan kirjasuomen sanakirja. Vanhan kirjasuomen kausi ulottuu 1500-luvun puolivälistä Ruotsin vallan ajan loppuun, 1800-luvun ensi kymmenelle. Kaikki tuona aikana julkaistu suomenkielinen kirjallisuus, noin 1500 teosta, on käyty läpi ja siitä on poimittu kaikki sanat. Sanakirjaan tulee noin 80 000 hakusanaa. Se on suuri sanamäärä, mutta silti täytyy ottaa huomioon, että se kuvaa hyvin rajallista elämänalaa, lähinnä hengellistä ja oikeudenkäyttöön liittyvää toimintaa. Kaunokirjallisuutta ei tuona aikana juuri ilmestynyt.
Kun kerran minkään kielen sanojen lukumäärää ei tiedetä, ei kannata järjestää kieltenvälisiä kilpailuja runsassanaisimmasta kielestä. Sanakirjoja voi toki kilpailuttaa jos haluaa. Svenska Akademiens ordbok, joka esittelee ruotsin kirjakielen sanastoa vuodesta 1521 lähtien, käsittää 470 000 hakusanaa. ’’Nykyunkarin sanakirjassa” (Magyar ertelmezö keziszötär) vuodelta 2003 on 75 000 hakusanaa, ’’nykyenglannin sanakirjassa” (Oxford English Dictionary, OED) hakusanoja on 600 000. Jos kaikki Nykysuomen sanakirjaa varten kootut sanat olisi mahdutettu sanakirjaan, hakusanoja olisi 800 000, enemmän kuin OED:ssä. OED:kaan tuskin sisältää kaikkia arkistoituja sanoja, Science-lehden mukaan vain puolet niistä. Sanakirjan tekemisessä on aina kysymys resursseista ja siitä, mikä on tärkeää ja mikä on mahdollista. Nykysuomen sanakirjan tekijöillä oli kiire; eduskuntakin oli hoputtanut teoksen valmistumista. Varoja oli kuitenkin rajallinen määrä. Mahdollisesti teoksen laajuus oh etukäteen päätetty. Maailmankieli englannin sanakirjan tekemiseen varoja oli epäilemättä enemmän.
Sanojen lukumäärän laskija saa vaivanpalkakseen tiedon, että sanoja on missä hyvänsä kielessä niin paljon kuin kulloinenkin kieliyhteisö käyttöönsä tarvitsee – ja vähän enemmänkin, koska nykykulttuurissa käytöstä pois jääneet sanatkaan eivät katoa jäljettömiin vaan jäävät elämään sanakirjoissa ja muistiorganisaatioissa.
AIHEESTA ENEMMÄN:
Eronen, Riitta (2007). Uudissanat rötösherrasta salarakkaaseen. Helsinki: Otava.
Häkkinen, Kaisa (2006). Mistä sanat tulevat. (3. painos.) Helsinki: SKS. Jussila, Raimo (1998). Vanhat sanat. Helsinki: SKS.
Karlsson, Fred (1983). Suomen kielen äänne-ja muotorakenne. Helsinki: WSOY.
— (2011). Missä kielessä on eniten sanoja? Helsingin Sanomat 5.4.2011. Koivisto, Vesa (2013). Suomen sanojen rakenne. Helsinki: SKS. Kotimaisten kielten keskus (päiväämätön verkkolähde). Miten sanakirjaa tehdään?http://www.kotus.fi/sanakirjat/kielitoimiston_sanakirja/miten_sanakirjaa_tehdaan/.
Lyytikäinen, Erkki (2012). Erään frekventatiivijohdostyypin produktiivisuudesta. Virittäjä 1/2012, 114-117.
Vesikansa, Jouko (toim.) (1989). Nykysuomen sanavarat. Helsinki: WSOY.
Сколько слов в финском языке?
Я перечислю пять препятствий, которые делают невозможным ответ на вопрос в заголовке.
Первое препятствие: понятие слова сложно определить. Термин «слово» может использоваться по-разному. Когда мы начинаем считать, что является объектом счета: основная форма слова, лексемное слово, то есть заглавное слово, используемое в словарях, или же включаются ли в подсчет все словоформы одного слова? Пусть заглавным словом будет, например, существительное talo (дом). У него довольно много словоформ: talon (дома – род.п.), taloa (дом – част.п.), taloissa (в домах) и так далее. Кроме того, к этим формам могут присоединяться притяжательные суффиксы (talollamme – в нашем доме) и энклитические частицы (talottakohan – интересно, не в доме ли?). Если точно подсчитать и учесть все возможные комбинации, у одного существительного получается более 2000 словоформ. И это только начало: у глагола таких словоформ более 12 000, если включать номинальные формы (puhuva – говорящий, puhuttava – тот, о котором говорится, puhunut – говорил, puhumaan – говорить и т.д.) со всеми их падежными формами. Итак, когда подсчитывается словарный запас финского языка, считаются ли все словоформы, встречающиеся в тексте или речи, отдельными словами, или, например, все формы слова talo считаются одним словом?
Второе препятствие: финский язык — явление многогранное и обширное. Включаются ли в расчет все возможные формы языка, разговорный язык, литературный язык и язык, используемый в интернете? В Финляндии на финском языке каждый день болтают (говорят) почти пять миллионов человек, и еще несколько сотен тысяч за пределами страны. Конечно, в этот поток речи помещается много слов. Печатный текст выходит тысячами страниц каждый день, и сеть переполнена непечатным. Слова, слова…
А как насчет ограничения финского языка во времени? Это вопрос определения, к какому моменту относится зарождение финского языка, то есть когда считается, что он достаточно отделился от родственных языков. В широком смысле можно считать, что финский язык существовал с начала нашего летоисчисления, но большую часть этого времени только в устной форме. За это время много словарного запаса исчезло, но многое сохранилось до наших дней. Часть сохранившегося словарного запаса стала очень редкой. Учитывается ли в расчете, например, старинный термин для транспортного средства juko (‘поперечина, соединяющая передние концы полозьев’)?
В финском языке есть десятки и десятки специальных областей, имеющих свою собственную терминологию. Следует ли включать эти специальные словари в расчет? Если нет, то где проходит граница между общеупотребительной и специальной лексикой? Относится ли медицинский термин refraktio (‘клинически определенная аномалия рефракции глаза’) к общеупотребительному языку? Проблемой становятся заимствованные слова, стремящиеся попасть в язык до их (возможного) закрепления. Слово nailon (‘нейлон, один из полиамидов’) несомненно является общеупотребительным в современном финском, но когда оно в форме nylon только входило в употребление в 1940-х годах, тот, кто считал слова, вероятно, не включил бы его в свою коллекцию. Примерно в то же время в ворота финского языка стучался radar, но он не прошел – его заменило исконное слово tutka (радар).
Эти два первых препятствия, вероятно, приведут того, кто считает слова, к решению: чтобы подсчет не рухнул сразу, лучше всего сосредоточиться на современном финском литературном языке и выбрать в качестве объектов лексемы, словарные (заглавные) формы слов, а также избегать специальной лексики. Решение мудрое, и оно позволяет двигаться вперед, но следует помнить, что возможный конечный результат уже не будет точным; от многих слов придется отказаться.
Третье препятствие: как относиться к полисемии (многозначности) и омонимии? Полисемия — это когда одно слово имеет много, порой сильно отличающихся друг от друга значений. Слово laskea означает, среди прочего, снижение (как противоположность подъему), наливание (ср. juomanlaskija – наливатель напитков), опускание (aurinko laskee – солнце садится), разрешение (Isä ei laskenut lapsia elokuviin – Отец не разрешил детям пойти в кино), выполнение расчетов (hän yrittää laskea suomen sanojen lukumäärän – он пытается посчитать количество финских слов). Считаем ли мы в нашем расчете все слова laskea одним словом или, в зависимости от каждого значения, несколькими? А как насчет hiiri (мышь), означающего вид грызунов и устройство управления компьютером? «Бесщекий свистун» – так ведущий музыкальной радиопрограммы описал бельгийца Тутса Тилеманса. В разговорном языке posketon (буквально ‘без щек’) означает нелепый, невероятный, и, вероятно, это имел в виду ведущий, потому что, если понимать буквально, бесщекий свистун – это некий природный курьез (уродство). В любом случае, остается решить, сколько слов здесь имеется в виду. Омонимия же — это когда слова разного происхождения и разного значения имеют совпадающие словоформы. Считаются ли kuusi (‘ель, вид дерева’) и kuusi (‘6’) одним или двумя словами?
Четвертое препятствие: финский — агглютинативный язык (язык с развитой системой словообразования). К основным словам можно присоединять различные словообразовательные суффиксы, которые создают новое слово от исходного. От существительного metsä (лес) можно образовать другое существительное metsikkö (лесок) или, например, глагол metsästää (охотиться). От глагола juosta (бегать) можно образовать, например, глагол juoksahdella (побегивать) и существительное juoksu (бег). Суффиксов, образующих существительные, около 70, суффиксов, образующих глаголы, около сорока, прилагательные тоже можно создать с помощью более десяти суффиксов, равно как и наречия. Очень большая часть суффиксов является продуктивной, то есть они постоянно используются, и их можно присоединять к любому основному слову. От названия любого языка можно образовать глагол, означающий перевод на этот язык: espanjantaa (переводить на испанский), kroatiantaa (переводить на хорватский), turkintaa (переводить на турецкий). Языков в мире, конечно, ограниченное количество, около шести тысяч. И от них набирается слов для подсчета. Затем от этих глаголов перевода можно образовать результат перевода: espanjannos (испанский перевод), kroatiannos (хорватский перевод), turkinnos (турецкий перевод). Если бы было возможно узнать количество основных слов, его нужно было бы умножить на количество продуктивных суффиксов, чтобы приблизиться к общему числу слов.
Пятое препятствие: в финском языке легко образовывать сложные слова (композиты). Основные слова можно довольно свободно объединять друг с другом. Части сложного слова ясно видны, хотя часто значение отличается от суммы его частей. Так, kerrostalo (многоэтажный дом) — это talo (дом), в котором есть kerroksia (этажи), lentokone (самолет) — это kone (машина), который lentää (летит), но lautakunta (комитет, комиссия) — это не kunta (муниципалитет), состоящий из lauda (доски). (В этом случае следует исходить из старого значения lauta ‘стол’: группа, сидящая за одним столом, pöytäkunta – настольный комитет.) Soratie (гравийная дорога) — это tie (дорога), покрытая soralla (гравием), но rautatie (железная дорога) — это не tie, покрытая raudalla (железом), а rauta (железо) используется немного по-другому. Сложные слова можно присоединять к другим основным словам или сложным словам: parisuhdelaki (закон о партнерских отношениях), siltatyömaa (место строительства моста), täysjyvävehnäjauho (цельнозерновая пшеничная мука).
Многие сложные слова полностью устоялись, давно используются в языке, как, например, metsämies (лесник), sadonkorjuu (сбор урожая), vaaliluettelo (список избирателей) и ylioppilastutkintolautakunta (совет по проведению экзамена на аттестат зрелости). Сложные слова могут создаваться по необходимости также для временного использования. Образование сложных слов — это настолько естественный и неотъемлемый метод языка, что даже новые, только что появившиеся сложные слова объясняют сами себя. В конце 2014 года до рассмотрения обвинения дошло широко освещаемое уголовное расследование, в котором подозреваемым был полицейский. Заголовки газет сообщали: useita syytteitä seurantalaiteyhtiösotkuista (несколько обвинений по поводу беспорядков/путаницы в компании по производству устройств слежения). Очевидно, что seurantalaite (устройство слежения) — это слово, которое нужно и используется повсеместно, и seurantalaiteyhtiö (компания по производству устройств слежения) также является полезным сложным словом. В то же время seurantalaiteyhtiösotku (беспорядки в компании по производству устройств слежения) вряд ли займет место среди устоявшихся сложных слов. Тем не менее, в контексте своего появления оно удовлетворило явную потребность в выражении.
Из основного словарного запаса финского языка можно образовывать сложные слова неограниченно. Созданные таким образом сложные слова можно объединять с другими основными словами или сложными словами. Сложное слово также является словом, то есть от него можно образовывать производные, новые слова. Все это увеличивает тревогу того, кто считает словарный запас: количество сложных слов невозможно подсчитать.
Вероятно, пяти препятствий, которые я представил читателю выше, достаточно, чтобы показать даже самому настойчивому энтузиасту, что количество слов в финском языке никогда не будет установлено. То же самое относится ко всем естественным языкам. Этот вывод, несомненно, кажется удручающим и каким-то несправедливым. Можно ли сказать что-то позитивное о количестве слов? Конечно, можно. Словарный запас финского языка собирался в различных архивах и публиковался в различных словарях. По крайней мере, количество слов в них можно подсчитать.
Прежде чем обратиться к архивам и словарям, следует, однако, помнить, что и они не содержат всего словарного запаса финского языка. В архивах есть только то, что в них собрано, а в словарях — только те слова, которые редакторы выбрали для представления. Многие, особенно производные и сложные слова, были опущены. Как известно, от любого прилагательного можно образовать наречие с помощью суффикса -sti: kova (твердый): kovasti (твердо), mukava (приятный): mukavasti (приятно), runsas (обильный): runsaasti (обильно). Это своего рода неявное знание, которое использует составитель словаря. Почти ни один финский словарь не включает в качестве заглавных слов знакомые наречия на -sti. Это значительно экономит место. Составитель и читатель договорились, что наречия на -sti читатель может образовывать и понимать сам. То же самое касается, например, прилагательных на -ton, означающих отсутствие чего-либо; объясняются только те производные на -ton, которые приобрели особое значение, как упомянутое выше posketon.
Есть также производные слова, которые представлены в словарях лишь выборочно. От многих глаголов можно образовать новые слова с помощью суффикса -skele-, которые означают повторение действия, обозначенного исходным словом, например: hakea (искать): haeskella (поискивать), miettiä (размышлять): mietiskellä (раздумывать). В одном исследовании, опубликованном в 2012 году, были найдены все доступные на тот момент в интернет-текстах производные на -skele- начинающиеся на букву ‘k’. Их было найдено 99, такие как kauhoskella (зачерпывать/хлебать многократно), kielleskellä (отрицать/запрещать многократно). Например, в Словарь современного финского языка (Nykysuomen sanakirja) было включено 26 таких производных на -skele- начинающихся на ‘k’, а в Словарь Языкового офиса (Kielitoimiston sanakirja) — восемь.
Самое обширное представление словарного запаса финского языка — это Suomalais-ruotsalainen sanakirja (Финско-шведский словарь), составленный Элиасом Лённротом, который издавался с 1866 по 1880 год и в 1886 году. Язык объяснений финских слов — шведский. Книга содержит около 217 000 заглавных слов. В их числе, правда, есть слова, придуманные Лённротом, которые никогда в действительности не использовались. И современному читателю ясно, чего не хватает в книге: слов, вошедших в язык после 1886 года, — огромное количество слов.
Примерно такой же по объему Nykysuomen sanakirja (Словарь современного финского языка). Он вышел в 1951-1961 годах. Заглавных слов в нем немного более 200 000. Из них около четверти — производные слова, и почти две трети — сложные слова. Непроизводных основных слов около 18 000. Если из них исключить молодую иноязычную лексику, останется 6000 слов. Таким образом, такое количество старого словарного запаса, унаследованного с давних времен, сохранилось для пользователей современного финского языка. Материал, легший в основу Словаря современного финского языка, был собран в первой половине XX века. В этой коллекции около 800 000 заглавных слов. Таким образом, лексика, попавшая в книгу, составляет лишь четверть от общего объема архива. Были исключены в основном сложные существительные, производные слова и слова, которые были расценены как слишком диалектные. И, конечно, в этом словаре не хватает лексики, вошедшей в язык за последние 70 лет.
Издаваемый в настоящее время Suomen murteiden sanakirja (Словарь финских диалектов) будет содержать около 300 000 заглавных слов. Этот онлайн-словарь, начальная часть которого также была опубликована в печатном виде, описывает разговорный финский язык начала XX века.
Словарный запас нашего времени описывает Kielitoimiston sanakirja (Словарь Языкового офиса). В нем около 100 000 заглавных слов. Самая свежая печатная версия этого труда вышла в 2012 году. С конца 2014 года обновляемая электронная версия словаря доступна для свободного чтения в интернете. Такие слова, как ajatus-hautomo (мозговой центр, инкубатор идей) и lasikatto (стеклянный потолок), представлены в этом труде. Основой для Словаря Языкового офиса послужил Словарь современного финского языка. Устаревшие и ставшие редкими слова были исключены, равно как, предположительно, сложные и производные слова, чтобы освободить место для слов, вошедших в язык после первой половины XX века.
В Центре родных языков (Kotimaisten kielten keskus) готовится также словарь, который, после завершения, в исключительном случае будет содержать все слова описываемой им языковой формы. Речь идет о Vanhan kirjasuomen sanakirja (Словарь старописьменного финского языка). Период старописьменного финского языка простирается с середины XVI века до конца шведского владычества, до первого десятилетия XIX века. Вся финноязычная литература, опубликованная за этот период, около 1500 произведений, была просмотрена, и из нее были выбраны все слова. В словарь войдет около 80 000 заглавных слов. Это большое количество слов, но тем не менее нужно учитывать, что оно описывает очень ограниченную сферу жизни, в основном духовную и связанную с судопроизводством. Художественная литература в то время почти не издавалась.
Поскольку количество слов ни в одном языке неизвестно, не стоит устраивать межъязыковые соревнования на самый богатый словарный запас язык. Однако можно соревноваться словарями, если есть желание. Svenska Akademiens ordbok (Словарь Шведской академии), который представляет словарный запас шведского литературного языка с 1521 года, содержит 470 000 заглавных слов. В «Словаре современного венгерского языка» (Magyar értelmező kéziszótár) 2003 года — 75 000 заглавных слов, в «Словаре современного английского языка» (Oxford English Dictionary, OED) — 600 000 заглавных слов. Если бы все слова, собранные для Словаря современного финского языка (Nykysuomen sanakirja), были включены в словарь, заглавных слов было бы 800 000, больше, чем в OED. OED, вероятно, также не содержит всех заархивированных слов, по данным журнала Science — только половину из них. Создание словаря всегда является вопросом ресурсов, а также того, что важно и что возможно. У составителей Словаря современного финского языка была спешка; даже парламент торопил завершение работы. Однако средства были ограничены. Возможно, объем работы был заранее определен. На создание словаря мирового языка английского средств, несомненно, было больше.
В награду за свои труды тот, кто считает количество слов, получает знание, что слов в любом языке столько, сколько нужно для использования соответствующему языковому сообществу, — и немного больше, потому что слова, вышедшие из употребления в современной культуре, тоже не исчезают бесследно, а продолжают жить в словарях и организациях-хранилищах памяти.

Свежие комментарии