II

SCIENCAJ VERKOJ

FREKVENCMORFEMARO
DE PAROLATA ESPERANTO
*

I. ENKONDUKE

La celo de tiu chi referajho estis eltrovi jenan shlosilan minimuman vortaron, kiu "necesas kaj sufichas" por komencanto en intemacia Esperanto-renkontigho. Tial mi decidis ellabori frekvenc-vortaron de parolata Esperanto. Mi elektis Universalan Kongreson de Lucerno kaj Intemacian Junularan Kongreson de Austerlitz (1979), dum kiuj mi surbendigis konversaciojn de diverslandaj esperantistoj chefe en chiutagaj cirkonstancoj (ne legataj referajhoj). La intenco estis surbendigi parolan materialon de 100.000 vortoj, kio estas kutime minimumo, kiu certigas science sufiche kompetentan parol-korpuson. Tamen mi sukcesis akiri nur 60.000 vortojn. Sekve, la korpuso ne estas plene reprezenta kaj la rezultoj de ties prilaboro estas observeblaj kun neplena certeco.

La korpuso konsistas el sep diversaj tipoj de parolata teksto (temoj) kaj ilin eldiris esperantistoj kun 14 gepatraj lingvoj. Jen la temoj:

  1. ghenerala konversacio (privataj babiloj)
  2. diskutoj en laborkunsidoj
  3. diskutoj dum junularaj kunsidoj
  4. junulara debato
  5. familiaj konversacioj (en familio kun denaskaj etinfanoj)
  6. babiladoj en infana kongreseto
  7. intervjuoj

Kaj jen la gepatraj lingvoj de surbendigitaj parolantoj:

1. kroata, germana, hebrea, dana, angla, itala, franca, pola, hungara, portugala (brazila), nederlanda, sveda, islanda, hispana.

Por havi kiel eble plej larghajn esploreblecojn la projekto celis:

a) prepari liston de frekvenco de vortoj kaj ties alfabetliston

b) morfemlistojn (frekvencan kaj alfabetan)

c) listojn de dek elektitaj plej uzataj sintagmoj (frekvenca kaj alfabeta).

Krome mi antauvidis la eblecon aparte esplori temajn partojn (do, aparte ellabori frekvencvortarojn nur de tekstoparto, kiu rilatas al unuopa temo) kaj naciecajn partojn (frekvencvortaron de parolata Esperanto por chiu nacio aparte).

Komputilprogramon, kiu realigos la unuan bazan celon (nombros vortojn, morfemojn kaj elektitajn sintagmojn kaj efektivigos alfabetajn listojn) ellaboris Jim Cushing kaj mi en programlingvo PL1.

El inter chiuj 60.000 vortoj por la komputila prilaboro mi sukcesis prepari nur 24.280 vortojn (nome tiom da teksto estis transskribita lau la planita sistemo, ke morfemoj estis inter si dividitaj per streketo). Pro tempomanko daurigi la prilaboron, mi decidis fari studon nur pri tiu parto de la korpuso. Evidente, temas pri malgranda korpuso, apenau unu kvarono de tio, kion oni nomas minimuma. Tamen la rezultoj montris, ke por baza konkludo - t.e. por esplori, kiuj morfemoj konsistigas 95 procentojn de tekstoj parolataj en Esperanto - tio sufichas. Nome, ankau la aparta prilaboro de parto de tiu korpuso el 14.000 vortoj montris en la nivelo de 95% la samajn rezultojn. La unuaj 467 morfemoj estas preskau tute la samaj kaj la gheneralaj procentajhoj estis la samaj.

Postaj morfemoj (konsistigantaj la lastajn 5% de la korpuso) estas chiam pli diferencaj kaj pri ili chi tiu listo ne estas kompetenta. Tiu parto estas forte dependa de cirkonstancoj kaj parolsituacioj. Tio signifas, ke iu alia estonta esploro devus je la nivelo de 95% ricevi tre similajn rezultojn, dum la lastaj 5% devus tre diferencighi.

II. LA KORPUSO

1. Entute la korpuso konsistis el 24.280 vortoj. Tiuj 24.280 vortoj konsistis el 41.456 morfemoj (sekve, unu vorto konsistas average el 1,7 morfemoj).

2. La komputilo trovis en tiu vortamaso 3.708 diferencajn vortoformojn (tio signifas, ke aparte estas kalkulitaj formoj kiel: patro, patron, patroj, patrojn, patra ktp.) kaj entute tiu amaso konsistis el 1.343 morfemoj (kies unuajn 467 vi trovas aldone al chi tiu laborajho). Do, 1343 diferencaj morfemoj estis brikoj per kies kombinado estis eldirita la tuta teksto el 41.465 morfemoj (au 24.280 vortoj).

III. FREKVENCPROCENTAJHOJ

1. Morfemoj:

a) unuaj 15 morfemoj konsistigas 47,25% de la korpuso
b) unuaj 100 morfemoj konsistigas 77,90% de la korpuso
c) unuaj 117 morfemoj konsistigas 80,00% de la korpuso
d) unuaj 172 morfemoj konsistigas 85,00% de la korpuso
e) unuaj 265 morfemoj konsistigas 90,00% de la korpuso
f) unuaj 467 morfemoj konsistigas 95,00% de la korpuso
g) unuaj 520 morfemoj konsistigas 95,80% de la korpuso
h) unuaj 786 morfemoj konsistigas 98,20% de la korpuso
i) 1343 morfemoj konsistigas 100,00% de la korpuso

2. Vortoj

a) unuaj 15 vortoj konsistigas 30,61 % de la korpuso
b) unuaj 223 vortoj konsistigas 70,00 % de la korpuso
c) unuaj 319 vortoj konsistigas 74,94 % de la korpuso
d) unuaj 563 vortoj konsistigas 80,29 % de la korpuso
e) unuaj 972 vortoj konsistigas 85,94 % de la korpuso
f) unuaj 1643 vortoj konsistigas 91,40 % de la korpuso
g) 3.708 vortoj konsistigas 100,00 % de la korpuso

3. Aliaj procentajhoj

1. Vortospecoj:
a) verboj - 19,8%
b) substantivoj - 13,5%
c) adjektivoj kaj posesivaj pronomoj - 6,4%
d) personaj pronomoj - 10,6%
e) korelativaj vortoj - 10,1%
- el tio substantivaj - 6,5%
- adverbaj - 3,3%
- adjektivaj - 0,3%
f) adverboj - 5,6%
g) prepozicioj - 7,8%
h) konjunkcioj kaj subjunkcioj - 6,9%
i) aliaj (numeraloj, neklaraj adverboj, interjekcioj, demandovorto "chu", personaj nomoj) - 19,3%

2. Kunmetitaj vortoj (chiuj vortoj kun almenau unu afikso au du radikoj)
Entute kunmetitaj vortoj
- 2067 - 8,51%
El tio:
- vortoj kun unu afikso - 884 - 3,64%
- vortoj kun 2 radikoj - 661 - 2,72%
- vortoj kun unu participo - 179 - 0,74%
- trielementaj vortoj (radiko plus 2 afiksoj au radiko plus 1 afikso plus 1 participo au 2 radikoj plus 1 afikso au 1 participo, tri radikoj - 246 - 1,01%
- korelativaj vortoj - 11 - 0,05%
- kunmetitaj numeraloj - 86 - 0,34%

3. Vortoj lau finajhoj:

a) vortoj sen gramatikaj finajhoj 12.324 - 50,76%
b) vortoj kun gramatikaj finajhoj 11.956 - 49,24%

4. Frazoj

a) Entute la korpuso konsistis el 4.352 frazoj.
El tio:
-796 demandaj - 18,3%
- 3.556 aliaj frazoj - 81,7%
b) Averaghe unu frazo konsistis el 5,58 vortoj au 9,53 morfemoj.

5. Participoj

Entute trovighis 254 vortoj kun participaj finajhoj au 1,04%.
El tio:
- 0,64% - aktivaj participoj
- 0,39% - pasivaj participoj.

6. Afiksoj

Nombro - Afikso - Sumo de 2 frekvenclistoj*
1 igh 239
2 ebl 206
3 mal 203
4 ig 177
5 ad 122
6 ist 114
7 et 99
8 uj 97
9 in 95
10 ajh 93
11 re 89
12 for 74
13 ec 7476
14 ar 68
15 ul 64
16 ej 58
17 an 56
18 eg 41
19 ind 37
20 estr 35
21 dis 32
22 on 31
23 il 30
24 ek 26
25 urn 25
26 ge 23
27 ach 15
28 eks 8
29 er 7
30 op 4
31 em 3
32 end 3
33 ism 2
34 obi 2
35 id 1
36 bo -
37 mis -
38 ing -

* Por havi pli objektivan liston, chi tie estas sumitaj nombroj de apero en la korpuso, kiun ni prilaboras kaj en alia malpli granda korpuso el 14.000 vortoj antaue prilaborita.

IV. RIMARKIGOJ PRI LA LISTOJ

1 .Anstatau diversaj personaj nomoj (personoj kaj urboj) trovighas signo "x" (erare restis kelkaj esceptoj). Tamen landnomoj restis intence en la listo kiel vortoj.

2. Inter la morfemoj trovighas kelkaj mallongigoj: LKK (Loka Kongresa Komitato), PIF (Pupteatra Internacia Festivalo), SUKK (Someraj Universitataj Kursoj, Liege kun duobla K por diferencigi tiun morfemon de radiko SUK) kaj UEA, TEJO, GDR, USSR.

3. Kelkaj morfemoj havas klare tro altan nombron. Temas chefe pri vortoj el familia konversacio, kiam patro rakontis fabelon al infano, kie ofte ripetighis vortoj alie neuzataj. Ili estas: "karoto", "shafo", "lago", "chevalo", "kuniklo" kaj "sauno". La radiko "simsalabim" estis uzata dum la prezentajho de magiisto en la Infana Kongreseto kaj lia konversacio kun infanoj estis ankau surbendigata.

4. Sendube tro altan pozicion havas vortoj specife uzataj en la kongresoj, sed vershajne en aliaj situacioj ne. Tiaj vortoj estas ekz. kongreso, komisiono, komitato, konsilio, protokolo, raporto, statuto, UEA,TEJO kaj kelkaj landnomoj.

V. KONKLUDOJ

La rezultoj de chi tiu esploro montras, ke en la parola lingvo esperantistoj ne utiligas la potencialojn de la esperanta strukturo (La parolantoj cetere chiuj estis europanoj, eble la uzmaniero de azianoj au afrikanoj estus alia). Nome, aglutina lingvo, kia estas Esperanto devus havi aglutineckoeficienton minimume 2,00 kaj la skriba Esperanto tion havas. Sed la parola, esplorita chi tie rezultas per nur 1,7 (nombro de morfemoj / nombro de vortoj). Oni povus diri, ke parole ghi estas tro europece uzata.

Komparo inter frekvencvortaroj de naciaj lingvoj kaj tiu chi montras, ke 80% de la nacilingvaj korpusoj de hindeuropaj lingvoj kovras chirkau 2000 vortoj kaj en Esperanto nur 563. Sekve jam tio montras, ke oni devas lerni 4-oble malpli da vortoj por la sama efiko (efektive sufiche pli ol kvaroble, char tiuj 563 vortoj konsistas el multe malpli da morfemoj, kiujn oni efektive devas lerni) ol che naciaj lingvoj.

Tiuj rezultoj sugestas al ni la neceson klopodi shanghi nian aktivadon en jena senco:

1. Char por baza lingvokono (95% de la korpuso) sufichas lerni nur 467 morfemojn (do proksimume 500), necesas tion konsideri, kiam oni ellaboras bazajn lernolibrojn. Unue instrui nur tiujn morfemojn kaj ebligi pli rapidan akiron de la baza parolkapablo surbaze de tiu morfemmaterialo.

2. En instrusistemoj kaj lernolibroj necesas eviti kompletajn vortsistemojn. Ekz. se oni instruas pri homo, oni kutime en la sama leciono instruas dudekon da vortoj pri chiuj korpopartoj. La frekvencvortaro montras, ke sufichas nur tri (kapo, mano, piedo). Mebloj ne ekzistas, nomoj de tagoj, bestoj, kolornomoj, dompartoj ktp. simple mankas, char en la chiutaga babilado oni ne uzas tiujn vortojn. Tiel oni sensharghigas la cerbon en la komenca fazo je pli ol 100 morfemoj.

3. Insisti pri uzado de kunmetitaj vortoj, kiujn oni nesufiche uzas - sed aparte pri tiuj, kiuj estas necesaj. Stimuli tiun uzon per legado de libroj el serio "Facila Esperanto", au de facilaj tekstoj en Kontakto, kie la tekstoj estas adaptitaj al tiuj 500 morfemoj.

4. En la unuagradaj libroj ne necesas instrui pri malofte uzataj afiksoj kaj pri participoj (konsideru, ke el chiuj uzataj vortoj nur 1% estas participaj, kaj posta esploro montris, ke duono el ili estas nur tri vortoj: "Esperant(ist)o", "sekvonta" kaj "pasinta", kiujn eblas instrui simple kiel vortojn sen klarigi, ke ili estas kunmetajhoj).

5. Nur en la dua grado de lernado (daurigaj kursoj, post kiam oni akiris jam la parolfluon) oni instruu pliajn 400-500 morfemojn (99% de la parolata lingvo) kaj fininstruu la gramatikon (pli maloftajn afiksojn kaj la participan sistemon).

VI. LISTO DE MORFEMOJ LAU APERNOMBRO
(unuaj 467 morfemoj, kiuj konsistigas 95% de la parolkorpuso)

Ordnumero. Apernombro (Frekvenco) - Morfemo
1. 3262 -o
2. 2299 - as
3. 2093 - n
4. 1606 -j
5. 1554 -a
6. 1382 - e
7. 1083 - mi
8. 1050 - est
9. 977 - la
10. 939 - is
11. 797 - ne
12. 776 - kaj
13. 672 - i
14. 643 - vi
15. 453 - tio
16. 451 - en
17. 398 - u
18. 361 - tiu
19. 357 - chu
20. 357 - ni
21. 312 - os
22. 306 - hav
23. 294 - de
24. 282 - ke
25. 266 - kiu
26. 255 - al
27. 241 - sed
28. 234 - x (nomoj)
29. 222 - do
30. 222 - jes
31. 220 - oni
32. 217 - pri
33. 214 - bon
34. 210 - li
35. 209 - tie
36. 208 - ili
37. 197 - pov
38. 191 - por
39. 190 - us
40. 187 - kio
41. 179 - kun
42. 174 - dev
43. 171 - far
44. 162 - chi
45. 151 - dir
46. 145 - unu
47. 143 - igh
48. 142 - ghi
49. 142 - ankau
50. 142 - du
51. 141 - ven
52. 136 - vid
53. 133 - mal
54. 132 - char
55. 129 - se
56. 127 - sci
57. 126 - ebl
58. 126 - post
59. 123 - ant
60. 123 - pli
61. 122 - nun
62. 121 - el
63. 120 - dek
64. 119 - ir
65. 106 - vol
66. 105 - kiel
67. 105 - ali
68. 100 - ig
69. 100 - tut
70. 99 - don
71. 98 - tiel
72. 91 - chiu
73. 84 - ankorau
74. 84 - it
75. 84 - mangh
76. 83 - iom
77. 82 - iu
78. 82 - shi
79. 81 - jam
80. 79 - mult
81. 76 - ad
82. 76 - hom
83. 72 - da
84. 71 - jar
85. 70 - au
86. 68 - afer
87. 67 - nur
88. 65 - tri
89. 64 - et
90. 64 - ist
91 63 - esper
92. 63 - in
93. 63 - io
94. 63 - kongres
95. 63 - kvin
96. 62 - kiam
97. 62 - parol
98. 62 - pren
99. 61 - antau
100. 61 - si
101. 60 - shajn
102. 59 - ver
103. 58 - uj
104. 57 - ech
105. 57 - kie
106. 56 - ajh
107. 56 - inter
108. 56 - nov
109. 56 - tiam
110. 55 - kompren
111. 55 - trov
112. 54 - che
113. 53 - fakt
114. 53 - re
115. 52 - for
116. 51 - cert
117. 51 - nom
118. 51 - per
119. 51 - tag
120. 50 - sid
121. 49 - labor
122. 48 - lau
123. 48 - chio
124. 47 - sufich
125. 46 - tre
126. 45 - kelk
127. 45 - kon
128. 45 - land
129. 44 - ec
130. 44 - grand
131. 44 - chiam
132. 42 - ghis
133. 42 - ar
134. 42 - plu
135. 41 - ghust
136. 41 - ej
137. 41 - plej
138. 40 - tamen
139. 39 - dum
140. 39 - sur
141. 39 - ul
142. 38 - okaz
143. 38 - temp
144. 38 - tia
145. 37 - ekzempl
146. 37 - interes
147. 37 - ricev
148. 37 - tem
149. 36 - ha
150. 35 - demand
151. 35 - mem
152. 35 - sam
153. 34 - bezon
154. 34 - cent
155. 34 - jen
156. 33 - foj
157. 32 - aud
158. 32 - german
159. 32 - kial
160. 32 - rigard
161. 32 - skrib
162. 31 - an
163. 31 - preskau
164. 31 - propon
165. 30 - je
166. 30 - komision
167. 30 - organiz
168. 29 - ekster
169. 29 - kiom
170. 29 - lud
171. 29 - nu
172. 29 - simpl
173. 28 - achet
174. 28 - hodiau
175. 28 - infan
176. 28 - libr
177. 28 - pag
178. 28 - verk
179. 27 - eventual
180. 27 - komitat
181. 26 - on
182. 26 - pens
183. 26 - port
184. 26 - problem
185. 26 - shat
186. 25 - divers
187. 25 - eg
188. 25 - komenc
189. 25 - lingv
190. 25 - part
191. 25 - person
192. 25 - pro
193. 24 - at
194. 24 - bel
195. 24 - grav
196. 24 - kvar
197. 24 - ten
198. 23 - ja
199. 23 - jun
200. 23 - met
201. 23 - mon
202. 22 - fin
203. 22 - ia
204. 22 - il
205. 22 - ind
206. 22 - konsili
207. 22 - rest
208. 22 - rilat
209. 22 - sub
210. 22 - UEA
211. 22 - shangh
212. 21 - int
213. 21 - kost
214. 21 - kred
215. 21 - lag
216. 21 - last
217. 21 - leg
218. 21 - lok
219. 21 - memor
220. 21 - mil
221. 21 - ol
222. 21 - ont
223. 21 - sinjor
224. 21 - trans
225. 21 - vend
226. 21 - vesper
227. 20 - gheneral
228. 20 - help
229. 20 - saun
230. 20 - TEJO
231. 20 - tro
232. 19 - estr
233. 19 - mank
234. 19 - minut
235. 19 - ok
236. 19 - prezent
237. 19 - rajt
238. 19 - rapid
239. 19 - ses
240. 19 - teatr
241. 18 - ekzist
242. 18 - ho
243. 18 - konsent
244. 18 - kultur
245. 18 - plen
246. 18 - terur
247. 18 - tuj
248. 17 - ag
249. 17 - aper
250. 17 - diabl
251. 17 - dis
252. 17 - forges
253. 17 - mez
254. 17 - moment
255. 17 - montr
256. 17 - opini
257. 17 - raport
258. 17 - sekv
259. 17 - sep
260. 16 - amik
261. 16 - dank
262. 16 - elekt
263. 16 - log
264. 16 - nenio
265. 16 - pardon
266. 16 - scienc
267. 16 - sukces
268. 15 - atend
269. 15 - dom
270. 15 - ek
271. 15 - kant
272. 15 - kapabl
273. 15 - knab
274. 15 - las
275. 15 - manier
276. 15 - mond
277. 15 - nau
278. 15 - sen
279. 15 - situaci
280. 15 - tiom
281. 15 - traduk
282. 15 - vort
283. 14 - almenau
284. 14 - dezir
285. 14 - fort
286. 14 - frank
287. 14 - funkci
288. 14 - grup
289. 14 - inform
290. 14 - kamp
291. 14 - kia
292. 14 - long
293. 14 - maten
294. 14 - pet
295. 14 - punkt
296. 14 - salut
297. 14 - seri
298. 14 - serch
299. 14 - sol
300. 14 - um
301. 13 - amas
302. 13 - arangh
303. 13 - facil
304. 13 - hierau
305. 13 - ie
306. 13 - kapt
307. 13 - kontakt
308. 13 - man
309. 13 - paper
310. 13 - program
311. 13 - proksim
312. 13 - publik
313. 13 - send
314. 13 - urb
315. 13 - vir
316. 12 - am
317. 12 - automobil
318. 12 - bedaur
319. 12 - daur
320. 12 - ferm
321. 12 - ge
322. 12 - karot
323. 12 - morgau
324. 12 - naci
325. 12 - nokt
326. 12 - preleg
327. 12 - sat
328. 12 - svis
329. 12 - trink
330. 12 - zorg
331. 12 - chambr
332. 12 - jhet
333. 11 - atent
334. 11 - auskult
335. 11 - edz
336. 11 - ekskurs
337. 11 - europ
338. 11 - famili
339. 11 - hor
340. 11 - japan
341. 11 - konkret
342. 11 - kuir
343. 11 - mov
344. 11 - nederland
345. 11 - pied
346. 11 - plan
347. 11 - pret
348. 11 - respond
349. 11 - rimark
350. 11 - special
351. 11 - star
352. 11 - util
353. 11 - ach
354. 10 - decid
355. 10 - dorm
356. 10 - firm
357. 10 - form
358. 10 - fot
359. 10 - fru
360. 10 - hejm
361. 10 - hotel
362. 10 - klar
363. 10 - lern
364. 10 - membr
365. 10 - nepr
366. 10 - ord
367. 10 - pas
368. 10 - pom
369. 10 - protokol
370. 10 - stult
371. 10 - tra
372. 10 - vojagh
373. 9 - alt
374. 9 - bild
375. 9 - flank
376. 9 - frat
377. 9 - ide
378. 9 - imag
379. 9 - invit
380. 9 - iran
381. 9 - klopod
382. 9 - kontrau
383. 9 - kontrol
384. 9 - kunikl
385. 9 - kur
386. 9 - lig
387. 9 - normal
388. 9 - numer
389. 9 - okup
390. 9 - ov
391. 9 - plur
392. 9 - prez
393. 9 - region
394. 9 - semajn
395. 9 - simul
396. 9 - sistem
397. 9 - statut
398. 9 - supr
399. 9 - universitat
400. 9 - charm
401. 8 - apart
402. 8 - baz
403. 8 - cel
404. 8 - diskut
405. 8 - iam
406. 8 - fush
407. 8 - krom
408. 8 - lev
409. 8 - liber
410. 8 - nask
411. 8 - neces
412. 8 - neniu
413. 8 - prepar
414. 8 - pur
415. 8 - regul
416. 8 - reklam
417. 8 - rekomend
418. 8 - romp
419. 8 - simsalabim
420. 8 - skatol
421. 8 - spert
422. 8 - chef
423. 8 - cheval
424. 8 - sir
425. 7 - adres
426. 7 - akcept
427. 7 - aparat
428. 7 - av
429. 7 - autobus
430. 7 - bilet
431. 7 - dan
432. 7 - difin
433. 7 - film
434. 7 - franc
435. 7 - gratul
436. 7 - gvid
437. 7 - ital
438. 7 - kaz
439. 7 - kutim
440. 7 - literatur
441. 7 - material
442. 7 - neniam
443. 7 - patr
444. 7 - pend
445. 7 - perd
446. 7 - perfekt
447. 7 - plach
448. 7 - popular
449. 7 - prezid
450. 7 - produkt
451. 7 - rakont
452. 7 - rekt
453. 7 - river
454. 7 - salon
455. 7 - signif
456. 7 - strat
457. 7 - supoz
458. 7 - task
459. 7 - tranch
460. 7 - universal
461. 7 - uz
462. 7 - vetur
463. 7 - viv
464. 7 - vizit
465. 7 - chirkau
466. 7 - shaf
467. 7 - ship

* Tiu chi laborajho estis la bakalaura tezo de la autoro che la Filozofia fakultato de Zagreb (1982) kaj poste adopte-adapta ekzamenlaborajho por bakalaureco che Akademio Internacia de Sciencoj en San Marino (1993). Ghi aperis kiel artikolo en Revuo GRKG Humankybernetik nro: 1/82 (Gunter NarrVerlagTuebingen) kaj kune kun la tuta listo de 1343 morfemoj en aparta broshuro "Frekvencmorfemaro de parolata Esperanto" eldonita de IKS Zagreb en 1982.

<< >>