Корпус письменных текстов

По состоянию на март 2009 г. корпус письменных текстов ВАНК насчитывает свыше 106 млн. словоупотреблений (из них около 12 млн. приходятся на переводные тексты). В корпусе представлены тексты 510 авторов (не считая подкорпус периодических изданий).

Письменные тексты

словоупотребления

% от ВАНК

пресса 47 264 735 42,9%
проза 37 279 344 33,8%
наука 13 875 930 12,6%
другие нехудожественные 4 735 997 4,3%
поэзия 3 648 160 3,3%
Всего письменных текстов

106 804 166

96,8%


Различные жанры и типы текстов в ВАНК неравномерно распределены по времени. 19-й и 20-й века представлены в основном художественной литературой. В ходе совместного проекта с Национальной библиотекой Республики Армения в корпус был добавлен внушительный архив периодических изданий. Однако современная пресса (после 2000 г.), полученная из открытых интернет-источников, представлена заметно шире. Таким образом, количественное соотношение между художественными текстами и прессой за последнюю декаду существенно отличается от того же соотношения в остальных временных срезах.

Нехудожественные и переводные тексты также распределены неравномерно. Большая часть научных текстов и переводов относится к советскому периоду (что отражает реальную ситуацию создания текстов этого типа на армянском языке).

Распределение жанров по времени
(число словоупотреблений и проценты от числа словоупотреблений в декаде)
                                                           
период

проза

поэзия

нехудожественные

пресса

итого за период

    

% за период

           

% за период

 

% за период

 

% за период

 
                                            

до 1870

291 930

64%

3 630

1%

n/a

0%

160 704

35%

456 264

1870 - 1879

514 702

53%

48 811

5%

249 572

26%

149 631

16%

962 716

1880 - 1889

1 431 103

74%

4 020

0%

48 411

3%

446 963

23%

1 930 497

1890 - 1899

801 630

100%

n/a

0%

n/a

0%

n/a

0%

801 630

1900 - 1909

735 988

36%

84 430

4%

253 204

12%

954 997

47%

2 028 619

1910 - 1919

451 942

60%

61 526

8%

n/a

0%

245 806

32%

759 274

1920 - 1929

739 636

44%

296 573

18%

44 170

3%

599 488

36%

1 679 867

1930 - 1939

2 211 314

57%

27 747

1%

242 714

6%

1 410 425

36%

3 892 200

1940 - 1949

922 848

46%

138 791

7%

198 717

10%

732 734

37%

1 993 090

1950 - 1959

2 408 255

47%

784 771

15%

462 914

9%

1 421 629

28%

5 077 569

1960 - 1969

4 013 652

57%

479 107

7%

425 842

6%

2 176 226

31%

7 094 827

1970 - 1979

5 885 441

48%

121 854

1%

4 354 936

36%

1 899 469

15%

12 261 700

1980 - 1989

3 983 807

34%

69 216

1%

5 935 592

50%

1 861 032

16%

11 849 647

1990 - 1999

1 227 048

37%

78 553

2%

1 324 881

40%

650 432

20%

3 280 914

2000 - 2008

1 129 320

2%

57 638

0%

4 174 458

10%

34 552 624

88%

39 914 040

 

 

 

 

 

 

 

 

 

 

недатированные

10 530 728

82%

1 391 493

11%

896 516

7%

2 575

0%

12 821 312

 

 

 

                

 

 

 

 

 

                   

Итого

37 277 344

35% 

3 648 160

3%

18 611 927

17% 

47 264 735

44%

106 804 166



Одной из важных целей ВАНК является включение в корпус как можно большего числа художественных текстов на восточноармянском языке. На сегодняшний день корпус содержит не просто все произведения, изучаемые в рамках стандартной школьной программы, но подавляющее большинство вообще всей классической восточноармянской литературы, начиная с произведений Хачатура Абовяна (середина 19-го века). Некоторые классические восточноармянские тексты (написанные до 1938 г.) доступны для полнотекстового просмотра в Электронной библиотеке ВАНК.