Ծրագրային ապահովում

ԱՐԵՎԱԿ-ի ծրագրային ապահովումը մշակվել է Կորպուս Թեքնոլոջիսի կողմից որպես ընդլայնվող և, վերջնական արդյունքում, լեզվից անկախ ծրագրային պլատֆորմ կորպուսային ուսումնասիրությունների համար:

Համակարգը մշակված է այնպես, որ տարբեր կառուցվածքներով լեզուների կորպուսներ կարող են ինդեքսավորվել և լինել որոնելի: Միակ պայմանն է բավարարել Կորպուս Թեքնոլոջիսի կողմից մշակված որոշակի պիտակավորման ստանդարտների: Չնայած, որ ԱՐԵՎԱԿ-ի քերականական վերլուծիչը և ինտերֆեյսը ուղղակիորեն կախված են լեզվից, համակարգի մյուս մասերը մշակված են այնպես, որ կարող են գործել ցանկացած ձևաբանական կառուցվածքի, պիտակավորման և այբուբենի համար:

ԱՐԵՎԱԿ-ի ինտերֆեյսը համատեղելի է Windows, Mac OS, և Linux համակարգերի հետ, ինչպես նաև հիմնական համացանցային բրաուզերների հետ: Եթե Ձեր համակարգիչը չունի յունիկոդ, ԱՐԵՎԱԿ-ում հայերեն տառերը կարող են չերևալ: Տառատեսակների հետ խնդիրներ ունենալու դեպքում խնդրում ենք հաղորդել սխալի մասին համապատասխան պատուհանի միջոցով, որը գտնվում է հիմնական որոնման պատուհանի ստորին աջ անկյունում կամ կապվել մեզ հետ:

ԱՐԵՎԱԿ-ի խմբի առաջնային նպատակներից է կորպուսի որոնման հնարավորությունները դարձնել բաց և մատչելի գործածողի համար: ԱՐԵՎԱԿ-ից օգտվելու համար Դուք կարիք չունեք գրանցվել կամ բեռնավորել որևէ ծրագրային ապահովում:

ԱՐԵՎԱԿ-ի տվյալների բազայի ծրագրային ապահովումը կազմված է հետևյալ հիմնական չորս մասերից.
Էլեկտրոնային տեքստերը նախ մշակվում են ԱՐԵՎԱԿ-ի քերականական վերլուծիչի միջոցով, որը PERL-ային ծրագիր է և թույլ է տալիս ավելացնել XML-ային համատեղելի մետատեքստային և բառանիշային պիտակավորում: Ապա XML ֆայլերը մշակվում են Ինդեքսատորի կողմից կորպուսի տվյալների բազայի կառուցվածքը ստեղծելու համար: Սպասարկիչն իրականացնում է որոնման և տեսակավորման ալգորիթմներ կորպուսի տվյալների բազայի կառուցվածքում: Վերջապես, գործածողի և սպասարկուի ինտերֆեյսն ապահովում է ցանցային մուտք ԱՐԵՎԱԿ-ի տվյալների բազա և որոնման դաշտ:

Ինդեքսատոր
Ինդեքսատորը PHP+MySQL ծրագիր է, որը հանում է յուրաքանչյուր բառանիշի և յուրաքանչյուր պիտակավորման բաղադրիչի հասցեն XML-ի ելքից, որն իր հերթին ապահովում է ԱՐԵՎԱԿ-ի քերականական վերլուծիչը: Ինդեքսատորի աշխատանքի արդյունքում ստացվում են միախառնման աղյուսակներ (hash tables), որոնք ցուցական կապ են հաստատում ԱՐԵՎԱԿ-ում հանդիպող յուրաքանչյուր ունիկալ բառույթի, բառաձևի և քերականական հատկանիշի ու նրանց համապատասխան դիրքերի (հասցեների) միջև կորպուսի տվյալների ֆայլերում: Կորպուսի տվյալների ֆայլերը կազմում են ոչ ռելացիոն տվյալների բազա` բաղկացած երկուական հասցեների զանգվածներից: Տեսակավորման համար անհրաժեշտ ինֆորմացիան ևս պահվում է տվյալների ֆայլերում, ինչը թույլ է տալիս տեսակավորել արդյունքի համատեքստերը որոշակի կարևոր չափանիշներով, օր.՝ այբբենական կարգով, ժամանակահատվածով, ժանրով և այլն:

Սպասարկիչ
Սպասարկիչը С++ ծրագիր է, որն ISAM մեթոդով իրականացնում է հիմնական որոնման ալգորիթմները կորպուսի տվյալների ֆայլերում: Որոնման ալգորիթմները մշակված են այնպես, որ հնարավորինս մեծացնեն որոնման արագությունը հաճախակի և հիմնական հարցումների համար: Այնուամենայնիվ, ԱՐԵՎԱԿ-ի զգալի ծավալի պատճառով (մոտ 110 մլն. բառամթերք) որոնման արագությունը կարող է գերազանցել ընդունված 0.5-0.8 վ. շեմը որոշ այնպիսի համատեքստային հարցումների դեպքում, ինչպիսիք են հարցումներն ըստ քերականական հատկանիշների: Ներկայումս հարցման արդյունքների թիվը առավելագույնը կարող է լինել 10,000: Եթե իրական արդյունքները գերազանցում են այդ շեմը (օր.՝ եթե հարցումը ընդգրկում է հաճախակի հանդիպող բառույթ կամ քերականական հատկանիշ) ԱՐԵՎԱԿ-ի որոնման համակարգը հատուկ ռանդոմիզացիայի է ենթարկում գտնված արդյունքները, որի հետևանքով ստացվում է ներկայացուցչական նմուշ ամբողջ կորպուսից, այլ ոչ առանձին ենթակորպուսից:

Ինտերֆեյս և սպասարկու
ԱՐԵՎԱԿ-ի ինտերֆեյսը PHP/HTML ծրագիր է, որը թույլ է տալիս գործածողին օգտվել սպասարկիչի ամբողջական որոնման հնարավորություններից: Արտաքնապես գործածողի ինտերֆեյսը բրաուզերային պատուհանների մի խումբ է, որն ընդգրկում է.
  • որոնման ձևը (ԱՐԵՎԱԿ-ի կայքէջի աջ մասում),
  • քերականության ընտրության ձևը,
  • ենթակորպուսի ընտրության ձևը,
  • արտածման չափանիշների ձևը,
  • որոնման ելքի դաշտը,
  • մի շարք օժանդակ պատուհաններ, օր.` հայերենի վիրտուալ ստեղնաշարը:

Հիմնական Որոնման ձևը կազմում է ԱՐԵՎԱԿ-ի ինտերֆեյսի կենտրոնական մասը, որն օգտագործվում է հետևյալ հարցումների համար.
  • բառույթ և բառաձև,
  • քերականական հատկանիշներ,
  • կետադրություն,
  • տառազգայունություն,
  • բառի դիրքը նախադասության մեջ,
  • միանշանակ քերականական վերլուծություն:

Բացի այդ հիմնական Որոնման ձևը թույլ է տալիս կառուցել համատեքստային հարցում, որտեղ պատահական թվով բառանիշներ և/կամ հատկանիշներ կարող են հայտնվել բաղադրիչ մասերի միջև որոշակի հեռավորություն ունեցող հաջորդականությամբ:

Երբ գործածողը որոշակի է դարձնում հարցումը, գործածողի ինտերֆեյսը փոխանցում է այդ հարցումը Սպասարկուին: Այն PHP ծրագիր է, որը նախապես մշակում է գործածողի մուտքը գործածողի ինտերֆեյս, կառուցում է հարցում և այն ուղարկում է Սպասարկիչին, ապա ստանում և վերամշակում է որոնման արդյունքը: Սպասարկուն իրականացնում է նաև ավելի ընդլայնված ինտերֆեյսի գործողություններ, օր.՝ բառանիշի պիտակավորման ցուցադրում կամ ելքի տառադարձում: