O’zbek tili elektron korpusini morfologik teglashda lisoniy modellarning o’rni

O‘ZBEKISTON RESPUBLIKASI 
OLIY TA’LIM, FAN VA INNOVATSIYALAR VAZIRLIGI
MIRZO ULUG‘BEK NOMIDAGI 
O‘ZBEKISTON MILLIY UNIVERSITETI
_____________________________FAKULTETI
_____________________________YO‘NALISHI
_______________________________________ FANIDAN
BITIRUV MALAKAVIY ISHI
MAVZU: O‘ZBEK TILI ELEKTRON KORPUSINI MORFOLOGIK
TEGLASHDA LISONIY MODELLARNING O‘RNI.
BAJARDI: ________________________
QABUL QILDI: ________________________
Toshkent 202 5
1 MUNDARIJA
KIRISH… ………………………………………………………………………........….3
I. BOB. KORPUS LINGVISTIKASI TAVSIFI
1.1.      Lingvistik korpusning yaratilishi va taraqqiyoti……………………..........
……....7
1.2.     Elektron lug'atlar tuzishda lingvistik korpusning roli……...................……11
II. BOB. ELEKTRON KORPUS MORFOANALIZATORINING LINGVISTIK 
TA’MINOTI
2.1.    O‘zbek tili korpusining morfologik teglash   tamoyillari………………...…13
2.2.    So‘zlarni turkumlarga ajratish algoritmi…………………………....……..21
III. BOB. O‘ZBEK TILI MILLIY KORPUSINI MORFOLOGIK TEGLASHDA 
LISONIY MODELLARNING AHAMIYATI
      3.1 .   Korpusda teglarni lingvistik modellashtirish………………………………32
       3.2.    Uzbekcorpus.uz platformasining morfologik teglash holati……….……….40
XULOSA ……………………………………………………………………........…….53
FOYDALANILGAN ADABIYOTLAR. ................
……………………….........................……….54
2 KIRISH
Mavzuning   dolzarbligi.   Inson   faoliyatida   til   borliqni   bilish   va   fikr   almashish
vositasi vazifasini bajaradi. Xalqning ma’naviy merosi nafaqat qayd etilishi, saqlanishi,
balki  avloddan-avlodga ham  yetkazilishi  zarur. Ushbu  jarayonda  milliy til  asosiy  omil
bo‘lib   xizmat   qiladi.   Til   tufayli   jamiyat   a’zolarining   har   birida   hosil   bo‘lgan   bilim   va
ko‘nikmalar   ommalashib,   uning   ko‘pchilik   tomonidan   rivojlanishiga   imkon   tug‘iladi.
Buning   natijasida   bilim   avloddan-avlodga   og‘zaki   va   yozma   tarzda   qoldiriladi   hamda
yangi avlod o‘tgan avlodning ishini yangidan boshlamasdan uni davom ettiradi. Tillarni
saqlab   qolish   milliy   ma’naviyatni   saqlab   qolish   demakdir.   Zero,   asl   ma’naviyat   faqat
milliy shakldagina mavjud bo‘ladi. 
Mamlakatimizda   tilga   e ’ tibor   ma’naviyatga   e’tiborning   ustuvor   yo‘nalishlaridan
biri darajasiga ko‘tarildi. Shu bois ona tilimizni avaylab-asrash, boyitish, undan amaliy
foydalanish   samaradorligini   oshirish   bilan   birga,   o‘zbek   tilining   zamonaviy   axborot-
kommunikatsiya tizimida keng qo‘llanishiga erishish kechiktirib bo‘lmaydigan dolzarb
vazifaga   aylandi.   Chunki   ona   tilimizning   jahonga   chiqishiga   erishish   milliy
ma’naviyatni   takomillashtirish   va   yuksaltirishning   asosiy   yo‘llaridandir.   Zamonaviy
axborot   texnologiyalari   tilning   funksional   imkoniyatlaridan   foydalanish   borasida
benihoya keng qulayliklar eshigini ochdi. Kompyuter tarjimasi, tahriri, tahlili, elektron
lug‘atlar   va   tezaurus(til   xazinasi)lar   fikrimiz   isbotidir.   Ayniqsa,   zamonaviy   elektron
lug‘atlar   tuzish   va   ulardan   foydalanish   madaniyatini   shakllantirish   til   imkoniyatini
kengaytirishda   muhim   ahamiyatga   ega.   Respublikamizda   har   bir   sohada   axborot-
texnologiyalaridan   unumli   foydalanishga,   dasturiy   ta’minot   asosida   tuziladigan
loyihalarga katta e’tibor qaratilmoqda.  
Jumladan,   bugungi   kunda   o‘zbek   amaliy   tilshunosligi   o‘z   oldiga   o‘zbek   milliy
korpusini   rivojlantirish   masalasini   asosiy   vazifalardan   biri   sifatida   qo‘ydi.   Til   korpusi
jahonda   tez   taraqqiy   etayotgan   soha,   u   korpus   lingvistikasi   mutaxassislari   tomonidan
ilmiy   tadqiqotlar   olib   borish,   til   o‘rgatish   maqsadida   yaratilmoqda.   Ta’lim   sohasida
kompyuter   tilini   tushunish,   undan   foydalanish   har   qanday   ilmiy   tadqiqotni
3 yengillashtiradi.   Shuning   uchun   kompyuter   va   inson   o‘rtasidagi   o‘zaro   aloqani
rivojlantirish   uchun   tabiiy   tilni   qayta   ishlash   (Natural   Language   Processing   /   NLP)
jarayoni  muhim ahamiyatga ega. Tabiiy tilni qayta ishlashda  tilning barcha hodisalari,
umumiy   va   xususiy   jihatlari   inobatga   olinishi   zarur.   Matn   birliklarini   avtomatik   qayta
ishlash bosqichlaridan biri so‘z turkumlarini aniqlash hisoblanadi. Shuningdek, o‘zbek
tilida   yaratilayotgan   korpus   uchun   ham   kompyuter   tiliga   mos   ravishda   so‘zlarni
morfologik  tahlil   qilish   ya’ni   morfologik   teglash   (PoS-tagging)   birlamchi   vazifalardan
biridir.   So‘z   turkumlarinining   morfologik   modelini   yaratishda   morfologik   teglardan
foydalaniladi.   Olimlar   aynan   nutq   qismlarini   teglash   jarayoni   tabiiy   tilni   qayta
ishlashning   muhim   qismi   deb   hisoblashadi.   Chunki   teglashda   til   birligining   nafaqat
nutqda bajarayotgan vazifasiga ko‘ra, baki nutq qismining kontekstdagi semantikasi va
pragmatikasini   ham   hisobga   olish   zarur.   Shunda   omonimlik   xususiyatiga   ega   nutq
birliklari kontekst mazmunidan kelib chiqib izohlanadi. Til qurilishining asosini lisoniy
modellar   va   nutqiy   birliklar   tashkil   qiladi.   Mana   shu   ikki   asosning   o‘zaro   birligidan
tabiiy tilning manzarasi hosil bo‘ladi. 
Mavzuning   o‘rganilish   darajasi.   Dunyo   tilshunosligida   morfologik   tahlil
bo‘yicha   bir   qancha   ishlar   amalga   oshirilgan.   Yurtimizda   o‘zbek   tilidagi   matnni
morfologik   tahlil   qiluvchi   dasturning   lingvistik   ta’minotini   yaratishga   qaratilgan
tadqiqotlardan   biri   f.f.d.,prof.   N.Abduraxmonova   tomonidan   olib   borilgan   bo‘lib,
“Mashina   tarjimasining   lingvistik   ta’minoti” 1
  nomli   monografiyasi,   “Mashina
tarjimasining   lingvistik   asoslari” 2
  nomli   o‘quv   qo‘llanmasi   va   “Kompyuter
lingvistikasi” 3
  darsligida   morfologik  tahlil   uchun  modellashtirish,   formal   til   nazariyasi
hamda   lingvistik   bazani   tuzishdagi   muhim   jihatlar   ochib   berilgan.   S.Muhamedov
R.Piotrovskiy   bilan   hammualliflikda   yozilgan   “ Инженерная   лингвистика   и   опыт
системно   -   статистического   исследования   узбекских   текстов ” 4
  nomli   kitobida
lingvistik modellar, modellashtirish va uning umumiy tamoyillari o‘rganilib, o‘zbekcha
1
 Abduraxmonova N. Mashina tarjimasininga lingvistik ta’minoti. Monografiya. Toshkent, 2018. -175 b. 
2
 Abduraxmonova N. Mashina tarjimasining lingvistik asoslari. O‘quv qo‘llanma. Toshkent, 2012. -124 b.
3
 Abduraxmonova N. Kompyuter lingvistikasi. Toshkent, 2021. -394 b.
4
 Мухамедов С.А., Пиотровский Г.Г.  Инженерная лингвистика и опыт системно - статистического исследования 
узбекских текстов. -Ташкент: Фан, 1986.
4 matnlarning kvantativ modellari yaratilgan. Shuni ta’kidlab o‘tish lozimki, A.Po‘latov,
N.Jo‘rayeva,   B.Alixojayevlarning   o‘zbek   tilini   modellashtirishga   oid   “ Разработка
формальной   модели   грамматики   узбекского   языка ” 5
  va   “ Разработка   программы
компьютерного   анализа   и   синтеза   глаголов   узбекского   языка ” 6
  nomli   tadqiqotlari
muhim   ahamiyatga   ega.   Shuningdek,   Sh.Xamroyevaning   “O‘zbek   tili   morfologik
analizatorining   lingvistik   ta’minoti” 7
  dissertatsiyasida   turkiy   tillarda   ishlab   chiqilgan
morfologik   analizator   imkoniyatining   lingvistik   ta’minoti   jihatidan   farqli,   tilga
avtomatik   ishlov   berishning   morfologik   tahlil   usullari   jihatidan   esa   o‘xshash   ekanligi
aniqlangan.   O‘zbek   tilidagi   imloviy   o‘zgarishlar   tufayli   so‘z   shakllarining   umumiy
qoidalaridan   farqlanuvchi   so‘zlar   uchun   morfotaktikaning   kombinator   va   pozitsion
lingvistik ta’minoti dasturi ishlab chiqilgan; o‘zbek tili birliklarini avtomatik morfologik
tahlil   qilish   uchun   so‘z   yasovchi,   lug‘aviy   va   sintaktik   shakl   yasovchi 8
  morfemalar
hamda   qo‘shimcha   shaklidagi   yuklamalarning   so‘zga   birikish   pozitsiyalari   dasturiy
ta’minot   algoritmi   uchun   lingvistik   modellashtirilgan.   Bundan   tashqari,
M.Urazaliyevaning “O‘zbek tili  gaplarining ierarxik korpusi  uchun morfologik tahlil” 9
nomli   dissertatsiyasida   morfologik   tahlil   texnologiyasi   tizimlari   tavsifi,   o‘ziga   xos
xususiyatlari, qulayliklari, jamiyatdagi ijtimoiy ahamiyati haqida ma’lumotlar berilgan. 
Bitiruv   malakaviy   ishning   maqsadi   va   vazifalari.   Mazkur   bitiruv   malakaviy
ishning   maqsadi   o‘zbek   tili   elektron   korpusini   morfologik   teglash   tamoyillari   hamda
teglash   jarayonida   lisoniy   modellarning   o‘rni   va   ahamiyatini   yoritishdir.   Ushbu
ko‘zlangan maqsadni amalga oshirish uchun quyidagi vazifalarni hal qilish lozim :
- mavzuga oid o‘zbek va xorijiy tillardagi adabiyotlarni o‘rganib chiqish; 
- til korpusini morfologik teglashga doir ma’lumotlarni to‘plash;
5
 Пулатов А.К., Жураева Н.В.  Разработка формальной модели грамматики узбекского языка // Узбекский 
математический журнал <<Фан>>, -Ташкент, 2002. -С. 47-54.
6
  Пулатов А.К., Азизхожев Б.Б.  Разработка программы компьютерного анализа и синтеза глаголов узбекского 
языка //  УзМУ хабарлари, 2002. -С. 17-19.
7
 Xamroyeva Sh. O‘zbek tili morfologik analizatorining lingvistik ta’minoti. Filologiya fanlari doktori (DSc) ilmiy darajasini 
olish uchun taqdim etilgan dissertatsiyasi avtoreferati. Toshkent, 2021. 
8
 Abduraxmonova N. Inglizcha matnlarni o‘zbek tiliga tarjima qilish dasturining lingvistik ta’minoti (sodda gaplar misolida). 
Amaliy va kompyuter lingvistikasi filologiya fanlari bo‘yicha falsafa doktori (phd) dissertatsiyasi avtoreferati. Toshkent-
2018
9
 Urazaliyeva M. O‘zbek tili gaplarining ierarxik korpusi uchun morfologik tahlil. Dissertatsiya. Toshkent, 2023. -79 b
5 - tahlil jarayonida lisoniy modellarning ishtirokini aniqlash;
- morfologik teglashda yuzaga kelgan kamchiliklarni bartaraf etish.
Tadqiqotning obyekti.  O‘zbek tili elektron korpusi va undagi yozma matnlar hamda
kompyuter lingvistikasi sohasida morfologik teglash bo‘yicha qilingan ba’zi tadqiqotlar
ilmiy ishning obyekti hisoblanadi.
Tadqiqotning predmeti.  O‘zbek tili elektron korpusining morfologik analizatorining
lingvistik ta’minotini tadqiq etish tadqiqotning predmeti bo‘lib xizmat qiladi.
Ishning ilmiy yangiligi.  O‘zbek tilshunosligida morfoanalizatorga doir keng ko‘lamli
ishlar   amalga   oshirilgan.   Matnni   morfologik   tahlil   qilishda   lingvistik   ma’lumotlar
bazasi ishlab chiqilgan. Tadqiqot yangiligi o‘zbek tili korpusi morfologik analizatoriga
qo‘shimcha lingvistik modellar kiritishdir. 
Ishning tuzilish tartibi.   Bitiruv malakaviy ishi  kirish qismi, uchta bob, har  bir bob
ichida   ikkitadan   fasl,   xulosa,   foydalanilgan   adabiyotlar   ro‘yxatidan   iborat   bo‘lib,
umumiy hajmi 57 betni tashkil etadi. 
6 I. KORPUS LINGVISTIKASI TAVSIFI
1.1. Lingvistik korpusning yaratilishi va taraqqiyoti
Tabiiy   tilning   milliy   xususiyatini   saqlab   qolishi   har   bir   davlatning   ravnaqi   uchun
asosiy   omillardan   biridir.   Ko‘plab   tadqiqotlardan   ma’lum   bo‘ldiki,   til   korpusi   nafaqat
so‘z bilan ish ko‘radigan soha vakillari uchun, balki millatning rivoji uchun ham zarur
vosita   bo‘lib   xizmat   qiladi.   Korpus   bu   kompyuterning   ma’lumotlar   bazasida
saqlanuvchi   og‘zaki   va   yozma   matnlar   majmui   hisoblanadi.   T.Makkenri   va   A.Uilson
korpus   aniq   til   mezonlariga   muvofiq   tanlangan,   til   namunasi   sifatida   foydalanish
mumkin bo'lgan tilshunoslik yo'nalish degan fikrni  bildiradi. 10
  Korpus lingvistikasi  esa
kompyuter lingvistikasi tarkibiga kiruvchi soha bo‘lib, u lingvistik korpusni yaratish va
undan   foydalanish,     korpusning   tuzilishi,   tildagi   o‘zgarishlar   hamda   ma’lumotlarni
qayta ishlash usullarini o‘rganadi. Korpus tilshunosligi esa kompyuter tilshunosligining
tarkibiga   kiruvchi   tilshunoslik   bo'limidir,   u   korpus   tuzilishining   umumiy   tamoyillarini
ishlab chiqishda, matnlar korpusiga kompyuter texnologiyasini qo'llash orqali loyihalar
yaratishda   ishtirok   etadi.   Tilshunoslik   yoki   til   nuqtayi   nazaridan   matnlar   korpusining
tanasi   katta,   mashinadan   o'qiladigan   shaklda   ko'rinadigan,   yagona,   tizimli,   belgili,
filologik jihatdan malakali til majmuasi hamda tilshunoslikka oid muayyan ma‘lumotlar
beruvchi baza sifatida tushuniladi. 
Korpusdagi   matnlar   maxsus   qo'shimcha   ma‘lumot   bilan   boyitilgan   va   lingvistik
tadqiqot uchun asos vazifasini o'taydi. Shunga asoslanib aytish mumkinki, til korpuslari,
avvalo, tilshunos uchun kerak. Til korpusi ma‘lum tilning belgilangan davrdagi, xilma-
xil   janr,   rang-barang   uslub,   hududiy   hamda   ijtimoiy   variantdagi   matnlarning   elektron
shaklli   maxsus   dasturiy   ta‘minot   asosidagi   yig'indisidir.   Korpus   matnlar   massividan
iborat   bo'lib,   bu   matnlar   oddiy   elektron   kutubxonadan   farq   qiladi.   Zero,   korpussiz
bugungi   kun   nazariy   va   amaliy   filologiyasini   tasavvur   etish   qiyin.   Tilshunoslikka   oid
tadqiqotlarda   dalil   bilan   ish   ko'riladigan   hollarda   o'sha   faktlar   yig'ilishi   va   sistemaga
solinishi   lozim.   Bunday   katta   hajmli   ishni   bajarishda   korpus   tilshunos   uchun   vaqt   va
mehnatni   tejaydigan   bebaho   ish   qurolidir.   Aslida   korpus   texnik   jarayonni
10
 McEnery T, Wilson A. Corpus Linguistics. Edinburgh: Edinburgh University Press, 2nd edition, 2001.
7 tezlashtiruvchi   vosita   bo'libgina   qolmay,   ma‘lum   til   zamonaviy   shaklining   axborot
tizimi   bo'lib,   kutilmagan   savollarga   ham   javob   bera   oladigan,   tilshunos   oldiga   avval
qo'ymagan dolzarb muammolarni qo'ya oladigan tizimdir. 
  Korpus   har   qanday   tizimli   matn   to plamiga   murojaat   qilishi   mumkin   bo lsa-da,ʻ ʻ
bugungi   kunda   tor   ma noda   ham   ishlatiladi,   odatda,   kompyuterlashtirilgan   muntazam	
ʼ
matn to plamlariga murojaat qilish uchun ishlatiladi.	
ʻ 11
 Umuman, korpus til birliklarining
xususiyatlarini aniqlash maqsadida qidiruv dasturiga bo'ysundirilgan matnlar majmuyi,
tabiiy   tildagi   elektron   shaklda   saqlanadigan   yozma   yoki   og'zaki   kompyuterlashtirilgan
qidiruv   tizimiga   dasturiy   ta'minot   asosida   joylashtirilgan   matnlar   jamlanmasi   ta'rifini
shakllantiradi. 
 Korpus lingvistikasining xususiyatlari: 
- tabiiy matnlardan foydalanishning amaldagi qoliplarini empirik tahlil qiladi;
-   an'anaviy   tilshunoslikda   sifat   bilan   bog'liq   metodlar   afzal   ko'rilsa,   korpus
tilshunosligida miqdoriy metodlar afzal; 
-   tilshunoslik   til   universaliyalarini   tadqiq   etsa,   korpus   tilshunosligida   til
universaliyalarining matnda uchrashi tahlil qilinadi; 
-   tilshunoslikda   nutq   materialini   tanlashda,   ularni   tadqiq   etishning   empirik
materiallarini aniqlashda til materiallariga asoslanilsa, korpus tilshunosligi xulosalarida
korpuslardagi matnlar to'plamida mavjud nutqiy faoliyatni kuzatishga asoslaniladi;
-   tilshunoslik   taqqoslashlar,   baholashlarga   asoslangan   kashfiyotlarga   ishonsa,
korpus tilshunosligi empirik ma'lumotlarni qayta ishlashga asoslangan ilmiy kashfiyotga
asoslanadi. 12
  A.Kutuzov   keltirgan   taqqoslashlar   orqali   bir   nechta   muhim   xulosalarni
olish   mumkin,   jumladan,   korpus   tilshunosligi   amaliy   soha   bo'lib,   tilga   oid   muhim
xulosalarini faqat kontekstda uchraydigan nutq birliklarining xususiyatiga ko ra beradi,	
ʻ
korpus tahlillari tilshunoslikda mavjud tahlil va usullarni to'ldiradi.
11
 Nadja Nasulhauf. Corpus linguistics: a practical introduction, 2005.  http://www.as.uni-heidelberg.de/ 11
12
 Кутузов А.Б. Корпусная лингвистика. 2015. http://tc.utmn.ru/files/corpus_5.pdf
8 Korpuslarning   yaratilish   tarixiga   nazar   tashlaydigan   bo'lsak,   birinchi   zamonaviy
kompyuterlashgan   korpus   1961-1964   yillarda   Braun   universitetida   ikki   tilshunos   olim
Genri   Kuchera   va   Nelson   Frensis   tomonidan   yaratilgan   degan   umumiy   tushuncha
mavjud. Ya`ni ular o`zlarining klassik asarlari “Computational Analysis of Present Day
American   English”   (Hozirgi   amerika   ingliz   tilining   kompyuterlashtirilgan   tahlili)ni
nashr   etishdi   va   u   jahonga   statistik   ma`lumotlarni   taqdim   etdi. 13
  Shuning   uchun
kompyuterda   yaratilgan   birinchi   matnlar   korpusi   Braun   korpusi   (БК,   inglizcha   Brown
Corpus, ВС) hisoblanadi va har biri 2000 so'zli 500 ta matn fragmentini o'z ichiga oladi.
Braun korpusi - korpus tilshunosligi sohasida ilk bor yaratilgan bo'lsa-da, hozirgi vaqtda
odatiy   korpuslar   (masalan,   zamonaviy   Amerika   inglizlari   korpusi,   Britaniya   milliy
korpusi yoki ingliz tilining xalqaro korpusi) taxminan 100 million so'zdan iborat bo'lib,
hajm   jihatdan   ancha   kattaroqdir.   Braun   korpusi   zamonaviy   korpusshunoslikni
shakllantirgan   desak   mubolag`a   bo`lmaydi.   U   nafaqat   yangi   ingliz   tili,   balki   barcha
zamonaviy   milliy   korporatsiyalar   uchun   namuna   bo`lib   xizmat   qiladi   va   hanuzgacha
turli   tadqiqotlarda   ma`lumotlar   to`plami   sifatida   foydalanilmoqda.   Yuqorida   aytib
o`tganimdek, 1961-1964 yillarda qo`shma shtatlarda nashr etilgan asarlardan jamlangan
bo`lib,   taxminan   bir   million   so`z   bo`lib,   ingliz   tilining   500   ta   namunasini   o`z   ichiga
olgan umumiy til korpusidir.
Keyinchalik 1970-yillarda 1 mln so'zni o'z ichiga olgan matnlar korpusi asosida rus
tilining   chastotali   lug'ati   yaratildi.   1980-yillarda   Shvetsiyaning   Upsala   universitetida
ham   rus   tilida   matnlar   korpusi   yaratildi.   Keyinchalik   kompyuter   leksikografiyasining
rivojlanishi natijasida katta hajmli matnlar korpusiga ehtiyoj tug'ildi. Ya'ni 1 mln ta so'z
elektron   lug'atlar   bazasi   uchun   yetarli   emas.   Shu   asosda   yirik   hajmli   matnlar   korpusi
yaratila   boshlandi.   Ko'pgina   mamlakatlarda   XX   asrning   80-yillaridan   boshlab   bunday
korpuslar   tuzila   boshlandi.   Ular   turli   maqsad   va   vazifalarga   xizmat   qiladi.   Buyuk
Britaniyada Ingliz tili Banki (Bank of English) hamda Britaniya Milliy Korpusi (British
National   Corpus,   BNC),   Rossiyada   Rus   tilining   Milliy   Korpusi   loyihalari   ishlab
chiqildi.   Masalan,   Rus   tilining   Milliy   Korpusi   hajmi   hozirgi   kunda   149   mln   so'zdan
13
 Francis, W. Nelson & Henry Kucera. Computational Analysis of Present-Day American English. Providence, RI: Brown 
University Press. 1967.
9 iborat.   Keyingi   yillarda   Internet   tizimining   rivojlanishi   virtual   matnlar   korpusi   yuzaga
kelishiga   olib   keldi.   Ya'ni   Internetdagi   qidiriv   saytlari,   elektron   kutubxonalar,   virtual
ensiklopediyalar   korpus   vazifasini   bajarmoqda.   Korpusning   janri   va   tematik   rang-
barangligi   Internetdan   foydalanuvchining   qiziqishlariga   bog'liq.   Masalan,   ilm-fan
doirasida Wikipedia katta hajmdagi matnlar korpusi sifatida foydalanilmoqda. 14
Ayniqsa,   ona   tili   va   chet   tillarini   o'qitish   va   o'rganish   borasida   korpusning
ahamiyati   beqiyos.   Bugungi   kunda   dunyo   miqyosida   til   o'rgatish   tizimi   korpuslarga
yo'naltirilayotganligi ham – fikrimizning dalili. Shuning uchun ta`lim korpuslari, sheva
matnlari   korpuslari,   poetik   matnlar   korpusi,   og`zaki,   ilmiy,   rasmiy   matnlar   korpusi,
parallel korpus kabi qator mikrokorpuslarning tuzilayotganligi ahamiyatli. Ingliz, nemis,
fransuz,   rus   tillarini   xorijiy   til   sifatida   o'qitish   masalasi   metodikada   alohida   tadqiq
etilmoqda.   Aynan   til   o'rgatishni   maqsad   qiluvchi   korpuslar   ham   mavjud   bo'lib,
«Учебный   корпус   русского   языка»,   «Learner   corpus   of   English»   shular   jumlasidan.
Xorijiy   til   vakillari   bilan   ishlash   jarayonida   til   korpusining   ahamiyati   bir   necha   marta
ortadi.   Tadqiq   predmeti   ona   tili   bo'lmagan   (ikkinchi   yoki   xorijiy   til   hisoblangan)
o'qituvchi  va  o'quvchi   uchun  ham  korpus  juda muhim   va qulay  vosita.  O'rni  kelganda
aytish lozimki, ilk rus tili korpuslari Rossiyada emas, Yevropada rus tili tadqiqotchilari
tomonidan yaratilgan. 15
    1.2. Elektron lug'atlar tuzishda lingvistik korpusning roli
Korpus asosida ish ko'radigan eng birinchi soha leksikografiya bo'lib, katta hajmli
lug'atlarni   tuzish   uchun   asosiy   va   takrorlanmas   manba   sanaladi.   Vaqt   o'tishi   bilan
korpuslar turli lingvistik yo'nalishlar uchun ahamiyatli bo'lishi bilan kuchli information
resursga ayandi. Chunki korpus leksikografiya sohasi uchun boy manba hisoblanib, ular
asosida kompyuter yordamida lug'atlar avvalgiga nisbatan tezlik bilan tuziladi va qayta
ishlanadi. Shu yo'l  bilan ish boshlanish  va tugash  jarayonigacha (nashrgacha)  tilni  aks
ettirib turadi, eskirishga ulgurmaydi. 
14
 Po'latov A., Muhamedova S. Kompyuter lingvistikasi. – T., 2007. – B.43.
15
 Кутузов А.Б. Корпусная лингвистика. –  M ., 2005.  C. 15-16.
10 Kompyuter   leksikografiyasini   elektron   matnlar   korpusi   yoki   parallel   matnlar
korpuslarisiz   tasavvur   qilish   mumkin   emas.   Chunki   dunyodagi   barcha   zamonaviy,
so'nggi   lug'atlar   korpusga   asoslangan   bo'lib,   ular   misollarining   haqiqiy,   ishonarliligi
bilan   baholanadi.   Chunki   korpusda   til   jamiyatda   qanday   yashasa   shunday   aks   etadi,
natijada   lug'atdagi   misol   ishonarli   hamda   asosli   bo'ladi.   Matnlar   korpusi   («corpus»
lotincha   «tana»   degan   ma'noni   anglatadi)   -   bu   elektron   holda   saqlanadigan   ma'lum   til
birliklari   bo'lib,   ular   tilshunoslar   uchun   turli   xil   muammolarni   hal   etish   uchun   tatbiq
etishda   va   turli   yo'nalishdagi   tadqiqotlar   uchun   zaruriyatga   qarab   turli   shakllarda
tuziladi.   Bular   fonema,   grafema,   morfemalardan   tortib   undan   kattaroq   birliklar:
leksema,  gap  va matnlardan  (badiiy  yoki  ilmiy asar,  gazeta  va  jurnal  matnlari)   tashkil
topishi   mumkin.   Ularning   qay   tarzda   saqlanishiga   qarab   maxsus   dasturlar   yordamida
har bir kerakli so'z yoki so'z birikmasi uchun darhol uning qo'llanishi bo'yicha misollar
topilishi,   imlo   bo'yicha   variantlari,   sinonimik   qatorlari   topilishi   mumkin.   Matnlar
korpusiga oid ilmiy tadqiqotlar salmog'ining ko'payishi natijasida tilshunoslikda korpus
lingvistikasi yo'nalishi shakllandi. 16
Bundan   tashqari,   korpus   tilning   lug'at   boyligida   bo'layotgan   o'zgarish
(neologizmning paydo bo'lishi va yo'qolishi hodisasi)ni kuzatishning eng qulay vositasi
sanaladi.   So'zlarning   o'zaro   leksik-semantik   birikish   imkoniyati   tahlilida   korpus
metodini   qo'llash   yangi   avlod   lug'at   va   grammatikalari,   xususan   turg'un   birikmalar
lug'atini   yaratish   imkonini   berdi.   Korpus   yaratilishi   va   taraqqqiy   etishi,   til   korpuslari
asri kirib kelishi bilan lug'atshunoslarda so'z qo'llanish holatlariga oid juda katta matnlar
to'plami   bilan   ishlash   imkoniyati   paydo   bo'ldi.   Korpus   vositasida   so'zning   serqirraligi,
bir paytning o'zida bir necha semantik kategoriyalarga mansub bo'la olishi, bu semantik
farqni   ajratib   olish   mumkinligi   haqida   Y.V.Nedovshina 17
  "Leksikografiya   bo'yicha
tadqiqotlar semantika borasidagi izlanishlar bilan chambarchas bog'liq. Korpusda u yoki
bu   lingvistik   birlikning   qurshovini   kuzata   turib,   ushbu   birlikni   xarakterlovchi   ma‘lum
semantik   belgilarni   aniqlash   mumkin.   So'z   bir   paytning   o'zida   bir   necha   semantik
16
 Rahimov A. Kompyuter lingvistikasi asoslari. – T., 2011
17
 Недовшина Е.В. Программа для работы с корпусами текстов: обзор основных корпусных менеджеров. Работа с 
системой  DDC  // Языковая инженерия: в поиске смыслов. (электронный ресурс). 
11 kategoriyaga mansub bo'lishi mumkin. Daraja esa turli kategoriya bo'yicha taqsimlanish
chastotasini sanab o'tish yo'li bilan aniqlanadi" – deb yozadi. Demak, korpus yordamida
so'zning   qanday   semantik   ma'no   ifodalayotgani   va   har   bir   semantik   qirralari   bilan
tanishish mumkin. 
Birinchi bob bo'yicha xulosalar
1. Lingvistik korpus ish quroli til bo'lgan har qanday soha vakillari uchun muhim
vosita   bo'lib   xizmat   qiladi.   Bundan   tashqari,   korpus   texnik   jarayonni   tezlashtiruvchi
vosita   bo'libgina   qolmay,   ma‘lum   til   zamonaviy   shaklining   axborot   tizimi   bo'lib,
kutilmagan   savollarga   ham   javob   bera   oladigan,   tilshunos   oldiga   avval   qo'ymagan
dolzarb muammolarni qo'ya oladigan tizimdir.
2. Kompyuterda yaratilgan birinchi matnlar korpusi Braun korpusi  hisoblanadi va
u   korpus   tilshunosligi   sohasida   ilk   bor   yaratilgan   bo'lsa-da,   hozirgi   vaqtda   odatiy
korpuslardan (masalan, zamonaviy Amerika inglizlari korpusi, Britaniya milliy korpusi
yoki   ingliz   tilining   xalqaro   korpusi)   taxminan   100   million   so'zdan   iborat   bo'lib,   hajm
jihatdan ancha kattaroqdir. Braun korpusi  zamonaviy korpusshunoslikni  shakllantirgan
desak mubolag`a bo`lmaydi. U nafaqat yangi ingliz tili, balki barcha zamonaviy milliy
korporatsiyalar   uchun   namuna   bo`lib   xizmat   qiladi   va   hanuzgacha   turli   tadqiqotlarda
ma`lumotlar to`plami sifatida foydalanilmoqda. 
3.   Korpus   lug'atshunoslik   sohasi   uchun   boy   manba   hisoblanib,   ular   asosida
kompyuter   yordamida   lug'atlar   avvalgiga   nisbatan   tezlik   bilan   tuziladi   va   qayta
ishlanadi. Shu yo'l  bilan ish boshlanish  va tugash  jarayonigacha (nashrgacha)  tilni  aks
ettirib turadi, eskirishga ulgurmaydi.
4.   O'zbek   tili   milliy   korpusini   to'liq   yaratishi   uchun   avvalo   katta   hajmdagi
ma'lumotlar   bazasiga   ya'ni   turli   mavzularga   doir   bo'lgan   matnlar   jamlanmasiga   ega
bo'lishi kerak. 
II.  ELEKTRON KORPUS MORFOANALIZATORINING LINGVISTIK
TA’MINOTI  
12 2.1.   O‘zbek tili korpusining morfologik teglash tamoyillari
“O‘zbek   tili   korpusi”   (uzbekcorpus.uz) 18
  loyihasi   2018-2021   yillar   oralig‘idagi
ERASMUS granti tufayli yaratilgan. Bu loyiha asoschisi filologiya fanlari doktori(DSc)
Abduraxmonova   Nilufar   bo‘lib,   korpus   Mahalla   va   oila   ilmiy-tadqiqot   institutining
JHBL-20-sonli “Oila, mahalla va gender tengligi mavzusida badiiy asarlarning elektron
korpusini   yaratish”   loyihasi   doirasida   amalga   oshirilgan.   Korpus   o‘zbek   tilidagi   10
milliondan oshiq so‘zlarni qamrab olgan matnlarni o‘z ichiga oladi. Korpus – og‘zaki va
yozma   matnlar   yig‘indisi   sifatida,   ma’lumotlarni   boshqarish   va   foydalanish
imkoniyatiga   ega   dasturiy   ta’minot   hisoblanadi.   O'zbek   tilining   elektron   korpusi   bir
necha yillik olib borilgan tadqiqotlar ilmiy hamkorlik va loyihalardan olingan natijalar
mahsuli hisoblanadi. O‘zbek tili korpusi joriy holatida o‘zbek tilida yaratilgan lingvistik
lug‘atlar,   web-sahifalar,   o‘zbek   tilining   morfologik   ma’lumotlar   bazasi,   o‘quv
adabiyotlar   hamda   turli   janrdagi   ilmiy,   rasmiy   va   badiiy   matnlar   majmuasidan   tashkil
topgan.   U   oldingi   davrlar   tilini   ham,   hozirgi   zamon   tilini   ham   turli   sotsiolingvistik
variantlarda   -   adabiy,   so'zlashuv,   xalq   tili,   dialektda   ifodalaydi.     Korpus   tarkibiga,
xususan,   madaniy   ahamiyatga   ega   bo‘lgan   hamda   lingvistik   nuqtai   nazardan   ham
qiziqish uyg‘otadigan badiiy adabiyot  (nasr, drama, she’riyat)  kiradi.   O'zbek tili  milliy
korpusining platformasi matnlarni tayyorlash va indekslash va korpuslar orqali qidirish
vositalarini   o'z   ichiga   oladi.   Korpus   kuratorlari   har   bir   korpus   uchun   keng   ko'lamli
maxsus   vositalarni   o'z   ichiga   olgan   metamatn   va   grammatik   belgilash   dasturlari
yordamida   korpus   uchun   ma'lumotlarni   muntazam   ravishda   tayyorlaydi.   Ushbu
korpusning tarkibida ichki (sub) korpuslar ham mavjud.   Ular parallel korpus, ta’limiy
korpus,   mualliflik   korpusi   hisoblanadi.   Parallel   korpus   ikki   yoki   ko‘p   tilli   korpus
hisoblanadi   hamda   u   manba   tili   va   uning   muvofiq   tarjimasini   jamlagan   tarjima   tilli
tizimdir. Parallel korpuslar istalgan bir tilning asli va uning tarjimasini o‘zida jamlagan
elektron   tizim   hisoblanadi.   Ta'limiy   korpus   –   maktab   darsliklari   va   o quv   lug atlarigaʻ ʻ
asoslanadi   va   undan   ta lim   jarayonida   foydalanish   o‘quvchiga   tilni   egallashning	
ʼ
professional-relevant   aspektlarini   yuzaga   chiqarish   imkonini   yaratadi.   Mualliflik
korpusi   muallif   asarlari   tilini   to'liq   va   aniq   ko'rasata   olishi   bilan   boshqa   axborot
18
  https://uzbekcorpus.uz
13 banklaridan   ajralib   turadi.   Morfoanalizator   muayyan   tokenning   morfologik   tarkibini
tahlil   qilish   uchun   mas’ul   bo lgan   dastur   sifatida   izohlanadi.   Morfologik   analizatorʻ
berilgan   tokenni   tahlil   qiladi   va   turkum,   turli   grammatik   ma’nolar   kabi   ma’lumotlarni
shakllantiradi.   Korpusda   lingvistik   analizator-   avtomatlashgan   qidiruv   tizimida   tabiiy
tilni   qayta   ishlash   jarayonida   so‘zning    morfologik,  sintaktik   va   semantik   xususiyatini
ifodalaydigan   vosita.   O'quv   lug'atlari   tilshunosligimizda   allaqachon   ilmiy   nazariy
asoslari ishlab chiqilgan, ta'lim tizimiga joriy qilinishi zarur lug'atlarni o'z ichiga oladi.
Tezaurus   biror     ilm-fan   sohasiga   oid   lug aviy   birlik   (so z)lar   mavzu   tartibida	
ʻ ʻ
joylashtirilgan   va   ana   shu   birliklar   o rtasidagi   semantik   (tur-jins,   sinonimik   va	
ʻ
boshqalar) munosabatlar aks ettirilgan ideografik lug atdir. Bundan tashqari korpusdan	
ʻ
turli   lingvistik   resurslar   ya’ni   lug'atlar,   inglizcha-o‘zbekcha   fe’lli   frazemalar   lug‘ati,
sinonim lug‘at, etimologik lug‘at, terminologik ma’lumotlar bazasi o‘rin olgan. 
Korpus   ishga   tushirilganda   interfeysda   dasturning   qaysi   tilda   ishlashini   tanlash,
chap   tomonida   esa   bandlar   orqali   kerakli   bo‘lim   tanlanadi.   Mazkur   platforma   rasmiy,
badiiy,   ilmiy,   publisistik   yozma   matnlarni   token,   lemma,   birikma   va   konkordans
birliklarga   ko‘ra   qidirish   imkoniyatiga   ega.   Token   bu   so‘zning   grammatik
qo‘shimchalar   bilan   qidirish   usuli   hisoblanadi.   Agarda   foydalanuvchiga   hech   qanday
grammatik   qo‘shimchalarsiz   faqatgina   so‘zning   o‘zagi   kerak   bo‘lsa,   bunda   lemma
bo‘yicha   qidirish   imkoniyatidan   foydalanishi   mumkin.   Ayrim   o‘rinlarda   matn
kompanenti   sifatida   birdan   ortiq   so‘zdan   tashkil   topgan   iboralar,   qo‘shma   so‘zlar,
tasviriy ifodalar va shunga o‘xshash turg‘un birikmalar platformaning birikma bo‘yicha
qidiruv   tizimida   izlanadi.   Shuningdek,   korpusning   konkordans   qismi   so‘zlarning
birikuvchanligi  ya’ni so‘z qurshovini  o‘rganishga  kerak bo‘ladi. Konkordans korpusda
aniqlangan   so‘z   yoki   frazaning   unga   bog‘liq   ravishda   birikma   hosil   qilingan   ro‘yxati
hisoblanadi. 
Korpusda   so‘zlar   uslub   va   davr   nuqta’i   nazaridan   ajratilgan.   So‘zlarni   izlashda
uslub   va   davr   parametrlari   belgilab   olinishi   lozim.   Bundan   tashqari   korpusda   matnlar
annotatsiyalangan   ya’ni   qo‘shimcha   ma’lumot   bilan   to‘ldirilgan.   Korpuslar   tilga   oid
tadqiqotlar   olib   borishni   yanada   samaraliroq   qilish   uchun   annotatsiyalanadi.
14 Annotatsiya   maxsus   lingvistik   belgilar,   munosabatlar   yoki   matndagi   strukturalarning
tuzilishi va semantik jihatdan qisqartirilgan shakli hisoblanadi. 19
 
Korpusda unga kiritilgan matnlarning xususiyatlari (razmetka yoki annotatsiya deb
ataladi)  haqida  maxsus  qo'shimcha   ma'lumotlar  mavjud.  Razmetkalashning   mavjudligi
matn   korpusining   asosiy   xususiyati   bo'lib,   uni   matnlarning   oddiy   to'plamlari   (yoki
"elektron   kutubxonalar")dan   ajratib   turadi.   Bugungi   kunda   korpuslarda
annotatsiyalarning   bir   qancha   turlarini   ko‘rishimiz   mumkin.   Xususan,   morfologik
annotatsiya, sintaktik, semantik, prosodik annotatsiya va boshqalar. 
Matnni  kompyuterda qayta ishlash  uchun unga  tegishli  kontekstga  doir  ma’lumot
muayyan   darajada   annotatsiyalanishi   kerak.   Ishning   lingvistik   annotatsiyalash
(razmetka) bosqichi sifatli natijaga erishishda muhim omil hisoblanadi. Ya'ni korpusni
tilshunoslik jihatdan annotatsiyalash undan foydalanishning bosh tamoyili bo'lib xizmat
qiladi. Razmetka quyidagi jihatlariga ko‘ra tasniflanadi: 20
1.   Ekstralingvistik   (metarazmetka)   –   matn   (muallifi,   nashr   yili,   nashriyot   nomi,
yili, janri, mavzusi) va uning muallifi haqida ma’lumot; 
2. Matn tuzilishi – sarlavha, satrboshi, gap, so‘z shakli; 
3. Lingvistik sathiga ko‘ra: 
1. Morfologik (POS-tagging) razmetka; 
2.   Sintaktik   razmetka   –   bunda   so‘zlar   o‘rtasidagi   sintaktik   aloqalar   va   gap   turlariga
ko‘ra ma’lumotlar keltiriladi; 
3.   Semantik   razmetka   –   matnda   ifodalangan   tushunchalarning   predmet   va   predmet
bo‘lmagan nomlari, faoliyat turlari hamda semantik munosabatlari tavsiflanadi. 
4.   Anaforik   –   matnning   biror   elementi   boshqa   matnda   anglashilgan   mazmun   bilan
aloqadorlikda aniqlanadi va lingvistik jihatdan tahlil qilinadi; 
19
  Abduraxmonova N.Z. Kompyuter lingvistikasi (Darslik). -T., 2021. -B.372.
20
 Боярский К.К. Введение в компьютерную лингвистику. Санкт-Петербург. 2013, -С. 28.
15 5. Prosodik – urg‘u, ritm, mantiqiy urg‘u va boshqlariga ko‘ra matn lingvistik jihatdan
ifodalanadi. 21
 
V.P.Zaxarov   fikricha,   lingvistik   razmetkaning   morfologik,   sintaktik,   semantik,
anaforik, prosodik kabi turlari quyidagi tamoyillar asosida amalga oshiriladi: 
1) razmetka sxemasi / tuzilishini tavsiflash (asoslash); 
2) lingvistik tushunchalarning umumqabul qilingan sistemasi;  
3) foydalanuvchi uchun ma’lum bo‘lgan tahlil sxemasini shakllantirish; 
4) parametrlarning asoslantirilgan tarzda kiritilishi;
5)  razmetka sxemasining nazariy an’anaviyligiga erishish; 
6)  xalqaro andozalarga amal qilish. 22
 
Bundan   tashqari,   ayrim   adabiyotlarda   so‘z   turkumlarini   annotatsiyalashning
boshqa   bir   qator   turlari   keltiriladi: 23
  agar   muayyan   so‘z   uning   grammatik
kategoriyalarining   paradigmalari   bilan   ma’lumot   keltirilishi   zarur   bo‘lsa,   ichkiqator
(inline)   annotatsiya   yaratiladi:   The   inhabitants   of   Egypt   were   called   mummies.   Ushbu
gap   quyidagicha   teglanadi:   The   Determiner   inhabitants/Noun   of/Preposition
Egypt/Name   were/Verb   called/Participle   mummies/Noun/Punct.   Ya’ni   gapda   ishtirok
etgan har bir so‘z turkumi nominal yoki verbal guruhdan qaysi biriga tegishli ekanligiga
ko‘ra ajratiladi va  /  belgisi qo‘yiladi. 24
  Matnlarni teglash 3 usulda amalga oshiriladi: 1)
qoidaga   asoslangan   teglash   -   bunda   teglash   tizimi   leksikonga   asoslanadi,   biroq   o'zi
uchun noma'lum bo'lgan konstruksiyaga tegishli teglarni aniqlay olmasligi mumkin; 2)
ehtimolga   asoslangan   teglash   -   ehtimollik   nazariyasi   metrikasi   yordamida   amalga
oshiriladi.   Agar   so'z   noma'lum   grammatik   sinfga   tegishli   bo'lsa,   u   qo'shimcha
21
   Abduraxmonova N. O‘zbek tili korpusini yaratishda lingvistik annotatsiyalash tamoyillari. So‘z san’ati xalqaro jurnali. 4-
jild, I son. Toshkent-2021.
22
  Захаров   В . П .,  Богданова   С .  Ю .  Корпусная   лингвистика :  учебник .  3-е изд., перераб. СПб.: Изд-во С.- Петерб, ун-та,
2020. -36 c .
23
 Sandra K., Heike Z. CORPUS LINGUISTICS AND LINGUISTICALLY ANNOTATED CORPORA Bloomsbury Academic, New York,
2015, P. 23. 
24
  Abduraxmonova N. O‘zbek tili korpusini yaratishda lingvistik annotatsiyalash tamoyillari. So‘z san’ati xalqaro jurnali. 4-
jild, I son. Toshkent-2021.
16 ma'lumotlar   bazasidan   qidiriladi;   3)   gibrid   asosli   teglash   (CLAWS   texnologiyasi
yordamida)   kiradi.   Bunda   ham   ma'lumotlar   bazasidan,   ham   ehtimollik   vaziyatlariga
qarab teglar tanlanadi. 25
  Annotatsiya   jarayonida   muayyan   xulosani   chiqarish   uchun   annotatsiya
modellaridan (annotation scheme) foydalaniladi. Ular annotatsiya qo‘llanmalarida qayd
etiladi.   Masalan,   ot   son   kategoriyasi   bo‘yicha   annotatsiya   qilinadi,   degan   xulosaga
kelish   uchun   qo‘llanmada   keltirilgan   tavsiyalardan   foydalanish   o'rinli.   Chunki   ayrim
matn   tahlili   bilan   bog‘liq   murakkab   vaziyatlarda   u   yoki   bu   so‘z   haqida   lingvistik
ma’lumot   olish   uchun   undagi   berilgan   ma’lumot   juda   muhim.   Masalan,   o‘zbek   tilida
ayrim atoqli otlar turdosh otga (Nyuton) yoki turdosh otlar atoqli otga aylangan hollari
ko‘p kuzatiladi. Ularni bosh harf bilan kelish kelmasligi mavhum, chunki ular gapning
boshida   ham   kelishi   mumkin.   Ushbu   vaziyatda   annotatsiyadan   foydalaniladi.
Annotasiyalashning   keyingi   talablaridan   biri   bu   matn   haqidagi   ma’lumotni   qay   tarzda
ifodalashdir.   Odatda   matnni   annotasiyalash   qo‘l   mehnati   bilan,   avtomatik   va   yarim
avtomat tarzida amalga oshiriladi. Qo‘l mehnati bilan amalga oshirishda inson idroki va
uning shaxsiy tajribasiga tayaniladi. Avtomatik usulda esa kompyuter lingvistikasidagi
metodlardan   foydalangan   holda   natijaga   erishiladi.   Yarim   avtomat   yordamida
annotatsiyalashda   avtomatik   dasturiy   metod   yordamida   bajariladi,   erishilgan   natijalari
inson tomonidan tekshirib chiqiladi. 26
Shuningdek, korpus annotatsiyasi quyidagi ma'lumotlardan iborat bo'lishi mumkin:
- metama'lumot, sarlavha, paragraf
- tokenlar
- lemmalar
- so'z turkumi tegi (Part of speech - POS) 
- morfologik belgilar
25
 Abdurahmonova N. O'zbek tili elektron korpusining kompyuter modellari. Monografiya. -Toshkent. 2021. -B 75
26
https://www.researchgate.net/publication/336798062_MODELING_ANALITIC_FORMS_OF_VERB_IN_UZBEK_AS_ 
STAGE_OF_MORPHOLOGICAL_ANALYSIS_IN_MACHINE_TRANSLATION
17 - sintaktik tahlil  27
O‘zbek   tili   elektron   korpusida   annotatsiyalash   jarayoni   barcha   turkiy   tillar   uchun
umumiy   bo‘lgan   teglar   orqali   ifodalanadi.   Bunda   so‘zning   turkumi   va   shu   turkum
kategoriyalari   asosida   teglab   chiqish   tushuniladi.   Masalan,   kitoblarni   so‘zi   quyidagi
ma’lumotlarni   o‘z   ichiga   oladi:   ot,   ko‘plik,   tushum   kelishigi.   Ayni   mana   shu
ma’lumotlar teglar orqali so‘zga biriktirib chiqiladi.   Teg – Kompyuter yordamida matn
tahlilini   amalga   oshirish   jarayonini   tezlashtirish   va   osonlashtirishga   xizmat   qiluvchi
shartli belgi yoki maxsus kod hisoblanadi. 28
   
Teglashga   bo‘lgan   ehtiyoj,   ya’ni   nutq   bo‘laklarini   unikal   kodlashtirish
kompyuterni   avtomatik   tahlil   qilishga   yordam   beruvchi   manbalar,   jumladan,   korpus
tuzish ishlaridan keyin boshlangan. PoS-tagging ya'ni so'zlarni teglash tabiiy tilni qayta
ishlashda   (NLP)   asosiy   vazifa   bo lib,   gapdagi   har   bir   so zga   grammatik   kategoriyaʻ ʻ
(masalan,   ot,   fe l,   sifat   va   boshqalar)   belgilashni   o z   ichiga   oladi.   Teglashdan   asosiy	
ʼ ʻ
maqsad   gapning   sintaktik   tuzilishini   tushunish   va   alohida   so'zlarning   grammatik
rollarini   aniqlash   hisoblanadi.   So'z   yoki   so'z   birikmasining   tuzilishi   va   semantikasini
yaxshi   tushunish   orqali   ushbu   uslub   mashinalarga   inson   tilini   aniqroq   o'rganish   va
tushunish   imkonini   beradi.   Ko pgina	
ʻ   NLP   ilovalarida,   jumladan,   mashina   tarjimasi,
ma'lumotlarni   tahlil   qilish   va   ma lumotlarni   qidirishda   PoS   teglarini   belgilash   muhim
ʼ
ahamiyatga   ega.   PoS   yorlig'i   til   va   mashinani   tushunish   o'rtasida   bog'lovchi   bo'lib
xizmat qiladi, murakkab tilni qayta ishlash tizimlarini yaratishga imkon beradi va ilg'or
lingvistik tahlil uchun asos bo'lib xizmat qiladi.   Ushbu amaliyot o‘z-o‘zidan murakkab
jarayon.  Bu borada korpusga kiritiluvchi  ma’lumotlar  bazasining tarkibi, uni  korpusga
kiritishda o‘zbek tili lingvistik tamoyillari inobatga olinishi lozim. Shuningdek, o‘zbek
adabiy   tili   hamda   umummilliy   til   unsurlarini   to‘g‘ri   tahlil   qilish,   shunga   mos   saralash
amaliyotini amalga oshirish kerak. 
27
 Abdurahmonova N. O'zbek tili elektron korpusining kompyuter modellari. Monografiya. -Toshkent. 2021. -B 68.
28
 Elov B., Hamroyeva Sh., Abdullayeva O., Uzoqova M. 2022. “O‘zbek tilida PoS tegging masalasi: muammo va takliflar”. 
O‘zbekiston: til va madaniyat. Amaliy filologiya. 2 (5): 5 -52 
18 Kompyuterda tilni qayta ishlash uchun matnni teglashda foydalaniladigan belgilar
to‘plami teglar to‘plami (tag set) deb yuritiladi. 29
 Turli tillar uchun teglar odatda turlicha
bo'ladi.   Bir-biriga   bog'liq   bo'lmagan   ya'ni   bir   til   oilasiga   kirmagan   tillar   uchun   ular
butunlay   boshqacha   bo'lishi   mumkin   va   o'xshash   tillar   uchun   juda   o'xshash   bo'lishi
mumkin.   Lekin   bu   doimiy   qonuniyat   emas.   Asosiy   teglar   faqat   nutqning   eng   keng
tarqalgan  qismlari   uchun teglarni  o'z  ichiga  olishi   mumkin (ot  uchun  N, fe'l   uchun V,
sifat   uchun   A   va   boshqalar).   Biroq,   batafsilroq   ma'lumotga   ega   bo'lish   va   birlik   va
ko'plikdagi   otlarni,   ismlardagi   kelishiklarni,   zamonlarni   va   boshqa   kategoriyalarni
farqlash   juda   muhim.   Alohida   tadqiqotchilar   hatto   o'zlarining   tadqiqot   natijalarini
kengaytirish   uchun   o'zlarining   maxsus   yorliqlarini   ishlab   chiqishlari   mumkin.   Tegger
esa berilgan matnni avtomatik teglashga xizmat qiluvchi dastur hisoblanadi. 
PoS-tagging   bo yicha   tadqiqotlar   tarixiga   nazar   tashlasak,   matnni   kompyuterdaʻ
tahlil qilish uchun ingliz tilining birinchi yirik korpusi 1960-yillarning o rtalarida Genri	
ʻ
Kucher   va   V.   Nelson   Frensis   tomonidan   Braun   Universitetida   ishlab   chiqilganligini
bilishimiz   mumkn.   Brown   korpusida   so z   turkumlarini   teglash   uchun   ko p   yillar	
ʻ ʻ
davomida   inson   tomonidan   so zlar   va   ularning   turkumlari   ro yxat   qilingan.   70-	
ʻ ʻ
yillarning oxiriga kelib teglashtirish jarayoni keskin tarzda rivojlandi. Ya’ni, 1971-yilda
77 xil turdagi teglar TAGGIT dasturi uchun Braun korpusi mualliflari tomonidan ishlab
chiqilgan. Bundagi  teglashning asosiy  yutug‘i  nafaqat asosiy  grammatik kategoriyalar,
balki   ularning   ichki   guruhlarigacha   teglanganida   ko‘ringan.   Keyinroq,   Lankaster
universiteti tomonidan CLAWS teggerini yaratish uchun tegsetlar (teglar to‘plami) ham
ishlab   chiqila   boshlangan   (137ta   teg).   Teglarning   aksariyati   Brown   korpusida
foydalanilgan   teglardan   oziqlangan,   ammo   ulardan   farqli   bo‘lgan.   Jahon   miqyosida
keng tarqalgan va mashhur bo‘lgan tegsetlardan  yana biri Pen Tree Bank Tagset 1993-
1994-yillarda   Shtutgart   universiteti   tomonidan   ishlab   chiqilgan.   Keyinroq   bu
tegsetlardan   Sketch   Engine   korpusida   ham   foydalanilgan.   Hozirda   Sketch   Engine
tarkibidagi   tegsetlar   versiyasi   3   taga   yetgan,   ammo   ular   Pen   Tree   Bank   tegsetlarining
aynan   o‘zi   emas,   biroz   takomillashgan   versiyasi   hisoblanadi.   Yana   bir   ommalashgan
29
  Abduraxmonova N.Z. Kompyuter lingvistikasi (Darslik). -T., 2021. -B.384.
19 tegger va tegsetlar Python kutubxonasiga tegishli NLTK dasturida aks etgan. NLTK –
Natural Language Toolkit tokenizatsiya, stemming, lemmatizatsiya va avtomatik teglay
oluvchi universal hamda NLP olamidagi eng ommabop dastur hisoblanadi.  Hatto BNC
(British National Corpus) namunaviy tegsetlari ham CLAWS tegsetlari asosida tuzilgan.
Ushbu   tegsetlarni   tahlil   qilish   natijasida   har   qanday   til   uchun   joriy   qilinishi   mumkin
bo‘lgan standart teg mavjud emasligini bilishimiz mumkin. 30
 
Teglash   jarayoni   birinchi   marta   jahon   tajribasida   Brown   korpusini   tuzish   bilan
qayd   etilgan   bo‘lsa,   o‘zbek   tilshunosligida   razmetka,   annotatsiyalash   masalasi   turli
tadqiqotlarda monografik planda o‘rganilgan. Ba’zi  tadqiqotlarda teglar  to‘plami  taklif
etilgan.   Teg   va   teglash   masalasini   ba’zi   ishlarda   razmetkalash   shaklida   kuzatish
mumkin.   Sh.Hamroyeva   tadqiqotida   mukammal   teg   –   keng   imkoniyatli,   universal
korpus   garovi   ekanligini   ta’kidlaydi.   Razmetkalash   jarayoni   uchun   bir   nechta   teg
lozimligi, teglarni lingvistik modellashtirish maqsadga muvofiqligi va aynan mana shu
modelda   morfologik   teg   shartli   qisqartma   shaklini   olishi   ko‘rsatilgan.   Har   bir   nutq
bo‘lagi uchun morfologik va semantik teglarning o‘zbek tilida lingvistik modellari taklif
qilingan. 31
  Bundan   tashqari   O‘.Xoliyorov, 32
  O.Abdullayeva 33
  kabi   tilshunoslar
tomonidan ham  PoS tegning belgilanishi bo‘yicha tadqiqotlar amalga oshirilgan.
2.2. So‘zlarni turkumlarga ajratish algoritmi
Tildagi   so‘zlarning  ularda  umumiy   kategorial   ma’noning,  grammatik  kategoriyalar
yagona tizimining, o‘ziga xos so‘z o‘zgarish, shakl va so‘z yasalish tiplarining, sintaktik
vazifalar  umumiyligining  mavjudligiga  qarab  ajratiladigan   guruhlariga  so‘z  turkumlari
30
 Elov B., Hamroyeva Sh., Abdullayeva O., Uzoqova M. 2022. “O‘zbek tilida PoS tegging masalasi: muammo va takliflar”. 
O‘zbekiston: til va madaniyat. Amaliy filologiya. 2 (5): 5. 53-55
31
  Ҳамроева Ш. Ўзбек тили муаллифлик корпусини тузишнинг лингвистик асослари: Монография. –Tошкент, 2020. –
229 б.  Qarang: Elov B., Hamroyeva Sh., Abdullayeva O., Uzoqova M. 2022. “O‘zbek tilida PoS tegging masalasi: muammo 
va takliflar”. O‘zbekiston: til va madaniyat. Amaliy filologiya. 2 (5): 5. 55
32
  Xoliyorov O‘. O‘zbek tili ta’limiy korpusini tuzishning lingvistik asoslari. Filol. fan. bo‘yicha falsafa doktori PhD avtoref. – 
Termiz, 2021. 
33
  Abdullayeva O. O‘zbek tilining internet axborot matnlari korpusini shakllantirishning nazariy va amaliy asoslari. filol. fan.
bo‘yicha falsafa doktori (PhD) …. diss. Andijon, 2022.
20 deyiladi.   M.N.Petersonning   yozishicha,   “so‘z   turkumlari”   lotincha   “partes   orationis”
terminining   yunoncha   “μέρη   τού   λóγοσ”   terminining   so’zma   so’z   tarjimasidir.
Yunoncha   terminning   birinchi   qismi   “μέρος”   (“qism”)ni   ikkinchi   qismi   “λóγος”   esa
logos   -   shunoslik   so‘zidan   tarkib   topgan.   Demak   so‘z   turkumlari   o‘rnida   “so’z
turkumlari” termini bilan bir qatorda “so‘z shunoslik” terminini ham qo‘llash mumkin.
Aslida   so‘z   turkumlari   terminini   ishlatish   yaxshi,   u   an’anaga   muvofiq   va   o‘quvchini
chalg‘itmaydi.   Yangi   terminni   qo’llashda   o‘quvchining   uni   tushunishi   doimo   kun
tartibida turadi. 
M.N.Peterson   mazkur   termin   haqidagi   fikrlarini   quyidagicha   davom   ettiradi.   Bu
termin   ijodkorlari   –   Aleksandrya   grammatikashunoslari   “logos”   deganda   “gap”ni
tushunadi.   Binobarin,   Yunon   grammatistlari   “μέρη   τού   λóγοσ”   deganda   so’zlardan
tashkil   topgan   gaplarni   tushunganlar.   Demak   bu   terminning   aniq,   muqobil   ma’nosi
M.N. Petersonga ko‘ra “gap qismlari” tarzida tushunish kerak. Mana buning bu haqdagi
aslida   “so’z   turkumlari”   –   bu   “gapning   qurilish   materiali”   desa   ham   bo’ladi.   Biroq
boshqa   tomondan,   bu   –   bir   xil   o‘zgarishlarni,   bir   xil   shakllarni   tavsiflovchi   so‘zlar
guruhlaridir.   Yuqoridagilarga   asoslanib   so‘z   turkumlarini   quyidagicha   ta’riflash
mumkin: “so‘z turkumlari – bu so‘zlarning gap yasaydigan (hosil qiladigan) guruhlari,
turkumlaridir” 34
   
So'zlarni turkumlarga ajratuvchi mezonlar, belgilar  to'g'risida ko'pgina tadqiqotlar
bor.   So'zlar   gapda   bajaradigan   sintaktik   vazifasi,   lug'aviy   ma'nolari   va   morfologik
belgilariga   ko'ra   o'zaro   farqlanuvchi   turli   guruhlarni   tashkil   etadi.   So'zlarning   lug'aviy
va grammatik jihatdan farqlanishiga ko'ra bunday guruhlarga bo'linishi so'z turkumlari
deyiladi.   Sо‘z   turkumlari   tilshunoslik   tarixining   eng   qadimgi   davrlaridayoq   о‘rganish
obyekti   bо‘lgan   edi.   Qadimgi   Yunon   tilshunosligidayoq   sо‘z   turkumlari   tushunchasi
shakllana boshlagan. Sharq tilshunosligida antik tilshunoslik bilan mushtarak tomonlar
anchagina.   Xususan,   hind   va   arab   tilshunoslarining   qarashlari   antik   tilshunoslarnikiga
anchagina   yaqin   keladi.   Masalan,   hindlar   tо‘rt   a’zoli,   arablar   uch   a’zoli   paradigma
ajratganlar.   Hindlar   ot   va   fe’l   asosiy   sо‘z   turkumlaridan   tashqari   kо‘makchi   va
34
 Omidullah Bayani. So‘z turkumlari va ularni matn asosida tasniflash masalasi.  https    ://    cyberleninka    .   ru    /   article    /   n    /   so    -   z   -  
turkumlari    -   va    -   ularni    -   matn    -   asosida    -   tasniflash    -   masalasi    .     -2021. -1497b.
21 yuklamani   ajratgan   bо‘lsalar,   arablar   yuklamanigina   ajratadilar.   Arab   tilshunosligi
an’analariga   asoslanib   dastlabki   turkiyshunoslar   ham   uchta   sо‘z   turkumini   ham
ajratadilar.   Masalan,   Mahmud   Koshg‘ariy,   Mahmud   Zamaxshariylarda   ham   ana
shunday   uchlik   kuzatiladi.   Keyinchalik,   A.Navoiy   ham   ana   shunday   uchta   sо‘z
turkumini ajratgan, biroq о‘z navbatida ot va fe’l turkumiga xos jihatlarni aynan turkiy
tillar   xususiyatlariga   asoslanib   ancha   mukammal   izohlab   bera   olgan.     Yana   shunga
e’tibor berish lozimki, bu uchta sо‘z turkumi ichki bо‘linish xususiyatiga ega. Xususan,
Mahmud Koshg‘ariy arab tilshunosligi vorisi sifatida an’anaviy uchta turkumni ajratsa-
da,   ot,   sifat,   son,   olmosh,   fe’l,   kо‘makchi   va   undovlarni   ancha   izchil   farqlagan.   Sо‘z
turkumi, nomidan ma’lumki, sо‘zlardan tuzilgan bо‘lishi shubhasiz.
O‘zbek tilida so‘zlar 3 asosiy xususiyatiga ko‘ra turkumlanadi: 35
1. Semantik xususiyatlari  – so‘zlarning mustaqil  holda lug‘aviy ma‘no anglatishi.
Bu   jihatdan   so‘zlar   narsa-buyumni   ifodalovchi   so‘zlar,   belgi   bildiruvchi   so‘zlar,
harakat-holatni   ifodalovchi   so‘zlar   kabi   guruhlarga   bo‘linadi.   Masalan,   gul   (narsa-
buyum nomi), katta (belgi nomi), o‘qimoq (harakat nomi) kabi. 
2.   Morfologik   xususiyatlari   –   so‘zlarning   umumiy   morfologik   xususiyatlari.
Masalan:   predmet   nomini   bildiruvchi   so‘zlar   birlik-ko‘plik   ko‘rsata   oladi,   belgi
bildiruvchilar darajalanib kela oladi, fe‘llar esa zamonni ifodalay oladi va hokazo. 
3.   Sintaktik   xususiyatlari   –   so‘zlarning   gapda   qanday   gap   bo‘lagi   vazifasida   kela
olishi.   Odatda,   predmetni   bildiruvchi   so‘zlar   ko‘pincha   ega.   To‘ldirvuchi;   harakatni
bildiruvchi so‘zlar ko‘pincha kesim vazifasida keladi. 
Demak, so‘zlar har uchala belgi – semantik, morfologik va sintaktik xususiyatlariga
ko‘ra   turkumlarga   ajratiladi.   Hozirgi   o zbek   tilida   sо‘zlarni   turkumlarga   ajratilishdaʻ
ularning   qanday   sо‘roqqa   javob   bо‘lishiga   qaraladi.   O‘zbek   tilida   so‘zlar   quyidagi
turkum guruhlariga ajratilgan:  
Mustaqil so‘z turkumlari:  ot, son, fe’l, ravish, sifat, olmosh; 
35
  Omidullah Bayani. So‘z turkumlari va ularni matn asosida tasniflash masalasi.  https    ://    cyberleninka    .   ru    /   article    /   n    /   so    -   z   -  
turkumlari    -   va    -   ularni    -   matn    -   asosida    -   tasniflash    -   masalasi    .     -2021. -1499b.
22 Yordamchi so‘z turkumlari:  bog‘lovchi, ko‘makchi, yuklama; 
Alohida olingan so‘zlar:  taqlid so‘zlar, undov so‘zlar, modal so‘zlar.
Bunday   tasniflash   tilning   o‘ziga   xos   jihati   bilan   bog‘liq.   Ya’ni   o‘zbek   tili
morfologik tipologiyasiga ko‘ra agglyutinativ tillar oilasiga mansub hisoblanadi. Bunda
so zlar   o zak   va   unga   birikib   keladigan   qo shimchalardan   iborat   bo ladi   va   so zningʻ ʻ ʻ ʻ ʻ
morfologik tarkibi (o zak va qo shimcha) aniq ajralib turadi. Bunda har bir qo shimcha	
ʻ ʻ ʻ
alohida   ma no,   vazifa   ifodalaydi.   Masalan,   turkiy   tillarda,   jumladan,   o zbek   tilida	
ʼ ʻ
yasama so zlar va so z shakllari asosga muayyan izchillik bilan qo shimchalar qo shish
ʻ ʻ ʻ ʻ
orqali   hosil   qilinadi.   Bunda   har   bir   qo shimchaning   o z   grammatik   ma nosi   mavjud:	
ʻ ʻ ʼ
terimchilarimizga (ter-im-chi-lar-imiz-ga). Agglyutinativ tillarda murakkab ma’lumotni
yetkazish   uchun   o zak   so zlarning   birikishi   natijasida   hosil   qilinadigan   so zlardan	
ʻ ʻ ʻ
foydalaniladi.   Har  qanday   mustaqil  ma’noli   so‘z  turkumlari   tarkibiga  kiruvchi  so‘zlar,
agar   ular   yasama   so‘zlar   bo‘lsa   morfemalardan   iborat   bo‘lishi   lozim.   O zaklar   erkin	
ʻ
morfemalar   deb   ham   yuritiladi,   chunki   ulardan   gaplarda   affiks   (qo shimcha)	
ʻ
qo shmasdan   ham   foydalanish   mumkin.   Affikslar   (qo shimcha)   tilda   alohida	
ʻ ʻ
qo llanilmaydi. Chunki ular mustaqil shaklda lug’aviy ma’no anglata olmaydi va doimo
ʻ
mustaqil morfemalar bilan birga mavjud bo ladi. 	
ʻ
So‘zni   turkumlarga   bo‘lishda   ikki   umumiy   superkategoriya   mavjud:   yopiq   sinf   va
ochiq sinf.Yopiq sinflar boshqa a’zolar bilan aloqa o‘rnatgan. Masalan, predloglar yopiq
sinf   hisoblanadi,   chunki   ana   shu   aloqalar   natijasida   o‘rnatilgan,   yangi   predloglar
kamdan-kam   hollarda   hosil   bo‘ladi.   Bundan   farqli   ravishda,otlar   va   fe’llar   ochiq   sinf
hisonlanadi,   chunki   yangi   otlar   va   fe’llar   davomiy   tarzda   paydo   bo‘lib   boradi   yoki
boshqa tillardan o‘zlashtiriladi. 
Dunyo tillarida to‘rtta katta ochiq guruh mavjud: otlar, fe’llar, sifatlar va ravishlar. 
So‘zlarni turkumlarga ajratish algoritmi bu so‘zlarni bir tizimga tizilishi va ma’lum
bir tartibda belgilanishidir. Ingliz tilida so‘zlarni turkumlarga ajratishda Brown korpusi
(1979) dastlabki  asosiy ajratish namunasi bo‘lib, turli janrlarda yozilgan 500 dan ortiq
matndan 1 millionta so‘zlar to‘plamini o‘z ichiga oladi. Bu korpus birinchi turkumlarga
23 ajratishda   dastlabki   tadqiqotlardan   biri   hisoblanadi.   Unda   87   ta   ajratilgan   to‘plam
berilgan. Keyinchalik 1980-yillarda CLAWS tegsetini tuzish boshlangan. U  jami 137 ta
tegni   o‘zida   qamrab   olgan.   Teglarning   aksariyati   Braun   korpusida   foydalanilgan
teglardan oziqlangan, ammo ulardan farqli bo‘lgan. CLAWS tegsetlari yillar davomida
takomillashtirilib,   bugungi   kunda   8   taga   yetdi.   Bunda   har   bir   tegset   keyingisi   uchun
asos  sifatida  xizmat   qilavergan. 36
  1993-1994-yillarda   Shtutgart   universiteti  tomonidan
Penn  Treebank  korpusi   (Marcus,   1993)   ishlab   chiqilgan.   Keyinchalik  Britaniya   Milliy
Korpusi (British National Corpus, 1997) kabi so‘z turkumlariga ajratishdagi to‘plamlar
berilgan. Quyida 45 ta ajratilgan to‘plamga ega Penn Treebank korpusi beriladi. 
Ba’zi   turkumlarga   ajratishdagi   farqlar   inson   uchun   ham,   mashina   uchun   ham
murakkabdir. Masalan, predloglar, yordamchi so‘zlar, ravishlar katta o‘xshashlikka ega.
Masalan,  around  so‘zi yuqorida sanalgan uchta vazifada ham kelishi mumkin: 
1.  Mrs. Shafaer never got  around (particle) to joining. 
   (Mister Shafaer birlashtirishda ortga qaytmagan).
2. All we gotta do is go  around in  (determiner) the corner. 
3. Chateau Petrus costs  around  (adverb) 250. 
(Chateau Petrusi taxminan 250 narxlanadi). 
Ajratish (Tag)  Tavsif (Description)  Namuna
CC Coordin. Conjuction  and, but, or 
CD Cardinal number  one, two, three 
DT  Determiner a, the 
EX  Existential ‘there’  There
FW  Foreign word  Mea culpa 
36
  Elov B., Hamroyeva Sh., Abdullayeva O., Uzoqova M. 2022. “O‘zbek tilida PoS tegging masalasi: muammo va takliflar”. 
O‘zbekiston: til va madaniyat. Amaliy filologiya. 2 (5): 5.-54
24 IN  Preposition/sub-conj  of, in, by 
JJ Adjective  Yellow
JJR  Adj.,comparative  Bigger
JJS  Adj., superlative  Wildest 
LS  List item marker  1,2, One 
MD  Modal  Can, should 
NN  Noun, sing. or mass  Ilama
NNS Noun, plural  Ilamas 
NNP Proper noun, singular  IBM 
NNPS  Proper noun, plural  Carolinas
PDT  Predeterminer  all, both 
POS  Possessive ending  ‘s 
PRP Personal pronoun  I, you, he
PRP$  Possesive pronoun  your, one’s 
RB  Adverb  quickly, never 
RBR  Adverb, comparative  Faster
RBS Adverb, superlative  Fastest 
RP  Particle  up, off 
SYM  Symbol  +, %, & 
TO  “to”  To 
UN  Interjection  ah, oops 
VB  Verb, base form  Eat 
VBD  Verb, past tense  Ate 
25 VBG  Verb, gerund  Eating 
VBN  Verb, past participle  Eaten 
VBP  Verb, non-3sg pres  Eat 
VBZ  Verb, 3sg pres  Eats
WDT  Wh-determiner  which, that 
WP  Wh-pronoun  what, who 
WP$  Possesive wh-  Whose 
WRB  Wh-adverb  how, where
$  Dollar sign  $
#  Pond sign  # 
 ʻʻ Left quote  (  or  )	ʻ ʻʻ
 	
ʼʼ Right quote  (   or  ) 	ʼ ʼʼ
(  Left parenthesis  ( [, (, {, <)
)  Right parenthesis  ( ], ), }, >) 
 	
ʼ Comma  ,
.  Sentence-final punc  (. ! ?) 
: Mid-sentence punc (: ; … – -) 
Penn Treebank so‘z turkumlariga ajratish korpusi (punktuatsiyani o‘z ichiga olgan 
holda). 37
37
  Daniel Jurafskiy & James H. Martin.  Speech and Language Processing: An introduction to natural language processing, 
computational linguistics and speech recognition. Qarang: Xolmanova Z. Kompyuter lingvistikasi. -Toshkent, 2019.-B.173-
175.
26 Quyida   Brown   korpusining   Penn   Treebank   variantida   ajratilgan   so‘zlardan
namunalardan keltiriladi: 
1.  The/  DT   grand  /JJ   jury  /NN  commentend/  VBD   on/IN/  a   /DT  number   /NN  of
other /JJ/topics/NNS./ 
(Nufuzli hakamlar hay’ati mavzularning qiymatini izohlab berdilar). 
2. There/EX are/VBP 70/CD children/NNS there/RB 
(Bu yerda 70 ta bola bor). 
3.   Althgough/IN   preliminary   /   JJ   findings/NNS   were/VBD   reported/VBN
more/RBR  than/IN a/   DT   year  /NN  ago/IN ,  /, the/DT  latest  /JJS   result/  NNS  appear/
VBP   in/IN   today/NN’s   /POS   New/NNP   England/NNP/   Journal/NNP   of/IN
Medicine/NNP,/, 
(Dastlabki   topilmalar   bir   yil   oldin   aytilganiga   qaramay,   bugun   Yangi   Angliya
tibbiyot jurnalida natijalar ko‘rindi). 
Tahrir   jarayonini   avtomatlashtirish   uchun   birinchi   navbatda   uning   lingvistik
ta’minotini   amalga   oshirish   kerak.   Bu   ta’minotni   muhandis-tilshunoslar   amalga
oshiradilar.   Bunday   ta’minot   bo‘yicha   o‘zbek   tilshunosligida   o‘tgan   asrning   80-
yillaridan   boshlab   ma’lum   ishlar   amalga   oshirilgan.   Masalan,   S.Muhamedov   ustozi
R.Piotrovskiy   bilan   hamkorlikda   1989-yilda   “Injenerlik   tilshunosligi   va   o‘zbekcha
matnlarni   sistem   statistik   tahlil   qilish   tajribasi”   (“Инженерная   лингвистика   и   опыт
системно-статистического  исследования  узбекских  текстов”)  nomli  ishni  rus  tilida
e’lon   qilgan   edi.   Shu   ishning   3-4   bobida   o‘zbekcha   matnlarning   kvantitativ   modellari
keltirilgan. 38
Ikkinchi bob bo'yicha xulosalar
1. O'zbek tilining elektron korpusi  bir necha yillik olib borilgan tadqiqotlar  ilmiy
hamkorlik   va   loyihalardan   olingan   natijalar   mahsuli   hisoblanadi.   O‘zbek   tili   korpusi
38
  Мухамедов С.А., Пиотровский Р.Г.   Инженерная лингвистика и опыт системно-статистического исследования узбекских 
текстов. – Ташкент: Фан. 1986. – С. 72-122.
27 joriy holatida o‘zbek tilida yaratilgan lingvistik lug‘atlar, web-sahifalar, o‘zbek tilining
morfologik ma’lumotlar bazasi, o‘quv adabiyotlar hamda turli janrdagi ilmiy, rasmiy va
badiiy matnlar majmuasidan tashkil topgan. U oldingi davrlar tilini ham, hozirgi zamon
tilini   ham   turli   sotsiolingvistik   variantlarda   -   adabiy,   so'zlashuv,   xalq   tili,   dialektda
ifodalaydi.   Korpus   tarkibiga,   xususan,   madaniy   ahamiyatga   ega   bo‘lgan   hamda
lingvistik   nuqtai   nazardan   ham   qiziqish   uyg‘otadigan   badiiy   adabiyot   (nasr,   drama,
she’riyat)   kiradi.   O'zbek   tili   milliy   korpusining   platformasi   matnlarni   tayyorlash   va
indekslash va korpuslar orqali qidirish vazifalarini bajaradi. 
2. O‘zbek tili elektron korpusida annotatsiyalash jarayoni barcha turkiy tillar uchun
umumiy bo‘lgan teglar orqali ifodalanadi. PoS-tagging ya'ni so'zlarni teglash tabiiy tilni
qayta   ishlashda   (NLP)   asosiy   vazifa   bo lib,   gapdagi   har   bir   so zga   grammatikʻ ʻ
kategoriya (masalan, ot, fe l, sifat va boshqalar) belgilashni o z ichiga oladi. Teglashdan	
ʼ ʻ
asosiy maqsad gapning sintaktik tuzilishini tushunish va alohida so'zlarning grammatik
rollarini aniqlash hisoblanadi.
3.  Teglash  jarayoni   birinchi  marta  jahon  tajribasida  Brown  korpusini  tuzish   bilan
qayd   etilgan   bo‘lsa,   o‘zbek   tilshunosligida   razmetka,   annotatsiyalash   masalasi   turli
tadqiqotlarda monografik planda o‘rganilgan. Ba’zi  tadqiqotlarda teglar  to‘plami  taklif
etilgan.   Teg   va   teglash   masalasini   ba’zi   ishlarda   razmetkalash   shaklida   kuzatish
mumkin.
4.   So‘zlar   semantik,   morfologik   va   sintaktik   xususiyatlariga   ko‘ra   turkumlarga
ajratiladi.   O'zbek   tilida   so'z   turkumlariga   guruhlash   tilning   o‘ziga   xos   jihati   bilan
bog‘liq.   Ya’ni   o‘zbek   tili   morfologik   tipologiyasiga   ko‘ra   agglyutinativ   tillar   oilasiga
mansub hisoblanadi. Bunda   so zlar o zak va unga birikib keladigan qo shimchalardan	
ʻ ʻ ʻ
iborat bo ladi va so zning morfologik tarkibi (o zak va qo shimcha) aniq ajralib turadi.	
ʻ ʻ ʻ ʻ
Bunda har bir qo shimcha alohida ma no, vazifa ifodalaydi. 	
ʻ ʼ
5.   So‘zlarni   turkumlarga   ajratish   algoritmi   bu   so‘zlarni   bir   tizimga   tizilishi   va
ma’lum  bir  tartibda belgilanishidir. Ba’zi  turkumlarga ajratishdagi  farqlar inson uchun
ham, mashina uchun ham murakkabdir.
28 III. O‘ZBEK TILI MILLIY KORPUSINI MORFOLOGIK TEGLASHDA
LISONIY MODELLARNING AHAMIYATI
3.1. Korpusda teglarni lingvistik modellashtirish
Matnlarni   tahlil   qiluvchi   avtomatik   analizatorni   yaratishda   dastlabki   bosqich
sifatida   o‘zbek   tilining   elektron   morfologik   lug‘atini   yaratish   masalasi   qo‘yildi.   Unga
ko‘ra har bir so‘zning qaysi so‘z turkumiga tegishli ekanligi statistik tahlilda ko‘rsatildi.
Har bir leksemaning muayyan morfologik xususiyatlari jadvallarda aks etdi. So‘ng har
bir leksema so‘z turkumlari bo‘yicha to‘plamlarga tasniflanadi. To‘plamlarga ajratishda
leksemalarning   umumiy   semantik,   qolaversa,   formal   jihatlari   inobatga   olinadi.
29 To‘plamlarga   ajratilgan   har   bir   so‘zga   qo‘shilishi   mumkin   bo‘lgan   qo‘shimchalar
kombinasiyasi   aniqlanadi.   Undan   oldin   barcha   qo‘shimchalar   funksional   belgilariga
ko‘ra   guruhlarga   ajratilib,   ularning   o‘zbek   tilidagi   barcha   mumkin   bo‘lgan   mantiqiy
bazasi   shakllantiriladi. 39
  So‘z   turkumlari   tahlili   o‘z   navbatida   morfologik   analizni
yuzaga   keltiradi.   Morfologik   tahlilning   asosiy   vazifasi   -   har   bir   so‘z   qaysi   turkumga
tegishli   ekanligini   aniqlash   va   barcha   unga   tegishli   bo‘lgan   morfologik   atribut
(xususiyatlar) larning qiymatlarini aniqlashdir. 
Morfologik tahlil qiluvchi avtomatik analizator avtomatik tahrirda har bir so‘zning
orfografik   xatosini   tekshirish   va   so‘zlardan   foydalanish   hamda   o‘zbek   tilini   o‘qitishda
o‘rta   va   Oliy   ta’lim   bo‘g‘inlarida   elektron   doska   va   slaydlardan   foydalangan   holda
ta’lim   tizimini   yanada   optimallashtirish   uchun   ahamiyatli   hisoblanadi.   Shuningdek,
avtomatik   tarjimada   u   yoki   bu   tildagi   matnni   o‘zbek   tiliga   tarjima   qilishda   gap
strukturalarni sintaktik bo‘laklarga ajratishda har bir kompanentning qiymati ana shunda
berilgan bazada o‘z ifodasini topadi, bu esa tarjima jarayonini yengillashtiradi. Bundan
tashqari,   morfologik   tahlil   qiluvchi   avtomatik   analizator   chet   ellik   talabalar   uchun
avtomatik o‘qitish tizimini yaratishda muhimligi bilan ajralib turadi. 40
 
O'tgan asrning 90-yillarida morfologik tahlil generativ model, paradigmatik model,
ikki   tarkibli   morfologik   model   kabi   metodlarga   asoslanilgan. 41
  Morfologik   tahlil
jarayonida   so‘zlarni   modellashtirish   metodi   ishni   osonlashtiradi.   Chunki   model
vositasida bevosita kuzatish imkoniga ega bo‘lmagan hodisani o‘rganish mumkin. Ya’ni
tilshunoslikda   til   va   nutqning   murakkabligi   sababli   modellashtirish   metodi   samarali
hisoblanadi.   Modellashtirishda   tadqiqotchi   obyektning   o‘zini   emas,   balki   uning
modelini o‘rganadi. Model til haqidagi bilimlarni obyektiv ifodalash vositasidir. 
Morfologik   modellashtirishda   lingvistik   tavsifning   nechog‘lik   to‘g‘ri   va   aniq
berilishi   muhim   sanaladi.   Morfologik   mezonlarning   to‘g‘riligi   quyidagi   bosqichlarda
tekshiriladi: 1) faqat to‘g‘ri tuzilgan grammatik so‘z shakllarining tahlili; 2) grammatik
39
 Abduraxmonova N.Z. Mashina tarjimasining lingvistik ta’minoti. -Toshkent, 2018. - B.75.
40
 Abduraxmonova N.Z. Kompyuter lingvistikasi. Darslik. -Toshkent: Nodirabegim, 2021. 128-129b.
41
 Mahlow C., Piotrowski M (eds). JSLIM - Computational Morphology in the Framework of the SLIM Theory of Language / 
State of the Art in Computational Morphology. Zurich, 2009. -P. 15. 
30 jihatdan   noto‘g‘ri   deb   topilgan   so‘z   shakllarining   qay   tarzda   aniqlanishi.
So‘zshakllarning   to‘g‘riligi   faqat   to‘g‘ri   deb   topilgan   modellardan   aniqlashtiriladi,
qolgan holatlar esa uning noto‘g‘riligini tasdiqlaydi. 42
Model   (lotincha   «modelus»   so‘zidan   olingan   bo‘lib,   «nusxa»,   «andaza»,
«o‘lchov», «me’yor» ma’nolarini anglatadi)  tabiiy fanlar yoki umuman fanda shunday
moddiy   qurilma,   grafik,   sxema,   umuman,   bilish   vositasi   sifatida   tushuniladiki,   u
muayyan   original-obyekt   haqidagi   ma’lumotlar   majmui   tarzida   yuzaga   kelgan   hosila-
obyekt   demakdir.   Boshqacharoq   tushuntirganda,   model   tabiiy   obyektlarning
imitatsiyasidir (o‘xshashi, taqlidiy ko‘rinishi), u o‘zbek tilidagi qolip, andaza so‘zlariga
mos   keladi.   U   hodisalarning   yuzaga   kelishi   uchun   asos   vazifasini   o‘taydi,   bunda   aniq
yoki   mavhum   obyektlar   kichraytirilgan   obyektlar,   sxemalar,   chizmalar,   fizikaviy
konstruksiyalarda   tadqiq   etiladi.   Buni   oddiy   hayotiy   misol   bilan   tushuntiradigan
bo‘lsak,   olmani   xarakterlovchi   belgilar,   atributlar   -   uning   dumaloqligi,   mevaligi,
shirinligi  o‘sha tushunchaning fikriy modeli  hisoblanadi. Agar biz olmani loydan yoki
sun’iy   bir   materialdan   yasasak,   bu   uning   moddiy   modeli   hisoblanadi.   Yoki   globus
yerning   modeli,   o‘yinchoq   mashina   haqiqiy   mashinaning   modeli   sifatida   baholanishi
mumkin. Model quyidagi asoslarga ko‘ra bilishda muhim hisoblanadi:
- birinchidan, u o‘rganish obyektini soddalashtiradi;
- ikkinchidan, uni boshqa obyektlar ta’siridan ajratadi;
- uchinchidan, model obyektni ta’riflashni osonlashtiradi. 43
Model   bu   bevosita   kuzatish   imkoni   bo‘lmagan   hodisani   o‘rganish   uchun   yaratilgan
sun’iy   mexanizmdir.   Tilni   matn   orqaligina   kuzatish   mumkin,   ammo   matn   insonning
nutqiy   faoliyati   jarayonida   yuzaga   chiquvchi   tabiiy   til   hodisalarini   to‘liq   tushunish
uchun   yetarli   emasligi   adabiyotlarda   ko‘p   bora   ta’kidlangan.   Shuning   uchun
tilshunoslikda   obyektni   tushunishning   asosiy   vositalaridan   biri   sifatida   modellardan
foydalaniladi. 44
42
 Abduraxmonova N.Z. Mashina tarjimasining lingvistik ta’minoti. -Toshkent, 2018. - B.76
43
 Rahimov A. Kompyuter lingvistikasi asoslari. O‘quv qo‘llanma. Toshkent -2021, 29b
44
 Abduraxmonova N.Z. Kompyuter lingvistikasi. Darslik. -Toshkent: Nodirabegim, 2021. 152b
31 Modellashtirish   metodida   tadqiqotchi   obyektning   o‘zini   emas,   balki   uning   modelini
o‘rganadi.   Original   bilan   model   o‘rtasida   o‘zaro   bog‘liqlik   va   mutanosiblik   mavjud
bo‘ladi.
Tilshunoslikda modelning 3ta turi bor:
1. Original modellar.
2. Funksional modellar.
3. Struktur modellar
Original   modellar   -   obyektning   tuzilishini,   funktsional   modellar   -   original
modellarning qanday ishlashini, struktur modellar - har ikkalasi haqida ma'lumot beradi.
Original modellarga quyidagi talablar qo‘yiladi:
1)  model tabiiy obyektning aynan nusxasi bo lishi; ʻ
2)   original model o‘zida elementlarning murakkab tuzilishini namoyon eta olishi; 
3)   tabiiy obyektning hamma xususiyatlari original modelga to‘g‘ri kelishi;
4)    model evristik funksiyaga  ega bo‘lishi, ya’ni u yangi  g‘oyalar  bera olishi  va uni
amaliyotda sinab ko‘rish imkoniyati bo‘lishi zarur. 45
Lingvistik   model   tushunchasi   ilmiy   muomalaga   struktur   tilshunoslikning   E.Sepir,
L.Blumfild,   R.Yakobson,   N.Chomskiy,   Z.Xarris,   Ch.Hokket   kabi   namoyondalari
asarlaridan   kirib   kelgan.   Uning   tarqqiyoti   XX   asrning   60-70-yillari   (matematik   va
kibernetik   lingvistika   rivojlana   boshlagan   davr)ga   to'g'ri   keladi.   N.Chomskiy
ta’kidlaganidеk, modеl faqat so‘zlovchi nutqi amaliyoti davrida uchragan til ob’еktlarini
qurish   bilan   chеklanishi   mumkin   emas,   balki   modеl   hali   so‘zlovchi   nutqi   amaliyotida
uchramagan,   ammo   uchrashi   mumkin   bo‘lgan   til   hodisalarini   ham   qamrab   olishi
kеrak. 46
45
 Abduraxmonova N.Z. Kompyuter lingvistikasi. Darslik . - Toshkent :  Nodirabegim , 2021. 316 b
46
 Хомский Н. Синтактические структуры // Новое в лингвистике. -М o сква, 1962.  (Noam Chomsky. Syntactic 
Structures, s’-Gravanhage. 1957)
32 Modellarni shartli ravishda quyidagicha tasniflash mumkin:
1. Tabiiy modellar  -   o‘rganilayotgan obyekt  bilan  bir   turda  bo‘ladi   va undan  faqat
o‘lchamlari, jarayonlarining tezligi va ba’zi hollarda yasalgan materiali bilan farq qiladi.
2.   Matematik   modellar   -   prototipdan   (asl   nusxadan)   jismoniy   tuzilishi   bilan   farq
qiladi, lekin prototip bilan bir xil matematik tasvirga ega bo‘ladi.
3.   Mantiqiy-matematik   modellar   -   belgilardan   iborat   bo‘lib,   abstrakt   model
hisoblanadi va tafakkur jarayonini o‘rganishda qo‘llaniladi.
4.   Kompyuterli   modellar   -   matematik   va   mantiqiy   modellashtirish   metodlariga
asoslanib kompyuterda algoritm va dasturlardan foydalanib yaratiladigan modellar. 47
Modellashtirish metodi keyingi paytlarda tilshunoslikda faol tatbiq qilina boshlandi.
“Model” tushunchasi fan va texnikada turli ma’nolarda ishlatilgani bois modellashtirish
turlarining   yagona   tasnifi   mavjud   emas.   Tasnif   modelning   xarakteriga   ko‘ra,
modellashtirilayotgan   obyektning   tabiatiga   ko‘ra,   modellashtirish   tatbiq   qilinayotgan
soha   yoki   yo‘nalishga   qarab   amalga   oshirilishi   mumkin.   Kompyuterli   modellashtirish
bugungi kunda barcha fanlarda, xususan, kompyuter lingvistikasida ham samarali metod
hisoblanadi. 48
 Kompyuter modellashtirish quyidagi asosiy bosqichlardan iborat:
- masalaning qo'yilishi, modellashtirish obyektining aniqlashtirilishi;
-   konseptual   (tushunchaviy,   fikriy)   modelning   ishlab   chiqilishi,   tizim   asosiy
unsurlarining ajratib olinishi;
- formalizatsiya, ya’ni matematik model bosqichi; algoritm yaratilishi hamda dastur
ishlanishi;
- kompyuter eksperimentlarini o‘tkazish;
47
 Rahimov A. Kompyuter lingvistikasi asoslari. O‘quv qo‘llanma. Toshkent -2021. 30b
48
 Grishman R. Computational linguistics // Cambridge University Press. 1994. -P.7-8.
33 -   natijalar   tahlili   va   talqini.   Sun’iy   intellekt   tizimi   doirasidagi   tabiiy   tilli   interfeys,
ekspert tizimlari, eyron tarmoqlar, lingvoanalizatorlar, gapiruvchi avtomatlar - barchasi
kompyuter modellashtirish natijasi hisoblanadi.
Modellashtirish jarayoni uchta unsurni o‘z ichiga oladi:
- subyekt (tadqiqotchi);
- tadqiqot obyekti;
- o‘rganuvchi subyekt va o‘rganiluvchi obyekt munosabatini aks ettiruvchi model.
Modellashtirish   har   bir   fan   obyektini   soddalashtiruvchi   metoddir.   Lingvistik
birliklarni   modellashtirish   bu   belgilar   tarkibidagi   elementlarning   barqaror
munosabatlariga   asoslanadi.   Shuning   uchun   ham   butunlik   tarkibidagi   elementlar
o‘rtasida   munosabatlarning   barqaror   va   beqaror   turlarga   ajratilishi   lingvistik
modellashtirish   uchun   katta   ahamiyatga   ega.   Modellashtirish   barcha   fanlar   uchun   xos
bo‘lgan   umumilmiy   metod   hisoblanadi   va   u   quyidagi   tamoyillarga   amal   qiladi:
deduktivlik   -   mantiqiy   xulosa   chiqarishga   asoslangan   bo‘ladi,   xususiylikdan
umumiylikka   tamoyilida   bo‘ladi;   tafakkur   eksperimentidan   foydalanish;   evristik
funksiyaga   ega   bo‘lishi   ya’ni   u   yangi   g‘oyalar   bera   olishi   va   uni   amaliyotda   sinab
ko‘rish imkoniyati bo‘lishi zarur; eksplanatorlik xususiyatiga, ya’ni tushuntirish kuchiga
ega   bo‘lishi   kerak.   Shundagina   model   eski   nazariya   tushuntirib   bera   olmagan
muammoni hal qiladi, obyektning ilgari kuzatilmagan, ammo kelajakda amalga oshishi
mumkin   bo‘lgan   tomonini   kashf   etadi;   modelni   ideallashtirilgan   obyekt   sifatida   talqin
qilish. 49
Shu o‘rinda aytib o‘tish zarurki, modellashtirish obyektni umumlashtirish darajasiga
ko‘ra quyidagicha boladi:
1.  Lingvistik faktni tavsiflashga qaratilgan analitik model.
2.  Oraliq model yoki to‘ldiruvchi model.
49
 Po‘latov A., Muhamedova S. Kompyuter lingvistikasi. Toshkent, 2007. -B.23.
34 3.   Maksimal umumlashtirishga asoslangan sintezlovchi model.
 Lingvistik modelni quyidagi turlarga ajratish mumkin:
1.  Inson   nutqiy   faoliyati   modellari.   Bu   modellar   konkret   nutq   jarayonini   va
hodisalarini   aks   ettiradi.   Masalan,   aniq   bir   tovushning   talaffuz   modeli   yoki   nutqning
yuzaga chiqish modeli.
2.  Lingvistik tadqiqot modellari. Bunda muayyan til hodisalari asosida olib borilgan
tadqiqot   jarayonini   aks   ettiradi.   Masalan,   o‘zbek   tilida   morfologik   usul   asosida   so‘z
yasalishining   umumiy   modeli:   asos   +   so‘z   yasovchi   qo‘shimcha ;   xususiy   modellari:
asos + -chi; asos + -dosh; asos + -do‘z kabi.
3.  Metamodellar   -   bunda   lingvistik   modellar   saralanadi,   u   gipotetik-   deduktiv
xarakterga ega, o‘ta abstraktlashgan va ratsionallashgan bo‘ladi.
Modellashtirish   metodi   ayrim   tillarga,   jumladan,   ingliz   tiliga   faol   tatbiq   qilingan.
O‘zbek tilida sodda gap qurilishi:
S + О + V   :  Men kitob o‘qidim. Men xat yozdim.
S = ega, О - to‘ldiruvchi, V = kesim.
Bundan   kelib   chiqib   aytish   mumkinki,   o‘zbek   tilida   qo‘shma   gapning   eng   kichik
modeli quyidagicha bo‘ladi:
S
1  + V
1.  S
2  + V
2  :  Bahor keldi, ishlar qizib ketdi.
Ingliz, rus tillarida sodda gap qurilishi quyidagicha belgilangan:
S  +  V  +  O :
Я пишу диссертацию.  Он читает книгу.
I have read the book. I am writing a research work.
Modellashtirish   tilshunoslikda   strukturalizm   yo‘nalishi   ta’sirida   faol   tatbiq   qilina
boshlandi. Gap strukturasini modellashtirish g‘oyasi XX asrning 50-yillarida amerikalik
35 tilshunos   Charlz   Friz   tomonidan   olg‘a   surildi.   Olim   o‘z   qarashlarini   umumlashtirib
1952-yilda   «The   Structure   of   English»   nomli   tadqiqotini   yaratdi:   Ch.Friz   o‘z
konsepsiyasini   distributiv   model   deb   nomlagan.   Unga   ko‘ra,   gap   muayyan   so‘z
turkumlariga   oid   bo‘lgan   so‘zlar   zanjiri   hisoblanadi   va   tahlilda   morfologiya   bazasiga
tayaniladi.   Masalan,   « The   young   man   painted   the   door   yesterday »   jumlasi   distributiv
model   asosida   quyidagicha   tahlil   etiladi:   D   3   I a
  2-d   D   I b
  4.   Bu   yerda   D   -   otning
aniqlovchisi   (inglizcha   determiner),   3   -   sifat,   I   -   birlikdagi   ot,   2-d   -   o'tgan   zamon
shaklidagi fe’l,   4   - ravishni anglatadi. Demak, mazkur modelda turli so‘z turkumlariga
mansub   so‘z   shakllarining   nutq   zanjiridagi   distributsiyasi   (tarqalishi,   qurshovi)   gap
strukturasini modellashtirishning asosiy mezoni sanaladi.
Shunga   ko‘ra,   so‘z   turkumlarini   modellashtirishda   quyidagi   shartli   belgilar   keng
e’tirof etilgan.
I.   Ot   predmetning   (u   keng   ma’noda   tushuniladi,   ya’ni   jonli   va   jonsiz   narsalarni
anglatadi)   nomini   bildiradi.  U   kim,  nima,   qayer   so‘roqlaridan   biriga   javob   bo‘ladi.   Ot
uchun   N , ko‘plik shaklidagi  ot   uchun   Ns , turdosh  otlar   uchun   N
com , atoqli   otlar   uchun
N
prop , otli birikma uchun  NP  simvollaridan foydalaniladi.
II.   Sifat   qanday,   qanaqa   so‘roqlariga   javob   boiib,   predmetning   belgisini   bildiradi.
Sifat uchun  Adj  yoki  A , sifatli birikma uchun  AP  simvollaridan foydalaniladi.
III.   Son   qancha,   nechanchi   so‘roqlariga   javob   bo‘lib,   predmetning   miqdori   va
tartibini bildiradi. Son so‘z turkumi uchun  Q  simvolidan foydalaniladi.
IV. Fe’l predmetning harakat yoki holatini bildirib, nima qilgan, nima qilyapti, nima
qilmoqchi  so‘roqlariga  javob  beradi.  Fe’l   uchun   V , o‘timli   fe’l   uchun   V
t,   o‘timsiz  fe’l
uchun   V
I ,   fe’lning   predikativ   (shaxsli   shakli-finite   form)   shakli   uchun   V
p,   fe’lning
nopredikativ   shakli   (shaxssiz   shakli   -   non-finite   form)   uchun   V
np ,   hozirgi   zamon
sifatdoshi yoki gerundiy shaklidagi fe’l uchun  V
ing ,  o‘tgan zamon sifatdoshi yoki majhul
nisbatdagi fe’l uchun  V
en ,  fe’lli birikma uchun  VP , yordamchi fe’llar uchun  aux , modal
fe’llar uchun  mod  simvollaridan foydalaniladi.
36 V.   Ravish   ifodalayotgan   harakat   yoki   holatning   belgisi   yoki   turlicha   vaziyatlarini
bildiradi.   Ravish   asosan   fe’lga,   yana   sifat   yoki   ravishga   ham   bog‘lanib,   qay   tarzda,
qayerda, qachon va h.k. so'roqlarga javob boiadi. Ravish uchun  Adv  yoki  D  simvolidan
foydalaniladi.
VI. Olmosh gapda ot, sifat yoki ravish o‘rnida qo‘llanuvchi so‘z turkumidir. Olmosh
uchun  Pron  simvolidan foydalaniladi.
VII.   Artikl   yordamchi   so‘z   bo‘lib,   otning   maxsus   belgilovchisi   hisoblanadi.   Artikl
barcha tillarda uchrayvermaydi,  Art  simvolidan foydalaniladi.
VIII.   Predlog   (old   ko‘makchi)   yordamchi   so‘z   bo‘lib,   otning   gapdagi   boshqa
so‘zlarga   nisbatan   bo'lgan   munosabatini   (ya’ni   makon,   vaqt   va   sabab   kabi
munosabatlarni) ifodalaydi. Predlog uchun  Prep  yoki  p  simvolidan foydalaniladi.
IX. Bog‘lovchi yordamchi so‘z bo‘lib, gap bo'laklari yoki gaplarni bog‘Iash uchun
xizmat qiladi. Bog‘lovchi uchun  Conj  simvolidan foydalaniladi.
X. Yuklama uchun  Part  simvolidan foydalaniladi.
XI. Undov so‘zlar uchun  Interj  simvolidan foydalaniladi.
XII. Taqlid so‘zlar uchun  Mim  simvolidan foydalaniladi. 50
3.2.Uzbekcorpus.uz platformasining morfologik teglash holati
O‘zbek   tili   elektron   korpusida   (https://uzkorpus.uz)   matnlarda   uchragan   nutq
birliklarining   morfologik   xususiyatlari   teglar   orqali   annotatsiyalandi.   Nutq   birliklarini
annotatsiyalash   jarayonida   belgilangan   teglar   foydalanuvchiga   noqulayliklar
tug‘dirmasligi   uchun   saytda   qo‘llanma   berilgan.   Qo‘llanmada   tegning   to‘liq   shakli   va
ingliz tilidagi standart belgisi ham berilgan. Korpusga yuklangan har bir matndagi nutq
birligi teglar bilan izohlanadi. 
50
 Rahimov A. Kompyuter lingvistikasi asoslari. O‘quv qo‘llanma. Toshkent -2021. 31-33b
37 Annotatsiyalashning   turkiy   tillar   bo'yicha   teglash   tizimi   "Turkiy   morfema" 51
portalida   o'z   ifodasini   topgan.   Turkologiya   hamda   agglutinativ   tillar   tipologiyasi
sohalarida   ilmiy   izlanish   o`tkazish   uchun   tadqiq   etilayotgan   tillarning   struktur-
funksional   xususiyatini   inobatga   oluvchi   dasturiy   vosita   talab   qilinadi.   Ushbu   portal
turkiy   tillarning   shunday   xususiyatlarini   hisobga   olgan   holda   tadqiqotlar   o'tkazishga
imkon   beradigan   va   kompyuter   lingvistikasi,   lingvistik   tipologiyasi   sohasidagi   ilmiy
tadqiqot faoliyati talablariga javob beradigan vosita hisoblanadi. Portal o'zbek tili milliy
korpusini   lingvistik   annotatsiyalash   tizimi   uchun   ham   asos   bo'lib   xizmat   qilishi
mumkin.   Ushbu   portaldan   o'zbek   tili   morfemalarining   morfologik   teglari   berilgan,
shundan   ko'makchi   morfemalarning   93,   ko'makchi   allomorflarning   157,   analitik
morfemalarning   78,   asos   morfemalarning   3940   turi,   qo'shimcha   morfotaktik
qoidalarning 1056 shakli o'rin olgan. 52
Morfologik teglash (Part-of-speech tagging) matnga kiritilgan har bir so‘zning so‘z
turkumi   bo‘yicha   markerini   belgilash   jarayonidir.   Teglash   algoritmiga   kiritiladigan
ma’lumot - teglar majmui va so‘zlarning ketma-ketligidan iborat bo‘ladi. 
1.  ID: so‘z indeksi, har bir qator biror jumla boshlanganda yangi qatordan yoziladi. 
2.  FORM: so‘z shakli yoki punktuatsion belgi.
3.  LEMMA: lemma yoki so‘zning o‘zagi.
4.  UPOS: universal so‘z turkumi tegi (PoS tag).
5.  XPOS: tilning maxsus so‘z turkumi tegi agar bo‘lmasa, tag osti belgisi  _ qo‘yiladi.
6.  FEATS: morfologik kategoriyalar tartibi agar mavjud bo‘lsa.
7.  HEAD:   so‘zning   ID   raqami   (so‘zning   gapda   nechinchi   tartibda   turgan   indeksi)
yoki nol (0)
8.  DEPREL: Universal tobelik munosabatiga ko‘ra ichki kategoriyalar.
51
 http://modmorph.turklang.net/uz/
52
 Abduraxmonova N.Z. O'zbek tili elektron korpusining kompyuter modellari. Monografiya. -Toshkent. 2021. 78b.
38 9.  DEPS: kengaytirilgan tobelik grafigi (ixtiyoriy), agar yozilmasa _ qo‘yiladi.
10.  MISC: boshqa annotatsiya kodi. 53
O‘zbek  tili  korpusida  so‘z  turkumlarini  teglash,  uning  tuzilishi,  tarkibi   va boshqa
xususiyatlari  ko‘rsatilgan. So‘z turkumlarini teglash o‘zbek tili grammatikasiga  asosan
(UZPOS), Google universal so‘z turkumlari ro‘yxatiga ko‘ra (UPOS) teglab chiqilgan.
Teglash   jarayoni   Google   universal   so‘z   turkumlariga   asoslangan   Universal
Dependencies   v2   (UD)   izohlash   ko‘rsatmalariga   binoan   amalga   oshirildi.   Korpusda
teglashning   bu   shakli   ham   mavjudligi   o‘zbek   tilining   boshqa   tillararo   lingvistik
usullarni   o‘rganishni   osonlashtiradi,   tahlil   algoritmlari   natijalarini   taqqoslashga   imkon
beradi. 54
O‘zbek   tilining   elektron   korpusidagi   teglash   jarayonida   quyidagi   morfologik
qoliplarda xatoliklar kuzatildi va ular qayta ishlandi:
1)  Ba’zi sodda otlarda ma’lumotlar chiqmadi: ota, ona, bahor, uy.
2)  Ba’zi   so‘zlarga   kelishik   qo‘shimchalari   qo‘shilganda   ma’lumotlar   chiqmadi:   -
ning, -ni, -ga(ka,qa), -da, -dan.
3)  Ba’zi so‘zlarga egalik qo‘shimchalari qo‘shilganda ma’lumotlar chiqmadi:
53
 Abduraxmonova N.Z. Kompyuter lingvistikasi. Darslik. -Toshkent: Nodirabegim, 2021. 156-157b.
54
 Rabbimov I.M., Umirova S.M., Xolmuxamedov B.F. O‘zbek tili korpusida so‘z turkumlarini teglash masalasi.  O‘zbek tili 
korpusida so‘z turkumlarini teglash masalasi.  At: O‘zbekiston, Toshkent. 2021. 98b.
39 a)  -m(-im), -ng(-ing), -i(-si);       b) -miz(-imiz), -ngiz(-ingiz), -(lar)i.
4)  So‘zlarga kesimlik shakli qo‘shilganda ma’lumotlar chiqmadi: 
a) -man, -san, -dir,              b) -miz, -siz, -dir(lar).
5)  Ba’zi so‘zlarga ko‘plik qo‘shimchasi qo‘shilganda morfologik teg xato chiqdi: -
lar.
6)  So‘zlarga   kichraytirish-erkalash   qo‘shimchasi   qo‘shilganda   ma’lumotlar
chiqmadi yoki morfologik teg noto‘g‘ri chiqdi: -xon, -jon, -cha, -choq.
7)  Ba’zi qo‘shma so‘zlar teglanmagan yoki lemma haqida ma’lumot yo‘q: oqqush,
rahmdil, yod ol, mana shu, ozmuncha, yigirma bir.
40 8)  Ba’zi   juft   so‘zlar   teglanmagan   yoki   lemma   haqida   ma’lumot   yo‘q:   oziq-ovqat,
oq-qora, o‘tdi-ketdi, u-bu, qishin-yozin.
9)  Ba’zi   takror  so‘zlar   teglanmagan  yoki  lemma  haqida ma’lumot  yo‘q:  choy-poy,
qop-qora, yozdi-yozdi, shu-shu, tez-tez.
10)  Ba’zi fe’llarga shaxs-son qo‘shimchalari qo‘shilganda xato chiqardi: 
a)  -m, -ng, -k, -ngiz;  b) -man, -san, -miz, -siz.
    
11)  Fe’llarga   zamon   qo‘shimchalari   qo‘shilganda:   a)   -di,-b,   -ib,   -gan;   b)   -yap(-
yapti), -moqda, -(a)yotir, -(a)yotib; c) -ar, -r, -ur, -gay, -gusi, -ajak, -moqchi.
41 12)  Fe’llarga mayl qo‘shimchalari qo‘shilganda ma’lumotlar chiqmadi: 
-sa;    a) -(a)y,-(a)ylik;   b) -gin(-qin, -kin), -(i)ng, -(i)ngiz;     c) -sin(lar)
13)  To‘liqsiz fe’llar haqida ma’lumot chiqmadi: ekan, emish, edi.
14)  Ko‘makchi fe’lli so‘z qo‘shilmalari haqida ma’lumot noto‘g‘ri kiritilgan: 
15)  Fe’lning vazifadosh shakllari haqida ma’lumot noto‘g‘ri kiritilgan:
16)  Otdan yasalgan ba’zi sifat turlarida ma’lumotlar yo‘q: -day, -dek, -dagi.
17)  Sifat darajalari haqida ma’lumot kiritilmagan: 
42 18)  Ba’zi sodda ravishlar haqida ma’lumotlar chiqmadi:
19)  Ba’zi sodda sifatlar haqida ma’lumotlar chiqmadi:
20)  Kelishik   qo‘shimchalarini   olgan   ravish   so‘zlar   haqida   ma’lumot   chiqmadi:
paytda, ertalabdan.
21)  Ba’zi olmoshlar teglanmagan yoki ma’lumot mavjud emas:
22)  Ba’zi yordamchi so‘z turkumlari teglanmagan yoki ma’lumot mavjud emas:
Umumiy qilib aytganda, korpusda ma’lumoti keltirilmagan so‘zlar odatda “lemma
topilmadi”   yoki   “noun”   shaklida   chiqdi.   Ba’zi   so‘zlar   teglanmagan.   Ba’zi   so‘zlarga
qo‘shimchalar   qo‘shilishi   natijasida   ma’lumot   chiqmagan   yoki   teglanmagan.   Quyidagi
43 jadvalda   so‘zlarning   turkumi   va   teglanishida   uchragan   kamchiliklarni   bartaraf   etish
uchun qoliplar keltirilgan:
№
So‘zlar So‘z turkumi Morfologik teglanishi Izohi (korpusdagi holati)
1
ona Noun N lemma topilmadi
2
oilaning Noun N+Gen lemma topilmadi
3
qalamni Noun N+Acc Noun+SG+GEN
4
baliqqa Noun N+Dat teg chiqmadi
5
uyda Noun N+Loc lemma topilmadi
6
otdan Noun N+Abl lemma topilmadi
7
oziq-ovqat Noun NCpl Adj
8
oqqush Noun NCmp lemma topilmadi
9
choy-poy Noun NRep teg chiqmadi
10
do‘stim Noun N+PossP1s lemma topilmadi
11
opang Noun N+PossP2s lemma topilmadi
12
masalasi Noun N+PossP3s teg chiqmadi
13
farzandlarimiz Noun N+p+PossP1p lemma topilmadi
14
farzandingiz Noun N+s+PossP2p lemma topilmadi
15
bolasi Noun  N+s+PossP3p lemma topilmadi
16
binolar Noun N+p NOUN+SG+NOM+PRE
D+P3+SG
17
go‘zal Adjective JJ lemma topilmadi
18
balandroq Adjective JJR teg chiqmadi
19
qop-qora Adjective JJT lemma topilmadi
20
qoramtir Adjective JJMin teg chiqmadi
21
rahmdil Adjective JJCmp lemma topilmadi
22
oq-qora Adjective JJCpl lemma topilmadi
23
uzun-uzun Adjective JJRep lemma topilmadi
24
yod ol Verb VBComp lemma topilmadi
44 25
o‘tdi-ketdi Verb VBCpl lemma topilmadi
26
yozdi-yozdi Verb VBRep lemma topilmadi
27
edi Verb VBNotF lemma topilmadi
28
ko‘rib qoldi Verb KFSQ+TPast lemma topilmadi
29
keldi Verb  VB+TPast teg chiqmadi
30
boryapti Verb VB+TPres+Prs3s VERB+AFF+PRES+P3+
SG   (yasama   fe’l
chiqaryapti)
31
boradi Verb  VB+TFut+Prs3s NOUN   chiqaryapti.   Teg
mavjud emas
32
oldim Verb VB+TPast+Prs1s lemma topilmadi
33
qilasan Verb  VB+TFut+Prs2s VERB+AFF+PRES+P2+
SG   (yasama   fe’l   va
hozirgi   zamon
chiqaryapti) 
34
ikki Numeral NUM Noun+P3+SG
35
uchinchi Numeral MD lemma topilmadi
36
men Pronoun PP So‘z   turkumi   Noun.
Teglanishi: Noun+P3+SG
37
bu Pronoun PDem (Demosntrative) teg chiqmadi
38
o‘z Pronoun PRef (Reflexive) So‘z   turkumi   Noun.   Teg
chiqmadi
39
kimdir Pronoun PPred (Prediction) teg chiqmadi
40
nima Pronoun PQues (Question) lemma topilmadi
41
hamma Pronoun PInd (Indefinitive) teg chiqmadi
42
hech kim Pronoun PDis (Distributive) teg chiqmadi
43
mana shu Pronoun PCmp teg chiqmadi
44
u-bu Pronoun PCpl teg chiqmadi
45
shu-shu Pronoun PRep teg chiqmadi
46
tez Adverb RR teg chiqmadi
45 47
ozmuncha Adverb RRComp lemma topilmadi
48
qishin-yozin Adverb RRCpl teg chiqmadi
49
tez-tez Adverb RRRep teg chiqmadi
50
bilan Conjuction C teg chiqmadi
51
hamda Conjuction CC So‘z   turkumi:   PART.
Teglanishi:
Noun+SG+LOC
52
ammo Conjuction CCB teg chiqmadi
53
yoki Conjuction CDis (Distributive) teg chiqmadi
54
na..na.. Conjuction CNeg (Negative) lemma topilmadi
55
ya’ni Conjuction CSDet (Determine) So‘z turkumi: P.
Teg chiqmadi
56
chunki Conjuction CSRs (Reason) teg chiqmadi
57
go‘yoki Conjuction CSCmp (Comparing) Lemma topilmadi
58
agar Conjuction CSIf (If) So‘z turkumi: Noun.
Teglanishi: Noun+P3+SG
59
deb Conjuction CSPur (Purpose) teg chiqmadi
61
-mi Particle PrtQ lemma topilmadi
62
hatto Particle PrtEm (Emphasis) teg chiqmadi
64
faqat Particle PrtB teg chiqmadi
65
xuddi Particle PrtCmp lemma topilmadi
66
-dir Particle PrtPred lemma topilmadi
67
hech Particle PrtNeg So‘z turkumi: P
Teg chiqmadi
68
masalan Modal MD So‘z turkumi: Noun
Teglanishi: Noun+P3+SG
69
oh Interjection UH So‘z turkumi: Exl
46 Teg chiqmadi
70
qirs Imitative IM Teg chiqmadi
Bundan   tashqari,   bir   so‘z   turli   kontekstda   kelganda   boshqa-boshqa   turkumga
tegishli   bo‘ladi.   Lekin   dastur   omonim   so‘zlarni   faqatgina   bir   so‘z   turkumi   doirasida
tahlil   qilmoqda.   O‘zbek   tilidagi   matnlarda   omonimlarni   farqlashda   kodlardan,
simvollardan,   turkumni   bildiruvchi   teglardan   foydalanish   talab   etiladi.   Buning   uchun
izohli   lug‘atlarda   foydalaniladigan   rim   raqamlaridan   teg   sifatida   foydalanish   mumkin.
Faqat rim raqamlarini qat’iy tarzda belgilab olish kerak bo‘ladi: 
I-ot, II-fe’l, III sifat, IV-ravish.
Omonimlar   modelini   ishlab   chiqishda   omonimlar   oladigan   valentliklar   bazasini
yig‘ish bu masalani yechishga yordam beradi. 55
 
Uchinchi bob bo'yicha xulosalar
1.   Morfologik   tahlil   jarayonida   so‘zlarni   modellashtirish   metodi   ishni
osonlashtiradi.   Chunki   model   vositasida   bevosita   kuzatish   imkoniga   ega   bo‘lmagan
hodisani   o‘rganish   mumkin.   Ya’ni   tilshunoslikda   til   va   nutqning   murakkabligi   sababli
modellashtirish metodi samarali hisoblanadi. Modellashtirishda tadqiqotchi obyektning
o‘zini emas, balki uning modelini o‘rganadi.
2. Modellashtirish tilshunoslikda strukturalizm yo‘nalishi ta’sirida faol tatbiq qilina
boshlandi. Gap strukturasini modellashtirish g‘oyasi XX asrning 50-yillarida amerikalik
tilshunos   Charlz   Friz   tomonidan   olg‘a   surildi.   Olim   o‘z   qarashlarini   umumlashtirib
1952-yilda   «The   Structure   of   English»   nomli   tadqiqotini   yaratdi:   Ch.Friz   o‘z
konsepsiyasini   distributiv   model   deb   nomlagan.   Unga   ko‘ra,   gap   muayyan   so‘z
turkumlariga   oid   bo‘lgan   so‘zlar   zanjiri   hisoblanadi   va   tahlilda   morfologiya   bazasiga
tayaniladi.
55
 Alijonova F., Abduvahobov G‘. Kompyuter lingvistikasida omonimlik hodisasi tadqiqi. Research and Education. 
Volume 1| Issue 2|2022
47 3.   O‘zbek   tili   elektron   korpusida   (https://uzkorpus.uz)   matnlarda   uchragan   nutq
birliklarining   morfologik   xususiyatlari   teglar   orqali   annotatsiyalandi.   Nutq   birliklarini
annotatsiyalash   jarayonida   belgilangan   teglar   foydalanuvchiga   noqulayliklar
tug‘dirmasligi   uchun   saytda   qo‘llanma   berilgan.   Qo‘llanmada   tegning   to‘liq   shakli   va
ingliz tilidagi standart belgisi ham berilgan.
4.   Annotatsiyalashning   turkiy   tillar   bo'yicha   teglash   tizimi   "Turkiy   morfema"
portalida   o'z   ifodasini   topgan.   Turkologiya   hamda   agglutinativ   tillar   tipologiyasi
sohalarida   ilmiy   izlanish   o`tkazish   uchun   tadqiq   etilayotgan   tillarning   struktur-
funksional   xususiyatini   inobatga   oluvchi   dasturiy   vosita   talab   qilinadi.   Ushbu   portal
turkiy   tillarning   shunday   xususiyatlarini   hisobga   olgan   holda   tadqiqotlar   o'tkazishga
imkon   beradigan   va   kompyuter   lingvistikasi,   lingvistik   tipologiyasi   sohasidagi   ilmiy
tadqiqot faoliyati talablariga javob beradigan vosita hisoblanadi.
5.     Korpusda   ma’lumoti   keltirilmagan   so‘zlar   odatda   “lemma   topilmadi”   yoki
“noun”   shaklida   chiqdi.   Ba’zi   so‘zlar   teglanmagan.   Ba’zi   so‘zlarga   qo‘shimchalar
qo‘shilishi  natijasida  ma’lumot  chiqmagan yoki  teglanmagan.  Annotatsiyadagi  bunday
muammolar morfologik qolipga solinib bartaraf etilmoqda. 
48 FOYDALANILGAN ADABIYOTLAR RO'YXATI
1. Abduraxmonova N. Kompyuter lingvistikasi. Darslik. -Toshkent: Nodirabegim,
2021. 
2.   Abduraxmonova   N.   Mashina   tarjimasining   lingvistik   ta’minoti.   Monografiya.
Toshkent, 2018.
3. Abduraxmonova N. Mashina tarjimasining lingvistik asoslari. O‘quv qo‘llanma.
Toshkent, 2012. 
4.   Abduraxmonova   N.   Inglizcha   matnlarni   o‘zbek   tiliga   tarjima   qilish   dasturining
lingvistik ta’minoti (sodda gaplar misolida). Amaliy va kompyuter lingvistikasi filologiya
fanlari bo‘yicha falsafa doktori (phd) dissertatsiyasi avtoreferati. Toshkent, 2018.
5.       Abdurahmonova   N.   O'zbek   tili   elektron   korpusining   kompyuter   modellari.
Monografiya. Toshkent, 2021. 
6.   Abduraxmonova   N.   O‘zbek   tili   korpusini   yaratishda   lingvistik   annotatsiyalash
tamoyillari. So‘z san’ati xalqaro jurnali. 4-jild, I son. -Toshkent, 2021.
7.   Abdullayeva   O.   O‘zbek   tilining   internet   axborot   matnlari   korpusini
shakllantirishning   nazariy   va   amaliy   asoslari.   filol.   fan.   bo‘yicha   falsafa   doktori   (PhD)
diss. Andijon, 2022.
Alijonova   F.,   Abduvahobov   G‘.   Kompyuter   lingvistikasida   omonimlik   hodisasi
tadqiqi. Research and Education. Volume 1| Issue 2|2022
8.   Боярский   К.К.   Введение   в   компьютерную   лингвистику.   Санкт-Петербург,
2013.
9.   Daniel   Jurafskiy   &   James   H.   Martin.   Speech   and   Language   Processing:   An
introduction   to   natural   language   processing,   computational   linguistics   and   speech
recognition. 
49 10. Elov B., Hamroyeva Sh., Abdullayeva O., Uzoqova M. 2022. “O‘zbek tilida PoS
tegging   masalasi:   muammo   va   takliflar”.   O‘zbekiston:   til   va   madaniyat.   Amaliy
filologiya. 2 (5): 5. 
11.   Francis,   W.   Nelson   &   Henry   Kucera.   Computational   Analysis   of   Present-Day
American English. Providence, RI: Brown University Press. 1967. 
12. Grishman R. Computational linguistics // Cambridge University Press.  1994. 
13. Кутузов А.Б. Корпусная лингвистика. –  M ., 2005.
14.   Мухамедов   С.А.,   Пиотровский   Г.Г.   Инженерная   лингвистика   и   опыт
системно   -   статистического   исследования   узбекских   текстов.   -Ташкент:   Фан,
1986.
15.  McEnery  T,  Wilson   A.  Corpus  Linguistics.   Edinburgh:   Edinburgh  University
Press, 2nd edition, 2001.
16.   Mahlow   C.,   Piotrowski   M   (eds).   JSLIM   -   Computational   Morphology   in   the
Framework   of   the   SLIM   Theory   of   Language   /   State   of   the   Art   in   Computational
Morphology. Zurich, 2009. 
17. Omidullah Bayani. So‘z turkumlari va ularni matn asosida tasniflash masalasi.
2021. 
18. Po'latov A., Muhamedova S. Kompyuter lingvistikasi. –Toshkent, 2007. 
19.   Пулатов А.К., Жураева Н.В. Разработка  формальной модели грамматики
узбекского языка // Узбекский математический журнал .  Ташкент, 2002. 
20.   Пулатов   А.К.,   Азизхожев   Б.Б.   Разработка   программы   компьютерного
анализа и синтеза глаголов узбекского языка // УзМУ хабарлари, 2002. 
21.   Rabbimov   I . M .,   Umirova   S . M .,   Xolmuxamedov   B . F .   O ‘ zbek   tili   korpusida
so ‘ z   turkumlarini   teglash   masalasi .   O‘zbek   tili   korpusida   so‘z   turkumlarini   teglash
masalasi. At: O‘zbekiston, Toshkent. 2021. 
50 22.   Rahimov   A.   Kompyuter   lingvistikasi   asoslari.   O‘quv   qo‘llanma.   -Toshkent,
2011.
23.   Sandra   K.,   Heike   Z.   CORPUS   LINGUISTICS   AND   LINGUISTICALLY
ANNOTATED CORPORA Bloomsbury Academic, New York, 2015.
24.   Urazaliyeva   M.   O‘zbek   tili   gaplarining   ierarxik   korpusi   uchun   morfologik
tahlil. Dissertatsiya. Toshkent, 2023. 
25.   Xamroyeva   Sh.   O‘zbek   tili   morfologik   analizatorining   lingvistik   ta’minoti.
Filologiya   fanlari   doktori   (DSc)   ilmiy   darajasini   olish   uchun   taqdim   etilgan
dissertatsiyasi avtoreferati. Toshkent, 2021. 
26.   Ҳамроева  Ш. Ўзбек   тили  муаллифлик корпусини  тузишнинг  лингвистик
асослари: Монография. –Tошкент, 2020.
27.   Xoliyorov   O‘.   O‘zbek   tili   ta’limiy   korpusini   tuzishning   lingvistik   asoslari.
Filol. fan. bo‘yicha falsafa doktori PhD avtoref. – Termiz, 2021. 
28. Xolmanova Z. Kompyuter lingvistikasi. -Toshkent, 2019.
29. Хомский Н. Синтактические структуры // Новое в лингвистике. -М o сква,
1962. ( Noam   Chomsky .  Syntactic   Structures ,  s ’- Gravanhage . 1957)
30. Захаров В.П., Богданова С. Ю. Корпусная лингвистика: учебник. 3-е изд.,
перераб. СПб.: Изд-во С.- Петерб, ун-та, 2020. 
31. https :// www . researchgate . net / publication /
336798062_ MODELING _ ANALITIC _ FORMS _ OF _ VERB _ IN _ UZBEK _ AS _ STAGE
_ OF _ MORPHOLOGICAL _ ANALYSIS _ IN _ MACHINE _ TRANSLATION
32.   https :// uzbekcorpus . uz
33.   http :// modmorph . turklang . net / uz /
51

O’zbek tili elektron korpusini morfologik teglashda lisoniy modellarning o’rni

KIRISH…………………………………………………………………………........….3

I. BOB. KORPUS LINGVISTIKASI TAVSIFI

  1.    Lingvistik korpusning yaratilishi va taraqqiyoti……………………..........……....7
  2.    Elektron lug'atlar tuzishda lingvistik korpusning roli……...................……11

II. BOB. ELEKTRON KORPUS MORFOANALIZATORINING LINGVISTIK TA’MINOTI

2.1.   O‘zbek tili korpusining morfologik teglash tamoyillari………………...…13

2.2.   So‘zlarni turkumlarga ajratish algoritmi…………………………....……..21

III. BOB. O‘ZBEK TILI MILLIY KORPUSINI MORFOLOGIK TEGLASHDA LISONIY MODELLARNING AHAMIYATI

      3.1.   Korpusda teglarni lingvistik modellashtirish………………………………32

      3.2.   Uzbekcorpus.uz platformasining morfologik teglash holati……….……….40

XULOSA……………………………………………………………………........…….53

FOYDALANILGAN ADABIYOTLAR.................……………………….........................……….54