Từ điển tần suất tiếng Việt
Danh sách các từ tiếng Việt được sắp xếp theo mức độ phổ biến. Trang web này sẽ giúp bạn tra cứu và tìm kiếm các từ tiếng Việt theo tần suất xuất hiện của chúng trong các văn bản tiếng Việt.Hạng | Từ | Số lần xuất hiện | Tần suất (%) | Tần suất tương đối (%) |
---|---|---|---|---|
1 | và | 62688893 | 1.6837858257098672 | 100.0 |
2 | của | 61260696 | 1.6454253163781527 | 97.72177026638515 |
3 | các | 45704600 | 1.2275979677889544 | 72.90701400645247 |
4 | là | 43498834 | 1.1683524244734462 | 69.38842260302793 |
5 | có | 42184837 | 1.1330592582083268 | 67.29236230092626 |
6 | trong | 41996050 | 1.1279885533439373 | 66.99121326005869 |
7 | được | 38006246 | 1.0208248262294621 | 60.62676206453351 |
8 | cho | 37828572 | 1.0160526098370435 | 60.3433402468919 |
9 | đã | 36688651 | 0.9854350198561673 | 58.524962308713924 |
10 | với | 32753195 | 0.8797310472161519 | 52.24720589658522 |
11 | không | 32714660 | 0.878696020376649 | 52.18573567729135 |
12 | người | 32062678 | 0.8611841774060295 | 51.145707741242134 |
13 | một | 30032979 | 0.8066676874329574 | 47.907974702950966 |
14 | những | 26359402 | 0.7079976266575377 | 42.04796214857391 |
15 | để | 23207569 | 0.6233412947870003 | 37.020224619375554 |
16 | khi | 21684979 | 0.5824454464527892 | 34.59142116291637 |
17 | này | 21268040 | 0.571246716585512 | 33.926328863392115 |
18 | về | 21080044 | 0.5661972575036591 | 33.62644160904229 |
19 | ở | 21078599 | 0.56615844567589 | 33.624136575517454 |
20 | đến | 20692211 | 0.555780297227418 | 33.007778586870245 |
21 | tại | 18981862 | 0.509841355488296 | 30.279465933462888 |
22 | năm | 18574018 | 0.49888691183109485 | 29.628881786124378 |
23 | cũng | 18303882 | 0.4916312219305895 | 29.1979665361135 |
24 | đó | 18161969 | 0.4878195244121158 | 28.971589911469643 |
25 | vào | 18045286 | 0.4846854894643092 | 28.785459650723134 |
26 | trên | 17950917 | 0.48215079508732583 | 28.634924212172642 |
27 | từ | 17389815 | 0.4670799340597199 | 27.739866135457202 |
28 | ra | 17196379 | 0.4618843598615599 | 27.431301107837395 |
29 | nhiều | 17141899 | 0.46042105994677796 | 27.34439576082481 |
30 | sẽ | 16165492 | 0.43419535730557973 | 25.78685190692393 |
31 | ông | 15735771 | 0.4226533106337734 | 25.10137003057304 |
32 | ngày | 14759938 | 0.3964430252860973 | 23.544741809366453 |
33 | theo | 14545525 | 0.3906840215300742 | 23.2027147137532 |
34 | phải | 14225357 | 0.3820845023098851 | 22.691989472521072 |
35 | như | 13470423 | 0.3618074307631527 | 21.4877346773375 |
36 | lại | 13188518 | 0.35423563262665125 | 21.038045766735745 |
37 | sau | 12804201 | 0.3439131099880821 | 20.424991393610988 |
38 | bị | 12448881 | 0.33436942926634355 | 19.858192423337258 |
39 | nhưng | 12273973 | 0.329671505964312 | 19.579182870560498 |
40 | còn | 11928412 | 0.3203899460918458 | 19.027951251268707 |
41 | làm | 11498916 | 0.308853942784225 | 18.34282829017255 |
42 | việc | 11304909 | 0.30364303187073205 | 18.03335241539518 |
43 | anh | 11254056 | 0.30227715098662034 | 17.95223278228888 |
44 | hơn | 11120722 | 0.29869588022969057 | 17.73954119751325 |
45 | tôi | 10986213 | 0.2950830496820143 | 17.524975277518458 |
46 | biết | 10726878 | 0.2881174681218092 | 17.111289554913657 |
47 | đang | 10615065 | 0.2851142384343733 | 16.932927815458473 |
48 | nhà | 10516576 | 0.2824688833443043 | 16.7758202397991 |
49 | thì | 10488309 | 0.2817096487868311 | 16.730729317552314 |
50 | đi | 10350543 | 0.2780093371851452 | 16.510967899847905 |
51 | chỉ | 9881883 | 0.2654214124776984 | 15.763371351923539 |
52 | trước | 9702703 | 0.2606087458343316 | 15.477547194843591 |
53 | Việt Nam | 9484409 | 0.2547455007609577 | 15.129329209880927 |
54 | mà | 9400613 | 0.25249479078189996 | 14.995659597945046 |
55 | nước | 9194904 | 0.2469695712119683 | 14.66751693956376 |
56 | mới | 8837970 | 0.23738253942447246 | 14.098143350529416 |
57 | sự | 8761861 | 0.23533829762538772 | 13.97673587887411 |
58 | rất | 8688945 | 0.23337981787894427 | 13.860421813478187 |
59 | hai | 8330178 | 0.22374355281788388 | 13.288124261501954 |
60 | nhất | 8016053 | 0.2153063449300191 | 12.78703868642249 |
61 | mình | 8010085 | 0.2151460480524233 | 12.777518658688072 |
62 | đây | 7987906 | 0.21455033350011146 | 12.742139185644895 |
63 | có thể | 7967898 | 0.2140129306973406 | 12.710222846015162 |
64 | lên | 7916819 | 0.21264097958964703 | 12.628742702475222 |
65 | đồng | 7787405 | 0.20916499766652683 | 12.422304219026486 |
66 | cùng | 7597688 | 0.204069313563504 | 12.119671661772685 |
67 | nói | 7546076 | 0.20268304639753987 | 12.037341287873755 |
68 | vẫn | 7417014 | 0.19921651898194542 | 11.831464307401312 |
69 | tới | 7370314 | 0.19796218517099984 | 11.756969452307922 |
70 | bộ | 7296216 | 0.19597195761803524 | 11.638769885440471 |
71 | nên | 7144763 | 0.1919040214580964 | 11.39717525399595 |
72 | qua | 7089077 | 0.1904083291112802 | 11.308346121217996 |
73 | do | 6941616 | 0.1864476156616903 | 11.073119443981886 |
74 | con | 6755830 | 0.18145751584583722 | 10.776757535022991 |
75 | tháng | 6659170 | 0.17886128659174724 | 10.622567541589863 |
76 | cao | 6453483 | 0.17333665792853595 | 10.294459977144596 |
77 | vì | 6449561 | 0.17323131537593361 | 10.288203685459878 |
78 | cả | 6310503 | 0.16949630143412478 | 10.06638129660385 |
79 | rằng | 6223353 | 0.16715550503960852 | 9.927361454604087 |
80 | cô | 6175212 | 0.16586246683847936 | 9.8505679467015 |
81 | tỉnh | 6122391 | 0.16444372666229184 | 9.766309001500472 |
82 | khác | 6113733 | 0.16421117800843388 | 9.752497942498362 |
83 | chưa | 6101691 | 0.16388773715722602 | 9.733288798065074 |
84 | bạn | 5999827 | 0.16115173160437457 | 9.570797493584708 |
85 | thấy | 5899964 | 0.1584694717036795 | 9.411498142103099 |
86 | số | 5783158 | 0.15533213305011823 | 9.22517167435067 |
87 | xe | 5720442 | 0.15364761914675068 | 9.12512843383596 |
88 | họ | 5673130 | 0.15237684738522053 | 9.049657329249696 |
89 | Mỹ | 5588430 | 0.15010185651183527 | 8.914545675579244 |
90 | lần | 5492868 | 0.14753511887497053 | 8.762107188589214 |
91 | lớn | 5342968 | 0.14350889535760983 | 8.522989869991802 |
92 | tổ chức | 5237505 | 0.14067622283718678 | 8.354757516614626 |
93 | hàng | 5234468 | 0.14059465085038075 | 8.349912958265191 |
94 | dân | 5220127 | 0.1402094602468953 | 8.32703649751799 |
95 | đường | 5169051 | 0.13883758971739085 | 8.245561139514779 |
96 | đưa | 5146901 | 0.13824265408757405 | 8.210227926659991 |
97 | bà | 5072004 | 0.13623096587690184 | 8.090753811843511 |
98 | hay | 5027329 | 0.1350310223436257 | 8.019489194042714 |
99 | cuộc | 4935384 | 0.1325614351434674 | 7.8728204691698735 |
100 | nếu | 4922697 | 0.13222066998159446 | 7.852582434339684 |
101 | cần | 4895613 | 0.13149321009003878 | 7.809378608743338 |
Giới thiệu
Danh sách tần suất, hay còn gọi là từ điển tần suất (frequency dictionary), là danh sách các từ vựng trong tiếng Việt được sắp xếp theo tần suất xuất hiện của từng từ trong các văn bản.
Danh sách này bao gồm cả từ đơn, từ phức và danh từ riêng, được liên kết đến mục từ điển tương ứng (nếu có). Một số tiếng có nghĩa hoặc cụm từ có thể xuất hiện trong danh sách do hạn chế của các chương trình tách từ hiện nay.
Danh sách này được tạo ra bẳng cách đếm các từ trong các kho ngữ liệu báo chí, văn học, nghệ thuật có sẵn và các văn bản từ một số trang web tiếng Việt khác mà tôi tự tổng hợp. Để lấy được các từ ghép, các văn bản được tách từ (word segmentation) bằng các thư viện xử lí ngôn ngữ tự nhiên như Underthesea, VNCoreNLP, UITws và pyvi. Sau đó, các mục từ không hợp lệ, bao gồm các tổ hợp từ ngữ không phải tiếng Việt, bị loại bỏ.