Từ điển tần suất tiếng Việt

Danh sách các từ tiếng Việt được sắp xếp theo mức độ phổ biến. Trang web này sẽ giúp bạn tra cứu và tìm kiếm các từ tiếng Việt theo tần suất xuất hiện của chúng trong các văn bản tiếng Việt.
Hạng Từ Số lần xuất hiện Tần suất (%) Tần suất tương đối (%)
1 62688893 1.6837858257098672 100.0
2 của 61260696 1.6454253163781527 97.72177026638515
3 các 45704600 1.2275979677889544 72.90701400645247
4 43498834 1.1683524244734462 69.38842260302793
5 42184837 1.1330592582083268 67.29236230092626
6 trong 41996050 1.1279885533439373 66.99121326005869
7 được 38006246 1.0208248262294621 60.62676206453351
8 cho 37828572 1.0160526098370435 60.3433402468919
9 đã 36688651 0.9854350198561673 58.524962308713924
10 với 32753195 0.8797310472161519 52.24720589658522
11 không 32714660 0.878696020376649 52.18573567729135
12 người 32062678 0.8611841774060295 51.145707741242134
13 một 30032979 0.8066676874329574 47.907974702950966
14 những 26359402 0.7079976266575377 42.04796214857391
15 để 23207569 0.6233412947870003 37.020224619375554
16 khi 21684979 0.5824454464527892 34.59142116291637
17 này 21268040 0.571246716585512 33.926328863392115
18 về 21080044 0.5661972575036591 33.62644160904229
19 21078599 0.56615844567589 33.624136575517454
20 đến 20692211 0.555780297227418 33.007778586870245
21 tại 18981862 0.509841355488296 30.279465933462888
22 năm 18574018 0.49888691183109485 29.628881786124378
23 cũng 18303882 0.4916312219305895 29.1979665361135
24 đó 18161969 0.4878195244121158 28.971589911469643
25 vào 18045286 0.4846854894643092 28.785459650723134
26 trên 17950917 0.48215079508732583 28.634924212172642
27 từ 17389815 0.4670799340597199 27.739866135457202
28 ra 17196379 0.4618843598615599 27.431301107837395
29 nhiều 17141899 0.46042105994677796 27.34439576082481
30 sẽ 16165492 0.43419535730557973 25.78685190692393
31 ông 15735771 0.4226533106337734 25.10137003057304
32 ngày 14759938 0.3964430252860973 23.544741809366453
33 theo 14545525 0.3906840215300742 23.2027147137532
34 phải 14225357 0.3820845023098851 22.691989472521072
35 như 13470423 0.3618074307631527 21.4877346773375
36 lại 13188518 0.35423563262665125 21.038045766735745
37 sau 12804201 0.3439131099880821 20.424991393610988
38 bị 12448881 0.33436942926634355 19.858192423337258
39 nhưng 12273973 0.329671505964312 19.579182870560498
40 còn 11928412 0.3203899460918458 19.027951251268707
41 làm 11498916 0.308853942784225 18.34282829017255
42 việc 11304909 0.30364303187073205 18.03335241539518
43 anh 11254056 0.30227715098662034 17.95223278228888
44 hơn 11120722 0.29869588022969057 17.73954119751325
45 tôi 10986213 0.2950830496820143 17.524975277518458
46 biết 10726878 0.2881174681218092 17.111289554913657
47 đang 10615065 0.2851142384343733 16.932927815458473
48 nhà 10516576 0.2824688833443043 16.7758202397991
49 thì 10488309 0.2817096487868311 16.730729317552314
50 đi 10350543 0.2780093371851452 16.510967899847905
51 chỉ 9881883 0.2654214124776984 15.763371351923539
52 trước 9702703 0.2606087458343316 15.477547194843591
53 Việt Nam 9484409 0.2547455007609577 15.129329209880927
54 9400613 0.25249479078189996 14.995659597945046
55 nước 9194904 0.2469695712119683 14.66751693956376
56 mới 8837970 0.23738253942447246 14.098143350529416
57 sự 8761861 0.23533829762538772 13.97673587887411
58 rất 8688945 0.23337981787894427 13.860421813478187
59 hai 8330178 0.22374355281788388 13.288124261501954
60 nhất 8016053 0.2153063449300191 12.78703868642249
61 mình 8010085 0.2151460480524233 12.777518658688072
62 đây 7987906 0.21455033350011146 12.742139185644895
63 có thể 7967898 0.2140129306973406 12.710222846015162
64 lên 7916819 0.21264097958964703 12.628742702475222
65 đồng 7787405 0.20916499766652683 12.422304219026486
66 cùng 7597688 0.204069313563504 12.119671661772685
67 nói 7546076 0.20268304639753987 12.037341287873755
68 vẫn 7417014 0.19921651898194542 11.831464307401312
69 tới 7370314 0.19796218517099984 11.756969452307922
70 bộ 7296216 0.19597195761803524 11.638769885440471
71 nên 7144763 0.1919040214580964 11.39717525399595
72 qua 7089077 0.1904083291112802 11.308346121217996
73 do 6941616 0.1864476156616903 11.073119443981886
74 con 6755830 0.18145751584583722 10.776757535022991
75 tháng 6659170 0.17886128659174724 10.622567541589863
76 cao 6453483 0.17333665792853595 10.294459977144596
77 6449561 0.17323131537593361 10.288203685459878
78 cả 6310503 0.16949630143412478 10.06638129660385
79 rằng 6223353 0.16715550503960852 9.927361454604087
80 6175212 0.16586246683847936 9.8505679467015
81 tỉnh 6122391 0.16444372666229184 9.766309001500472
82 khác 6113733 0.16421117800843388 9.752497942498362
83 chưa 6101691 0.16388773715722602 9.733288798065074
84 bạn 5999827 0.16115173160437457 9.570797493584708
85 thấy 5899964 0.1584694717036795 9.411498142103099
86 số 5783158 0.15533213305011823 9.22517167435067
87 xe 5720442 0.15364761914675068 9.12512843383596
88 họ 5673130 0.15237684738522053 9.049657329249696
89 Mỹ 5588430 0.15010185651183527 8.914545675579244
90 lần 5492868 0.14753511887497053 8.762107188589214
91 lớn 5342968 0.14350889535760983 8.522989869991802
92 tổ chức 5237505 0.14067622283718678 8.354757516614626
93 hàng 5234468 0.14059465085038075 8.349912958265191
94 dân 5220127 0.1402094602468953 8.32703649751799
95 đường 5169051 0.13883758971739085 8.245561139514779
96 đưa 5146901 0.13824265408757405 8.210227926659991
97 5072004 0.13623096587690184 8.090753811843511
98 hay 5027329 0.1350310223436257 8.019489194042714
99 cuộc 4935384 0.1325614351434674 7.8728204691698735
100 nếu 4922697 0.13222066998159446 7.852582434339684
101 cần 4895613 0.13149321009003878 7.809378608743338

Giới thiệu

Danh sách tần suất, hay còn gọi là từ điển tần suất (frequency dictionary), là danh sách các từ vựng trong tiếng Việt được sắp xếp theo tần suất xuất hiện của từng từ trong các văn bản.

Đám mây từ

Danh sách này bao gồm cả từ đơn, từ phức và danh từ riêng, được liên kết đến mục từ điển tương ứng (nếu có). Một số tiếng có nghĩa hoặc cụm từ có thể xuất hiện trong danh sách do hạn chế của các chương trình tách từ hiện nay.

Danh sách này được tạo ra bẳng cách đếm các từ trong các kho ngữ liệu báo chí, văn học, nghệ thuật có sẵn và các văn bản từ một số trang web tiếng Việt khác mà tôi tự tổng hợp. Để lấy được các từ ghép, các văn bản được tách từ (word segmentation) bằng các thư viện xử lí ngôn ngữ tự nhiên như Underthesea, VNCoreNLP, UITws và pyvi. Sau đó, các mục từ không hợp lệ, bao gồm các tổ hợp từ ngữ không phải tiếng Việt, bị loại bỏ.