當(dāng)前位置：首頁 > 运维知识 > linux >内容正文

linux

linux - word frequency

發(fā)布時間：2024/10/12 linux 31 豆豆

生活随笔收集整理的這篇文章主要介紹了 linux - word frequency 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

linux? 輸出某個文件的單詞出現(xiàn)頻率

　　解決方式??

cat words.txt |awk '{for(i=1;i<=NF;i++) print $i;}'|sort|uniq -c|sort -r|awk '{print $2,$1;}'

　　1、讀出文件 cat xxx.txt

　　2、awk 逐行讀入，按空格將每行分割然后處理（awk 常用命令參考 https://www.cnblogs.com/xiaoleiel/p/8349487.html）

　　? awk NF 每一行的單詞數(shù)量

　　　　?'{for(i=1;i<= NF;i++)print $i}' 逐行逐詞輸出單詞

　　3、sort 按詞排序，將相同的詞語放在一起

　　4、uniq -c 按詞統(tǒng)計次數(shù)

　　5、sort -r 按照第一行倒敘排序

　　6、 awk '{print $2,$1}' 按照格式輸出

sort 命令參數(shù)?http://www.runoob.com/linux/linux-comm-sort.html

參　　數(shù)：-b 忽略每行前面開始出的空格字符。-c 檢查文件是否已經(jīng)按照順序排序。-d 排序時，處理英文字母、數(shù)字及空格字符外，忽略其他的字符。-f 排序時，將小寫字母視為大寫字母。-i 排序時，除了040至176之間的ASCII字符外，忽略其他的字符。-m 將幾個排序好的文件進(jìn)行合并。-M 將前面3個字母依照月份的縮寫進(jìn)行排序。-n 依照數(shù)值的大小排序。-o<輸出文件> 將排序后的結(jié)果存入指定的文件。-r 以相反的順序來排序。-t<分隔字符> 指定排序時所用的欄位分隔字符。+<起始欄位>-<結(jié)束欄位> 以指定的欄位來排序，范圍由起始欄位到結(jié)束欄位的前一欄位。--help 顯示幫助。--version 顯示版本信息

uniq?http://www.runoob.com/linux/linux-comm-uniq.html

語法 uniq [-cdu][-f<欄位>][-s<字符位置>][-w<字符位置>][--help][--version][輸入文件][輸出文件]參數(shù)： -c或--count 在每列旁邊顯示該行重復(fù)出現(xiàn)的次數(shù)。 -d或--repeated 僅顯示重復(fù)出現(xiàn)的行列。 -f<欄位>或--skip-fields=<欄位> 忽略比較指定的欄位。 -s<字符位置>或--skip-chars=<字符位置> 忽略比較指定的字符。 -u或--unique 僅顯示出一次的行列。 -w<字符位置>或--check-chars=<字符位置> 指定要比較的字符。 --help 顯示幫助。 --version 顯示版本信息。 [輸入文件] 指定已排序好的文本文件。如果不指定此項，則從標(biāo)準(zhǔn)讀取數(shù)據(jù)； [輸出文件] 指定輸出的文件。如果不指定此選項，則將內(nèi)容顯示到標(biāo)準(zhǔn)輸出設(shè)備（顯示終端）。

轉(zhuǎn)載于:https://www.cnblogs.com/jiuyang/p/10557812.html

總結(jié)

以上是生活随笔為你收集整理的linux - word frequency的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：医保费用监控指标体系建立（六）疾病指标分
下一篇：专票丢失怎么处理