linux - word frequency
生活随笔
收集整理的這篇文章主要介紹了
linux - word frequency
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
linux? 輸出某個文件的單詞出現(xiàn)頻率
解決方式??
cat words.txt |awk '{for(i=1;i<=NF;i++) print $i;}'|sort|uniq -c|sort -r|awk '{print $2,$1;}'1、讀出文件 cat xxx.txt
2、awk 逐行讀入,按空格將每行分割 然后處理 (awk 常用命令參考 https://www.cnblogs.com/xiaoleiel/p/8349487.html)
?
? awk NF 每一行的單詞數(shù)量
?'{for(i=1;i<= NF;i++)print $i}' 逐行逐詞輸出單詞
3、sort 按詞排序,將相同的詞語放在一起
4、uniq -c 按詞統(tǒng)計次數(shù)
5、sort -r 按照第一行 倒敘排序
6、 awk '{print $2,$1}' 按照格式輸出
?
sort 命令參數(shù)?http://www.runoob.com/linux/linux-comm-sort.html
參 數(shù):-b 忽略每行前面開始出的空格字符。-c 檢查文件是否已經(jīng)按照順序排序。-d 排序時,處理英文字母、數(shù)字及空格字符外,忽略其他的字符。-f 排序時,將小寫字母視為大寫字母。-i 排序時,除了040至176之間的ASCII字符外,忽略其他的字符。-m 將幾個排序好的文件進(jìn)行合并。-M 將前面3個字母依照月份的縮寫進(jìn)行排序。-n 依照數(shù)值的大小排序。-o<輸出文件> 將排序后的結(jié)果存入指定的文件。-r 以相反的順序來排序。-t<分隔字符> 指定排序時所用的欄位分隔字符。+<起始欄位>-<結(jié)束欄位> 以指定的欄位來排序,范圍由起始欄位到結(jié)束欄位的前一欄位。--help 顯示幫助。--version 顯示版本信息?
uniq?http://www.runoob.com/linux/linux-comm-uniq.html
語法 uniq [-cdu][-f<欄位>][-s<字符位置>][-w<字符位置>][--help][--version][輸入文件][輸出文件]參數(shù): -c或--count 在每列旁邊顯示該行重復(fù)出現(xiàn)的次數(shù)。 -d或--repeated 僅顯示重復(fù)出現(xiàn)的行列。 -f<欄位>或--skip-fields=<欄位> 忽略比較指定的欄位。 -s<字符位置>或--skip-chars=<字符位置> 忽略比較指定的字符。 -u或--unique 僅顯示出一次的行列。 -w<字符位置>或--check-chars=<字符位置> 指定要比較的字符。 --help 顯示幫助。 --version 顯示版本信息。 [輸入文件] 指定已排序好的文本文件。如果不指定此項,則從標(biāo)準(zhǔn)讀取數(shù)據(jù); [輸出文件] 指定輸出的文件。如果不指定此選項,則將內(nèi)容顯示到標(biāo)準(zhǔn)輸出設(shè)備(顯示終端)。?
?
?
?
?
轉(zhuǎn)載于:https://www.cnblogs.com/jiuyang/p/10557812.html
總結(jié)
以上是生活随笔為你收集整理的linux - word frequency的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 医保费用监控指标体系建立(六)疾病指标分
- 下一篇: 专票丢失怎么处理