好用的文本分割器
有些分割器亂碼是不支持utf-8,有些是因?yàn)榘醋止?jié)數(shù)而不是字符數(shù)分割,導(dǎo)致某個(gè)漢字被分到前后兩個(gè)文件中產(chǎn)生亂碼。
推薦用軟件Replace Pioneer,可以按整字?jǐn)?shù),行數(shù)或特殊符號(hào)分割,支持任意常用編碼方式。我試了utf8分割得很好。
詳細(xì)步驟:
1. 打開Replace Pioneer,選擇Settings->Encoding->utf-8選項(xiàng)
2. ctrl-o打開待處理的txt文件
3. 選擇File->SaveAs->Split by bytes/lines菜單
* 把Split Naming中的內(nèi)容改為需要的格式,比如###.txt就會(huì)分割為001.txt, 002.txt
* 在Split File by輸入按多少字?jǐn)?shù)bytes/行數(shù)lines分割
*點(diǎn)擊Next,并輸入一個(gè)結(jié)果文件名即可。
注:如果結(jié)果文件名為abc.txt, Split Naming為${BASE}_###.txt,那么分割的文件是abc_001.txt, abc_002.txt, ...
Replace Pioneer是按照字?jǐn)?shù)分割的,utf8編碼一個(gè)漢字基本上占用3個(gè)字節(jié),所以差不多是1/3,需要計(jì)算一下。
同理你如果分割ansi漢字文件,一個(gè)漢字占2個(gè)字節(jié),所以分4k要輸入2000
如果分割純英文ansi文本, 一個(gè)字符占一個(gè)字節(jié),所以分4k要輸入4000
推薦用軟件Replace Pioneer,可以按整字?jǐn)?shù),行數(shù)或特殊符號(hào)分割,支持任意常用編碼方式。我試了utf8分割得很好。
詳細(xì)步驟:
1. 打開Replace Pioneer,選擇Settings->Encoding->utf-8選項(xiàng)
2. ctrl-o打開待處理的txt文件
3. 選擇File->SaveAs->Split by bytes/lines菜單
* 把Split Naming中的內(nèi)容改為需要的格式,比如###.txt就會(huì)分割為001.txt, 002.txt
* 在Split File by輸入按多少字?jǐn)?shù)bytes/行數(shù)lines分割
*點(diǎn)擊Next,并輸入一個(gè)結(jié)果文件名即可。
注:如果結(jié)果文件名為abc.txt, Split Naming為${BASE}_###.txt,那么分割的文件是abc_001.txt, abc_002.txt, ...
Replace Pioneer是按照字?jǐn)?shù)分割的,utf8編碼一個(gè)漢字基本上占用3個(gè)字節(jié),所以差不多是1/3,需要計(jì)算一下。
同理你如果分割ansi漢字文件,一個(gè)漢字占2個(gè)字節(jié),所以分4k要輸入2000
如果分割純英文ansi文本, 一個(gè)字符占一個(gè)字節(jié),所以分4k要輸入4000
總結(jié)
- 上一篇: php添加项目,thinkphp添加一个
- 下一篇: 线性系统的基本理论与运算