java 中文分割_在java中只分割中文字符
中文字符位于某些Unicode范圍內(nèi):
> 2F00-2FDF:康熙
> 4E00-9FAF:CJK
> 3400-4DBF:CJK擴(kuò)展
所以你基本上需要做的就是檢查角色的代碼點(diǎn)是否在已知范圍內(nèi).這個例子是編寫基于堆棧的解析器/拆分器的一個很好的起點(diǎn),你只需要將它擴(kuò)展為拉丁字母的單獨(dú)數(shù)字,這應(yīng)該足夠明顯(提示:字符#isDigit()):
Set chineseUnicodeBlocks = new HashSet() {{
add(UnicodeBlock.CJK_COMPATIBILITY);
add(UnicodeBlock.CJK_COMPATIBILITY_FORMS);
add(UnicodeBlock.CJK_COMPATIBILITY_IDEOGRAPHS);
add(UnicodeBlock.CJK_COMPATIBILITY_IDEOGRAPHS_SUPPLEMENT);
add(UnicodeBlock.CJK_RADICALS_SUPPLEMENT);
add(UnicodeBlock.CJK_SYMBOLS_AND_PUNCTUATION);
add(UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS);
add(UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS_EXTENSION_A);
add(UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS_EXTENSION_B);
add(UnicodeBlock.KANGXI_RADICALS);
add(UnicodeBlock.IDEOGRAPHIC_DESCRIPTION_CHARACTERS);
}};
String mixedChinese = "查詢促進(jìn)民間參與公共建設(shè)法(210BOT法)";
for (char c : mixedChinese.toCharArray()) {
if (chineseUnicodeBlocks.contains(UnicodeBlock.of(c))) {
System.out.println(c + " is chinese");
} else {
System.out.println(c + " is not chinese");
}
}
祝好運(yùn).
總結(jié)
以上是生活随笔為你收集整理的java 中文分割_在java中只分割中文字符的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 断点续传视频无法播放问题,合块发现视频无
- 下一篇: 2018贵州省大学生程序设计竞赛参赛感言