當前位置：首頁 > 编程语言 > python >内容正文

python

python中文字体下载_对Python生成汉字字库文字,以及转换为文字图片的实例详解...

發布時間：2023/12/14 python 28 豆豆

生活随笔收集整理的這篇文章主要介紹了 python中文字体下载_对Python生成汉字字库文字,以及转换为文字图片的实例详解... 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

筆者小白在收集印刷體漢字的深度學習訓練集的時候，一開始就遇到的了一個十分棘手的問題，就是如何獲取神經網絡的訓練集數據。通過上網搜素，筆者沒有找到可用的現成的可下載的漢字的訓練集，于是筆者采用了代碼自建漢字的訓練集數據。

這里采用的是python編寫程序，需要import 的python庫請提前安裝。

那么，首先如何用python輸出漢字字庫的文字？

筆者查到在計算機中漢字編碼范圍是0x4E00到0x9FA5，利用unichr（）可以將十六進制的編碼轉成人類可讀的字。

這里擴展一下在python庫中什么是unichr（），以及什么是chr（）和ord（）。

chr( )函數用一個范圍在range（256）內的（就是0～255）整數作參數，返回一個對應的字符。

unichr( )跟它一樣，只不過返回的是Unicode字符，這個從Python 2.0才加入的unichr( )的參數范圍依賴于你的Python是如何被編譯的。

如果是配置為USC2的Unicode，那么它的允許范圍就是range（65536）或0x0000-0xFFFF；如果配置為UCS4，那么這個值應該是range（1114112）或0x000000-0x110000。

如果提供的參數不在允許的范圍內，則會報一個ValueError的異常。

ord( )函數是chr( )函數（對于8位的ASCII字符串）或unichr( )函數（對于Unicode對象）的配對函數，它以一個字符（長度為1的字符串）作為參數，返回對應的ASCII數值，或者Unicode數值，如果所給的Unicode字符超出了你的Python定義范圍，則會引發一個TypeError的異常。

接下來就是把unicode編碼的字寫入文件呢，如果直接用open()的話，會提示UnicodeEncodeError: ‘ascii' codec can't encode character u'\u4e00' in position 0: ordinal not in range(128)

這里就是涉及到python讀寫文件時候的兩種方式了，一種是open（），還一種是codecs.open( )。

對于open（）這個python的內置函數來說，打開文件的方式一般為：

f=open(file_name,access_mode = 'r',buffering = -1)。

file_name就是文件的路徑加文件名字，不加路徑則文件會存放在python程序的路徑下，

access_mode就是操作文件的模式，主要有r,w,rb，wb等，細節網上一大堆,buffering = -1是用于指示訪問文件所采用的緩存方式。0表示不緩存；1表示只緩存一行，n代表緩存n行。如果不提供或為負數，則代表使用系統默認的緩存機制。

>>> fr = open('test1.txt','wb')

>>> line1 = "我是誰"

>>> fr.write(line1)

打開以后就是寫和讀的操作。但是用open方法打開會有一些問題。open打開文件只能寫入str類型,不管字符串是什么編碼方式。所以對于寫入文件的數據的編碼不統一的時候，需要用到codecs.open（）。

這種方法可以指定一個編碼打開文件，使用這個方法打開的文件讀取返回的將是unicode。

寫入時，如果參數是unicode，則使用open()時指定的編碼進行編碼后寫入；如果是str，則先根據源代碼文件聲明的字符編碼，解碼成unicode后再進行前述操作。

相對內置的open()來說，這個方法比較不容易在編碼上出現問題。

>>> import codecs

>>> line2 = u'我是誰'

>>> fw = codecs.open('test1.txt','wb','utf-8')

>>> fw.write(line2)

這里是將漢字字庫的文字寫出到文本文件中，代碼如下：

import codecs

start,end = (0x4E00, 0x9FA5) #漢字編碼的范圍

with codecs.open("chinese.txt", "wb", encoding="utf-8") as f:

for codepoint in range(int(start),int(end)):

f.write(unichr(codepoint)) #寫出漢字

在同目錄文件下，生成漢字字庫的chinese.txt文件：

接下來就是把漢字字庫的字一個個保存成圖片，這里需要pip install pygame的庫。

pygame可以將文字渲染到圖片上保存。

代碼如下：

#encoding: utf-8

import os

import pygame

chinese_dir = 'chinese'

if not os.path.exists(chinese_dir):

os.mkdir(chinese_dir)

pygame.init()

start,end = (0x4E00, 0x9FA5) # 漢字編碼范圍

for codepoint in range(int(start), int(end)):

word = unichr(codepoint)

font = pygame.font.Font("msyh.ttc", 64)

# 當前目錄下要有微軟雅黑的字體文件msyh.ttc,或者去c:\Windows\Fonts目錄下找

# 64是生成漢字的字體大小

rtext = font.render(word, True, (0, 0, 0), (255, 255, 255))

pygame.image.save(rtext, os.path.join(chinese_dir, word + ".png"))

這里是在chinese文件夾里面生成的文字圖片，字體是黑體，然后再在個基礎上可以繼續自制漢字識別的訓練集了。

以上這篇對Python生成漢字字庫文字,以及轉換為文字圖片的實例詳解就是小編分享給大家的全部內容了，希望能給大家一個參考，也希望大家多多支持我們。

本文標題: 對Python生成漢字字庫文字,以及轉換為文字圖片的實例詳解

本文地址: http://www.cppcns.com/jiaoben/python/251443.html

總結

以上是生活随笔為你收集整理的python中文字体下载_对Python生成汉字字库文字,以及转换为文字图片的实例详解...的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。