我們聊了不少生僻字了,有些是特殊字,有些是某一個漢字的特殊寫法。雖然我們常說常用漢字不過3000,但有些漢字可能有很多種寫法。
如此下來漢字究竟一共有多少個呢?今天我們來討論一下這個問題。
1
自古以來的漢字數量
中華上下五千年,漢字的歷史可太長了,所以漢字一共有多少個是個很難說清楚的問題。
據學者考證,甲骨文和金文共有漢字約5000個,我們已知其含義的約有3000個。
我國最早的字典《說文解字》,收錄漢字9353個。
北宋《類編》收錄漢字高達33190個,而清朝《康熙字典》收字46933個,是古代收錄漢字數量最多的字典。
《漢語大字典》收錄單字56000多個,20年發布的最新版《新華字典》收錄單字13000多個。
大家不用驚訝于數量,《現代漢語常用字表》只有3500個漢字,而根據中國語言生活狀況報告,2394個常用漢字就占據了99%的語言篇幅。
所謂常用漢字,以龐中華硬筆書法為例,小時候我家里有這本書,媽媽逼著我練,我覺得好不情愿。這個字帖是2500字。
2
不同編碼標準帶來的問題
在電腦普及、數字化時代到來之前,我們也只能以字典為標準,統計漢字的數量。
然而數字化時代到來之后,除了字典,我國政府開始定期統計收錄漢字,并將這些漢字編排在國家標準文件中。
大陸最早的標準,制定于1980年,稱為GB2312,也就是國家漢字信息交換用編碼,通行于大陸。新加坡等地也使用此編碼。
臺灣則于1983年開始使用著名的“大五碼”也就是big5字庫。
這兩個標準曾經深深“傷害”過老一輩電腦游戲玩家的心。在很多三國游戲迷心里,曹操有另外一個名字——“變巨”。
其實這就是大五碼“曹操”二字,由于標準不統一,臺灣生產的游戲運行在大陸電腦里,就有了這個奇怪的名字。
為了解決這個問題,當時還曾經有一票輔助軟件,其中提供文字編碼選擇功能,讓部分漢字正確顯示。
也正是為了解決這些問題,1993年5月,中日韓聯合研究小組正式制訂了CJK(中日韓統一表意文字),同年國際標準化組織發布了10646,我國也以此為標準制定了GB13000.1-93。
3
漢字數量的大致參考
為什么漢字的標準,并非由中國制定,而是國際制定后,才有國家標準呢?這是因為雖然漢字是中國的原生文字,但使用漢字的國家,并不限于中國境內。
最典型的就是日本、韓國、越南,他們的文字,或是同樣叫做“漢字”,或是在寫法、發音、字義等方向,明顯帶有漢字的特點。
“密”字當選日本2020年度漢字
于是iso字庫的來源,也包含著這些國家;除此以外,海外尚有大量中國古籍文獻,各國或是擁有漢字文化研究組織,或是與國內漢字研究組織合作,也定期向iso申報新的漢字。
需要說明的是,根據國際漢字標準制定國內漢字字符集這一做法,一直沿用至現在。
這也就有了所謂“漢字總數量”的大致參考標準:
另外在2012年,我國啟動了“中華字庫”工程,旨在為30萬個漢字、10萬少數民族文字以及10萬多個如甲骨文這種不常見的古代書寫文字編碼,總計約50萬字。
4
漢字數量的發展
中華字庫50萬這個數字,已經涵蓋了歷史上所有的漢字。但是,這一數字并非不會增長。
我們常說,語言是一種“約定俗成”的東西,在這一點上,漢字也類似。比如在2020年公布的iso10646擴展字符集g中,就已經包含了民俗字biáng字。
另外在化工領域,也有一些新造的漢字。2017年5月9日,新化學元素中文名公布,兩新造字納入國家規范用字,分別是——
這些漢字,將是我們現在、未來網絡交流、數字化交流的基石。
5
漢字輸入的難題
但是,漢字多起來,我們不得不面臨一個新的問題:如何輸入這么多漢字呢?
舉例來說,我們常用拼音輸入法。漢語拼音一共有300多個發音,gb2312的時代一共6000多字,輸入一個發音,與之對應的漢字數量平均不過二三十個。
按照輸入法每行顯示十個候選字計算,翻頁兩三次便能找到想要錄入的漢字。
但是,今天漢字數量已經達到9萬,平均每個讀音下有300頁候選漢字。
難道我們要翻頁300次來尋找某一個想要輸入的漢字嗎?
我們都曾遇到過這樣的問題,在拼音輸入法下尋找某一個字,翻到底了還沒找到,只要更細致地往回尋找,可能輸入一個字就要花上好幾分鐘。
別著急,好辦法已經有了。咱們之后找機會跟您慢慢聊這個問題。
END
敝帚字珍
漢字文化博大精深,
我們常用的漢字只有不到3000個;
新華字典收錄漢字約8000個;
現在的電腦手機等終端,
可顯示漢字約30000個;
2005年的國家標準GB18030-2005,
收錄漢字7萬多個;
而最新的國際標準10646,
收錄漢字9萬多個。
漢字再多,
如果不認識、在電腦上打不出來,
這些漢字文化就都丟了。
我們要做的,就是和您一起,
尋找漢字的文化。
歡迎您關注:敝帚字珍。