前沿拓展:
bing輸入法
必應(yīng)輸入法是使用非常是比較常見的問題,eg:“牛奶”常常被南方人發(fā)音為“liulai”,遇到類似的問題,可通過沿推排鹽司盾設(shè)置屬性-> 常用-> 模糊音-> 選項(xiàng),設(shè)置模糊音選項(xiàng)。
英文字母只有26個(gè),可以一個(gè)鍵盤一個(gè)字母的輸入。
中文常用字有3500個(gè),中華字海中收入全量簡(jiǎn)體字有8萬5千個(gè),GB2312 編碼收入漢字20902個(gè)。也就是說無法在一個(gè)漢字一個(gè)鍵盤的方式實(shí)現(xiàn)輸入。
現(xiàn)在回頭看,中文輸入法,基本經(jīng)歷了自然音節(jié)編碼輸入,到偏旁筆畫拆字輸入,再回歸自然音節(jié)輸入的過程。
輸入法輸入漢字的快慢與漢字編碼長(zhǎng)度相關(guān),也就是輸入漢字需要敲擊幾次鍵盤。
GBK2312 一共有6700多個(gè)常用漢字,每一個(gè)漢字出現(xiàn)的概率:
P1, P2,P3,… , P6700
大致估算需要10個(gè)比特。
輸入法有26個(gè)字母,每個(gè)字母可以代表log26大概是4.7比特,
也就是說平均一個(gè)漢字需要敲擊10/4.7 約等于2.1次鍵。
如果把漢字組成詞,平均輸入一個(gè)字可以少敲幾次鍵盤,
不考慮上下文情況下,以詞為單位統(tǒng)計(jì),漢字信息熵大概是8bit,則平均輸入一個(gè)漢字要敲擊8/4.7 約等于1.7次鍵盤。
考慮上下文情況下,對(duì)漢語建立基于詞的統(tǒng)計(jì)語言模型,漢字信息熵可以降到6bit 左右。則平均輸入一個(gè)漢字敲擊6/4.7 月等于1.3次鍵,那么這是漢字的輸入已經(jīng)比英語快得多了。
紫光拼音,是通過建立大詞庫解立大詞庫,詞越來越多,越來越長(zhǎng),甚至將整句唐詩作為一個(gè)詞,沒有根本做到利用上下文。
利用上下文最好的辦法是借助語言模型,而語言模型對(duì)內(nèi)存要求高,而輸入法不能占有過多的內(nèi)容,因此目前google、搜狗、百度、微軟幾家輸入法基本在同一檔次。
3、拼音轉(zhuǎn)漢字
其實(shí)就是拼音到漢字的轉(zhuǎn)換解碼函數(shù),每輸入一個(gè)字母,就類似導(dǎo)航中車輛每走一步,利用動(dòng)態(tài)規(guī)劃方法不斷調(diào)整輸出。
4、個(gè)性化語言模型
現(xiàn)有漢字拼音輸入法距離信息論極限還有很大距離,從理論上講,只要語言模型足夠大,拼音輸入法的平均敲擊次數(shù)就可以接近理論值。
個(gè)性化的特點(diǎn)是,不同人寫東西主題不同,用詞習(xí)慣不同,說話和寫作水平不同,應(yīng)該各自有自己的語言模型。
通過不斷收集個(gè)人寫的內(nèi)容,訓(xùn)練一個(gè)特定的語言模型,可以較快的接近信息理論值。實(shí)現(xiàn)快速輸入的目的。
拓展知識(shí):
原創(chuàng)文章,作者:九賢生活小編,如若轉(zhuǎn)載,請(qǐng)注明出處:http://m.xiesong.cn/89528.html