18年03月06日

運用字頻數據分析英文字詞的難度

上次做完「偽」word wise後發現當中的找難字功能還滿有用的,所以我就把它分拆出來做成一個叫Difficulty的獨立模組,如果有興趣可以下載看看…這算是我第一個正式的TypeScript項目吧,我個人是對TypeScript沒太大好感啦(Angular2的陰影),但沒辦法這就是趨勢,當你拒絕進步的時候就完了… (´_ゝ`)

HOW IT WORKS?

以下是概括,要寫的都在README了,為免日後要經常更新這裡,自己去NPM看吧… (σ゚∀゚)σ..:*☆

  • 讀取English Lexicon Project提供的字頻數據
  • 根據threshold分拆成不同等級
  • 默認的出現次數是:
    • Level 0:多於20000次
    • Level 1:10001至20000次
    • Level 2:5001至10000次
    • Level 3:少於5000次或沒出現過的字詞
  • getLevel(word)查詢字詞的難度,0是最低

LICENSE

這個默認的字頻數據庫其實不太夠用,而且只限用於非商業研究目的所以使用時要特別小心!

Unauthorized Use Strictly Prohibited: Word lists generated from this website are available for non-commercial research purposes only and may not be used in the development of speech technology.

沒免費午餐啊,如果想要無限制使用和更準確的數據,你懂的⋯只要打開Google應該也不難找到這個wordfrequency.info了…當然我的模組支援使用自定的CSV,詳情請看NPM

NOTES

說說下個項目吧,我打算把這功能放在Google的擴充功能內使用,讓它自動翻譯頁面內的難字,POC也已經過了,做起來比想像中簡單,說不定還可以改良一下之前做的閱讀器呢…

(`へ´≠)