用「字頻數據」分析英文生字的難易度

2018-03-06

上一次我做了這個「偽」word wise ,我覺得當中的「找難字」功能很值得分拆出來變成一個獨立模組使用,所以我就把它發佈到 NPM Difficulty

這算是我第一個正式的 TypeScript 項目吧,雖然因為 Angular 2 的原因我對 TypeScript 沒太大好感,但看來它將會是一個 JS 界的大趨勢,所以沒辦法不學習一下…

用生字出現頻率分等級

字頻數據的來源是 English Lexicon Project,模組讀取數據後會根據出現次數把生字分成 4 個等級,Lv 0 為最簡單的生字

  • Lv 0: 多於 20000 次
  • Lv 1: 10001 至 20000 次
  • Lv 2: 5001 至 10000 次
  • Lv 3: 少於 5000 次或沒出現過的字詞

這裡就不講解使用方法了,有興趣再到模組頁面看 README 吧

注意 LICENSE 的限制

這個字頻數據庫只適用於非商業用途,如果想要無限制地使用或更準確的數據,可以付錢買其他的數據庫

Unauthorized Use Strictly Prohibited: Word lists generated from this website are available for non-commercial research purposes only and may not be used in the development of speech technology.

沒有 One Size Fits All

在不同範疇應該選用合適的數據庫,例如部落格我會選用由網頁取得的數據;文學類就會使用書本或論文的數據,諸如此類… 不是說不能整合所有數據作多用途使用,但如此一來產生誤判的情況亦會相對增加吧