18年03月06日

用「字頻數據」分析英文生字的難易度

上一次我做了這個「偽」word wise ,我覺得當中的「找難字」功能很值得分拆出來變成一個獨立模組使用,所以我就把它發佈到 NPM Difficulty

這算是我第一個正式的 TypeScript 項目吧,雖然因為 Angular 2 的原因我對 TypeScript 沒太大好感,但看來它將會是一個 JS 界的大趨勢,所以沒辦法不學習一下…

(´_ゝ`)

用生字出現頻率分等級

字頻數據的來源是 English Lexicon Project,模組讀取數據後會根據出現次數把生字分成 4 個等級,Lv 0 為最簡單的生字

  • Lv 0: 多於 20000 次
  • Lv 1: 10001 至 20000 次
  • Lv 2: 5001 至 10000 次
  • Lv 3: 少於 5000 次或沒出現過的字詞

這裡就不講解使用方法了,有興趣再到模組頁面README

(σ ゚ ∀ ゚)σ..:*☆

注意 LICENSE 的限制

這個字頻數據庫只適用於非商業用途,如果想要無限制地使用或更準確的數據,可以付錢買其他的數據庫

Unauthorized Use Strictly Prohibited: Word lists generated from this website are available for non-commercial research purposes only and may not be used in the development of speech technology.

沒有 One Size Fits All

在不同範疇應該選用合適的數據庫,例如部落格我會選用由網頁取得的數據文學類就會使用書本或論文的數據,諸如此類… 不是說不能整合所有數據作多用途使用,但如此一來產生誤判的情況亦會相對增加吧

(`へ´≠)

相關文章