如何用Rust程式語言計算字詞數量？

Rust的字串是使用UTF-8編碼的，如果直接使用str或是String的len方法，會得到UTF-8資料的位元組的數量，而非字元數。因為在UTF-8編碼下，一個字元不一定是一個位元組，例如4會被編碼成[52]；ß會被編碼成[195, 159]；中會被編碼成[228, 184, 173]；𩸽(ㄌㄨㄥˇ)會被編碼成[240, 169, 184, 189]。那麼要如何用Rust來計算字元(character or letter)數量，甚至是詞(word)的數量呢？

要計算字串中的字元數量，最簡單的方式是Chars迭代器的count方法。程式如下：

let count = "哈囉 world".chars().count();

雖然上面的程式可以讓我們知道字串的字元數量，但若想要知道其中有幾個詞語就不行了。

Words Count

「Words Count」是筆者開發的套件，可以利用空格來計算字元數量和詞的數量。

Crates.io

https://crates.io/crates/words-count

Cargo.toml

words-count = "*"

使用方法

words_count這個crate底下的count函數可以用來分析傳入的字串當中的字詞數量。如下：

use words_count::WordsCount;

assert_eq!(WordsCount {
    words: 20,
    characters: 31,
    whitespaces: 2,
    cjk: 18,
}, words_count::count("Rust是由 Mozilla 主導開發的通用、編譯型程式語言。"));

count函數回傳的結果中，words是詞的數量，兩個空格之間的非CJK字元會被當作是一個詞，兩個連續的減號--會被斷詞(一個減號則不會)，每個CJK字元視為一個獨立的詞；characters是字元的數量；whitespaces是空格的數量；cjk是CJK字元的數量。

words_count這個crate底下的count_separately函數可以用來計算傳入的字串中，每個詞語分別出現的次數。如下：

let result = words_count::count_separately("apple banana apple");

assert_eq!(2, result.len());
assert_eq!(Some(&2), result.get("apple"));

以上程式，apple這個詞出現了兩次，banana這個詞出現了一次。