在實作Web服務時,會需要去讀取客戶端傳送來的HTTP請求標頭中的User-Agent
欄位,來判斷客戶端是使用什麼產品(如應用程式)和Web引擎來發送請求,以及客戶端環境的作業系統、CPU架構和所用的裝置等資訊。
Linux Mint上Firefox 60 ESR所發送的HTTP請求中的User-Agent
欄位內容如下:
從以上內容,我們可以知道這個客戶端的作業系統是Ubuntu
,瀏覽器是Firefox
,Web引擎是Gecko
,CPU架構是x86_64
(amd64)。我們只要用一個正規表示式,就可以很輕易地用程式抓出這些資訊。
不過,事實上,User-Agent
欄位的內容幾乎沒有格式的限制,例如Apple Watch發送出來的User-Agent
欄位內容如下:
所以要對User-Agent
欄位的內容進行完美解析是不可能的事情。還好,在GitHub上有一個uap-core
開源專案,整理了用來解析已知(有流通)的User-Agent
的正規表示式(都存在regexes.yaml
檔案中),以及在各種場景下的測試案例。
然而,uap-core
只有整理解析User-Agent
中產品、作業系統和裝置的部份,而並沒有CPU架構和Web引擎。後面這兩個未支援的部份,在ua-parser-js
這個開源專案是有支援的,而且也是使用正規表示式來解析。
也就是說,我們其實可以利用uap-core
和ua-parser-js
提供的正規表示式,來在Rust程式語言中實現解析User-Agent
欄位的功能。
User Agent Parser
「User Agent Parser」是筆者開發的套件,受到uap-core
和ua-parser-js
的啟發,可以用來解析User-Agent
欄位,從中獲得客戶端的產品、作業系統、裝置、CPU架構和Web引擎等資訊。
Crates.io
Cargo.toml
使用方法
建立regexes.yaml
以下是一個簡單的regexes.yaml
範例:
user_agent_parsers: | |
- regex: '(ESPN)[%20| ]+Radio/(\d+)\.(\d+)\.(\d+) CFNetwork' | |
- regex: '(Namoroka|Shiretoko|Minefield)/(\d+)\.(\d+)\.(\d+(?:pre|))' | |
family_replacement: 'Firefox ($1)' | |
- regex: '(Android) Eclair' | |
v1_replacement: '2' | |
v2_replacement: '1' | |
os_parsers: | |
- regex: 'Win(?:dows)? ?(95|98|3.1|NT|ME|2000|XP|Vista|7|CE)' | |
os_replacement: 'Windows' | |
os_v1_replacement: '$1' | |
device_parsers: | |
- regex: '\bSmartWatch *\( *([^;]+) *; *([^;]+) *;' | |
device_replacement: '$1 $2' | |
brand_replacement: '$1' | |
model_replacement: '$2' |
regexes.yaml
為一個Map結構,user_agent_parsers
這個鍵值存放著解析產品所需的正規表示式和取代字串的樣本,os_parsers
這個鍵值存放著解析作業系統所需的正規表示式和取代字串的樣本,device_parsers
這個鍵值存放著解析裝置所需的正規表示式和取代字串的樣本。取代字串的樣本中,如果有以錢字號$
來接著數字的部份,就會被這數字對應到的正規表示式群組所匹配到的字串來取代。
如果不需要自行撰寫regexes.yaml
的話,可以到uap-core
專案中取得標準的regexes.yaml
。
讀取regexes.yaml
建立好regexes.yaml
,可以利用user_agent_parser
這個crate所提供的UserAgentParser
結構體的from_path
或是from_str
關聯函數來讀取,並建立出UserAgentParser
結構實體。
from_path
可以從檔案讀取regexes.yaml
的資料,例如:
use user_agent_parser::UserAgentParser; | |
let ua_parser = UserAgentParser::from_path("/path/to/regexes.yaml").unwrap(); |
from_string
可以從記憶體讀取servers.json
的資料,建議搭配include_str
巨集一同使用,例如:
use user_agent_parser::UserAgentParser; | |
let ua_parser = UserAgentParser::from_str(include_str!("/path/to/regexes.yaml")).unwrap(); |
解析
利用UserAgentParser
提供的名稱以parse_
為開頭的方法,來解析透過參數傳入的User-Agent
欄位內容的字串。
例如:
use user_agent_parser::UserAgentParser; | |
let ua_parser = UserAgentParser::from_path("/path/to/regexes.yaml").unwrap(); | |
let user_agent = "Mozilla/5.0 (X11; Linux x86_64; rv:10.0) Gecko/20100101 Firefox/10.0 [FBAN/FBIOS;FBAV/8.0.0.28.18;FBBV/1665515;FBDV/iPhone4,1;FBMD/iPhone;FBSN/iPhone OS;FBSV/7.0.4;FBSS/2; FBCR/Telekom.de;FBID/phone;FBLC/de_DE;FBOP/5]"; | |
let product = ua_parser.parse_product(user_agent); | |
println!("{:#?}", product); | |
// Product { | |
// name: Some( | |
// "Facebook", | |
// ), | |
// major: Some( | |
// "8", | |
// ), | |
// minor: Some( | |
// "0", | |
// ), | |
// patch: Some( | |
// "0", | |
// ), | |
// } | |
let os = ua_parser.parse_os(user_agent); | |
println!("{:#?}", os); | |
// OS { | |
// name: Some( | |
// "iOS", | |
// ), | |
// major: None, | |
// minor: None, | |
// patch: None, | |
// patch_minor: None, | |
// } | |
let device = ua_parser.parse_device(user_agent); | |
println!("{:#?}", device); | |
// Device { | |
// name: Some( | |
// "iPhone", | |
// ), | |
// brand: Some( | |
// "Apple", | |
// ), | |
// model: Some( | |
// "iPhone4,1", | |
// ), | |
// } | |
let cpu = ua_parser.parse_cpu(user_agent); | |
println!("{:#?}", cpu); | |
// CPU { | |
// architecture: Some( | |
// "amd64", | |
// ), | |
// } | |
let engine = ua_parser.parse_engine(user_agent); | |
println!("{:#?}", engine); | |
// Engine { | |
// name: Some( | |
// "Gecko", | |
// ), | |
// major: Some( | |
// "10", | |
// ), | |
// minor: Some( | |
// "0", | |
// ), | |
// patch: None, | |
// } |
生命周期
parse_*
方法所回傳的資料模型實體,其生命周期相依於User-Agent
欄位內容的字串和UserAgentParser
結構實體。如果要讓模型沒有生命周期相依性,可以使用其提供的into_owned
方法。
use user_agent_parser::UserAgentParser; | |
let ua_parser = UserAgentParser::from_path("/path/to/regexes.yaml").unwrap(); | |
let product = ua_parser.parse_product("Mozilla/5.0 (X11; U; Linux x86_64; en-US; rv:1.9.2.12) Gecko/20101027 Ubuntu/10.04 (lucid) Firefox/3.6.12").into_owned(); |
Rocket框架支援
Rocket是Rust的一個Web框架(Web Framework),如果想要讓Rocket能夠解析User-Agent
欄位的話,可以考慮與這個User Agent Parser一同使用。首先要啟用User Agent Parser的rocket
特色,Cargo.toml
設定檔的寫法如下:
[dependencies.user-agent-parser] | |
version = "*" | |
features = ["rocket"] |
接著那些parse_*
方法所回傳的資料模型,也就是Product
、Product
、OS
、Device
、CPU
、Engine
結構體,就可以直接被當作請求守衛來用了!另外,如果不想解析User-Agent
欄位的內容,也可以使用UserAgent
這個請求守衛。不過要記得將一個UserAgentParser
結構實體註冊給Rocket使用。
程式範例如下:
extern crate rocket; | |
use user_agent_parser::{UserAgentParser, UserAgent, Product, OS, Device, CPU, Engine}; | |
fn index(user_agent: UserAgent, product: Product, os: OS, device: Device, cpu: CPU, engine: Engine) -> String { | |
format!("{user_agent:#?}\n{product:#?}\n{os:#?}\n{device:#?}\n{cpu:#?}\n{engine:#?}", | |
user_agent = user_agent, | |
product = product, | |
os = os, | |
device = device, | |
cpu = cpu, | |
engine = engine, | |
) | |
} | |
fn rocket() -> _ { | |
rocket::build() | |
.manage(UserAgentParser::from_path("/path/to/regexes.yaml").unwrap()) | |
.mount("/", routes![index]) | |
} |