代理伺服器術語完整參考指南——從SOCKS5和住宅IP等基本概念,到IP輪換和黏性會話等進階技術。
了解代理伺服器技術,需要熟悉一套特定詞彙。本詞彙表涵蓋評估、配置或使用代理服務時最常遇到的30個重要術語——從最基本的定義,到開發人員和數據專業人員使用的高級技術概念。
匿名代理(Anonymous Proxy):向目標伺服器隱藏真實IP地址,但在HTTP標頭(Via或X-Forwarded-For)中標示正在使用代理的代理伺服器。提供部分私隱保護——目標伺服器知道您在使用代理,但不知道您的真實身份。自治系統編號(ASN,Autonomous System Number):分配給互聯網服務提供商 ↗、企業及託管服務提供商所管理網絡的唯一識別碼。反機器人系統使用ASN查詢,將IP分類為數據中心(商業託管ASN)或住宅(消費者ISP ASN)。頻寬(Bandwidth):透過代理連線傳輸的數據量,通常以GB計算。商業代理服務通常按消耗的頻寬而非請求次數收費。
驗證碼(CAPTCHA):網站用於區分人類用戶和自動機器人的挑戰回應測試。代理和爬蟲程序經常遭遇驗證碼作為反機器人措施;驗證碼解決服務可以程式化方式處理。數據中心代理(Datacenter Proxy):使用分配給商業雲端或託管基礎設施(AWS、Google Cloud等)IP地址的代理。速度快、價格低,但比住宅代理更容易被識別。DNS洩漏(DNS Leak):DNS查詢在代理隧道外解析,儘管使用了代理,仍向您的ISP或DNS提供商洩露所訪問域名的私隱漏洞。精英代理(高匿名代理,Elite Proxy):移除所有識別標頭(包括X-Forwarded-For)的代理——對目標伺服器而言,請求看起來像是直接的非代理連線。正向代理(Forward Proxy)↗:部署在客戶端的代理,將客戶端請求路由至互聯網,有別於將互聯網請求路由至伺服器的反向代理。
IP地址(IP Address):分配給網絡上每台設備的數字標籤。每台連接互聯網的設備都有IP地址;代理在代表您發出請求時,以其自身IP替換您的IP。IP地理定位(IP Geolocation):使用將IP範圍映射至國家、地區及城市的商業數據庫,確定IP地址地理位置的過程。網站用於實施地理內容限制。IP池(IP Pool):代理服務提供商管理的IP地址集合。更大的IP池可減少輪換時的IP重複使用頻率。IP輪換(IP Rotation):針對每個請求或按定時計劃,從提供商IP池中分配不同IP地址的做法。對於高容量爬取業務中避免速率限制至關重要。
互聯網服務提供商(ISP)↗:為消費者和企業提供互聯網接入的公司。住宅代理IP被分配給ISP客戶。移動代理(Mobile Proxy):使用移動網絡運營商(4G/5G)IP地址的代理。最受信任且最難被識別的代理類型,因為移動運營商的IP空間被眾多真實用戶合法共享。PAC文件(代理自動配置,PAC File):定義哪些請求應通過代理及使用哪個代理的JavaScript文件——用於企業環境中基於規則的動態代理路由。每請求輪換(Per-Request Rotation):針對每個出站請求從IP池中分配新IP地址的代理配置。適用於IP身份必須持續變化的爬取任務。
端口(Port):識別伺服器上特定服務的數字識別碼(0–65535)。常見代理端口包括3128(HTTP)、8080(HTTP備用)、1080(SOCKS)等。配置代理連線時需同時指定IP和端口。代理驗證(Proxy Authentication):代理伺服器驗證連接客戶端是否獲授權使用代理的機制。SOCKS5和HTTPS代理支持用戶名/密碼驗證;部分代理使用IP白名單代替。
速率限制(Rate Limiting):網站的反機器人措施,限制單一IP地址在時間窗口內的請求次數。觸發429「請求過多」回應,是IP輪換主要應對的挑戰。住宅代理(Residential Proxy):使用ISP分配給真實家庭寬頻用戶IP地址的代理。被網站視為合法消費者流量,比數據中心代理更難封鎖。反向代理(Reverse Proxy)↗:部署在伺服器端、代表後端伺服器處理傳入請求的代理。提供負載均衡、DDoS防護、TLS終止及源伺服器匿名化。
輪換代理(Rotating Proxy):自動為每個請求或按定時間隔循環使用不同IP地址的代理池服務。會話(Session):維持連續性的一系列相關請求——例如瀏覽多頁結帳流程。代理會話管理確保在需要連續性的會話中全程使用同一IP。SOCKS4:SOCKS5的前身,支持TCP代理和代理端DNS解析,但不支持UDP或驗證。已基本被SOCKS5取代。SOCKS5:當前應用層套接字代理標準,支持TCP、UDP、IPv6及內置用戶名/密碼驗證。非HTTP應用(包括BT客戶端和自定義腳本)的首選代理協議。
黏性會話(Sticky Session):在定義時長內(如30秒、10分鐘)維持同一IP地址而非按請求輪換的代理配置。需要會話持久性的任務(如登入網站)必須使用此配置。透明代理(Transparent Proxy):在網絡層攔截流量而無需客戶端配置的代理,在X-Forwarded-For標頭中向目標伺服器傳遞客戶端真實IP。不提供任何私隱保護。X-Forwarded-For:匿名代理添加的HTTP標頭,包含客戶端原始IP地址。精英代理完全剝離此標頭,防止目標伺服器識別代理用戶。零日IP(Zero-Day):在代理環境中,指尚未被加入封鎖名單的新發現IP地址——新鮮IP在部分提供商處以溢價定價。
反機器人系統(Anti-Bot System):網站部署的用於檢測和封鎖自動化流量的技術。例子包括Cloudflare Bot Management、Akamai Bot Manager、Imperva和PerimeterX。這些系統分析IP信譽以外的數十種信號——瀏覽器指紋、JavaScript執行情況、滑鼠移動、TLS指紋及行為模式。邊界閘道協定(BGP,Border Gateway Protocol):管理自治系統之間互聯網流量導向的路由協議。BGP公告決定哪個ASN「擁有」某個IP地址範圍,從而實現基於ASN的IP分類。
瀏覽器指紋識別(Browser Fingerprinting):透過JavaScript公開的瀏覽器和設備特徵的唯一組合——屏幕分辨率、已安裝字體、Canvas渲染、WebGL、時區、語言——識別用戶的技術。代理可更改IP,但無法解決指紋識別問題。運營商級NAT(CGNAT,Carrier-Grade NAT):移動運營商使用的技術,使多名真實用戶共享同一公共IP地址。這令移動IP特別受信任——封鎖一個移動IP可能誤傷大量合法用戶。地理定向(Geo-Targeting):能夠請求來自特定地理位置(國家、地區、城市或ASN級別)的代理IP。對地理市場研究和廣告核實至關重要。
HTTP CONNECT方法(HTTP CONNECT Method):用於通過HTTP代理創建TCP隧道以訪問HTTPS目標的HTTP請求方法。CONNECT握手完成後,代理在不檢查加密字節的情況下直接轉發。托管爬取API(Managed Scraping API):不僅處理IP輪換,還處理瀏覽器指紋管理、驗證碼解決及JavaScript渲染的代理服務——向請求者返回乾淨的HTML。例子包括Bright Data的Web Unlocker和Smartproxy的Site Unblocker。服務器名稱指示(SNI,Server Name Indication):在TLS握手期間洩露目標域名的TLS擴展,即使在HTTPS連線中,網絡監控者仍可觀察到,即便內容已加密。網絡應用防火牆(WAF,Web Application Firewall):通常集成在反向代理平台中的安全軟件,在HTTP請求到達後端應用伺服器之前,檢查SQL注入和XSS等攻擊模式。