最近要进行某网站的信息抓取工作,不过这个网站作出了一些限制:如果某IP过于频繁的访问则会把这个IP列入黑名单。
不过这个网站使用了CDN技术进行全球加速,那么访问时候只要在请求头中指定HOST,url中指定加速IP即可一定程度上缓解被封问题。
在网上找到一篇有关文章节选如下(原文链接http://www.hack0nair.me/?p=615):
第一种解决方案是利用http数据包头部中的“Host”属性。
在发送HTTP请求的时候,数据包的头部总是会带上各种各样的属性,比如Data、Referer、Cookie等。(Quick reference to HTTP headers)
其中的Host属性是指,当前访问资源对应的主机名和端口号。
wxPython 如果你之前是 windows 程序员,用 MFC 或者 WIN32API 开发界面程序,那进入 Python 国度最好的 GUI 选择应该是 wxPython。它是 wxWidgets 的 Python Bind,与 wxWidgets 的开发完美同步,最为重要的一点是它的消息机制与 MFC 颇为相似,以前在 MFC 的经验完全可以稍作变化就套用在 wxPython 上面。在 WIN32 开发中,最讨厌的一环肯定有 WM_SIZE 消息的处,在主窗口大小变化的时候,保持控件布局在 WIN32 是一件麻烦事。这件事情 wx 解决得非常完美,它的sizer 概念可以让我轻松地在不同窗口尺寸的情况下保持完美的控件布局。另外如果你已经讨厌了 MFC 的 doc-view 模型,wx 也可以给你一个新的选择;如果你非常喜欢 doc-view 模型,放心,在 wx 中仍然可以轻松实现,以前的思想依然可以在这里发挥余热。 wxPython 有两个封装,一个 PythonCard,另一个是 dabo。前者是 wxPython 的有限封装,不支持wxPython 的全部特性,它的目标是让 wxPython 更加 Pythonic。后者比 PythonCard 要庞大不少,确切来说,它应该是一个三层架构的 C/S 模式的开发框架。如果你想开发基于数据库的应用(如 MIS、ERP 等)用 dabo 是一个不错的选择;另外,如果你之前习惯了 VB、VFP、Delphi 等 RAD 开发环境,dabo 并不比这些昂贵的工具差多少哦!