一个从天天基金网上爬取信息的工具

给朋友帮忙,需要根据天天基金–场内交易基金净值折价率一览表把每个基金的前十名的股票持仓信息做到同一个表格中,用于后面的基金分析和挑选。

列表: http://fund.eastmoney.com/cnjy_jzzzl.html

总结几点:

  1. Python操作Excel还是略有些复杂,尤其是需要在表格中加入超链接,如果目的最后是为了得到表格,那么可以把数据生成一个网页table,然后直接拷贝到表格中,数据会很规整。
  2. Chrmoet的debug工具中,可以直接选中DOM元素,然后右键拷贝它的XPAHT。
  3. Python的lxml包在解析xpath时是无法识别tbody标签的,所以如果拷贝出来的XPATH如果有tbody,一定要删掉,否则解析的结果是[]。
  4. 天天基金网的网页的元素会因为不同的基金导致取出来的元素的XPATH略有不同,真是坑。

代码地址: https://github.com/skeetwu/ETF

Notice: 正常情况下,这里会有一个基于utteranc.es的留言系统,如果看不到,可能需要科学上网方式。