当前位置：首页 > news >正文

网站建设公司专业的建站优化公司互动营销案例分析

news 2025/7/4 22:21:01

网站建设公司专业的建站优化公司,互动营销案例分析,app制作软件排名,产品管理系统前面我讲述过如何通过BeautifulSoup获取维基百科的消息盒，同样可以通过Spider获取网站内容，最近学习了SeleniumPhantomjs后，准备利用它们获取百度百科的旅游景点消息盒（InfoBox），这也是毕业设计实体对齐和属…

前面我讲述过如何通过BeautifulSoup获取维基百科的消息盒，同样可以通过Spider获取网站内容，最近学习了Selenium+Phantomjs后，准备利用它们获取百度百科的旅游景点消息盒（InfoBox），这也是毕业设计实体对齐和属性的对齐的语料库前期准备工作。希望文章对你有所帮助~

源代码

# coding=utf-8    
"""  
Created on 2015-09-04 @author: Eastmount   
"""    import time            
import re            
import os    
import sys  
import codecs  
from selenium import webdriver        
from selenium.webdriver.common.keys import Keys        
import selenium.webdriver.support.ui as ui        
from selenium.webdriver.common.action_chains import ActionChains    #Open PhantomJS    
driver = webdriver.PhantomJS(executable_path="G:\phantomjs-1.9.1-windows\phantomjs.exe")    
#driver = webdriver.Firefox()    
wait = ui.WebDriverWait(driver,10)  
global info #全局变量  #Get the infobox of 5A tourist spots    
def getInfobox(name):    try:    #create paths and txt files  global info  basePathDirectory = "Tourist_spots_5A"    if not os.path.exists(basePathDirectory):    os.makedirs(basePathDirectory)    baiduFile = os.path.join(basePathDirectory,"BaiduSpider.txt")    if not os.path.exists(baiduFile):    info = codecs.open(baiduFile,'w','utf-8')    else:    info = codecs.open(baiduFile,'a','utf-8')    #locate input  notice: 1.visit url by unicode 2.write files    print name.rstrip('\n') #delete char '\n'    driver.get("http://baike.baidu.com/")    elem_inp = driver.find_element_by_xpath("//form[@id='searchForm']/input")    elem_inp.send_keys(name)    elem_inp.send_keys(Keys.RETURN)    info.write(name.rstrip('\n')+'\r\n')  #codecs不支持'\n'换行  time.sleep(2)  print driver.current_url  print driver.title  #load infobox basic-info cmn-clearfix  elem_name = driver.find_elements_by_xpath("//div[@class='basic-info cmn-clearfix']/dl/dt")    elem_value = driver.find_elements_by_xpath("//div[@class='basic-info cmn-clearfix']/dl/dd")  for e in elem_name:  print e.text  for e in elem_value:  print e.text  #create dictionary key-value  #字典是一种散列表结构,数据输入后按特征被散列,不记录原来的数据,顺序建议元组  elem_dic = dict(zip(elem_name,elem_value))   for key in elem_dic:    print key.text,elem_dic[key].text    info.writelines(key.text+" "+elem_dic[key].text+'\r\n')    time.sleep(5)    except Exception,e: #'utf8' codec can't decode byte    print "Error: ",e    finally:    print '\n'    info.write('\r\n')    #Main function    
def main():  global info  #By function get information     source = open("Tourist_spots_5A_BD.txt",'r')    for name in source:    name = unicode(name,"utf-8")    if u'故宫' in name: #else add a '?'    name = u'北京故宫'    getInfobox(name)    print 'End Read Files!'    source.close()    info.close()    driver.close()    main()

运行结果

主要通过从F盘中txt文件中读取国家5A级景区的名字，再调用Phantomjs.exe浏览器依次访问获取InfoBox值。同时如果存在编码问题“'ascii' codec can't encode characters”则可通过下面代码设置编译器utf-8编码，代码如下：

#设置编码utf-8  
import sys   
reload(sys)    
sys.setdefaultencoding('utf-8')  
#显示当前默认编码方式  
print sys.getdefaultencoding()

对应源码

其中对应的百度百科InfoBox源代码如下图，代码中基础知识可以参考我前面的博文或我的Python爬虫专利，Selenium不仅仅擅长做自动测试，同样适合做简单的爬虫。

编码问题

此时你仍然可能遇到“'ascii' codec can't encode characters”编码问题。

它是因为你创建txt文件时默认是ascii格式，此时你的文字确实'utf-8'格式，所以需要转换通过如下方法。

import codecs  #用codecs提供的open方法来指定打开的文件的语言编码,它会在读取的时候自动转换为内部unicode  
if not os.path.exists(baiduFile):    info = codecs.open(baiduFile,'w','utf-8')    
else:    info = codecs.open(baiduFile,'a','utf-8')  #该方法不是io故换行是'\r\n'  
info.writelines(key.text+":"+elem_dic[key].text+'\r\n')

总结

你可以代码中学习基本的自动化爬虫方法、同时可以学会如何通过for循环显示key-value键值对，对应的就是显示的属性和属性值，通过如下代码实现：

 elem_dic = dict(zip(elem_name,elem_value))

但最后的输出结果不是infobox中的顺序，why?
最后希望文章对你有所帮助，还有一篇基础介绍文章，

查看全文

http://www.dt0577.cn/news/6600.html

每月网站流量seo整站优化报价

辛集城乡建设管理局网站谷歌浏览器官网入口

随州市住房和城乡建设委员会网站可以做产品推广的软件有哪些

深圳网站建设制作品牌公司培训行业seo整站优化

怎样免费自己做网站视频优化网站标题名词解释

两个网站做的h5如何合在一起网络服务提供商是指

wordpress.html南宁seo外包要求

浏览器上不了网其他都正常seo网站推广收费

哪个网站学做真账比较好seo关键词排名网络公司

网站建设的六个步骤济南seo整站优化厂家

设计logo网站免费奇米网络事件营销

什么网站可以做性格测试培训心得体会怎么写

网站域名解析错误怎么解决google免费入口

怎样做农产品交易平台网站湖南长沙seo教育

网站建设更新维护百度上海推广优化公司

网站免费推广平台有哪些自己怎么创建网站

wordpress+主题+引入js福州百度快速优化排名

上海网站备案办理关键词排名推广公司

网站的市场如何制作学网络营销有用吗

广告公司简称宁波seo公司哪家好

网页给别人做的网站后续收费吗营销策略的概念

做网站买一个域名多少钱企业网站定制

网站建设实践考试试题优化seo设置

源代码

运行结果

对应源码

编码问题

总结

相关文章：