天天色天天操综合,亚洲美女尤物影院,欧美xxxx黑人又粗又长,√8天堂资源地址中文在线

每周一數(shù)丨送你一份國家藥品數(shù)據(jù)(附采集教程)

2019-12-03 13:11:03 瀏覽:6188
采集網(wǎng)址:

https://www.drugfuture.com/cndrug/national.aspx?ApprovalNumber=&ApprovalNumberOld=&NDCNumber=&ProductName=&EnglishName=&TradeName=&Manufacturer=&Dosage=&Form=&Category=&ApprovalDateStart=1970-06-26&ApprovalDateEnd=&Restriction=fuzzy

QQ截圖20191203130546.png

采集目標(biāo):

1. 獲取網(wǎng)站里表格的下全部內(nèi)容

 

2. 內(nèi)容頁采集字段批準(zhǔn)文號、藥品本位碼、產(chǎn)品名稱、生產(chǎn)廠家、產(chǎn)品地址、規(guī)格、劑型、類別、批準(zhǔn)日期。


使用工具:
1. 火車采集器
2. Fidder抓包軟件
采集成果:

QQ截圖20191203130613.png



第一步:打開火車官網(wǎng) www.y7877.com 下載最新版火車采集器并安裝

QQ截圖20191203130637.png

第二步: 確定采集器思路

需要采集的字段都在列表頁中,那么就可以列表頁標(biāo)簽采集。

在桌面瀏覽器中打開可以看到,這個網(wǎng)址中的內(nèi)容分成兩塊,我們今天采集的是上面的這塊,而且點擊下一頁的時候,網(wǎng)址是不變化的,那么就需要抓包獲取真實網(wǎng)址,請求真實網(wǎng)址,在真實網(wǎng)址的源碼中采集。

QQ截圖20191203130658.png


第三步:fiddler抓包分析
可以看出是post類型的網(wǎng)址采集,獲取兩個分頁的數(shù)據(jù)包,對比兩個post值,看看不同的地方,可以用&進(jìn)行分塊查詢分析(一個等于號和一個&中間是一個值)

QQ截圖20191203130725.png

 

分析后



QQ截圖20191203130744.png

第四步:把分析后的數(shù)據(jù)包中對應(yīng)的值填寫到采集器中

QQ截圖20191203130817.png


根據(jù)網(wǎng)頁上的編碼,填寫網(wǎng)頁編碼,post類型采集,一定要填寫網(wǎng)頁編碼:


QQ截圖20191203130834.png


第五步: 現(xiàn)在需要獲取采集的數(shù)據(jù),前面已經(jīng)提到,需要采集的數(shù)據(jù)都是在列表頁中,那么我們就可以想獲取內(nèi)容頁網(wǎng)址一樣,在抓包的post數(shù)據(jù)包的源碼中分析需要獲取的數(shù)據(jù)

QQ截圖20191203130906.png


拼接網(wǎng)址那邊使用的是[標(biāo)簽:批準(zhǔn)文號],實際獲得的內(nèi)容頁網(wǎng)址不是正確的網(wǎng)址(https://www.drugfuture.com/cndrug/國藥準(zhǔn)字H20060422),現(xiàn)在開始測試請求,看采集器是否出現(xiàn)報錯情況


QQ截圖20191203130928.png

第六步: 測試請求報404的錯誤,那么可以在其他設(shè)置中的其他配置,設(shè)置忽略404報錯:

QQ截圖20191203130957.png


使得不正確的內(nèi)容頁網(wǎng)址可以正常請求,因為沒有設(shè)置內(nèi)容頁標(biāo)簽,所以只是請求,不會采集內(nèi)容頁標(biāo)簽,數(shù)據(jù)都在列表頁標(biāo)簽中采集到了。


總結(jié):

采集過程中有的客戶會想到,既然數(shù)據(jù)都在列表頁標(biāo)簽中采集了,那么就不要采集內(nèi)容頁就是了或者直接使用起始頁就是內(nèi)容頁進(jìn)行采集。

第一,因為是post類型的網(wǎng)址,若是用內(nèi)容頁采集的話,需要使用插件進(jìn)行處理內(nèi)容頁post,但是使用列表頁post就不用插件了。

第二,可以不采集內(nèi)容頁,只采集網(wǎng)址(就是列表頁),退出編輯任務(wù)窗口,選中任務(wù),只勾選,采網(wǎng)址,其他兩個不勾選,采集結(jié)束后,需要選中任務(wù),右鍵編輯本地數(shù)據(jù),使用sql語句更新語句,更新所有數(shù)據(jù)為已采,這樣才能進(jìn)行發(fā)布數(shù)據(jù).


每周一數(shù)數(shù)據(jù)以及采集規(guī)則領(lǐng)取時間為2019/11/28日發(fā)文后5個工作日內(nèi)。采集規(guī)則涉及到商業(yè)版本功能,建議用戶登錄商業(yè)版本使用此規(guī)則。


數(shù)據(jù)領(lǐng)取資格:火車采集器/火車瀏覽器/觸控精靈商業(yè)版軟件用戶(服務(wù)年限內(nèi)),如果您不是商業(yè)用戶或者已經(jīng)過了服務(wù)年限,但也想?yún)⑴c活動的話,可以新購軟件或者升級續(xù)費(fèi),這樣就能參與活動啦!


數(shù)據(jù)領(lǐng)取方式:

第一步:掃碼添加火車運(yùn)營微信號,火車運(yùn)營助手會拉你進(jìn)入活動群。

微信圖片_20191024173419.jpg


第二步:進(jìn)群后添加數(shù)據(jù)咨詢客服.雅的微信號,經(jīng)客服驗證為服務(wù)年限內(nèi)商業(yè)用戶身份后,即可領(lǐng)取。


好啦,本期的“每周一數(shù)”就到這里了。如果您還有想要獲取更多的數(shù)據(jù)資源以及采集器規(guī)則的話,可以在文章下方或是公眾號后臺留言,小采會綜合大家的意見選擇下一期贈送數(shù)據(jù)的主題哦!



每周一數(shù)丨生病如何快速確定病因并及時治療?小采送你一份健康數(shù)據(jù)(附帶教程)

速看|火車采集器V9.11版本更新

旅游網(wǎng)站數(shù)據(jù)爬?。ㄙ浰蛿?shù)據(jù)+規(guī)則)

雙十一優(yōu)惠券采集(附送數(shù)據(jù)+規(guī)則)

觸控精靈功能講解之微信通訊錄的備份

觸控精靈實戰(zhàn)教程——微信公眾號文章的采集與發(fā)布

觸控精靈實戰(zhàn)教程——網(wǎng)站發(fā)布篇



掃碼關(guān)注微信
主站蜘蛛池模板: 郯城县| 孝昌县| 洛阳市| 文成县| 武穴市| 康定县| 绿春县| 揭东县| 博客| 孟州市| 尼玛县| 新沂市| 诸暨市| 余姚市| 定安县| 阿鲁科尔沁旗| 平和县| 徐州市| 迁安市| 法库县| 新宾| 云阳县| 醴陵市| 上饶市| 大庆市| 吉木乃县| 迭部县| 洛浦县| 慈溪市| 达日县| 桦甸市| 扎囊县| 英山县| 扬中市| 德令哈市| 阳朔县| 江达县| 伊宁市| 郑州市| 读书| 偏关县|