保存模板可引用的數(shù)據(jù)
#網(wǎng)址#采集的原始網(wǎng)址
#標(biāo)題#網(wǎng)址對(duì)應(yīng)的網(wǎng)頁(yè)標(biāo)題
#描述#網(wǎng)頁(yè)標(biāo)題下面的一段描述文字
#域名#原始網(wǎng)址的域名部分,如“http://test.shuimiao.net/123.htm”中的“test.shuimiao.net”
#頂級(jí)域名#取原始網(wǎng)址的頂級(jí)域名部分,如“http://test.shuimiao.net/123.htm”中的“shuimiao.net”
常見(jiàn)問(wèn)題
一、不同批次關(guān)鍵詞采集的結(jié)果為什么會(huì)存在部分網(wǎng)址重復(fù)?尤其是只引用了 #域名# 或 #頂級(jí)域名# 之后,這種部分網(wǎng)址重復(fù)的情況比較多。這也是正常的,因?yàn)槊總€(gè)網(wǎng)站的內(nèi)頁(yè)可能包含很多主題,不同關(guān)鍵詞都可能采集到該網(wǎng)站的不同內(nèi)頁(yè),當(dāng)引用域名后,相同網(wǎng)站的不同內(nèi)頁(yè)的域名結(jié)果自然就相同了。
二、為什么采集回來(lái)的網(wǎng)址的主題與關(guān)鍵詞不符?
是因?yàn)橐昧?#域名# 或 #頂級(jí)域名# 后,取的是域名部分,域名打開(kāi)的是該網(wǎng)站的首頁(yè),而采集的原網(wǎng)址可能不是首頁(yè),而是該網(wǎng)站的某一篇文章的內(nèi)頁(yè),該內(nèi)頁(yè)包含關(guān)鍵詞主題,因此被搜索引擎收錄,軟件才能采集得到。但取域名后,你打開(kāi)的域名首頁(yè)就不一定包含該關(guān)鍵詞。
為了比對(duì)采集是否正確,可以在保存模板里輸入:<a href="#網(wǎng)址#" target="_blank">#標(biāo)題#</a>,保存為htm文件,采集完后可以自己打開(kāi)該文件查看比對(duì)。
三、為什么采集一段時(shí)間之后,無(wú)法采集?
這可能采集多了被搜索引擎限制。一般換個(gè)IP(如使用VPN換IP)即可繼續(xù)采集,如果不換,只能等待搜索引擎取消屏蔽之后才能繼續(xù)采集。百度的屏蔽時(shí)間通常半小時(shí)到數(shù)小時(shí)。
不過(guò),現(xiàn)在即使出現(xiàn)驗(yàn)證碼屏蔽,軟件也會(huì)彈出驗(yàn)證碼手動(dòng)輸入的(百度、谷歌)