說明:如果您有任何疑問或想咨詢其他業務請撥打電話 400 685 0732
全網監測海量數據按需發布監測預警
實時把握輿情動態精準追溯信息源頭
事先聲明下,本文純屬學術性探討,請勿將采集到的內容用作商業用途。
火車頭,免費版本的已經夠用
Excel,要開啟宏,wps不支持
沒事,你愛用wps,我不會說你Low的。
二、操作方法
1、找呀找評論
顯然,評論的文字內容源代碼中是木有的。
好吧,此刻你需要借助Chrome瀏覽器,Fn+F12。
打開這個鏈接,認真觀察。
你會發現很有趣的兩點:
1)、Url中包含著景點的id;
2)、細細觀察,紅框所示的部分就是評論,當然,需要把unicode轉成漢字。
換句話說,如果你能拿到所有的你需要采集評論的景點的id,你就可以批量把景點對應的評論Url地址拼接出來,然后用火車頭進行采集,可以獲取到這些unicode。
下一步就是怎樣批量的將unicode轉成漢字。
2、將unicode轉成漢字
哈哈,我偉大的excel可以。
打開excel,按alt+F11,然后插入,模板,粘入如下的代碼:
Function ChW(t)
If InStr(t, “\u”) Then
s = Split(t, “\u”)
For i = 0 To UBound(s)
If Len(s(i)) > 3 Then
ChW = ChW & ChrW(“&H” & Left(s(i), 4)) & Mid(s(i), 5)
Else
ChW = ChW & s(i)
End If
Next
Else
For i = 1 To Len(t)
s = AscW(Mid(t, i, 1))
If s > 0 And s < 255 Then
ChW = ChW & Mid(t, i, 1)
Else
ChW = ChW & “\u” & LCase(Hex(s))
End If
Next
End If
End Function
保存,此刻就相當于你人工自定義了一個叫ChW的函數,使用方法類似excel自帶的sum等函數。
A1單元格中放入你采集到的unicode,B1單元格中輸入=ChW(a1)。
怎么樣,是不是大功告成?
來吧,試試看你是不是也可以用火車頭去采集百度或淘寶等的下拉框了?
推薦閱讀
說明:如果您有任何疑問或想咨詢其他業務請撥打電話 400 685 0732