各位大大好小弟用linux 的wget 指令 下載 pubchem 中的檔案他給的網址如下://pubchem.ncbi.nlm.nih.gov/summary/summary.cgi?cid=40225210&disopt=SaveSDF如此下載出來的檔案不是我要的檔案 而是一個網頁的原始碼 (我猜的)因此我猜可能有轉址到別的地方要如何才能知道正確位址用wget下載檔案呢謝謝 2011-10-28 08:31:18 補充 Dear ayu謝謝你的意見其實我是沒有甚麼特殊要求啦我是一個新手~會的東西不多~只知道wget可以抓然後我有一個檔案 裡面有一堆 ID 要抓它的 檔案想說如果寫一個 script 讓電腦讀 ID 然後直接幫我抓檔案如此省時又省力 或是您有其他的方法或指令可以使用呢謝謝您 2011-10-31 07:24:37 補充 Dear ayu謝謝您的意見 我會試一下您提供的指令這些檔案是一些小分子的化學結構資訊~有2D也有3D的~ 2011-11-01 11:04:12 補充 Dear ylongg謝謝您的回答我剛剛試過了確實可以得到我要的檔案真的很謝謝您不果我還是有些問題 想請教您我要如何知道這個header是甚麼呢??要怎麼找這些header還有就是下載回來的檔案,檔名是 "summary,cgi?cid=40225210&disopt=SaveSDF" 我要怎麼改,可以下載的檔名為"40225210.sdf"就好呢!?再次謝謝您 2011-11-04 15:14:24 補充 Dear ylongg謝謝您的回答很不好意思想在請問一下您說的這個工具要怎麼使用呢??我打開之後~就不知道要怎麼輸入我要的網址了耶?!@對不起可否麻煩您再給的提示謝謝您 http://ivip999.com 網友票選 ylongg ( 初學者 5 級 ) 回答時間: 2011-10-29 23:10:22 [ 檢舉 ] 這個網址似乎會檢查很多 header, 用 wget 加上瀏覽器會傳的 header 後就可以取得和瀏覽器下載一樣的文字檔, 你試試看下面這個.wget --user-agent="Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0)" --header="Host: pubchem.ncbi.nlm.nih.gov" --header="Accept: text/html,application/xhtml xml,application/xml;q=0.9,*/*;q=0.8" --header="Accept-Language: zh-TW" --header="Accept-Encoding: gzip,deflate" --header="Accept-Charset: UTF-8,*" --header="Keep-Alive: 115" "://pubchem.ncbi.nlm.nih.gov/summary/summary.cgi?cid=40225210&disopt=SaveSDF" 2011-11-01 20:21:34 補充 改下載檔名可用 -O 40225210.sdf至於查看 header, 我是設定 proxy server 抓下來看的. 較簡單的辦法是利用網路上現成的工具, 譬如開啟 ://www.ericgiguere.com/tools/-header-viewer.html它會顯示你的瀏覽器送出的 header. 2011-11-04 22:07:47 補充 那工具只是用來顯示瀏覽器送出的 header, 拿去當做 wget 的參數傳過去而已.不是要透過它下載. 相關詞: pubchem,wget,linux,轉址,ncbi.nlm.nih,quot,檔案,下載,各位大大,cid [ 快速連結 ] 其它回答( 0 ) | 意見( 3 ) | 評論( 0 ) 發表你的評價 你的評價 加入追蹤 轉寄朋友 友善列印 看另一則問題 馬上按讚加入Yahoo!奇摩知識+粉絲團 多益700分線上測驗題庫 免費下載空姐英文教戰手冊 3分鐘立即測你的英文力! 如何不背單字學好英文? 闖過英文面試關祕笈公開! 上班族不可不知的職場秘密 相關問答 [ 防癌抗癌 ] 有關藥物的詳細資料 [ 化學 ] 關於化學命名(butanestannonic acid) [ 英文 ] 請幫個忙~翻譯以下內容(英翻中) [ 化學 ] C11H16結構圖 [ 化學 ] 化學結構是怎麼畫?? [ 化學 ] 二氯甲烷,和四氯化碳的物性及化性之比較 更多 其他回答(0) 意見(3) 相關評論(0) 目前沒有資料 001 意見者: ayu ( 研究生 4 級 ) 擅長領域: 連線通訊 | 網站架設 發表時間: 2011-10-28 01:10:41 [ 檢舉 ] wget只能用在已知確定位置的URL上喔,你說的網址, 需要 cgi 程式處理過後(比方說資料庫), 才能回應給你的.原則上應該還是要由browser送出這個request, 對方處理完後再問你要如何處理(開啟/儲存/取消...等).如果一定要用命令模式, 可以用 links (ELinks) 這個程式.為何一定要用 wget 去抓 pubchem 的檔呢? 有特別的理由或需求嗎? 002 意見者: ayu ( 研究生 4 級 ) 擅長領域: 連線通訊 | 網站架設 發表時間: 2011-10-29 07:45:27 [ 檢舉 ] 果然是為了批次抓檔啊.我後來再查了wget指令, 加上幾個參數後, 或許可以達到你的需求.wget -S -d --no-check-certificate -O 40225210.sdf "://pubchem.ncbi.nlm.nih.gov/summary/summary.cgi?cid=40225210&disopt=SaveSDF"40225210.sdf 可以改成你要的檔名.我比較推薦的方式是在 windows 環境下用多線程下載軟體,把你要下載的清單列在一個文字檔裡, 再把它匯進去批次下載. 003 意見者: ayu ( 研究生 4 級 ) 擅長領域: 連線通訊 | 網站架設 發表時間: 2011-10-29 07:47:46 [ 檢舉 ] 我試過 Net Transport 可以, 檔名會自動幫你處理好免操心.又如果你要抓的 pubchem 檔案超級多, 我會建議直接去他們的 ftp 下載,抓回來解壓縮之後再另行處理, 因為 cgi 程式比較耗資源,處理數量很多的話會影響他們網站的運作效能喔.請問這是生化還是醫藥的資料啊? 是2D/3D的化學式結構模組數據嗎? 1 發表意見
全站熱搜
留言列表