• <del id="a8uas"></del>
    • 千鋒教育-做有情懷、有良心、有品質的職業教育機構

      400-811-9990
      手機站
      千鋒教育

      千鋒學習站 | 隨時隨地免費學

      千鋒教育

      掃一掃進入千鋒手機站

      領取全套視頻
      千鋒教育

      關注千鋒學習站小程序
      隨時隨地免費學習課程

      上海
      • 北京
      • 鄭州
      • 武漢
      • 成都
      • 西安
      • 沈陽
      • 廣州
      • 南京
      • 深圳
      • 大連
      • 青島
      • 杭州
      • 重慶
      當前位置:合肥千鋒IT培訓  >  技術干貨  >  怎么將查詢到的網站后臺數據用最方便的方式導出?

      怎么將查詢到的網站后臺數據用最方便的方式導出?

      來源:千鋒教育
      發布人:xqq
      時間: 2023-10-14 15:38:15

      一、怎么將查詢到的網站后臺數據用最方便的方式導出

      網頁下載

      為了能夠下載數據并快速批量搜索數據庫中的內容,用python寫一段代碼,用于自動下載網頁文件并導出需要數據到Excel。觀察后發現,網頁鏈接是由前綴和數字組成的形如,https://xxxx./xxxxx.php?id=num,所以,將通過循環語句來完成下載。

      import urllib.request#導入插件

      #定義函數讀取鏈接

      def getHtml(url):

      ??? html = urllib.request.urlopen(url).read() #調用urllib讀取鏈接

      ??? return html

      ?

      #定義函數保存網頁

      def saveHtml(file_name, file_content):

      ??? #注意windows文件命名的禁用符,比如 /

      ??? with open(file_name.replace(‘/’, ‘_’) + “.html”, “wb”) as f:

      ??????? #寫文件用bytes而不是str,所以要轉碼

      ??????? f.write(file_content)

      ?

      #設定參數i,i為需要下載的網頁數量

      i = 1

      for i in range(1,707):

      ??? aurl = “https://xxxx/xxxx.php?id=” + str(i) #組合形成網頁url

      ??? html = getHtml(aurl)#調用函數讀取鏈接到html字符串

      ??? name = “文件” + str(i)#組合形成文件名

      ??? saveHtml(name, html)#調用函數保存下載鏈接

      ??? i += 1

      ?

      print(‘下載成功’)

      網頁內容分析

      網頁共700個,網頁下載下來后,需要進行數據分析提取。為了便于篩選和對比,我決定導出到excel比較方便。

      根據分析網頁內容,發現需要提取的內容都是被td標簽所標記的,并且數值總在參量名的下一項,如下所示。

      ??? 軟磁性能

      ??????????????????????? 有效磁導率

      ??????????????????????? 11.00

      ???????????????????????

      所以,我決定調用bs4和pandas庫來完成這項工作。

      ?

      from bs4 import BeautifulSoup

      import lxml

      import requests

      import pandas as pd

      import numpy as np

      ?

      #定義讀取網頁文件的函數

      def read_html(path):?????????? #讀取單個html到pd

      ??? htmlfile = open(path, ‘r’, encoding=’utf-8′)#打開地址所在的網頁文件

      ??? htmlhandle = htmlfile.read()#讀取該網頁文件全文到htmlhandle

      ??? soup = BeautifulSoup(htmlhandle, ‘lxml’)#調用BeautifulSoup讀取網頁標簽內容

      ??? td_list = soup.find_all(‘td’)? # 找到所有td標簽

      ??? #創建三個列表,temporary是臨時列表,result是用來存放帶有td標簽內容的列表,final是我們最終導出的列表

      ??? result = []

      ??? final = []

      ??? temporary = []

      ??? #將所有的td標簽中的值導入result列表中

      ??? for d in td_list:

      ??????? #print(d.string)#實時輸出讀取的值

      ??????? result.append(d.string) #實時將值保存到列表

      ?

      ??? print(len(result)) #輸出result項目數

      ??? t = 0#創建順序參量t,確保所有標簽都被遍歷

      ??? for t in range(len(result)):

      ??????? if? result[t] != None:#確保標簽不是空,防止程序報錯

      ?????????? if? result[t] == ‘類型’:#比對標簽內容,如果相同就打印下一項(參數)

      ??????????????? print(result[t+1])

      ??????????????? temporary.append(result[t+1])#將下一項添加到臨時列表的最后

      ??? #如果臨時列表不為零,則將臨時列表的內容添加到final列表,否則就在final列表中添加‘無’,確保最終參數順序不會錯

      ??? if len(temporary) != 0:

      ??????? final.extend(temporary)

      ??? else:

      ??????? final.append(‘無’)

      ?

      ??? t = 0

      ??? temporary = []#將臨時列表清零

      ??? for t in range(len(result)):

      ??????? if? result[t] != None:

      ?????????? if? result[t] == ‘成份配比’:

      ??????????????? print(result[t+1])

      ??????????????? temporary.append(result[t+1])

      ??? if len(temporary) != 0:

      ??????? final.extend(temporary)

      ??? else:

      ??????? final.append(‘無’)

      ??? t = 0

      ??? temporary = []

      ??? for t in range(len(result)):

      ??????? if? result[t] != None:

      ?????????? if? result[t] == ‘飽和磁感應強度(T)’:

      ??????????????? print(result[t+1]+’T’)

      ????????? ??????temporary.append(result[t+1]+’T’)

      ??? if len(temporary) != 0:

      ??????? final.extend(temporary)

      ??? else:

      ??????? final.append(‘無’)

      ?

      ??? t = 0

      ??? temporary = []

      ??? for t in range(len(result)):

      ??????? if? result[t] != None:

      ?????????? if? result[t] == ‘矯頑力’:

      ??????????????? print(result[t+1]+’A/m’)

      ??????????????? temporary.append(result[t+1]+’A/m’)

      ??? if len(temporary) != 0:

      ??????? final.extend(temporary)

      ??? else:

      ??????? final.append(‘無’)

      ?

      ??? t = 0

      ??? temporary = []

      ??? for t in range(len(result)):

      ??????? if? result[t] != None:

      ?????????? if? result[t] == ‘有效磁導率’:

      ??????????????? print(result[t+1])

      ??????????????? temporary.append(result[t+1])

      ??? if len(temporary) != 0:

      ??????? final.extend(temporary)

      ??? else:

      ??????? final.append(‘無’)

      ?

      ??? t = 0

      ??? temporary = []

      ??? for t in range(len(result)):

      ??????? if? result[t] != None:

      ?????????? if? result[t] == ‘熱處理溫度’:

      ??????????????? print(result[t+1])

      ??????????????? temporary.append(result[t+1]+’℃’)

      ??? if len(temporary) != 0:

      ??????? final.extend(temporary)

      ??? else:

      ??????? final.append(‘無’)

      ?

      ??? t = 0

      ??? temporary = []

      ??? for t in range(len(result)):

      ??????? if? result[t] != None:

      ?????????? if? result[t] == ‘熱處理時間’:

      ??????????????? print(result[t+1])

      ?? ?????????????temporary.append(result[t+1]+’min’)

      ??? if len(temporary) != 0:

      ??????? final.extend(temporary)

      ??? else:

      ??????? final.append(‘無’)

      ?

      ??? t = 0

      ??? temporary = []

      ??? for t in range(len(result)):

      ??????? if? result[t] != None:

      ?????????? if? result[t] == ‘出處’:

      ??????????????? print(result[t+1])

      ??????????????? temporary.append(result[t+1])

      ??? if len(temporary) != 0:

      ??????? final.extend(temporary)

      ??? else:

      ??????? final.append(‘無’)

      ?

      ?

      ??? df = pd.DataFrame(final)#將final轉化為panda數據幀

      ??? return df???????????????????? #返回參數

      ?

      ?

      path = ‘./文件1.html’#初始文件路徑

      df1 = read_html(path)??????????????? #調用函數

      ?

      number = 700#需要讀取的文件數目

      ?

      for i in range(2,number):#循環讀取余下文件,其中組合參數名使用locals()函數來創建

      ??? path = “./文件” + str(i) +”.html”

      ??? locals()[‘df’+str(i)]= read_html(path)#循環創造dfn函數

      ??? i += 1

      ?

      writer = pd.ExcelWriter(‘./stat.xlsx’, engine=’xlsxwriter’) #創建excel文件,注意路徑中的數/,與windows中的\不同

      ?

      df1.to_excel(writer, sheet_name=’Sheet1′)? # 起始寫入位置, A1列.

      ?

      for i in range(2,number):#利用local()批量調用剛才創建的函數

      ??? locals()[‘df’+str(i)].to_excel(writer, sheet_name=’Sheet1’, startcol=i,index=None,header=True)

      ??? i += 1

      ?

      writer.save() #保存文件

      ?

      print(“全部信息爬取完畢,請查看Excel文件”)

      延伸閱讀:

      二、應用架構是什么

      應用架構(Application Architecture)是描述了IT系統功能和技術實現的內容。應用架構分為以下兩個不同的層次:

      企業級的應用架構:企業層面的應用架構起到了統一規劃、承上啟下的作用,向上承接了企業戰略發展方向和業務模式,向下規劃和指導企業各個IT系統的定位和功能。在企業架構中,應用架構是最重要和工作量最大的部分,他包括了企業的應用架構藍圖、架構標準/原則、系統的邊界和定義、系統間的關聯關系等方面的內容。單個系統的應用架構:在開發或設計單一IT系統時,設計系統的主要模塊和功能點,系統技術實現是從前端展示到業務處理邏輯,到后臺數據是如何架構的。這方面的工作一般屬于項目組,而不是企業架構的范疇,不過各個系統的架構設計需要遵循企業總體應用架構原則。
      聲明:本站稿件版權均屬千鋒教育所有,未經許可不得擅自轉載。

      猜你喜歡LIKE

      Hbase適合存哪些數據?

      2023-10-14

      什么是采購管理?

      2023-10-14

      什么是ai算法?

      2023-10-14

      最新文章NEW

      linux系統中的安全設置有哪些?

      2023-10-14

      golp是什么設備?

      2023-10-14

      app的啟動流程都包括哪些步驟?

      2023-10-14

      相關推薦HOT

      更多>>

      快速通道 更多>>

      最新開班信息 更多>>

      網友熱搜 更多>>