亚洲中文字幕久在线,中文字幕亚洲精品,亚洲精品中文字幕无码AV

怎么將查詢到的網站后臺數據用最方便的方式導出?

來源：千鋒教育

發布人：xqq

時間： 2023-10-14 15:38:15

一、怎么將查詢到的網站后臺數據用最方便的方式導出

網頁下載

為了能夠下載數據并快速批量搜索數據庫中的內容，用python寫一段代碼，用于自動下載網頁文件并導出需要數據到Excel。觀察后發現，網頁鏈接是由前綴和數字組成的形如，https://xxxx./xxxxx.php?id=num,所以，將通過循環語句來完成下載。

import urllib.request#導入插件

#定義函數讀取鏈接

def getHtml(url):

??? html = urllib.request.urlopen(url).read() #調用urllib讀取鏈接

??? return html

#定義函數保存網頁

def saveHtml(file_name, file_content):

??? #注意windows文件命名的禁用符，比如 /

??? with open(file_name.replace(‘/’, ‘_’) + “.html”, “wb”) as f:

??????? #寫文件用bytes而不是str，所以要轉碼

??????? f.write(file_content)

#設定參數i，i為需要下載的網頁數量

i = 1

for i in range(1,707):

??? aurl = “https://xxxx/xxxx.php?id=” + str(i) #組合形成網頁url

??? html = getHtml(aurl)#調用函數讀取鏈接到html字符串

??? name = “文件” + str(i)#組合形成文件名

??? saveHtml(name, html)#調用函數保存下載鏈接

??? i += 1

print(‘下載成功’)

網頁內容分析

網頁共700個，網頁下載下來后，需要進行數據分析提取。為了便于篩選和對比，我決定導出到excel比較方便。

根據分析網頁內容，發現需要提取的內容都是被td標簽所標記的，并且數值總在參量名的下一項，如下所示。

??? 軟磁性能

??????????????????????? 有效磁導率

??????????????????????? 11.00

???????????????????????

所以，我決定調用bs4和pandas庫來完成這項工作。

from bs4 import BeautifulSoup

import lxml

import requests

import pandas as pd

import numpy as np

#定義讀取網頁文件的函數

def read_html(path):?????????? #讀取單個html到pd

??? htmlfile = open(path, ‘r’, encoding=’utf-8′)#打開地址所在的網頁文件

??? htmlhandle = htmlfile.read()#讀取該網頁文件全文到htmlhandle

??? soup = BeautifulSoup(htmlhandle, ‘lxml’)#調用BeautifulSoup讀取網頁標簽內容

??? td_list = soup.find_all(‘td’)? # 找到所有td標簽

??? #創建三個列表，temporary是臨時列表，result是用來存放帶有td標簽內容的列表，final是我們最終導出的列表

??? result = []

??? final = []

??? temporary = []

??? #將所有的td標簽中的值導入result列表中

??? for d in td_list:

??????? #print(d.string)#實時輸出讀取的值

??????? result.append(d.string) #實時將值保存到列表

??? print(len(result)) #輸出result項目數

??? t = 0#創建順序參量t，確保所有標簽都被遍歷

??? for t in range(len(result)):

??????? if? result[t] != None:#確保標簽不是空，防止程序報錯

?????????? if? result[t] == ‘類型’:#比對標簽內容，如果相同就打印下一項（參數）

??????????????? print(result[t+1])

??????????????? temporary.append(result[t+1])#將下一項添加到臨時列表的最后

??? #如果臨時列表不為零，則將臨時列表的內容添加到final列表，否則就在final列表中添加‘無’，確保最終參數順序不會錯

??? if len(temporary) != 0:

??????? final.extend(temporary)

??? else:

??????? final.append(‘無’)

??? t = 0

??? temporary = []#將臨時列表清零

??? for t in range(len(result)):

??????? if? result[t] != None:

?????????? if? result[t] == ‘成份配比’:

??????????????? print(result[t+1])

??????????????? temporary.append(result[t+1])

??? if len(temporary) != 0:

??????? final.extend(temporary)

??? else:

??????? final.append(‘無’)

??? t = 0

??? temporary = []

??? for t in range(len(result)):

??????? if? result[t] != None:

?????????? if? result[t] == ‘飽和磁感應強度(T)’:

??????????????? print(result[t+1]+’T’)

????????? ??????temporary.append(result[t+1]+’T’)

??? if len(temporary) != 0:

??????? final.extend(temporary)

??? else:

??????? final.append(‘無’)

??? t = 0

??? temporary = []

??? for t in range(len(result)):

??????? if? result[t] != None:

?????????? if? result[t] == ‘矯頑力’:

??????????????? print(result[t+1]+’A/m’)

??????????????? temporary.append(result[t+1]+’A/m’)

??? if len(temporary) != 0:

??????? final.extend(temporary)

??? else:

??????? final.append(‘無’)

??? t = 0

??? temporary = []

??? for t in range(len(result)):

??????? if? result[t] != None:

?????????? if? result[t] == ‘有效磁導率’:

??????????????? print(result[t+1])

??????????????? temporary.append(result[t+1])

??? if len(temporary) != 0:

??????? final.extend(temporary)

??? else:

??????? final.append(‘無’)

??? t = 0

??? temporary = []

??? for t in range(len(result)):

??????? if? result[t] != None:

?????????? if? result[t] == ‘熱處理溫度’:

??????????????? print(result[t+1])

??????????????? temporary.append(result[t+1]+’℃’)

??? if len(temporary) != 0:

??????? final.extend(temporary)

??? else:

??????? final.append(‘無’)

??? t = 0

??? temporary = []

??? for t in range(len(result)):

??????? if? result[t] != None:

?????????? if? result[t] == ‘熱處理時間’:

??????????????? print(result[t+1])

?? ?????????????temporary.append(result[t+1]+’min’)

??? if len(temporary) != 0:

??????? final.extend(temporary)

??? else:

??????? final.append(‘無’)

??? t = 0

??? temporary = []

??? for t in range(len(result)):

??????? if? result[t] != None:

?????????? if? result[t] == ‘出處’:

??????????????? print(result[t+1])

??????????????? temporary.append(result[t+1])

??? if len(temporary) != 0:

??????? final.extend(temporary)

??? else:

??????? final.append(‘無’)

??? df = pd.DataFrame(final)#將final轉化為panda數據幀

??? return df???????????????????? #返回參數

path = ‘./文件1.html’#初始文件路徑

df1 = read_html(path)??????????????? #調用函數

number = 700#需要讀取的文件數目

for i in range(2,number):#循環讀取余下文件，其中組合參數名使用locals()函數來創建

??? path = “./文件” + str(i) +”.html”

??? locals()[‘df’+str(i)]= read_html(path)#循環創造dfn函數

??? i += 1

writer = pd.ExcelWriter(‘./stat.xlsx’, engine=’xlsxwriter’) #創建excel文件,注意路徑中的數/,與windows中的\不同

df1.to_excel(writer, sheet_name=’Sheet1′)? # 起始寫入位置, A1列.

for i in range(2,number):#利用local()批量調用剛才創建的函數

??? locals()[‘df’+str(i)].to_excel(writer, sheet_name=’Sheet1’, startcol=i,index=None,header=True)

??? i += 1

writer.save() #保存文件

print(“全部信息爬取完畢，請查看Excel文件”)

延伸閱讀：

二、應用架構是什么

應用架構（Application Architecture）是描述了IT系統功能和技術實現的內容。應用架構分為以下兩個不同的層次：

企業級的應用架構：企業層面的應用架構起到了統一規劃、承上啟下的作用，向上承接了企業戰略發展方向和業務模式，向下規劃和指導企業各個IT系統的定位和功能。在企業架構中，應用架構是最重要和工作量最大的部分，他包括了企業的應用架構藍圖、架構標準/原則、系統的邊界和定義、系統間的關聯關系等方面的內容。單個系統的應用架構：在開發或設計單一IT系統時，設計系統的主要模塊和功能點，系統技術實現是從前端展示到業務處理邏輯，到后臺數據是如何架構的。這方面的工作一般屬于項目組，而不是企業架構的范疇，不過各個系統的架構設計需要遵循企業總體應用架構原則。

聲明：本站稿件版權均屬千鋒教育所有，未經許可不得擅自轉載。