ในขณะที่กำลังกักตัวอยู่ในสถานการณ์ไวรัสโคโรน่าระบาด ผมได้เข้าคอร์สเรียนออนไลน์ไปหลายวิชา เพื่อใช้เวลาว่างให้เป็นประโยชน์ ค่าหน่วยกิตแต่ละวิชาค่อนข้างจะกระเทือนไตพอสมควร ไม่มีคอร์สไหนต่ำกว่าพันห้าร้อยบาท จะลองคอร์ส AI/Big Data ก็ประมาณหมื่นกว่าบาทได้แต่ถอยกรูดๆ
ผมได้ตระเวนไปดูบทความของท่านอื่นที่เกี่ยวข้องกับโปรแกรมมิ่งพบหลายๆเว็บนำเสนอการดึงข้อมูลของไวรัสโคโรน่าด้วยโค้ดไพทอน ผมเห็นว่าน่าสนใจสำหรับนักศึกษาที่กำลังศึกษาไพทอน ผมเลยประมวลผลคือจับโค้ดจากหลายๆเว็บมายำรวมมิตรกัน ผลลัพธ์ก็ได้อย่างที่กำลังจะติดตามกันต่อไป อาจจะไม่ลึกมากแต่ก็เป็นพื้นฐานโดยเฉพาะคนที่กำลังสนใจด้าน Data Science
ตอนนี้แต่ละคนใจคงจดจ่ออยู่ที่ว่าพื้นที่หรือประเทศตัวเองอยู่นั้นมีการระบาดของไวรัสเป็นอย่างไร มาลองดูประมวลผลข้อมูลพื้นฐาน เราจะดึงข้อมูลจำนวนผู้ติดเชื้อ จำนวนคนที่รักษาหาย หรือจำนวนผู้ตายแบบออนไลน์จากฐานข้อมูลที่มีคนอัพโหลดไปไว้ตาม Github หรือเป็นเว็บไซต์ต่างๆ ที่มีการอัพเอทอยู่ตลอดเวลา
ภาษาที่ใช้เขียนโค้ดจะใช้ไพทอน โดยใช้ไลบรารีที่ใช้คือ pandas สุดยอดแห่งไลบรารีในโลกของ Data Science & Data Analysis ที่ส่งผลให้ไพทอนกลายเป็นภาษาอันดับหนึ่งของโลกแซงนำหน้าจาวา (Java) มาเป็นที่เรียบร้อย ส่วนการนำเสนอกราฟหรือผลงานจะใช้ไลบรารี matplotlib ซึ่งงานนำเสนองานประมวลผลให้เห็นเป็นรูปธรรมเรียกว่า Data Visualization
ทำไมต้องไลบรารี pandas
ก่อนจะไปต่อ ผมขอพูดถึง pandas ก่อนว่าทำไมในโลกของ Data Science & Data Analysis ถึงเป็นนิยมกันมาก คำสั้นๆที่นิยามคือ เร็ว แรง ยืดหยุ่นด้วยโครงสร้างข้อมูลที่รองรับอันหลากหลาย มีฟังก์ชันที่ใช้คำนวณประมูลผลข้อมูลที่มากมายและครอบคลุม
ในขณะเดียวกัน pandas ได้ห่อหุ้มฟังก์ชั่น matplotlib มาด้วย ทำให้สามารถนำเสนอผลการประมวลผลได้ทันที รวดเร็ว ถูกต้อง สวยงาม
การเริ่มต้นต้องเริ่มต้นด้วยการติดตั้งไพทอนแต่ผมจะไม่กล่าวในที่นี้เพราะเคยเขียนไปแล้ว ผมจะเริ่มต้นตั้งแต่การสร้างสภาวะแวดล้อม (environment) เพื่อแยกโลกให้กับไพทอนสำหรับการประมวลผล data science ด้วย pandas นี้ ถ้าไม่แยกไพทอนและไลบรารีที่เราติดตั้งจะมารวมกองกันไว้อยู่ที่เดียว ถ้าเกิดการใช้งานต้องการเวอร์ชันไพทอนหรือไลบรารีที่ต่างกันจะทำไม่ได้เลย จะปนกันนัวเนีย
ความจริงการสร้างสภาวะแวดล้อมนั้นทางเลือกสามารถใช้งาน Anaconda หรือ Miniconda ที่มีความสามารถมากกว่า ซึ่งสามารถอ่านบทความเก่าผมได้เคยนำเสนอมาแล้ว
สร้างสภาวะแวดล้อมด้วยโมดูล venv
เปิด command prompt ของวินโดส์มา ซึ่งโฟลเดอร์ที่เริ่มต้นจะเป็น home ของผู้ใช้อยู่แล้ว เราจะสร้างโฟลเดอร์ให้ไพทอนที่นี่ ป้อนคำสั่งที่ command prompt
python -m venv dana-env
รูปด้านล่างแสดงตัวอย่างจากเครื่องผมที่สร้าง env ชือ dana-env (dana: data analysis)
คำสั่งนี้จะสร้างโฟลเดอร์ชื่อ dana-env ให้ ถ้าลองเปิด File Explorer จะเห็นโฟลเดอร์เพิ่มมาดังนี้
ต่อไปเราจะใช้ pip ในการโหลดไลบรารี pandas, matplotlib แต่ก่อนอื่นอัพเดทโมดูล pip ให้ทันสมัยก่อน แล้วตามด้วยการติดตั้ง pandas ผ่าน pip ตามด้วย matplotlib การติดตั้ง pip จะดึงไฟล์ wheel มาทำการติดตั้งให้ หมายเหตุการติดตั้ง pandas จะติดตั้งไลบรารี numpy มาให้อัตโนมัติ
python -m pip install --upgrade pip
pip install pandas
pip install matplotlib
ถ้าเปิดดูโฟลเดอร์ dana-env>lib>site-packages จะเห็นโฟลเดอร์ของไลบรารีที่เราติดตั้งไปแล้วเรียงราย พร้อมจะใช้งานได้แล้ว
ติดตั้ง pyside2 เป็น Backend
เมื่อประมวลผลแล้วการสร้างกราฟด้วย matplotlib จะใช้ backend แล้วแต่ไลบรารีจะหาเจอ อันดับแรกจะมองหา TKinter ในกรณีเครื่องของผมไม่เจอจะ error ผมเลยต้องลง pyside2 แล้วใส่โค้ดบังคับให้ matplotlib ใช้ ติดตั้ง pyside2 ดังนี้
pip install pyside2
โค้ดของไพทอน
เอาละครับ มาดูโค้ดไพทอน ผมจะอธิบายแค่ที่สำคัญ จะเห็นว่าโค้ดไม่เยอะตามสไตล์โค้ดไพทอนคือง่าย สั้นกระชับ ผมตั้งชื่อไฟล์โค้ดนี้ว่า “plot_covid19.py“
import numpy as np
import pandas as pd
import matplotlib
import matplotlib.pyplot as plt
import matplotlib.dates as mdates
import platform
#ตั้งค่า backend ให้ matplotlib เพื่อใช้ pyside2
matplotlib.use('Qt5Agg')
matplotlib.rcParams['backend']='Qt5Agg'
#แหล่งข้อมูลไวรัสโคโรน่าหรือโควิด-19 จากเว็บของ github
baseURL = "https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/"
useThai = True #แก้ไข
country_en = 'Bangladesh' #แก้ไข
country_th = 'บังคลาเทศ' #แก้ไข
fontname = 'Tahoma'
if useThai:
lgend = 'ยอดจำนวนผู้ติดเชื้อสะสม'
lay = 'จำนวนผู้ติดเชื้อ (คน)'
lax = 'วัน'
title = 'ยอดผู้ติดเชื้อสะสม COVID-19 ประเทศ' + country_th
if platform.system() == 'Darwin':
fontname = 'Ayuthaya' #for macos
else:
lgend = 'Cumulative Confirmed Cases'
lay = 'Cases'
lax = 'Date'
title = 'COVID-19 Cumulative Confirmed Cases of ' + country_en
start, stop = '2020-03-07', '2020-04-10' #แก้ไขวันเริ่มต้นวันสิ้นสุดสำหรับการประมวลผล
#โหลดข้อมูลจาก url ยกเลิก(drop)บางคอลัมน์และรวม(melt)บางคอลัมน์
#เติมข้อมูลที่ขาดให้บางคอลัมน์
def loadData(fileName, columnName):
data = pd.read_csv(baseURL + fileName).drop(['Lat', 'Long'], axis=1) \
.melt(id_vars=['Province/State', 'Country/Region'],
var_name='date', value_name=columnName) \
.astype({'date':'datetime64[ns]', columnName:'Int64'}, errors='ignore')
data['Province/State'].fillna('<all>', inplace=True)
data[columnName].fillna(0, inplace=True)
return data
#ดาวน์โหลดไฟล์ทั้งหมด 3 ไฟล์แยกเป็นไฟล์ข้อมูลยอดผู้ติดเชื้อ, ยอดผู้ตายและยอดผู้ที่รักษาหาย
#รวมไฟล์ด้วย merge
df = loadData("time_series_covid19_confirmed_global.csv", "CumConfirmed") \
.merge(loadData("time_series_covid19_deaths_global.csv", "CumDeaths")) \
.merge(loadData("time_series_covid19_recovered_global.csv", "CumRecovered"))
dftemp1 = df['Country/Region'] == country_en #กรองเอาข้อมูลประเทศที่สนใจ
dftemp2 = df['date'] >= np.datetime64(start) #กรองข้อมูลเอาวันเริ่มต้นที่สนใจ
dfcalc = df[dftemp1 & dftemp2] #รวมสองเงื่อนไขการกรองเข้าด้วยกัน
#ใช้ subplots เพื่อเปิดโอกาสให้แก้ไขกราฟและแกนในระดับต่ำลงไปอีก
fig, ax = plt.subplots()
#ตั้ง title หน้าต่างหลัก
fig.canvas.set_window_title('powered by *^_^* python, matplotlib pandas')
#สำหรับการพล็อทกราฟแท่ง ใช้ฟังก์ชั่น ax.bar ดีกว่าใช้ฟังก์ชั่นของ pandas ที่มีปัญหาแก้ไม่ตก
#แกน x เป็นวันที่ แกน y (หรือ height) เป็นข้อมูลยอดผู้ติดเชื้อ ตั้งสี color ตั้งสีขอบ edgecolor
ax.bar(x=dfcalc['date'], height=dfcalc['CumConfirmed'], color='b', edgecolor = 'black')
#สร้างสัญลักษณ์ (legend) ตั้งค่าตัวอักษรด้วย prop
ax.legend([lgend], prop={'family':fontname, 'size':10})
#ตั้งกรอบแกน x ตามวันที่ที่เราตั้งไว้ (วันเริ่มต้นและวันสิ้นสุด)
ax.set_xlim([pd.to_datetime(start), pd.to_datetime(stop)])
#ตั้งขีดใต้แกน x ทุกๆ 3 วัน (แล้วแต่ความเหมาะสม)
ax.xaxis.set_major_locator(mdates.DayLocator(interval=3))
#ตั้งรูปแบบขีดโดยแสดงวันที่ตามรูปแบบ ว-ด-ป
ax.xaxis.set_major_formatter(mdates.DateFormatter('%d-%m-%Y'))
#กระดกตัวอักษรวันที่ให้เอียงเพื่ออ่านง่าย
fig.autofmt_xdate()
#ตั้งหัวเรื่องของกราฟ แสดงอักษรวันที่ตามแกน x และอักษรยอดผู้ติดเชื้อตามแกน y
fig.suptitle(title, fontname=fontname, fontsize=14)
plt.xlabel(lax, fontname=fontname, fontsize=12, color = 'b')
plt.ylabel(lay, fontname=fontname, fontsize=12, color = 'b')
plt.show() #แสดงกราฟบน Backend ในที่นี้ใช้ pyside2
ลองโหลดข้อมูลไฟล์ csv มาตรงๆแล้วเปิดดูด้วย excel หรือ libreoffice calc จะเห็นข้อมูลคอลัมน์เป็นวันที่เรียงออกไปด้านขวาเริ่มตั้งแต่วันที่ 22 มกราคม 2020 เป็นต้นไป มีคอลัมน์ชื่อจังหวัดหรือรัฐ ตามด้วยคอลัมน์ชื่อประเทศและมีคอลัมน์พิกัดภูมิศาสตร์ Lat/Long แสดงตำแหน่งมาด้วยคร่าวๆ
ในโค้ดมีฟังก์ชัน loaddata() จะเห็นโค้ด data = pd.read_csv() คือให้ pandas อ่านข้อมูลออนไลน์ในเว็บรูปแบบไฟล์ csv ด้วยฟังก์ชั่น read_csv() สำคัญมากถ้าเรียน data science โดยใช้ pandas จะเจอเป็นด่านแรกๆ เมื่ออ่านไฟล์ csv มาทั้งดุ้นแล้ว สังเกตว่าในโค้ดจะมี axis=1 คือแทนที่จะอ่านข้อมูลบนลงล่าง (axis=0) จะเป็นการอ่านไปด้านซ้ายไปขวา และจะทำการทิ้งคอลัมน์ Lat/Long ที่ไม่ต้องการด้วยฟังก์ชั่น drop ทำการรวมคอลัมน์ Province/State และ Country/Region เข้าด้วยกันด้วยฟังก์ชั่น melt (เครดิตโค้ดฟังก์ชันนี้ ตามลิ๊งค์นี้)
#โหลดข้อมูลจาก url ยกเลิก(drop)บางคอลัมน์และรวม(melt)บางคอลัมน์
#เติมข้อมูลที่ขาดให้บางคอลัมน์
def loadData(fileName, columnName):
data = pd.read_csv(baseURL + fileName).drop(['Lat', 'Long'], axis=1) \
.melt(id_vars=['Province/State', 'Country/Region'],
var_name='date', value_name=columnName) \
.astype({'date':'datetime64[ns]', columnName:'Int64'}, errors='ignore')
data['Province/State'].fillna('<all>', inplace=True)
data[columnName].fillna(0, inplace=True)
return data
โค้ดเรียกฟังก์ชั่น loadData() จะอยู่ถัดมา ตัวแปร df จะเก็บข้อมูลของไฟล์ 3 ไฟล์รวมข้อมูลยอดรวมผู้ติดเชื้อ ยอดรวมคนตาย ยอดรวมคนที่หายจากไข้ โดยที่ข้อมูลได้จากการอ่านทีละไฟล์และนำมารวมกันด้วยฟังก์ชั่น merge จากนั้นจะเป็นการกรองเพื่อเอาแต่ประเทศที่สนใจและวันเริ่มต้นที่ต้องการ ในตัวอย่างนี้ผมเลือกประเทศบังคลาเทศ วันที่สนใจคือเริ่มวันที่ 2020-03-07 สิ้นสุดวันที่ 2020-04-10 ณ วันที่ประมวลผลตอนนี้คือวันที่ 2020-04-09 (9 เมษายน 2020) รูปแบบข้อมูลคือเป็น Dataframe สำคัญมาก ที่จะนำไปประมวลผลทำ Data Analysis ต่อไป
#ดาวน์โหลดไฟล์ทั้งหมด 3 ไฟล์แยกเป็นไฟล์ข้อมูลยอดผู้ติดเชื้อ, ยอดผู้ตายและยอดผู้ที่รักษาหาย
#รวมไฟล์ด้วย merge
df = loadData("time_series_covid19_confirmed_global.csv", "CumConfirmed") \
.merge(loadData("time_series_covid19_deaths_global.csv", "CumDeaths")) \
.merge(loadData("time_series_covid19_recovered_global.csv", "CumRecovered"))
dftemp1 = df['Country/Region'] == country_en #กรองเอาข้อมูลประเทศที่สนใจ
dftemp2 = df['date'] >= np.datetime64(start) #กรองข้อมูลเอาวันเริ่มต้นที่สนใจ
dfcalc = df[dftemp1 & dftemp2] #รวมสองเงื่อนไขการกรองเข้าด้วยกัน
รูปแบบข้อมูล Dataframe
เมื่อกรองข้อมูลเสร็จแล้วนำไปเก็บที่ตัวแปรถัดไปคือ dfcalc ถ้าดูข้อมูลของ dfcalc จำนวน 20 บรรทัดแรกด้วยคำสั่ง dfcalc.head(20) จะได้ผลลัพธ์ดังข้างล่างนี้ หมายเหตุใช้ IPython (Interactive Python)
จากนั้นสร้างกราฟแท่งด้วย ax.bar() อันนี้เรียกฟังก์ชั่นของ matplotlib โดยตรง ผมพยายามใช้ฟังก์ชั่นสร้างกราฟแท่งจาก pandas คือ dfcalc.plot.bar() แต่มีปัญหา กราฟนะโอเคแต่การเขียนตัวอักษรแสดงวันที่ด้านล่างไปตามแกน x จะทำไม่ได้ (การแก้ไขปัญหานี้ ตามที่ผมไปอ่านมาคือ ลิ๊งค์นี้ เครดิตคุณ SIMONE CENTELLEGHER)
#สำหรับการพล็อทกราฟแท่ง ใช้ฟังก์ชั่น ax.bar ดีกว่าใช้ฟังก์ชั่นของ pandas ที่มีปัญหาแก้ไม่ตก
#แกน x เป็นวันที่ แกน y (หรือ height) เป็นข้อมูลยอดผู้ติดเชื้อ ตั้งสี color ตั้งสีขอบ edgecolor
ax.bar(x=dfcalc['date'], height=dfcalc['CumConfirmed'], color='b', edgecolor = 'black')
โค้ดโดยรวมๆแล้ว ถ้าใครศึกษา pandas มา แล้วง่ายครับ จะมีพลิกแพลงเรื่องการใช้ฟังก์ชั่นกราฟแท่ง ดังที่ผมกล่าวมาแล้ว สุดท้ายแล้วรันโค้ดด้วยคำสั่ง
python plot_covid19.py
ผลลัพธ์
ผลลัพธ์การประมวลผลจะแสดงที่หน้าต่าง backend ของ pyside2 โดยที่เราไม่ต้องออกแรงเขียนอะไร จะมีทูลส์บาร์ด้านบนช่วยในการซูม เลื่อน หรือตั้งค่ากราฟหรือเซฟไฟล์รูปสำหรับไปทำงานอย่างอื่นต่อ
ผมสังเกตว่าในวินโดส์ใช้ฟอนต์ Tahoma นั้นสระลอยคือไม้โทเข้าไปอยู่ในสระอือของคำว่า “เชื้อ” ไม่เข้าใจว่าเกิดจากสาเหตุอะไร แต่ถ้ารันใช้โค้ดเดียวกันไปรันในแมคโอเอสใช้ฟอนต์ที่มากับแมคคือ “Aduthaya” กลับไม่พบปัญหา
ทดสอบโปรแกรมในแมคโอเอส
ผมลองเปลี่ยนชื่อประเทศเป็นประเทศไทย แล้วเปลี่ยนให้แสดงภาษาอังกฤษ ผ่านตัวแปร useThai เปลี่ยนสี color = ‘m’ เป็นสีม่วง
useThai = False #แก้ไข
country_en = 'Thailand' #แก้ไข
country_th = 'บังคลาเทศ' #แก้ไข
เปลี่ยนมาประมวลผลข้อมูลยอดผู้หายจากไข้ โดยเลือกคอลัมน์ ‘CumRecovered‘ มาแทน ‘CumConfirmed’
#สำหรับการพล็อทกราฟแท่ง ใช้ฟังก์ชั่น ax.bar ดีกว่าใช้ฟังก์ชั่นของ pandas ที่มีปัญหาแก้ไม่ตก
#แกน x เป็นวันที่ แกน y (หรือ height) เป็นข้อมูลยอดผู้ติดเชื้อ ตั้งสี color ตั้งสีขอบ edgecolor
ax.bar(x=dfcalc['date'], height=dfcalc['CumRecovered'], color='g', edgecolor = 'black')
ผมลองทดสอบ pandas อ่านข้อมูลออนไล์ประมาณแสนบรรทัดจากไฟล์ csv ใช้เวลาไม่กี่วินาทีโดยที่ความเร็วอินเทอร์เน็ตที่ผมใช้ในบังคลาเทศก็ใช่ว่าจะดีนัก ถ้าใช้ไลบรารี csv ที่ติดมากับไพทอนเอง อ่านไฟล์ขนาดนี้ในเครื่อง desktop กลับใช้เวลามากกว่าหลายเท่า ทั้งที่ไม่ได้ผ่านอินเทอร์เน็ต ดังนั้นความสามารถของไลบรารีที่ว่า เร็ว แรง ยืดหยุ่น จึงได้รับการพิสูจน์แล้วว่าเป็นของจริง ผมเองก็ยังเป็นมือใหม่ในศาสตร์ด้าน Data Science/Data Analysis ก็พยายามศึกษาในยามที่โอกาสเอื้ออำนวย แบบนี้ โปรดติดตามกันตอนต่อไปครับ