メインコンテンツまでスキップ

114 台大統計碩士學位學程 口試分享

114 台大工商管理學系科技管理組應屆畢業生(大四),系排百分比 2%(1/56,GPA 平均 4.26)

推甄系所領域結果審查分數口試分數
台大統計碩士學位學程管理與社會統計領域???
台大心理系碩士班計量心理學???

準備

前一天我就抓著朋友幫我練習口試,我把網路上找到的問題都整理準備了一下(基本上動機的問題蠻有用的,但專業問題基本上不太會重複),擔心模糊重點,我把我事前準備的放在最後。

其他書審製作之後再跟大家分享~

報到

當天我是白襯衫 + 西裝褲 + 皮鞋,資料是需要準備准考證(貼兩寸照片)、身份證(繳費證明沒用到)和兩份書審資料。

由於我拚前幾個繳交書審,所以口試順序很前面,是第二組的第二位(13:00 開始口試,我是 13:15-13:20 報到),報到後會在一個小房間裡面等待工作人員叫我。

當天的流程基本上就是:報到 → 第一關 → 簽退

因為我算是第一次正式面試,所以真的超級緊張,真的是心臟要跳出來的那種。我心裡就想著如果再這樣緊張下去我等一下一定不知道會講些什麼,所以就一直回想這陣子很喜歡的歌 [^1],然後用心跳打拍子(?,之後雖然心跳還是很快,但就不怎麼怎麼緊張了。

沒多久人員就帶領我進第一關的教室。

第一關

第一關是自我介紹與動機,有三位老師問問題,在當下我是三位老師都不認識,左邊和中間是男老師,右邊是女老師

左👨‍🏫中👨‍🏫右👩‍🏫
👨‍🎓(我)

基本上有幾個階段:

自我介紹

一開始中👨‍🏫說資料他們都有所以放中間就好。等我坐定位後中👨‍🏫要求做 1 分鐘的自我介紹,我基本上是照著準備的說,但我準備的事 2 分鐘的內容,所以有濃縮一些內容。(姿勢就是雙手握著,對於自信真的蠻有幫助的,不需要思考手放哪,可以專心在講話)

老師您好,我是台大工管系四年級的應屆畢業生王敏行,目前主要的領域是在行銷和營運與數據分析的模組。之所以想來進修統計學程,是希望可以加深自己對統計的理解以及加強自己獨立研究的能力。我有興趣的領域是在管理與社會的領域,尤其是我對行銷和心理學最感興趣。

關於我自己,我很喜歡花時間學習新的東西,並且投入研究有興趣的事情上。舉例來說,我現在就有經營自己的 YouTube 頻道,分享自己的音樂演奏。目前已經連續每週更新兩年了,現在回想起來也是蠻驚人的。做這件事情我覺得最大的收穫就是可以不斷地學到新東西並且運用在自己的音樂製作與頻道經營上,也需要花很多時間練琴,讓我自己演奏的進步非常多,是個蠻穩定的成就感來源。

然後為了想要把頻道經營得更好,尤其是讓數據上的表起比較有起色。之前我就有嘗試把 YouTube 後台的數據拿來用統計方法進行研究,包含回歸模型或是群集分析等等。過程中發現在搜集資料、如何得到好的模型並詮釋得正確是十分有挑戰性的,但慶幸我有找到一個滿意的模型,在這個解決問題的過程讓我感到十分有成就感,所以希望可以在學程的學習中對更進階的統計方法有更深入的理解。

各個碩士/學程比較

中👨‍🏫一開始就直接問台大資料分析相關的碩士就有統計所、資料分析學程等等的,那我為什麼要選擇統計學程。

這個雖然不是我準備的問題,但算是不意外的問題。

我回答說這幾個我都有研究過,像是統計所比較偏向理學院開的,跟我目前的領域跨越太大,像是統計學程有比較多元的領域可以選擇,像是社會和管理等。而資料分析學程據我的理解比較多是用機器學習的方法,我兩者比較後覺得自己比較喜歡統計的架構,比較穩定的感覺[^2]。

老師沒有做什麼回覆就接著別的問題了。

頻道經營

由於我有提到自己經營頻道,所以中👨‍🏫和右👩‍🏫就針對這個部分直接追問。

一開始老師其實就明確問我分析頻道的數據得到什麼挑戰和結果,我馬上想到的是最近用 linear regression 各種 variable transformation 的經驗。我就說由於 YouTube 後台給的資料比較多是指標,適合做反應變數,解釋變數是很不夠的。所以我也要自己搜集其他變數的資料,例如翻奏原曲的觀看或是影片的類別作為擴充的解釋變數。不過最後分析出來的結果比較像是把指標的公式 [^3]又推導出來一遍。

老師看我回答的不清楚,就又追問那有什麼結果可以拿來行銷嗎?我就回答說我發現如果是 bgm 的話大家比較願意看比較久;另一方面流行歌就比較是一時間的流行,可能短時間有不錯的觀看,但是長時間的效益沒有那麼好。

另一方面中👨‍🏫問說有沒有考慮做實驗 A/B Test 我的影片。我的回答是說我之前有想要嘗試看看測試不同天的表現,但由於需要控制其他的變數,例如需要兩支比較類似的影片,在實作上面蠻困難的,尤其是我的排程上面不太有餘裕。

沒有修什麼統計的課?

  • 左👨‍🏫看我的資料後問我是否沒有修什麼統計的課?

我就直接坦承我目前只有上過初統和多變量分析,但是是因為多變量分析打開我的視野,像是有主成分分析、因素分析等等,讓我覺得統計的工具比我想的更寬廣,也有非常多可以深入研究的,是打開我想要繼續研究的動機。

  • 左👨‍🏫就接著問主成分分析和因素分析有什麼差別

由於我也還在釐清他們的差別...所以實在不知道怎麼回答。我大概是說主成分分析是歸納出資料的型態;因素分析是找出他們背後的因子,但具體而言我還需要更深入的研究。

左👨‍🏫感覺我沒有回答到要點,所以就想要引導我說不用講理論也沒關係,說概念就可以了。不過這時候外面剛好敲門時間到,所以我就多補了一點點東西到講不出來老師就放我走了🎉

最後就是跟老師謝謝就離開了!

第二關

第二關是專業關,一樣有三位老師。一開始我也是三位老師都認不出來,但是由於後面左邊的老師,直接拿出我心理學的研究計畫開始問,我就猜他應該是台大心理系的黃從仁老師。(因為老師戴口罩實在看不出來,後來多次比對他的照片就蠻確定是)

黃老師中👨‍🏫右👨‍🏫
👨‍🎓(我)

比較糟糕的是一開始遞資料時我把兩份給左邊和中間的老師(因為他們之間是走到沒有擋住,右邊的老師和中間的老師中間隔著電腦),老師叫提醒我一份給右邊的老師,然後

我就沒拿好把資料摔了

當下真的覺得ㄘㄨㄚˋ賽,只好趕快撿起來道歉,然後雙手遞給右邊的老師。

大家都跟我說是小事啦,但我就覺得印象可能不太好?不過想說反正總比都沒印象就走好。

接下來就是問問題,大概老師依序或者輪流著問:

英檢

  • 中👨‍🏫開門見山直接問我有沒有考過什麼英檢

我說我考了托福 93 分。

  • 中👨‍🏫就邊看著資料問這是總分嗎?總分是多少?

我就掐指一算是 120 分。

  • 中👨‍🏫就又看了一下問是考哪些部分

我就說聽力、口說、寫作、閱讀,我的聽力比較好,然後口說還需要再努力這樣。

  • 中👨‍🏫:所以就是聽說讀寫嘛

模型假設錯誤導致的分析問題

  • 中👨‍🏫接著問有沒有因為模型假設錯誤導致分析上遇到什麼問題?

其實這題我在準備時有想到類似的,但是我就也想不出什麼很好的答案。我就以我比較熟悉的線性回歸為例,最近商統課程中老師有一筆資料給我們分析,結果在最後檢查假設的時候發現模型不符合 3+1 個假設,像是殘差不符合常態分佈和獨立性假設等,所以就懷疑是模型的假設有所錯誤。後來才知道是因為資料本來非常龐大,一般電腦跑不動所以老師就取了一個 sample 作為上課練習這樣。

後來這部分的問題和我的回答我個人覺得蠻混亂的,感覺中👨‍🏫就是丟出很多名詞試圖引導我,但基本上我聽不太懂QQ(如果是英文的專有名詞可能勉強還知道是啥,但翻成中文就像是外星文這樣)。像是我就說就是殘差平均雖然差不多是 0,但是變異數不太像同,中👨‍🏫就有說是不是同質性假設還是異質性假設不符合這樣。然後還有提到有看殘差圖啊等等,我就說感覺明顯有一個斜線在裡面,所以就不太獨立。老師就又丟出更多我不知道的名詞,我就只能說這部分我的理解還太少需要再研究。

心理學研究計畫

  • 右👨‍🏫翻了我書審資料就問我的研究計畫是之前做過的還是之後要做的

我就回答我之前上「幸福與人生」的課程,有做過跟幸福感有關的報告,所以就想要加深做這部分的研究。

  • 右👨‍🏫也問我是不是對音樂有所了解

我補充說我目前有經營自己的 YouTube 頻道分享演奏的音樂,所以就對音樂如何影響情緒很有興趣。右👨‍🏫感覺就問得差不多了。

  • 這時候右邊的黃老師就接說因為我的研究計畫相對完整,所以就直接討論這個部分。他就確認我是否是要做音樂對幸福感的研究。

我就補充說我第一步是先想要了解音樂對情緒的影響,第二階段才看看是不是能夠進入研究幸福感。

  • 黃老師問我要怎麼測量情緒

我就說大概有兩個方向:一個是用量表的方式,無論是之前其他人設計好的或是之類的直接使用,但這個衡量方法就比較主觀,我也需要做更多文獻的研究;另一方面就是測量面部表情或是大腦的訊號等等的,不過這就不是我就更不了解了。

老師就補充說如果是問卷的話確實比較簡單,但是如果真的要做什麼面部表情之類就要謹慎考慮,不然這肯定做不完,可能畢不了業不知道要用多久。我就說確實這個是蠻龐大的。

接下來老師就算是給我一些建議。老師說我的研究比較理想一點,如果真的要做的話可能又限縮一點,不然要做起來真的是會有困難,需要我多花一些時間研究一下。不過因為我很聰明,如果真的想做的話,這個主題他也蠻感興趣的,就可以考慮看看。(到這邊我比較確定他應該是黃從仁老師,好險我在認知心理沒有關公面前耍大刀這樣!)

大該時間結束,我跟老師們謝謝就放我走了🎉

簽退

整個口試玩真的鬆一口氣,最後離開時間是 13:52。雖然我沒有計時,但等待大概是 10 分鐘內(可能只有 6-7 分鐘),然後一關差不多 10 分鐘(但是都會微微超時幾分鐘)。

整體我自評感覺都不錯,全程我也是盡力回答,並看著提問老師的眼睛。雖然口條不是真的非常好,但至少我認為該講的我都有說明到!(最後唯一需要擔心掉文件📄所以應該算是好事)

真的超感謝一直鼓勵我的朋友們還有林老師(尤其一直幫我補心理缺的角),接下來就是心理所的口試了!

補:事前準備

感謝葉總在前一天幫我模擬口試,有一些技巧是我前一天才知道(哈哈哈 直接 bullet point 在這~

重要面試技巧與提醒

  • 結束訊號:說完可以說「以上是我的回答」告知老師
  • 雙手握拳:緊張的話比較不明顯
  • 專業知識不會苛責 
    • 融入自己的人格特質
    • 說:「希望可以在這邊學到相關的知識」
  • 眼睛看著對方

回答技巧

  • 問題要優先回答 → 盡量記住所有問題(忘記詳細可以再問一次)
  • 為什麼有興趣?→ 優先回答動機
  • 有沒有考慮國外讀?先說內部因素(有準備、自己的個性)→ 再說到外部因素(環境熟悉等)

原先我整理的問題與回答

搜尋之前的都是有三關,但這次應該就是合併成兩關,而且界線也沒有到非常明顯。第一關也是可能問一些專業問題(不過我的狀況好像是還有時間老師就多問)。

我請 ChatGPT 整各地分享統計學程的文章(你大概也看過),我回答正確率應該也不高,就是提供給我如果遇到類似的可以怎麼回答

ChatGPT:這四位面試經驗者的分享顯示,統計學位的面試主要分為三個關卡,針對不同面向的問題進行考核。以下是三個關卡常見的問題:

第一關:自我介紹與動機

這一關通常會要求面試者進行自我介紹,時間約為 1 到 2 分鐘,並針對學習動機進行提問。常見問題包括:

  • 自我介紹(1 分鐘至 5 分鐘不等)

為何選擇來讀統計?(動機清楚與否、未來職涯規劃)

這題我直接在自介回答了。

學校能夠為你提供什麼?是否了解學校師資、課程結構?

進修統計學程能夠讓我有系統性的學習統計的理論,以及讓我能夠具備嚴謹的學術研究的能力。目前我的統計還在相對基礎的位置,也可以透過學校的高統和其他進階的課程架構我的統計知識。

此外管理與社會領域的老師很多元,包括財經的數據分析、商業數據分析到計量心理學都有。我個人對於計量心理學十分感興趣,尤其是很希望可以跟著姚老師幸福感的研究!此外我對於行銷、商業的數據分析也很感興趣,所以也是可以加深分析能力的機會

報考統計是否與你未來的職涯規劃相關?

是的,之後我想要走 business analytic 的方向前進,尤其對行銷研究特別感興趣。所以統計是非常必要的基礎,也是很重要的核心能力。

第二關:專業知識與分析能力

這一關考官會著重於統計專業知識,並進行深入追問,透過圖表或實際案例來測試面試者的分析能力。常見問題包括:

  • 統計理論相關問題,如點估計方法、MLE 和 MME 的計算與性質。

點估計點方法在統計常用的有:

最小平方法:透過最小化預測值和真實值的平方差得到的估計量,這是線性回歸模型常用的,只要模型有符合回歸的獨立性和常態分佈的假設,估計就會跟不偏估計一致

Maximum Likelihood Method(最大概似法): 由於樣本是抽樣的結果,所以必定有一組出現概率可以讓目前的樣本出現機率最大。由於沒有 close form solution,所以通常需要用牛頓法逼近。據我所知 logistic regression 和因素分析都會用這個方式估計,因為最大概似法並沒有要求常態分佈就可以成立

  • 分析圖表,判斷分布類型(如 histogram 圖表中是否為 Poisson 分布或其他分布)。

  • 統計模型的選擇與應用,並會根據面試者的回答深入追問細節。

  • 資料處理方法及應用情境(如應對真實問題,如疫情期間如何用統計方法減少排隊時間)。

這方面我的理解比較有限,不過我知道 queuing analysis 是專門解決這個問題的,印象中有 M/M/1 模型和 M/M/c 模型等,可以分析顧客到達率(通常用 poisson process)和服務時間(通常用 exponential distribution)只是詳細的模型我沒有仔細研究

那請你說明 Poisson process 是什麼?

Poisson process 是一種常見的隨機過程,通常用來描述隨機事件在時間或空間中的發生。特別是當「事件發生的數量」和「間隔時間」是「獨立」的情況下,描述到達這樣的現象。

poisson process 和 poisson distribution 的關聯是什麼?Poisson distribution 的特性是什麼?

Poisson distribution 是 Poisson process 的結果,用來描述在一段固定的時間或區域內,發生特定事件的次數的機率分布。因此如果觀察到一段時間內的事件發生次數時,如果符合 Poisson distribution 的特性,我們可以用它來建模。

Poisson distribution 適合描述單位時間內隨機事件發生次數的機率分布,是一種離散的分布,機率質量函數是 k 階分之 e 的負 lambda 次方乘上 lambda k次方,該機率質量函數是單位區間預期發生 Lambda 次數下,k 次發生的機率。

第三關:專題與實務經驗

這一關的問題會圍繞面試者的專題或實務經驗,考官會詢問具體細節,並考察其實際操作能力。常見問題包括:

  • 專題報告的內容和運用的統計方法。
  • 選擇統計模型的依據,所使用的分析工具或 packages。
  • 是否有參與過數據分析競賽,參賽經驗與使用的模型。
  • 實習經驗中學到什麼,或如何應用所學的統計知識到實務。

這些經驗顯示面試過程中,考官會從面試者的學術動機、專業知識與實務經驗進行綜合評估,並根據不同關卡的重點提出針對性問題。根據你的資料,雖然你可能沒有太多實務經驗,考官可能會詢問你以下問題,針對你的學術背景進行深度探討:

在你的研究中,有沒有特定的統計模型或工具是你最常使用的?選擇這些模型的依據是什麼?

我在我的頻道分析專案使用到 multiple linear regression,用來預測頻道的觀看時數以及觀看量。之所以選擇線性回歸模型是因為我的反應變數是連續的,然後解釋變數有些是連續的,像是原本曲目的觀看量、有些是類別的,像是曲子的種類等

你提到在學校學習了某些課程,這些理論知識如何應用到真實的統計分析情境中?你認為有哪些挑戰?

通常課程中的資料都是給定的,也有經過清理。但是經過幾次的專案分析後我發現資料的源頭很重要,必須自己想好需要搜集什麼資料做預測,這是比較困難的部分。此外也是需要花時間清理資料。

有沒有課堂上學習過的統計理論,能夠應用到日常生活或職場中的實際問題解決?

我覺得集群分析用在行銷上有很大的幫助,因為往往行銷人在選擇區隔市場的變數大部分是透過 trial and error 的方式,也比較難以驗證是否符合真實市場。但透過集群分析就可以藉由資料得到市場的樣貌,再透過觀察主成分的樣態就可以選出很好的區隔變數。

假設你拿到一份數據集,數據品質有問題或分布異常,你會採取哪些步驟進行數據清理與分析?

資料清理的時候先把空值的觀察值移除,其他可能要進行 EDA 時才會知道可能有什麼問題。如果有明顯右偏我可能會用 log transformation,遇到不能 0 的時候可能加上 1 或是很小的數讓他正常轉換

如果有極端值的話在 EDA 時可能就會發現,如果是線性回歸的話,還是要進入模型之後才知道,我可能會移除 cook’s distance 1 以上的,然後 0.5-1 的會特別注意這樣

你有沒有處理過大規模數據的經驗?你如何確保統計模型在大數據情境下的有效性?」

之前資料庫管理的課程有操作過大規模資料的經驗。但那時候經驗較不足,只有停留在 EDA 的階段。依照我的理解,在大數據的情況下,如果是線性回歸模型,通常變數有經過適當轉換,然後最後殘差的 3+1 個假設滿足,模型的有效性就很強。3+1 個假設分別是

  • 模型殘差平均值為 1
  • 模型殘差的變異數固定
  • 模型殘差和 y 獨立
  • 最後:殘差應該符合常態分佈

[^1] 如果你想知道:万有引力 / HACHI https://www.youtube.com/watch?v=ZDh4lkSzgXg ;感謝 SLSMusic 的 cover 讓我知道這首歌:https://www.youtube.com/watch?v=yakcaGNg_Hc

[^2] 勿鞭,機器學習的論文也是有很多引用數的根基,這邊只是說比較保守、控制內的哲學

[^3] 口試時我沒說清楚,這邊的意思是我跑完得到類似:觀看時間 = 續看率 x 平均影片長度 x 觀看數

[[statistics]]