簡介

八月底時我們的即時在線服務出了意外狀況,造成部分玩家好幾天無法正常登入遊戲,也有部分玩家遺失遊戲進度,且無法完成每日任務。

這並不是我們所希望提供的體驗。儘管任何軟體開發的過程都有可能出現錯誤,我們希望在這些情況發生時,能在穩固的開發流程、品質管理以及更新版本的支持下,有效降低錯誤帶來的影響。

在問題解決後,我們團隊共同深入探究這些狀況的起因,並設計出了預防此類問題的流程。我們在此摘要內部討論的重點,向你回報。

 

事件摘要

簡要說明此次在線服務的狀況:
8 月 26 日,太平洋時間(UTC -7)剛過凌晨,社群成員通知工作室其他團隊,玩家反應無法登入遊戲,且部分 Android 玩家在登入時似乎變成了全新玩家,貌似原先遊戲進度完全消失。凌晨 12 點 10 分,後端團隊確認我們的雲端出現了這種異常情況。

我們調整了數據庫配置來解決登入失敗及進度顯示錯誤的問題。一小時內,我們收到了玩家可登入的報告,但許多玩家仍然回報帳號進度消失的情況。此外,也開始有玩家回報無法完成每日任務。

這意味著有三個主要問題需要解決:

  • 登入不穩定
  • 遊戲進度遺失
  • 無法完成每日任務

 

研究與解決辦法

遊戲登入與進度問題:
透過多種監控工具,雲端平台團隊發現登入過程中的兩個關鍵服務出現了超時情況。這表示,當服務A 向服務B 請求數據,而服務B 並未在一定秒數內回應,服務A 便會中斷連線並報告後者響應過慢。

結果導致:部分玩家無法登入 Sky,另一些雖然能登入,但無法獲取帳號裡的遊戲進度數據。

解決方案需要與其他後端服務兼容,並且必須快速且謹慎地進行測試,以免遊戲受到更多影響。

我們的工程團隊針對這些問題採取了多項解決方案,並與雲端平台團隊共同開發、測試並審核了用以解決進度數據和另一個數據庫問題的修復更新。


每日任務完成問題
在調查每日任務的錯誤回報時,我們發現問題在於使用了錯誤的任務系統。

如你所知,我們正在對 Sky 的任務進行大規模改版,這需要開發新的任務系統。我們進行內測時,會提供品保團隊專屬的臨時配置在正式遊戲中安全地啟用新系統,進行核心測試,測試完成後便會將新系統的配置移除。

然而,經過調查,我們發現新任務系統被誤植到 0.26.5 版的正式遊戲環境之中。結果導致新舊任務系統同時啟動,但舊系統無法處理這一版本引入的每日任務。當玩家嘗試完成新系統指定的新任務時,舊系統便會顯示錯誤。

由於平台、伺服器與 Sky 設備間的特定交互關係,我們最終確認關閉新任務系統會引發更多問題。因此,我們對新任務系統進行了修復,解決了完成問題,然後關閉了舊任務系統。
2024 年 8 月 29 日凌晨 12:15 太平洋時間(UTC -7),所有問題修復完成,距離玩家首次報告問題已經過 72 小時。

總的來說,登入問題持續了約一小時,帳號進度超時狀況持續 37 小時,每日任務完成錯誤持續 72 小時。

 

未來的改進

為了防止類似問題再次發生,我們已採取以下步驟:

  1. 更新正式上線版本前的完成度清單:新版清單更符合像 Sky 這樣的服務型遊戲的需求,更加清晰並針對新功能增加額外檢查點。

  2. 針對新功能的確認流程:新功能開發將包含更完善的退回計劃,以便在線服務受影響時執行。跨團隊的額外驗證步驟將確保新功能是否已經就緒,並加強對於品質標準的審查。

承認錯誤和從中汲取教訓是件不容易的事情,但卻十分重要。這篇部落格的目標是為了釐清此次事件所引發的疑慮,感謝各位在我們處理這些問題時的耐心與回饋。

 

我們希望這些資訊分享,能傳達我們對提供玩家更正向的 Sky 遊玩體驗的誠心。

 

一如既往,我們期待聽到你的意見回饋,歡迎你加入我們的官方 Facebook 社團(https://www.facebook.com/groups/thatskygametc/)一起參與社群討論!