本週早些時候,網際網路的大部分業務都陷入停頓,因為為它們供電的伺服器突然消失。這些伺服器是S3的一部分,S3是亞馬遜最受歡迎的網路託管服務,當伺服器宕機時,它們帶走了幾大服務。Quora、Trello和IFTTT是受破壞影響的地點之一。四個多小時後,伺服器又重新上線了,但還沒有完全毀了英國某一天的慶祝活動。
現在我們知道是怎麼發生的了。在今天釋出給客戶的一份報告中,亞馬遜揭示了問題的原因:打字錯誤。
週二上午,S3團隊的成員正在除錯計費系統。作為其中的一部分,團隊需要讓少量伺服器離線。”不幸的是,命令的一個輸入輸入錯誤,刪除了比預期更大的一組伺服器意外刪除的伺服器支援另外兩個S3子系統。”
子系統很重要。其中一個“管理該地區所有S3物件的後設資料和位置資訊,”Amazon說。沒有它,依賴它的服務就無法執行基本的資料檢索和儲存任務。
在不小心讓伺服器離線後,各種系統不得不“完全重啟”,這顯然比你膝上型電腦上的時間要長。當S3關閉時,其他各種Amazon web服務停止執行,包括Amazon的彈性計算雲(elasticcomputecloud,EC2),它也受到需要快速擴充套件儲存的網際網路公司的歡迎。
亞馬遜表示,S3的設計目的是能夠處理一些伺服器的丟失。更麻煩的是大規模重啟。”S3在過去幾年經歷了巨大的增長,重新啟動這些服務並執行必要的安全檢查來驗證後設資料的完整性的過程比預期的要長,”該公司說。
因此,亞馬遜表示,它正在對S3進行修改,以使其系統能夠更快地恢復。它也在向打字錯誤宣戰。該公司表示,未來,如果S3將子系統的伺服器容量降低到某個閾值以下,工程師將無法再移除S3的容量。
它還對AWS服務健康儀錶板進行了更改。在中斷期間,儀錶板尷尬地顯示所有服務都執行綠色,因為儀錶板本身依賴於S3。該公司表示,下一次S3出現故障時,儀錶板應能正常工作。
“我們想為這次事件給我們的客戶造成的影響道歉,”該公司說我們將盡一切努力從這次活動中學習,並利用它進一步提高我們的可用性。”
...馬遜S3服務在北弗吉尼亞州(US-EAST-1)地區的中斷摘要”一個單一的打字錯誤是導致網際網路癱瘓的原因。不,那不是打字錯誤。一個不幸的工程師的一個小錯誤使網際網路癱瘓了好幾個小時。 ...
...的模因”,它實際上可以追溯到20世紀90年代初,當時有一個廣泛的誤解,認為網際網路是一臺可以被打破的機器。這主要是因為我們所知道的網際網路仍然處於社會的邊緣,是一個純粹為技術人員保留的小玩意。 ...
物聯網(簡稱物聯網)提供了一個無線裝置互聯的世界。**商和零售商很快就吹噓用智慧**或電腦控制你的家、汽車、醫療裝置和玩具的便利性。 ...
把你所有的小工具連線到網際網路並不總是一個好主意。雖然物聯網允許你遠端執行任務,並從世界任何地方監控你的裝置,但它也為那些想利用你的裝置謀取私利的惡意駭客提供了一種途徑。 ...
殭屍網路的威力正在增強。一個充分組織和全球化的殭屍網路將摧毀網際網路的一部分,而不僅僅是單個網站,這就是它們所擁有的力量。儘管威力巨大,最大的DDoS攻擊並沒有使用傳統的殭屍網路結構。 ...
... 與此同時,另一個規模較小的網路致力於在土耳其、歐洲和美國推廣一個假冒的土耳其智庫。Facebook注意到這個叢集在移除後“幾乎沒有追隨者”。 ...
...電子郵件中指出,這些問題隻影響到其23個地理區域中的一個。但這個問題的嚴重性足以摧毀大量的網際網路服務。 許多應用程式、服務和網站都在Twitter上釋出了AWS停機對它們的影響,包括1Password、Acorns、Adobe Spark、Anchor、Autod...
...。這些問題開始於美國東部時間下午5點左右,持續了近一個小時。Patreon、Deliveroo、GitLab、Zendesk、Medium和許多其他網站也出現了故障,Cloudflare承認其網路問題影響了各種應用程式和網站。 “今天下午,我們看到網路...
...給潛在的主題發過郵件,從來沒有打過電話。即使我得到一個電話號碼,如果沒有人在另一端接聽,我留下的語音信箱基本上一文不值——沒有人檢視他們公司固定電話的收件箱,很多人也不會聽他們**的語音信箱。 但我遇...