8 april 2008
Als het in opslagsystemen fout gaat, zijn de harde schijven daar over het algemeen minder vaak schuldig aan dan de beheerders van de systemen denken. Het is veel eerder de interconnectie tussen de hardwareonderdelen van het systeem die voor de opslagproblemen verantwoordelijk zijn. Beschadingen op harde schijven komen veel minder voor dan de beheerders zeggen. Dat concludeert een onderzoeksteam van de computer- en informaticafaculteit van de universiteit van Illinois op basis van een onderzoek dat ze uitgevoerd hebben in samenwerking met NetApp, leverancier van opslagsystemen. Volgens de onderzoekers zijn haperende harde schijven slechts tussen de 20 en 55 procent van de gevallen de reden voor het falen van het opslagsysteem. Het percentage is afhankelijk van het merk en het type van de harde schijf. De kwaliteit van de harde schijf speelt derhalve een zeer belangrijke rol. Falende fysieke verbindingen zijn eerder als zwakke schakel te beschouwen, namelijk in 27 tot 68 procent van de gevallen. In 5 tot 10 % van de gevallen zijn gestapelde protocollen reden voor het uitval. De conclusies van het onderzoeksteam zijn gebaseerd op een onderzoek van de log-bestanden van 39.000 opslagsystemen, met in totaal 1,8 miljoen schijven. Deze bestanden zijn gedurende bijna vier jaar (44 maanden) verzameld.
Het onderzoek, zo stellen de onderzoekers, wijst er op dat de betrouwbaarheid van een opslagsysteem slechts voor een deel afhankelijk is van de duurzaamheid van de harde schijven. Het falen hangt meer af van de andere onderdelen in een opslagsysteem en de communicatie tussen onderdelen. 'One way to improve storage system reliability is to select more reliable components. As data suggests, storage system reliability is highly dependent on both disk model and shelf enclosure model. We also found out that there might be a different 'better' model for different storage systems, depending on other components used in the systems. Another way to improve reliability is to employ redundancy mechanisms to tolerate component failures. One such mechanism studied in the paper is multipathing, which can reduce AFR for storage systems by 30-40% when the number of paths is increased from one to two. Storage system designers should also think about using smaller shelves (fewer disks per shelf) but more shelves in storage systems, since data indicates that spanning a RAID group across multiple shelves can reduce the probability of 'bursty' failures'. Meer redundantie door meer tussen verbindingen tussen harde schijven dus. 'We also found out that storage subsystem failure and individual storage subsystem failure type exhibit strong self-correlations. In addition, these failures also exhibit 'bursty' patterns. These results motivate a revisit to resiliency mechanisms such as RAID that assume independent failures. Future work will compare the impact of different failure types and study how to design resiliency mechanisms targeting individual failure types, given that different failure types show different statistical properties. Another future direction is to design storage failure prediction algorithms based on component errors. We also want to extend this study to other components of storage systems beyond the storage subsystem'. Het onderzoek werpt een speciaal licht op het de onenigheid tussen schijffabrikanten en klanten over het al dan niet kapot zijn van een harde schijf. Dat conflict werd vorig jaar onderbouwd door de onderzoeken 'Failure Trends in a Large Disk Drive Population' van Google en 'Disk Failures in the Real World' van Carnegie Mellon University (CMU). De twee onderzoeken stelden dat de 'failure rates' een veelvoud zijn van de cijfers die de fabrikanten zelf opgeven. Waar die getallen onder de 2 procent geven, kon dat (zo blijkt uit het onderzoek van Google) in de praktijk oplopen tot 6 procent. Desalniettemin: het onderzoek geeft geen verklaring voor de verschillen in de onderzoeksresultaten tussen de verschillende onderzoeken. En hoewel onderling tegenstrijdige resultaten eerder meer dan minder uit dit soort onderzoeken voortkomen, er dient wel een verklaring te zijn. Wellicht dat ook de sponsor van de onderzoeken een bepaalde rol speelt in de onderzoeksresultaten, al is dat iets wat eigenlijk niet gezegd mag worden….