网页平均情况(基于 800 万个网站的数据分析)

Avatar of Catalin Rosu
Catalin Rosu

DigitalOcean 为您旅程的每个阶段提供云产品。立即开始使用 200 美元的免费额度!

以下是来自 Catalin Rosu 的客座文章,他和一些同事一起 挖掘了大量数据,关于网站的 HTML 内容。这是最近的一项同类研究,结果非常吸引人。我发现将顶级结果与我原本猜测会获胜的结果进行比较尤其有趣。

我们都经历过这种情况。我们尝试改进我们的 HTML 代码,使其简洁、美观且易于阅读。我们这样做是为了追求更好的语义和更好的可访问性,以便每个人都能使用它。这是我们的首要任务。而且我们总是有疑问

  • 构建标记的最佳方法是什么?
  • 其他人是如何做到的?

我的脑海中一直萦绕着这样的问题。随着新网络技术的出现,我想知道人们如今是如何编写标记的。因此,我与我在 AWRCloud 的几位同事合作,并得出了一个包含来自 Google 前 20 名结果的 800 多万个网页的数据集。

此前的研究

早在 2005 年,HTML5 规范的编辑 Ian Hickson 就对略微超过 10 亿份文档的样本进行了分析,以了解网络的构成。10 亿是一个巨大的数字,但对 Google 来说,没有什么是不可能的。通过海量的文档,他提取了关于流行的类名、元素、属性和相关元数据的重要信息。杰出的成果后来发表为 Web Authoring Statistics,至今仍是最有影响力的网页创作研究。

最近,在 2008 年,Opera 元数据分析和挖掘应用程序 爬虫 MAMA 最终分析了大约 350 万个 URL。这项令人印象深刻工作的作者 Brian Wilson 通过发布详细说明页面结构(包括 HTML、CSS 和 JavaScript)的结果来扩展了这项研究。

Web Authoring Statistics 中的一项后来被证明对正在进行的 HTML5 开发工作至关重要的分析是 这些 HTML 文档中最流行的类名的列表。Opera MAMA 爬虫还搜索了最常见的类名,并根据 Google 的结果,他们还发布了关于赋予元素的流行 ID 属性值的相关结果。

这项研究为讨论带来了什么?

这项研究的数据来自 8,021,323 个索引页面,这些页面是从大约 3000 万个关键词的 Google 前 20 名结果中收集的,这些关键词是根据关键词量选择的。这意味着:我们有 3000 万个关键词。我们针对每个关键词运行了 Google 搜索,并获取了前 20 个结果的 URL,并将它们添加到列表中,并删除了重复项。

我们只能假设这些网页与普通网民的相关性非常高。这是基于这些网站很可能很受欢迎,并且流量很大,这与其搜索结果排名相符。

数据有多新?

最新的数据集来自 2016 年 5 月 20 日。

这项新的研究永远无法超越 Google 在 2005 年进行的先前研究。它也不是要超越 Opera 的伟大研究。它是为了找到关于互联网上最受欢迎和最成功的网页实际使用的标记的新见解和相关见解。

那么,如今的 HTML 页面平均看起来是什么样子?请查看下面的屏幕截图,并 查看研究以获取完整统计数据。

统计数据

根据我们的研究,我们发现平均网站索引页面使用了 26 种不同的元素类型。

大多数网站使用 26 个不同的 HTML 元素,或多或少,在 9 个时有一个奇怪的峰值。

在大多数页面上使用的 26 个元素,按频率排序

不出所料,<head><html> 在所有网站上都使用。<body> 在 99% 的情况下使用,这有点令人惊讶——也许是一个非常大的网站,出现了一个奇怪的错误?列表底部的表格元素仍然出现在几乎三分之一的所有网站上,这令人惊讶。

在指定页面使用哪个版本的 (X)HTML 的文档类型声明中,最新的 HTML5 文档类型显然处于领先地位。

将近三分之二的网站都将自己声明为 HTML5。

如果我们查看所有专门用于告知浏览器或搜索引擎有关网站及其样式的信息的元素,我们发现了大约 1.75 亿个元素,以下是它们的细分情况

1.05 亿个内容分区的元素的细分如下

<h3> 是最流行的标题元素和整体内容分区元素。

在 10 亿个文本内容元素中

<div> 占据了主导地位。

网络的未来是什么?

我们网页开发人员和网页内容创建者对使用情况、统计数据和浏览器支持感到好奇和兴趣。这些是导致 2005 年类名发现的原因,这些名称如今被称为最流行的 HTML5 标签。

网络发展迅速。这并非新鲜事,但可能会让人感到不知所措。趋势每年都在变化,作为网页内容创建者,需要动力和努力才能跟上时代的步伐。想想十年前标记和网页平均情况是什么样子,以及如今的现代网页是什么样子。

我们还利用这项研究来观察新兴技术,例如 Web Components。虽然 Web Components 允许作者创建任意命名的元素,但我们可以查找用于创建 Web Components 的标准元素。

没有人能够预测未来。我们只能猜测十年后网页的平均情况会是什么样子。下次我们进行这项研究(我们正在考虑每季度进行一次)时,我们会看到 Web Components 等内容兴起吗?

同样,完整的数据集在这里