Yandex.Metrica 中的数据分析

Collaborate on cutting-edge hong kong data technologies and solutions.
Post Reply
subornaakter20
Posts: 386
Joined: Mon Dec 23, 2024 3:44 am

Yandex.Metrica 中的数据分析

Post by subornaakter20 »

由于报告是在线生成的,因此所有者只有在通过 Yandex.Metrica 界面请求报告时才能看到其结构。该报告几乎可以具有任何结构,并且可以在一秒钟内生成。为了始终收到最新、完整的信息,不断收集有关互联网网站流量的信息并知道如何立即处理这些信息非常重要。正是出于这个目的,Yandex 于 2012 年创建了自己的数据库管理系统 (DBMS) – ClickHouse。

分析报告的信息以两种方式准备。可以提前汇总信息,然后在此基础上编制一组固定的报告。 Metrika 以前曾使用过这种方法。此方法可让您在相当短的时间内下载报告。但这里有一个缺点——分析变得不那么灵活。也就是说,用户只能从提供的集合中接收一份报告。

也讀吧!

“客户接触点:如何识别和改进”
阅读更多
还有另一种方法。所有进入系统的信息不需要 希腊电话号码列表 提前汇总,计算可以在用户上传报告时在线完成。这大大提高了分析能力,但对信息处理速度的要求非常严格。

DBMS 主要有两种类型:基于行和基于列。区别在于信息物理存储的组织方式不同。大多数已知的 DBMS 都是基于字符串的。位于同一施工现场不同单元格的表格中的信息彼此相邻存储。例如,此类 DBMS 非常适合处理事务,因为它们允许您快速更新数据库中的各个行。

基于行的 DBMS 不太适合只需要大量行中几列的信息的分析查询。当处理这样的查询时,您的任务是读取并丢弃其他列的值,包括不必要的值。这需要花费很多时间。

管理报告执行中的错误

资料来源:shutterstock.com

ClickHouse 是一个面向列的 DBMS。在此类别中,信息按列顺序存储:来自同一列的值彼此相邻放置。 Yandex.Metrica 将事件(访问、查看等)存储在多个表中,其中行也是事件,列作为其参数。

这种结构允许增加事件参数的数量而不会损失性能。例如,如果您需要获取按地区划分的独立访客数量的报告,则只需从磁盘读取两列就足够了。

2015年10月,仅网站级别的Yandex.Metrica数据量就高达10.65万亿行。 2018年,这一数字进一步增加。最大的页面包含 349 列。每次 Web 资源所有者在 Metrica 中打开页面时,都会向 ClickHouse 发送多个请求。总的来说,数据库每秒接收大约 2000 个请求。峰值信息处理速度超过每秒2TB。

ClickHouse 易于扩展:您可以添加新服务器而无需重建集群。所有可用服务器的计算能力都可以连接起来处理单个请求,从而确保最高的数据处理速度。

下载有关该主题的有用文档:

清单:如何在与客户谈判中实现你的目标
ClickHouse 的另一个有用的功能是容错。即使某些服务器发生故障,系统也不会停止。为了实现这一点,信息在地理分布的数据中心被复制。

ClickHouse 可以让您显著降低存储和处理信息的成本。这里的信息按列存储,以便实现有效压缩。 ClickHouse 有一个矢量查询引擎:信息不仅被存储,而且按列处理,从而可以最佳地利用处理器和内存。

磁盘上的信息被重新排序(例如,按站点和日期),以便只需要从磁盘读取一小部分行即可生成报告。同时ClickHouse提供了在线向表中添加新信息的功能。

ClickHouse 系统由 Metrica 团队创建,旨在满足其要求,也可用于解决其他 Yandex 任务。因此,DBMS 用于 Yandex.Market、广告技术、服务器监控系统和内部业务分析。 ClickHouse 相对容易学习,因为所有查询都是用 SQL 进行的。

Yandex.Metrica 中的拒绝是什么意思?
任何搜索引擎的目的都是为了盈利。使用搜索引擎的人越多,公司的收入就越高。在此方面,Yandex 正努力为用户提供最优质的搜索结果,从而越来越受欢迎。

事实证明,搜索引擎一直在努力寻找最有用的网站。它看起来像这样:用户在相应的行中输入搜索查询,收到结果并依次点击每个结果,尝试找到必要的信息。

如果在一段时间之后,某人再次开始在搜索结果中搜索结果,那么对于系统来说,最后一个网站会自动变为质量较差的网站,并且 Yandex.Metrica 会拒绝它。而停止该请求搜索的站点对 Yandex 来说是有利的。

也就是说,Yandex.Metrica 会拒绝那些人们访问但停留时间不超过 15 秒的网站。网站跳出的次数越多,其质量就越低,受到系统过滤的可能性就越大。
Post Reply