QitChain：Web3.0时代的分布式搜索引擎-互推传媒

一、Web 3.0：将用户的内容产出转变为数字资产

众所周知，从历史的经验来看，科技的发展始终存在着“概念先行”的特征——即先有新科技的概念，之后才会有紧随而上的落地应用。回观2021年年末至2022年年初的这一时间段中，最热门的科技概念，除了“元宇宙”之外，另一个吸引了众多眼光的后起之秀，就是“Web 3.0”了。

在介绍“Web 3.0”这个概念之前，我们有必要先回顾一下“Web 1.0”和“Web 2.0”的概念。在最早的万维网世界中，内容平台一力担纲了信息内容的全部要素——即内容的创造、所有权、审核权与收益。在此过程中，用户只能是被动地接收信息，因此，“Web 1.0”也被称为“静态互联网”。

“Web 2.0”的概念是随着社交网络与电商平台的兴起而出现的，在这一场景下，平台主要只负责基础设施的技术搭建，而内容地创作则转移到了用户手中。但由于内容需要被基础设施所承载，因而平台借此获得了用户所创造内容的所有权、审核权，并同时参与内容所产生的价值分成，并由此享有该分成的定价权力。

区块链作为新兴的技术，凭借其“分布式”和“不可篡改”的独有特性，使得创作者通过内容上链，将其所有权握在自己手中的愿景成为可能，也借此掌握住了这些创作内容的议价权。在这种体系之下，被创作出的数字内容由此成为了一种数字资产，例如此前热度颇高的NFT，便是上述内容资产化的落地应用之一。而这种由内容创作者所能够享有所有权，并基于协议进行价值分配的体系，便是“Web 3.0”的最主要特征。

现在让我们重新回到当前Web 2.0时代的场景。假设有人在某个中心化搜索引擎搜索了词条“男士大衣”，那么，基于大数据技术，该记录就会被追踪。而在他之后浏览电商网站的时候，就会更容易收到男士大衣的商品推送。而这个过程一方面使得中心化搜索引擎方获得丰厚的利润，同时在另一方面也完全地暴露着每一个用户的隐私。为了能够使得价值回归用户并且解决隐私暴露的问题，以QitChain为代表的分布式搜索引擎应运而生，其不仅能够保护作为隐私的用户搜索记录，同时也可以为用户提供非竞价排名的透明体验。

二、分布式搜索所面临的困境

在开始系统地讨论QitChain之前，我们有必要首先回顾区块链语境下的“不可能三角”，即分布式、高安全性与高性能。而QitChain本质上作为一种脱颖而出的分布式搜索引擎，其过人之处，便必然是在高安全性和高性能之间做到了合理的取舍。因此，我们可以通过讨论QitChain的技术架构、共识和生态环境，来逐步揭示该项目的过人之处。

在以BTC公链为代表性的区块链项目中，当用户发起搜索请求的时候，搜索工具将遍历全部区块来寻找用户所指定的交易信息。毫无疑问，全节点搜索是安全的，那么它的低效率就必然如影随形般不可避免。而随着技术与应用场景地不断发展，遍历整条公链的搜索方式开始凸显其缺陷，这些缺陷主要有以下几点：

首先是语义关联搜索能力的贫乏。当前主流储存区块中数据的方法仍然是将其储存在键值数据库或系统文件中，因此，尽管交易数据本身是结构化的，但掣肘于键值数据库的非关系性和系统文件的孤立性，使得其当面对用需要传统方法对多张数据表进行联表查询或者多条件筛选的需求时不免捉襟见肘。

其次，全节点搜索的数据处理能力相对有限。在现有的主流系统中，区块数据往往被储存在键-值数据库或者文件系统中，但这两者都只能支持相对简单的查询。尽管在当前，区块链中的交易数据是结构化的，但当前的系统却并不支持在链上直接进行数据的关系查询。一种当前折中的办法是将链上数据导入线下的关系型数据库之后在进行查找。但毫无疑问，数据的迁移、复制和存储都将带来额外的系统成本。

最后，链上与链下的数据集成是一件非常复杂的工作。在当前的数据存储解决方案中，大量的数据被储存在链下的关系型数据库里。这种中心化的链下存储无疑提高了整个系统的安全风险，除此而外，这些数据还被同时独立地存储在链上和链下的数据库里，这种隔断也会导致复杂的链上与链下数据集成，使得用户无法使用智能合约来访问线下数据。而另一点缺陷则是将链上数据库导入链下的过程必然将提高数据库的维护成本。

Figure 1 链上/链下的数据集成示意，图片来源：Qitcoin Whitepaper

考虑到在实际操作中对搜索能力、效率与成本的硬性要求，对全区块进行遍历的全节点搜索已经有了一些式微的趋势，而取而代之的则是轻节点搜索——所谓轻节点是指那些仅仅储存表头而非全部交易数据的节点。轻节点搜索能够在保存主链的区块头的情况下，通过Merkle证明的方法快速验证一笔交易是否存在。由此可见，在安全与性能的二者平衡之中，轻节点搜索选择了性能作为其侧重。

三、QitChain的基础架构

考虑到在不远的Web 3.0时代，分布式引擎必然将面对大众广泛开放，那么在安全性和搜索效率之间，天平势必要朝后者倾斜。QitChain作为分布式赛道的重要成员之一，简要地了解其技术架构对于区块链业界而言就会显得尤为重要。因此，下文将简单介绍QitChain的基础技术架构以供读者了解和参考。

下图展示了QitChain的基础架构。如下图所示，QitChain的基础架构主要分成四个部分，即证书授权中心（CA）、全节点、轻节点与链下数据库。这四部分的相互有机结合令每个参与者都可以参与节点的维护工作，并借此组成一个可信任的网络联盟链：

Figure 2 QitChain基础架构，图片来源：Qitcoin Whitepaper

在该联盟链中，四个部分分别担纲着不同的职责，借以合力形成一套轻捷、高效而且相对完整的分布式搜索引擎，而这四个部分在架构中的职责分别是：

证书授权中心（CA）：证书授权中心负责颁发和管理数字证书，同时还担纲着公钥系统中合法性的验证任务。证书授权中心一般由受信任的第三方担任，借此保证其公正性和透明性。

全节点：在QitChain的语境下，全节点是指那些参与共识，并存储完整数据的节点。全节点由于储存了庞大的数据，因而对存储、计算和网络资源都有较为苛刻的要求；而同样的，负责维护这类全节点的用户也需要支付相当的维护成本。

轻节点：个人用户通常只需要维护QitChain中的轻节点，无需像全节点的用户一样承担较高的维护成本。而需要动用到全局查询的请求则会交由全节点进行处理。

链下数据库：在QitChain网络中，所有的大数据和私人数据都被储存在链下的数据库中，这样一方面可以避免私有数据的泄露，一方面也能降低整个系统的网络开销。通过调整配置文件，QitChain可以连接不同的链下数据库。在用户查询数据的时候，他们可以单独查询某一个链下数据库，也可以通过QitChain来进行联合查询。除此之外，QitChain在技术门槛方面也尽可能地对用户友好，例如其能够完全支持SQL语言的特性大大地降低了使用者的技术门槛。

从综合架构看来，整个QitChain的网络实际上是一个相对精准的“量体裁衣”的架构，通过区分全节点和轻节点，将个人用户和机构用户分别区分开来；同时通过链下存储的方式来提升查询的效率，以此在高安全性和高性能之间达到一个相对合适的分配比例，借此实现分布式搜索的落地应用。

由于QitChain网络中同时拥有全节点和轻节点，而它们的维护者——机构和个人用户的算力必然会出现大的差别，而这种差别不能不引起一种担忧。在此前，无论是采用PoW或者PoS共识，个人用户与机构的算力和技术差异都会引发资源上的马太效应，从而使强者更强，弱者更弱，最终形成中心化的垄断。而QitChain则试图采用一种新的共识——CPoC来解决这个问题。在之后的文章中，我们将介绍CPoC的具体内容，并且讨论这种共识能够如何抑制数字资产的马太效应和中心化。

总的来说，QitChain在设计之初，便针对分布式搜索引擎所遇到的困境进行了种种对应解决的设计，而这些设计也让其在搜索引擎这一条赛道上获得相当多的关注。但在区块链业界中，一个项目的亮点并非胜点，广受关注和马到成功也并不能划等号。因此，QitChain的这一套针对当前分布式搜索引擎痛点的设计究竟能如何为其构建完整繁荣的生态建立优势，依然是一件有待时间来证明的事。但若是要一言以蔽之的话，QitChain这个项目本身，是值得拭目以待的。

四、结语

随着Web3.0时代的接近，区块链业界也开始不断地细分赛道。而各个细分赛道的领头羊则也开始如同雨后春笋一样地大量涌现。而可以预见的是，高效率、相对透明的QitChain Network，凭借其独有的CPoC共识机制（之后的文章会详细提及）和相对合理的架构，将极有可能成为分布式搜索引擎赛道中的领跑位的竞争者。

作者：Akechi

参考资料

Qitchain Network, QitCoin Whitepaper

金色财经，《专访QitChain CEO Shoabi Hayat：分布式搜索将作为Web3.0基础设施支持元宇宙生态发展》，https://www.jinse.com/blockchain/1172592.html

[注：本文部分图片来自互联网！未经授权，不得转载！每天跟着我们读更多的书]