找回密码
 立即注册
首页 业界区 业界 谈表达式树的缓存(6):五种缓存方式的性能比较 ...

谈表达式树的缓存(6):五种缓存方式的性能比较

毋峻舷 2025-5-29 20:29:13
开始还债,因为还有至少两个可写的重要话题依赖在这个系列上,不解决就难以前进。
目前我们已经涉及了五种不同的缓存实现,它们分别是:

  • SimpleKeyCache:构造字符串作为Key,使用字典作为存储。
  • PrefixTreeCache:使用前缀树进行存储。
  • SortedListCache:使用排序列表或二叉搜索树进行存储。
  • HashedListCache:先对表达式树取散列值,再从字典中取出二叉搜索树。
  • DictionaryCache:实现了散列值和表达式树的比较方法,直接使用字典进行存储。
如果要从一个已经包含n个表达式树的存储中,查找一个有m个节点的表达式树,根据几篇文章的分析,从理论上说除了HashedListCache的时间复杂度是O(m * log(n))之外,其它几种实现的时间复杂度都是O(m)。不过,理论上的结果和实际使用中的效果完全符合吗?如果完全符合的话,那么我们在构建第一个SimpleKeyCache,获得了一种既简单直观又“高效”(达到了理论上最好的时间复杂度O(m))的实现之后为什么还要继续设计剩下的方案呢?如果您看完了文章还没有想到,这说明您的.NET编程“常识”还需要加强。
那么我们就写一个程序,让数据说话。
这是一个控制台应用程序,接受用户参数,并由此生成试验数据,或进行性能比较。
生成试验数据

需要进行测试,自然要准备试验数据,而这里所需要的试验数据自然是大量的表达式树。
表达式树的种类非常纷繁,如果要构造各种类型的树,其代价也是非常昂贵的。因此在这里,我们只构建所谓的“整数的四则运算”表达式进行试验。对于这样的表达式,每个运算符占用一个节点,每个数字又会占用另一个节点,因此表达式数的节点个数m便是操作符的个数p,与数字的个数q之和。而由于每个元算符都是二元运算符,因此p等于q - 1。于是我们就可以得出m与p之间的关系:
  1. m = 2p + 1
复制代码
知道了这个关系,我们便可以获得一定规模的试验数据。于是我们写一个简单的小程序来随机输出一个表达式:
  1. private static void WriteSingleExpression(
  2.     TextWriter writer, Random random, int opCount)
  3. {
  4.     string ops = "+-*/";
  5.     writer.Write(random.Next(100));
  6.     while (opCount-- > 0)
  7.     {
  8.         writer.Write(" ");
  9.         writer.Write(ops[random.Next(4)]);
  10.         writer.Write(" ");
  11.         writer.Write(random.Next(100));
  12.     }
  13.     writer.WriteLine();
  14. }
复制代码
这个方法的目的是向TextWriter中随机输出一个拥有opCount个运算符的表达式(可以得知,这个表达式树有m = 2 * opCount + 1个节点)。例如,当opCount等于11的时候,它可能就会生成这样一个表达式:
  1. 82 / 6 - 76 * 75 - 33 / 32 * 56 + 47 + 3 + 22 * 5 + 63
复制代码
然后我们获取用户参数输入,并输出一系列随机的表达式:
  1. private static void GenerateExpressions(NameValueCollection args)
  2. {
  3.     string output = args["out"] ?? "expressions.txt";
  4.     int min = Int32.Parse(args["min"] ?? "11");
  5.     int max = Int32.Parse(args["max"] ?? (min + 9).ToString());
  6.     int repeat = Int32.Parse(args["repeat"] ?? "100");
复制代码
以上代码的目的是获取用户参数,用户输入的参数将被解析为NameValueCollection,参数含义如下:

  • output:输出文件
  • min:最短表达式中的运算符数量
  • max:最长表达式中的运算符数量
  • repeat:每种长度的表达式重复次数
向文件输出所有的随机表达式便不是难事了:
  1.     Random random = new Random(DateTime.Now.Millisecond);
  2.     using (var stream = File.Open(output, FileMode.Create))
  3.     {
  4.         StreamWriter writer = new StreamWriter(stream);
  5.         for (int opCount = min; opCount <= max; opCount++)
  6.         {
  7.             for (int i = 0; i < repeat; i++)
  8.             {
  9.                 WriteSingleExpression(writer, random, opCount);
  10.             }
  11.         }
  12.     }
  13. }
复制代码
接着,准备5种缓存容器:
  1. static void PerfTest(NameValueCollection args)
  2. {
  3.     string intput = args["in"] ?? "expressions.txt";
  4.     int repeat = Int32.Parse(args["repeat"] ?? "100");
复制代码
初始化CodeTimer:
  1.     List<Expression> expressions = File.ReadAllLines(intput).Select(
  2.         s => DynamicExpression.Parse(null, s)).ToList();
复制代码
遍历字典中的每个缓存对象,将其放入缓存容器中。这段代码还有一个作用便是“热身”——请注意,对.NET中任意代码作性能测试时,都需要让它预运行一下。由于JIT的存在,一个方法第一次运行时所花时间总是较长的,这不应该统计在内:
  1.     var caches = new SortedDictionary<string, IExpressionCache<object>>()
  2.     {
  3.         { "1. SimpleKeyCache", new SimpleKeyCache<object>() },
  4.         { "2. PrefixTreeCache", new PrefixTreeCache<object>() },
  5.         { "3. SortedListCache", new SortedListCache<object>() },
  6.         { "4. HashedListCache", new HashedListCache<object>() },
  7.         { "5. DictionaryCache", new DictionaryCache<object>() },
  8.     };
复制代码
最后,则是使用CodeTimer对当前缓存容器进行性能测试:
  1.     CodeTimer.Initialize();
复制代码
PerfTest编写完毕,我们最后还需要指定一个函数的入口,如下:
  1.     var value = new object();
  2.     foreach (var pair in caches)
  3.     {
  4.         var cache = pair.Value;
  5.         expressions.ForEach(exp => cache.Get(exp, (_) => value));
复制代码
如果直接执行程序,便会创建一个expression.txt文件,其中包括操作符数量在11到20之间,每种表达式各100个。如果加上了task参数,并指定test字符串,便会进行性能比较。
比较结果

输入命令,便会使用expression.txt中的每个表达式各调用100次:
  1.         CodeTimer.Time(pair.Key, repeat,
  2.             () => expressions.ForEach(exp => cache.Get(exp, null)));
  3.     }
  4. }
复制代码
对于运算符数量为11到20的表达式各100个(即总共1000个表达式),各调用100次的结果如下(不过,请不要直接看结果,再想想,再想想):
  1. static void Main(string[] args)
  2. {
  3.     var arguments = ParseArguments(args);
  4.     if (arguments["task"] == "test")
  5.     {
  6.         PerfTest(arguments);
  7.     }
  8.     else
  9.     {
  10.         GenerateExpressions(arguments);
  11.     }
  12. }
复制代码
结果和您想象的是否一样?在老赵的机器上,这个结果还是相当稳定的,每次测试只差十几毫秒,而垃圾收集次数则完全一样。从这个数据中您看出什么来了吗?或者说,您能否回答以下几个问题呢?

  • SimpleKeyCache的垃圾收集次数为什么明显较多?PrefixTreeCache为什么也有不少垃圾收集?
  • SimpleKeyCache和PrefixTreeCache的时间复杂度都是理论最优值O(m),但是为什么它们却比不过SortedListCache这个理论上时间复杂度是O(m * log(n))的容器呢?
  • 您能否设定一种用例,让SortedListCache的耗时超过PrefixTreeCache或SimpleKeyCache呢?
  • HashedListCache为什么会超过SortedListCache,DictionaryCache的性能为什么也那么好呢(与HashedListCache不分伯仲,多次测试互有“胜负”)?
  • DictionaryCache有一次1代的垃圾收集,这说明DictionaryCache消耗内存超过前些容器吗?
  • SimpleKeyCache从时间和空间上看全面落后,那么他有什么好处吗?
  • 您能为每种容器提出改进意见吗?
您是否还能提出更多问题?您能够在老赵发布下一篇文章讨论这些问题之前,在这里留言给出您对这些问题的看法呢?
 
完整代码下载:http://code.msdn.microsoft.com/ExpressionCache
相关文章:

  • 谈表达式树的缓存(1):引言
  • 谈表达式树的缓存(2):由表达式树生成字符串
  • 谈表达式树的缓存(3):使用前缀树
  • 谈表达式树的缓存(4):使用二叉搜索树(AVL树)
  • 谈表达式树的缓存(5):引入散列值
  • 谈表达式树的缓存(7):五种缓存方式的总体分析及改进方案

来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
您需要登录后才可以回帖 登录 | 立即注册