目前主流的OC有这几种方式：预计算的原始的PVS，主要CPU端的umbra的dPVS。和主要GPU端的GPU-Driven。像RealTimeRendering中提到的Hierarchical Z-Buffering和HOM，大多比较底层，集成在其它实现方案里，比如dPVS用了HOM的技术。

1. 简单PVS

直接离线计算每个位置上的可见物体集。位置用cell描述，几米一个。给每个物体一个ID，存一个bitarray记录可见性，内存占用也很小。实时运行很快，只是离线计算比较慢，在手游上很容易实现。有几个要点：1. Cell划分，最简单的就是平均切分了，更细致的考虑还有按密度自适应cell大小（比如四叉树），高度上可能有多层需要支持等等。2. 可视性计算，从Cell到被判断的物体，采集哪些射线求交并且速度快就有学问了。最简单的是直接格子和被判断物体的AABB间连线，这是非常保守的了。3. Streaming，开放世界做streaming的话，物体ID就得按chunk给了，可见性bitarray同样。

不过PVS似乎在Asset Store上没有现成的做法。但是自己写一个也是很快，而且效果不错。唯一问题就是听起来技术比较low。据笔者所知，盘古和互娱的手游都有开发自己的PVS系统。内部资料就不分享了。

2. dPVS

Unity自己的Occulusion Culling用的是Umbra的中间件，也就是dPVS的技术。是Timo Aila提出的，当时是他在赫尔辛基大学的硕士毕业论文。后来他成立了Umbra，07年加入了NVIDIA Research. dPVS虽然叫PVS，但是和纯离线的原理有很大区别。它离线不计算所有可见性，而只是生成一个空间数据结构，一个BSP描述的节点信息，用于之后的空间位置查询。因此离线计算的速度快很多。但是在线会多计算不少东西，包括跟踪可见物体的标记点，提取轮廓生成HOM等。

dPVS的提出在2000年，借鉴了hierarchical occlusion maps的技术。创新有两点：一是Occulusion Map的计算用提取轮廓的方法。二是剔除前做visible point tracking，cache一些可见物体，可见的就不参与计算了。

其中visible point tracking如图，可见的就不再参与下面的遮挡计算了。

提取轮廓线的计算比较精妙，比渲染所有三角获得轮廓的做法快不少。思想就是缓存轮廓边，有需要再更新。算法里会缓存轮廓边和轮廓边邻面所在平面到视点的距离，如果邻面平面到视点的两个距离都是正的，那肯定就是轮廓了。如果有一个变负了，再去找相邻的边有没有成为轮廓边。用法线点积运算计算。

第一个pass找到轮廓边并光栅化后，用第二个pass填充区域。初始是左边1，右边-1；第二个pass一列列扫过去就行了，全都是位运算。

看上去很酷炫，烘焙速度很快，unity自带。唯一的问题是在手游上CPU的性能开销还是可观的，一帧1-2ms不成问题，比原始PVS高一个数量级。另外不支持streaming，这样大场景的内存占用是不太能接受的。

3. GPU Driven

这种就比较叼了，全部用compute shader做遮挡剔除，然后用compute shader来合并index/vertex buffer。结合Virtual Texturing和DrawInstanceIndirect，简直可以一两个drawcall画出所有的场景。

参考

[Siggraph15] GPU-Driven Rendering Pipelines https://zhuanlan.zhihu.com/p/33881505

[GDC16] Optimizing the Graphics Pipeline with Compute https://zhuanlan.zhihu.com/p/33881861

https://en.wikipedia.org/wiki/Potentially_visible_set

Aila, T., & Miettinen, V. (2004). Dpvs: an occlusion culling system for massive dynamic environments. IEEE Comput Graph Appl, 24(2), 86-97.