# [Portal](https://www.luogu.com.cn/problem/P3975) 大家好，这里介绍一种理论复杂度可以优化到$O(n)$的**全新后缀数组**解法。我们默认串下标从$0$开始。首先$t=0$的情况就是经典老题了，[不同子串个数](https://www.luogu.com.cn/problem/P2408)。直接遍历$ht$数组，则每个串会增加$n-sa_i-ht_i$个新串，并且这就是**按照字典序**加入的。比较naive，这里就不多说了。显然，它是$O(n)$的，假如你用DC3的话。 ------------ 然后就是$t=1$的情况了。显然，我们需要知道每个本质不同的子串各出现了多少次。我们举一个栗子： ```aabbababb``` 它后缀排序后的结果是这样的： | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | | :----------: | :----------: | :----------: | :----------: | :----------: | :----------: | :----------: | :----------: | :----------: | | `b` | | | | | | | | | | `b` | | | `b` | | | | | | | `a` | | | `b` | | | | | `b` | | `b` | | | `a` | | `b` | | | `b` | | `a` | `b` | | `b` | | `b` | | | `a` | | `b` | `b` | | `a` | | `a` | `b` | | `b` | | `b` | `a` | `b` | `b` | | `b` | `b` | | `a` | | `a` | `b` | `b` | `b` | | `a` | `a` | `b` | `b` | | `a` | `a` | `a` | `a` | `b` | `b` | `b` | `b` | `b` | 我们发现，它实际上可以被看做一个树形结构来表示字典序： ![](https://cdn.luogu.com.cn/upload/image_hosting/loco3y0c.png) update：新知道有种名叫“**笛卡尔树**”的神奇玩意儿……下面的东西似乎就是它的魔改，大体思路和笛卡尔树是相同的……如果已经会笛卡尔树的神仙直接结合笛卡尔树理解就OK了…… ~~我居然自己yy出了笛卡尔树~~ ------------ 那么这棵树（姑且把它叫做“$ht$树”），有什么性质呢？ 1. 每个节点所代表的区间，都有着相同的前缀，且该公共前缀长度一定**大于等于**父亲节点区间的公共前缀长度。例如，$(2,3)$节点所代表的公共前缀```abb```，就要长于它父亲节点，$(1,3)$所代表的```ab```。 2. **每条极长公共前缀（即长度如果再增长其对应的区间就会缩短的前缀）都唯一对应着树中的一个区间，每个区间也反过来对应唯一的极长公共前缀**。从这一点，我们可以得出一条重要结论，即$ht$树的节点数最多为$2n+1$，因为极长公共前缀的数量最多是$n$，然后还有$n$个大小为$1$的区间，同时还有一个为了方便当作根的$(0,n-1)$区间。$O(n)$**级别的节点数，是保障总复杂度仍为$O(n)$的前提**。同时，这极长公共前缀的出现次数，就是**区间大小**。（这里如果结合笛卡尔树的思想来看，实际上就是对$n$个后缀与$n+1$个间隔建立一棵笛卡尔树，故总数是$2n+1$） 3. 对这棵树**先根遍历**，访问到的节点所代表的公共前缀**是按照字典序排序的**。这很好理解，因为原串的所有后缀本来就已经排序过了。 4. **这棵树的大区间在分裂成小区间时，是在$\min ht$的地方分裂的**。在上面那组栗子中看一看是不是？于是我们就可以构思出一种方法：我们设$len_{(i,j)}$表示区间$(i,j)$所对应的极长公共前缀的长度。则先根遍历$ht$树，对于当前节点，如果$(j-i+1)\times(len_{i,j}-len_{fa})r){ if(id>n-sa[r]-las)id-=n-sa[r]-las; else{for(int j=0;j1ll*(ht[mp]-las)*(r-l+2))id-=1ll*(ht[mp]-las)*(r-l+2); else{ for(int j=0;j0;id-=(r-l+2),j++)putchar(s[sa[r]+j]); exit(0); } solve(l,mp-1,ht[mp]),solve(mp+1,r,ht[mp]); } ``` 注意到这里的实现不太一样，```solve(l,r,las)```，实际上对应的区间应是$(l-1,r)$。这么写主要是为了方便直接RMQ。这里```las```即为$len_{fa}$，而$len_{(l,r)}$则为```ht[mp]```。带$\log$的完整代码： ```cpp #include using namespace std; int stk[500100],tp,L[500100],R[500100],id,pt; namespace Suffix_Array{ const int N=500100; int x[N],y[N],sa[N],ht[N],rk[N],buc[N],n,m; char s[N]; bool mat(int a,int b,int k){ if(y[a]!=y[b])return false; if((a+k=0;i--)sa[--buc[x[i]]]=i; for(int k=1;k=k)y[num++]=sa[i]-k; for(int i=0;i<=m;i++)buc[i]=0; for(int i=0;i=0;i--)sa[--buc[x[y[i]]]]=y[i],y[i]=0; swap(x,y); x[sa[0]]=num=0; for(int i=1;ir){ if(id>n-sa[r]-las)id-=n-sa[r]-las; else{for(int j=0;j1ll*(ht[mp]-las)*(r-l+2))id-=1ll*(ht[mp]-las)*(r-l+2); else{ for(int j=0;j0;id-=(r-l+2),j++)putchar(s[sa[r]+j]); exit(0); } solve(l,mp-1,ht[mp]),solve(mp+1,r,ht[mp]); } int main(){ scanf("%s",s),n=strlen(s),scanf("%d%d",&pt,&id),m='z'; SA(); // for(int i=0;i>1]+1; for(int i=1;i