TextFeaturizingEstimator 类
定义
重要
一些信息与预发行产品相关,相应产品在发行之前可能会进行重大修改。 对于此处提供的信息,Microsoft 不作任何明示或暗示的担保。
将文本文档集合转换为数字特征向量的估算器。 特征向量是基于) 提供的选项规范化的单词和/或字符 n 元语法 (计数。
public sealed class TextFeaturizingEstimator : Microsoft.ML.IEstimator<Microsoft.ML.ITransformer>
type TextFeaturizingEstimator = class
interface IEstimator<ITransformer>
Public NotInheritable Class TextFeaturizingEstimator
Implements IEstimator(Of ITransformer)
- 继承
-
TextFeaturizingEstimator
- 实现
注解
估算器特征
此估算器是否需要查看数据来训练其参数? | 是的。 |
输入列数据类型 | text |
输出列数据类型 | Single 的向量 |
可导出到 ONNX | 否 |
此估算器为用户提供用于执行以下操作的一站式解决方案:
- 语言检测
- 词汇切分
- 文本规范化
- 预定义和自定义非索引字删除
- [通过高级选项) 基于Word或基于字符的 Ngram 提取和 SkipGram 提取 (] (https://en.wikipedia.org/wiki/N-gram)
- TF、IDF 或 TF-IDF
- [L-p 矢量规范化] (xref:Microsoft.ML.Transforms.LpNormNormalizingTransformer)
默认情况下,特征由 (单词/字符) n-gram/skip-gram 组成,特征数等于通过分析数据找到的词汇大小。 若要输出包含生成的标记的其他列,请使用 OutputTokensColumnName。 还可以通过选择要保留在 中 TextFeaturizingEstimator.Options的最大 n 元语法数来指定特征数,其中估算器可以进一步优化。
有关使用示例的链接,请查看“另请参阅”部分。
方法
Fit(IDataView) |
训练并返回 ITransformer。 |
GetOutputSchema(SchemaShape) |
返回 SchemaShape 转换器将生成的架构的 。 用于管道中的架构传播和验证。 |
扩展方法
AppendCacheCheckpoint<TTrans>(IEstimator<TTrans>, IHostEnvironment) |
将“缓存检查点”追加到估算器链。 这将确保针对缓存的数据训练下游估算器。 在接受多个数据传递的训练程序之前设置缓存检查点会很有帮助。 |
WithOnFitDelegate<TTransformer>(IEstimator<TTransformer>, Action<TTransformer>) |
给定估算器后,返回一个包装对象,该对象在调用 后 Fit(IDataView) 将调用委托。 对于估算器来说,返回有关适合对象的信息通常很重要,这就是方法返回特定类型对象(而不仅仅是常规 ITransformer)的原因Fit(IDataView)。 但是,同时, IEstimator<TTransformer> 通常形成为包含许多对象的管道,因此我们可能需要通过 EstimatorChain<TLastTransformer> 构建估算器链,其中要获取转换器的估算器埋在此链中的某个位置。 对于这种情况,我们可以通过此方法附加一个委托,该委托将在调用 fit 后调用。 |