翻译或纠错本页面

指定文本索引的语言

本文描述了如何 指定文本索引的默认语言 和如何 在包含不同语言的文档的集合中创建索引.

文本 索引指定默认语言

被索引的数据的默认语言决定了如何解析词根(例如,取词根-stemming)以及忽略停止词的规则。被索引数据的默认语言是 英语

如果希望指定一个不同的语言,请在创建 文本 索引时使用 default_language 选项。参见 文本搜索语言 了解 default_language 可用的语言。

下例在 quotes 集合的 content 键上创建 文本 索引,并设置 default_languagespanish :

db.quotes.createIndex(
   { content : "text" },
   { default_language: "spanish" }
)

在多个语言的集合中创建 文本 索引

在 2.6 版更改: Added support for language overrides within embedded documents.

指定文档中的索引语言

如果集合中包含了不同语言的文档或者子文档,可以在该文档或子文档中添加一个 language 键并将它的值指定为文档或子文档的语言。

MongoDB will use the specified language for that document or embedded document when building the text index:

  • 文档中指定的语言会覆盖 文本 索引的默认语言。

  • 子文档中指定的语言会覆盖外包围的父文档(enclosing document)的指定语言或者文本索引的默认语言。

参见 文本搜索语言 查看支持的语言列表。

例如,集合 quotes 中包含了多种语言的文档,其中的文档/子文档会在需要的时候指定 language 键:

{
   _id: 1,
   language: "portuguese",
   original: "A sorte protege os audazes.",
   translation:
     [
        {
           language: "english",
           quote: "Fortune favors the bold."
        },
        {
           language: "spanish",
           quote: "La suerte protege a los audaces."
        }
    ]
}
{
   _id: 2,
   language: "spanish",
   original: "Nada hay más surrealista que la realidad.",
   translation:
      [
        {
          language: "english",
          quote: "There is nothing more surreal than reality."
        },
        {
          language: "french",
          quote: "Il n'y a rien de plus surréaliste que la réalité."
        }
      ]
}
{
   _id: 3,
   original: "is this a dagger which I see before me.",
   translation:
   {
      language: "spanish",
      quote: "Es este un puñal que veo delante de mí."
   }
}

如果您在 quote 键上创建 文本 索引,默认语言为英语,

db.quotes.createIndex( { original: "text", "translation.quote": "text" } )

那么,对于那些包含了 language 键的文档和子文档, 文本 索引会使用指定的语言来解析词干和其他语言学特性。

For embedded documents that do not contain the language field,

  • 如果外围父文档指定了 language 键,那么索引会使用该文档指定的语言对子文档进行索引。

  • Otherwise, the index uses the default language for the embedded documents.

对于不含有 language 键的文档,索引使用默认语言,即英语。

使用任意键为文档指定语言

如果需要使用不同于 language 的名称作为键名,请在创建索引是包含 language_override 选项。

例如,以下命令使用 idioma 替代 language 作为键名:

db.quotes.createIndex( { quote : "text" },
                       { language_override: "idioma" } )

那么 quotes 集合中的文档就可以在 idioma 键中指定语言了:

{ _id: 1, idioma: "portuguese", quote: "A sorte protege os audazes" }
{ _id: 2, idioma: "spanish", quote: "Nada hay más surrealista que la realidad." }
{ _id: 3, idioma: "english", quote: "is this a dagger which I see before me" }