Realización (lingüística) - Realization (linguistics)

En lingüística , la realización es el proceso mediante el cual algún tipo de representación superficial se deriva de su representación subyacente; es decir, la forma en que algún objeto abstracto de análisis lingüístico llega a producirse en el lenguaje real. A menudo se dice que los fonemas se realizan mediante los sonidos del habla . Los diferentes sonidos que puede realizar un fonema en particular se denominan alófonos .

La realización es también una subtarea de la generación del lenguaje natural , que implica la creación de un texto real en un lenguaje humano (inglés, francés, etc.) a partir de una representación sintáctica. Hay una serie de paquetes de software disponibles para su realización, la mayoría de los cuales han sido desarrollados por grupos de investigación académica en NLG. El resto de este artículo se refiere a la realización de este tipo.

Ejemplo

Por ejemplo, el siguiente código Java hace que el sistema simplenlg [2] imprima el texto Las mujeres no fuman. :

NPPhraseSpec subject = nlgFactory.createNounPhrase("the", "woman");
subject.setPlural(true);
SPhraseSpec sentence = nlgFactory.createClause(subject, "smoke");
sentence.setFeature(Feature.NEGATED, true);
System.out.println(realiser.realiseSentence(sentence));

En este ejemplo, el programa de computadora ha especificado los constituyentes lingüísticos de la oración (verbo, sujeto), y también características lingüísticas (sujeto plural, negado), y a partir de esta información, el realizador ha construido la oración real.

Procesando

La realización implica tres tipos de procesamiento:

Realización sintáctica : Uso del conocimiento gramatical para elegir inflexiones, agregar palabras funcionales y también para decidir el orden de los componentes. Por ejemplo, en inglés, el sujeto generalmente precede al verbo y la forma negada de humo es no fumar .

Realización morfológica : Computación de formas flexionadas, por ejemplo, la forma plural de mujer es mujer (no mujer ).

Realización ortográfica : manejo de mayúsculas, puntuación y formato. Por ejemplo, poner en mayúscula The porque es la primera palabra de la oración.

Los ejemplos anteriores son muy básicos, la mayoría de los realizadores son capaces de un procesamiento considerablemente más complejo.

Sistemas

Se han desarrollado varios realizadores durante los últimos 20 años. Estos sistemas se diferencian en términos de complejidad y sofisticación de su procesamiento, solidez para tratar casos inusuales y si se accede a ellos mediante programación a través de una API o si toman una representación textual de una estructura sintáctica como entrada.

También existen grandes diferencias en factores pragmáticos como documentación, soporte, términos de licencia, velocidad y uso de memoria, etc.

No es posible describir aquí a todos los realizadores, pero algunas de las áreas emergentes son:

  • Simplenlg [3] : un motor de realización de documentos con una API que pretendía ser simple de aprender y usar, enfocado en limitar el alcance para encontrar solo el área de superficie de un documento.
  • KPML [4] : este es el realizador más antiguo, que se ha desarrollado bajo diferentes formas desde la década de 1980. Viene con gramáticas para diez idiomas diferentes.
  • FUF / SURGE [5] : un realizador que se utilizó ampliamente en la década de 1990 y todavía se utiliza en algunos proyectos en la actualidad.
  • OpenCCG [6] : un realizador de código abierto que tiene una serie de características interesantes, como la capacidad de utilizar modelos de lenguaje estadístico para tomar decisiones de realización.

Referencias

enlaces externos

  • [7] - Portal ACL NLG (contiene enlaces a lo anterior y a muchos otros realisers)