¡Hola compañeros entusiastas de NLP! Hoy voy a esbozar el panorama de NLP con una breve explicación de 33 tareas comunes de NLP. Intentaré hacerlo sencillo y no simplista en la medida de lo posible, por lo que tomad el artículo como punto de partida para adentraros en el campo.

¡Comencemos! 😄

Tabla de contenidos

Clasificación

  • Clasificación de textos: asignación de una categoría a una frase o documento (por ejemplo, filtrado de spam).
  • Análisis de sentimientos: identificación de la polaridad de un texto.

Recuperación de información y clasificación de documentos

  • Similitud de frases/documentos: determinar el grado de similitud de dos textos.
  • Respuesta a preguntas: la tarea de responder a una pregunta en lenguaje natural.

Generación de texto a texto

  • Traducción automática: traducir de un idioma a otro.
  • Generación de texto: creación de un texto que parece indistinguible de un texto escrito por un humano.
  • Resumir textos: crear una versión abreviada de varios documentos que conserve la mayor parte de su significado.
  • Simplificación de textos: hacer que un texto sea más fácil de leer y comprender, conservando sus ideas principales y su significado aproximado.
  • Normalización léxica: traducir/transformar un texto no estándar a un registro estándar.
  • Generación de paráfrasis: creación de una frase de salida que conserva el significado de la entrada pero incluye variaciones en la elección de palabras y la gramática.

Bases de conocimiento, entidades y relaciones

  • Extracción de relaciones: extracción de relaciones semánticas de un texto. Las relaciones extraídas suelen darse entre dos o más entidades y corresponden a categorías semánticas específicas (por ejemplo, vive en, hermana de, etc).
  • Predicción de relaciones: identificación de una relación con nombre entre dos entidades semánticas con nombre.
  • Reconocimiento de entidades con nombre: etiquetado de entidades en el texto con su tipo correspondiente, normalmente en notación BIO.
  • Vinculación de entidades: reconocimiento y desambiguación de entidades con nombre en una base de conocimientos (normalmente Wikidata).

Temas y palabras clave

  • Modelización de temas: identificación de «temas» abstractos subyacentes a una colección de documentos.
  • Extracción de palabras clave: identificación de los términos más relevantes para describir el tema de un documento.

Chatbots

  • Detección de intenciones: captura de la semántica que hay detrás de los mensajes de los usuarios y los asigna a la etiqueta correcta.
  • Relleno de slots: tiene como objetivo extraer de los textos los valores de determinados tipos de atributos (o ranuras, como ciudades o fechas) de una entidad determinada.
  • Gestión de diálogos: gestión del estado y el flujo de las conversaciones.

Razonamiento textual

  • Razonamiento de sentido común: uso del «sentido común» o del conocimiento del mundo para hacer inferencias.
  • Inferencia en lenguaje natural: determinar si una «hipótesis» es verdadera (vinculación), falsa (contradicción) o indeterminada (neutra) dada una «premisa».

Detección de noticias falsas y discursos de odio

  • Detección de noticias falsas: detección y filtrado de textos que contienen información falsa y engañosa.
  • Detección de posturas: determinar la reacción de un individuo ante la afirmación de un actor principal. Es una parte fundamental de un conjunto de enfoques para la evaluación de noticias falsas.
  • Detección de discursos de odio: detectar si un texto contiene discursos de odio.

Texto a datos y viceversa

  • Texto a voz: tecnología que lee el texto digital en voz alta.
  • Speech-to-Text: transcripción de voz a texto.
  • Texto a imagen: generación de imágenes fotorrealistas que son semánticamente coherentes con las descripciones del texto.
  • Texto a datos: producción de texto a partir de datos no lingüísticos, como bases de datos de registros, hojas de cálculo y bases de conocimiento de sistemas expertos.

Preprocesamiento de textos

  • Resolución de correferencias: agrupación de menciones en el texto que se refieren a las mismas entidades del mundo real subyacentes.
  • Etiquetado de la parte del discurso (POS): etiquetado de una palabra en un texto con su parte del discurso. Una parte de la oración es una categoría de palabras con propiedades gramaticales similares, como sustantivo, verbo, adjetivo, adverbio, pronombre, preposición, conjunción, etc.
  • Desambiguación del sentido de las palabras: asociar palabras en contexto con su entrada más adecuada en un inventario de sentidos predefinido (normalmente WordNet).
  • Corrección de errores gramaticales: corrección de distintos tipos de errores en el texto, como los de ortografía, puntuación, gramática y elección de palabras.
  • Extracción de rasgos: extracción de rasgos numéricos genéricos del texto, normalmente incrustaciones.

¡Gracias por leer! Si estás interesado en aprender más sobre laNLP, recuerda seguir a NLPlanet en Medium, LinkedIn y Twitter.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *