Saltar al contenido principal

🗂️ Introducción del procesamiento de lenguaje natural (PLN)

Se entiende como un subcampo del machine learning el cual le permite a los ordenadores tener la capacidad de interpretar, manipular y controlar el lenguaje humano.

Las técnicas de NLP se pueden aplicar en diversos tipos de tareas; como lo es el análisis de sentimientos, traducción automática, recuperación de información o incluso generación de texto.

Algunas de las aplicaciones de NLP son:

  • Revisión de ortografía
  • Reconocimiento de carácteres
  • Lectores de pantalla para usuarios con discapacidades - Segmentación de texto
  • Clasificación de Documentos
  • Herramientas para lexicógrafos
  • Sistemas de Diálogo

Terminología

  • Tokenización: Es el proceso de dividir un texto en unidades más pequeñas llamadas tokens, generalmente utilizado para preparar los datos antes del modelado y análisis.
  • Tokens: Suelen ser palabras, pero también pueden incluir signos de puntuación u otros elementos.
  • Sintaxis: Se refiere a la estructura gramatical de las oraciones y cómo se organizan las palabras para formar frases coherentes.
  • Análisis morfológico: Estudia el significado y la forma de las palabras, así como su relación en frases y oraciones.
  • Pragmática: Analiza cómo el contexto influye en la interpretación del lenguaje.
  • Etiquetado de partes del discurso: Es el proceso de asignar etiquetas gramaticales a cada token para identificar su función, como sustantivo, verbo, adjetivo, entre otros.

¿Por qué se considera complicado el Procesamiento de Lenguaje Natural?

Complejidad del lenguaje humano: El lenguaje humano radica en su irregularidad, llena de ambigüedades y matices. Las reglas gramaticales no siempre se aplican de forma estricta, ya que las expresiones varían según el contexto cultural y social.

Variabilidad en la forma de hablar: Existen distintos acentos, entonaciones y velocidades, complica el desarrollo de modelos precisos para el reconocimiento y comprensión del habla.

Ambigüedad en el lenguaje: Esta surge cuando las palabras y frases tienen múltiples significados según el contexto. El procesamiento del lenguaje natural (PLN) debe abordar esta ambigüedad para interpretar correctamente el significado intencionado.