Dada la creciente importancia de los chatbots en todos los aspectos de nuestra vida digital (¡incluida la ingeniería de software!) y las conocidas dificultades para probar cualquier tipo de bot intensivo en NLP, sin duda podríamos utilizar una serie de conjuntos de datos estándar de facto para evaluar y comparar con solidez diferentes bibliotecas y marcos de NLP.
Hay que tener en cuenta que, como nuestro objetivo es comprobar la calidad de los componentes de comparación de intenciones y detección de NER, no podemos limitarnos a utilizar conjuntos de datos de NLP sin procesar. Por ello, necesitamos conjuntos de datos que incluyan:
- El enunciado del usuario
- La intención que debe coincidir con ese enunciado.
- La lista de entidades que deben identificarse en ese enunciado.
Mejor aún si el conjunto de datos ya viene con diferentes conjuntos de datos para entrenamiento, prueba y validación, de modo que diferentes autores/proveedores puedan replicar y comunicar con mayor precisión los resultados de la evaluación que obtienen al comprobar una biblioteca determinada.
Sin embargo, resulta que, dadas las limitaciones anteriores, no hay mucho donde elegir. Pero, hemos recopilado todos los datos de NLP para chatbots que conocemos en este repositorio de GitHub: Awesome NLP benchmarks for intent-based chatbots (ya vimos que GH se utilizaba a menudo para alojar listas impresionantes y que algunas de ellas pasaron de hecho a formar parte de los proyectos más destacados de GH 😉).
Espero que puedas sugerir otros para añadir a la lista, especialmente algunos que no sólo cubran la parte de intención sino también la de reconocimiento de entidades ya que esta es siempre una parte desafiante pero crítica si quieres construir un chatbot que ofrezca una buena experiencia de usuario (en lugar de uno que necesite preguntarte continuamente por cada dato que le falte).