説明
Les recherches actuelles sur la reconnaissance d'entités nommées biomédicales entièrement supervisées (bioNER) sont souvent menées dans un contexte de faibles tailles d'échantillon. Bien que les résultats expérimentaux montrent de fortes performances dans le domaine, il a été reconnu que la qualité souffre lorsque les modèles sont appliqués à des collections de textes hétérogènes. Cependant, les facteurs de causalité ont jusqu'à présent été incertains. Dans cet article, nous décrivons une expérience contrôlée de biais de domaine proche pour deux corpus Medline sur les maladies héréditaires. Cinq stratégies sont employées pour atténuer l'impact du transfert de domaine proche, y compris le transfert simple, la mise en commun, l'empilage, le réétiquetage de classe et l'augmentation des caractéristiques. Nous mesurons leur effet sur la performance du score f par rapport à une ligne de base dans le domaine. La mise en commun et l'augmentation des caractéristiques atténuent la perte de score f mais n'entraînent pas nécessairement une performance supérieure, sauf pour les classes sélectionnées. La mise en commun simple des données entre les domaines n'a pas réussi à exploiter les effets de taille pour la plupart des classes. Nous concluons que nous pouvons nous attendre à des performances plus faibles et des coûts d'annotation plus élevés si nous ne compensons pas de manière adéquate les dissemblances de distribution des domaines pendant l'apprentissage.
La investigación actual en el reconocimiento biomédico de entidades con nombre (bioNER) totalmente supervisado a menudo se lleva a cabo en un entorno de tamaños de muestra bajos. Si bien los resultados experimentales muestran un fuerte rendimiento en el dominio, se ha reconocido que la calidad sufre cuando los modelos se aplican a colecciones de texto heterogéneas. Sin embargo, los factores causales hasta ahora han sido inciertos. En este documento describimos un experimento controlado en el sesgo de dominio cercano para dos corpus de Medline en enfermedades hereditarias. Se emplean cinco estrategias para mitigar el impacto de la transferencia de dominio cercano, incluida la transferencia simple, la agrupación, el apilamiento, el reetiquetado de clase y el aumento de características. Medimos su efecto en el rendimiento de la puntuación f frente a una línea de base en el dominio. El apilamiento y el aumento de características mitigan la pérdida de puntuación f, pero no necesariamente dan como resultado un rendimiento superior, excepto para las clases seleccionadas. El agrupamiento simple de datos entre dominios no pudo explotar los efectos de tamaño para la mayoría de las clases. Llegamos a la conclusión de que podemos esperar un rendimiento más bajo y mayores costos de anotación si no compensamos adecuadamente las diferencias distribucionales de los dominios durante el aprendizaje.
Current research in fully supervised biomedical named entity recognition (bioNER) is often conducted in a setting of low sample sizes.Whilst experimental results show strong performance in-domain it has been recognised that quality suffers when models are applied to heterogeneous text collections.However the causal factors have until now been uncertain.In this paper we describe a controlled experiment into near domain bias for two Medline corpora on hereditary diseases.Five strategies are employed for mitigating the impact of near domain transference including simple transference, pooling, stacking, class re-labeling and feature augmentation.We measure their effect on f-score performance against an in domain baseline.Stacking and feature augmentation mitigate f-score loss but do not necessarily result in superior performance except for selected classes.Simple pooling of data across domains failed to exploit size effects for most classes.We conclude that we can expect lower performance and higher annotation costs if we do not adequately compensate for the distributional dissimilarities of domains during learning.
غالبًا ما يتم إجراء الأبحاث الحالية في التعرف على الكيانات الطبية الحيوية الخاضعة للإشراف الكامل (bioNER) في إعداد أحجام منخفضة للعينة. في حين تظهر النتائج التجريبية أداءً قويًا في المجال، فقد تم الاعتراف بأن الجودة تعاني عندما يتم تطبيق النماذج على مجموعات النصوص غير المتجانسة. ومع ذلك، فإن العوامل السببية غير مؤكدة حتى الآن. في هذه الورقة، نصف تجربة مضبوطة في تحيز المجال القريب لمجموعتين من Medline على الأمراض الوراثية. يتم استخدام خمس استراتيجيات للتخفيف من تأثير نقل المجال القريب بما في ذلك النقل البسيط والتجميع والتكديس وإعادة تسمية الفئة وزيادة الميزة. نقيس تأثيرها على أداء f - score مقابل خط الأساس في المجال. التراص والميزة تخفف من فقدان f - score ولكنها لا تؤدي بالضرورة إلى أداء متفوق باستثناء فئات مختارة. فشل تجميع البيانات عبر المجالات في استغلال تأثيرات الحجم لمعظم الفئات. نستنتج أنه يمكننا توقع انخفاض الأداء وارتفاع تكاليف التعليقات التوضيحية إذا لم نعوض بشكل كافٍ عن الاختلافات في توزيع المجالات أثناء التعلم.
収録刊行物
-
- Proceedings of the 5th International Workshop on Health Text Mining and Information Analysis (Louhi)
-
Proceedings of the 5th International Workshop on Health Text Mining and Information Analysis (Louhi) 11-20, 2014-01-01
Association for Computational Linguistics (ACL)
- Tweet
キーワード
- Artificial intelligence
- Domain (mathematical analysis)
- Biomedical Ontologies and Text Mining
- Life Sciences
- Statistical Machine Translation and Natural Language Processing
- Named Entity Recognition
- Computer science
- Mathematical analysis
- Artificial Intelligence
- Biochemistry, Genetics and Molecular Biology
- Computer Science
- Physical Sciences
- FOS: Mathematics
- Molecular Biology
- Mathematics
- Natural Language Processing
詳細情報 詳細情報について
-
- CRID
- 1873398392418437632
-
- データソース種別
-
- OpenAIRE