Robust volcano plot: identification of differential metabolites in the presence of outliers
説明
L'identification des métabolites différentiels dans la métabolomique reste un grand défi et joue un rôle de premier plan dans l'analyse des données métabolomiques. Les ensembles de données métabolomiques contiennent souvent des valeurs aberrantes en raison d'une ambiguïté analytique, expérimentale et biologique, mais les techniques d'identification différentielle des métabolites actuellement disponibles sont sensibles aux valeurs aberrantes. Nous proposons un graphique volcanique aberrant et robuste basé sur le poids du noyau pour identifier les métabolites différentiels à partir d'ensembles de données métabolomiques bruyantes. Deux expériences numériques sont utilisées pour évaluer les performances de la technique proposée par rapport à neuf techniques existantes, y compris le test t et le test de Kruskal-Wallis. Les données générées artificiellement avec des valeurs aberrantes révèlent que le procédé proposé entraîne un taux d'erreur de classification inférieur et une zone plus grande sous la courbe caractéristique de fonctionnement du récepteur par rapport aux procédés existants. Un ensemble de données sur le cancer du sein mesuré expérimentalement auquel des valeurs aberrantes ont été ajoutées artificiellement révèle que notre méthode proposée ne produit que deux métabolites différentiels non chevauchants alors que les neuf autres méthodes ont produit entre sept et 57 métabolites différentiels non chevauchants. Nos analyses de données montrent que la performance de la technique d'identification des métabolites différentiels proposée est meilleure que celle des méthodes existantes. Ainsi, la méthode proposée peut contribuer à l'analyse des données métabolomiques avec des valeurs aberrantes. Le package R et le manuel d'utilisation de la méthode proposée sont disponibles sur https://github.com/nishithkumarpaul/Rvolcano .
La identificación de metabolitos diferenciales en metabolómica sigue siendo un gran desafío y desempeña un papel destacado en los análisis de datos de metabolómica. Los conjuntos de datos de metabolómica a menudo contienen valores atípicos debido a la ambigüedad analítica, experimental y biológica, pero las técnicas de identificación diferencial de metabolitos actualmente disponibles son sensibles a los valores atípicos. Proponemos un gráfico de volcanes atípico-robusto basado en el peso del núcleo para identificar metabolitos diferenciales a partir de conjuntos de datos de metabolómica ruidosa. Se utilizan dos experimentos numéricos para evaluar el rendimiento de la técnica propuesta en comparación con nueve técnicas existentes, incluida la prueba t y la prueba de Kruskal-Wallis. Los datos generados artificialmente con valores atípicos revelan que el método propuesto da como resultado una tasa de error de clasificación errónea más baja y un área mayor bajo la curva de características operativas del receptor en comparación con los métodos existentes. Un conjunto de datos de cáncer de mama medido experimentalmente al que se agregaron valores atípicos artificialmente revela que nuestro método propuesto produce solo dos metabolitos diferenciales no superpuestos, mientras que los otros nueve métodos produjeron entre siete y 57 metabolitos diferenciales no superpuestos. Nuestros análisis de datos muestran que el rendimiento de la técnica de identificación de metabolitos diferenciales propuesta es mejor que el de los métodos existentes. Por lo tanto, el método propuesto puede contribuir al análisis de datos metabolómicos con valores atípicos. El paquete R y el manual de usuario del método propuesto están disponibles en https://github.com/nishithkumarpaul/Rvolcano .
The identification of differential metabolites in metabolomics is still a big challenge and plays a prominent role in metabolomics data analyses. Metabolomics datasets often contain outliers because of analytical, experimental, and biological ambiguity, but the currently available differential metabolite identification techniques are sensitive to outliers.We propose a kernel weight based outlier-robust volcano plot for identifying differential metabolites from noisy metabolomics datasets. Two numerical experiments are used to evaluate the performance of the proposed technique against nine existing techniques, including the t-test and the Kruskal-Wallis test. Artificially generated data with outliers reveal that the proposed method results in a lower misclassification error rate and a greater area under the receiver operating characteristic curve compared with existing methods. An experimentally measured breast cancer dataset to which outliers were artificially added reveals that our proposed method produces only two non-overlapping differential metabolites whereas the other nine methods produced between seven and 57 non-overlapping differential metabolites.Our data analyses show that the performance of the proposed differential metabolite identification technique is better than that of existing methods. Thus, the proposed method can contribute to analysis of metabolomics data with outliers. The R package and user manual of the proposed method are available at https://github.com/nishithkumarpaul/Rvolcano .
لا يزال تحديد المستقلبات التفاضلية في علم الأيض يمثل تحديًا كبيرًا ويلعب دورًا بارزًا في تحليل بيانات علم الأيض. غالبًا ما تحتوي مجموعات بيانات الأيض على قيم متطرفة بسبب الغموض التحليلي والتجريبي والبيولوجي، لكن تقنيات تحديد الأيض التفاضلي المتاحة حاليًا حساسة للقيم المتطرفة. نقترح مخطط بركان قوي ذو وزن نواة لتحديد الأيض التفاضلي من مجموعات بيانات الأيض الصاخبة. يتم استخدام تجربتين رقميتين لتقييم أداء التقنية المقترحة مقابل تسع تقنيات موجودة، بما في ذلك اختبار t واختبار Kruskal - Wallis. تكشف البيانات التي تم إنشاؤها بشكل مصطنع مع القيم المتطرفة أن الطريقة المقترحة تؤدي إلى انخفاض معدل خطأ التصنيف ومساحة أكبر تحت منحنى خصائص تشغيل جهاز الاستقبال مقارنة بالطرق الحالية. تكشف مجموعة بيانات سرطان الثدي المقاسة تجريبيًا والتي تمت إضافة القيم المتطرفة إليها بشكل مصطنع أن طريقتنا المقترحة تنتج مستقلبين تفاضليين غير متداخلين فقط في حين أن الطرق التسع الأخرى أنتجت بين سبعة و 57 مستقلبًا تفاضليًا غير متداخل. تظهر تحليلات البيانات لدينا أن أداء تقنية تحديد المستقلب التفاضلي المقترحة أفضل من أداء الطرق الحالية. وبالتالي، يمكن أن تساهم الطريقة المقترحة في تحليل بيانات الأيض مع القيم المتطرفة. تتوفر حزمة R ودليل المستخدم للطريقة المقترحة على https://github.com/nishithkumarpaul/Rvolcano .
収録刊行物
-
- BMC Bioinformatics
-
BMC Bioinformatics 19 (1), 2018-04-11
Springer Science and Business Media LLC
- Tweet
キーワード
- FOS: Computer and information sciences
- Artificial intelligence
- QH301-705.5
- Bioinformatics
- Computer applications to medicine. Medical informatics
- R858-859.7
- Down-Regulation
- Differential metabolites
- Pattern recognition (psychology)
- Analytical Chemistry
- Identification (biology)
- Engineering
- FOS: Chemical sciences
- Biochemistry, Genetics and Molecular Biology
- Humans
- Metabolomics
- Biology (General)
- Receiver operating characteristic (ROC) curve
- Molecular Biology
- Data mining
- Biology
- Spectroscopy
- Methodology Article
- Botany
- Life Sciences
- Chemometrics in Analytical Chemistry and Food Technology
- Human Metabolome Database
- Fold change
- Mass Spectrometry Techniques with Proteins
- Computer science
- Up-Regulation
- Advances in Metabolomics Research
- Classical volcano plot
- Chemistry
- Aerospace engineering
- ROC Curve
- Outlier
- Physical Sciences
- Metabolome
- Female
- Differential (mechanical device)
- Algorithms
- Biomarkers
詳細情報 詳細情報について
-
- CRID
- 1360565168941809152
-
- ISSN
- 14712105
-
- PubMed
- 29642836
-
- 資料種別
- journal article
-
- データソース種別
-
- Crossref
- KAKEN
- OpenAIRE