Diferencias entre las revisiones 88 y 111 (abarca 23 versiones)

Robot Vision 2012

Experimentos realizados para la 4º edición de la competencia 'Robot Vision Challenge - ImageCLEF'.

Robot Vision 2012 Web Site

Tareas

experimentos con pirámides espaciales
usar el detector de transiciones con NGAUSS=64, 128 y 256
buscar implementaciones y evaluar descriptores RGBD
ver algunos descriptores de colores

Cosas que vamos a tener que probar

Aumentar los conjuntos de datos con la versión espejada de las imágenes
Algún pre-procesamiento para estabilizar el "motion blur" y el "flickering"
- Debluring:
  - http://www.di.ens.fr/willow/research/deblurring/ (código en matlab)
  - http://grail.cs.washington.edu/projects/mdf_deblurring/
- Flickering: se puede probar trabajar en aglún espacio de color que sea robusto frente a cambios afines en la iluminación
Descriptores de colores
- J. van de Weijer, C. Schmid, J. Verbeek, D. Larlus, Learning Color Names for Real-World Applications, IEEE TIP, 2009.
  http://lear.inrialpes.fr/people/vandeweijer/color_names.html
- K. van de Sande, T. Gevers and C. Snoek, Evaluating Color Descriptors for Object and Scene Recognition, IEEE TPAMI, 2010
  http://koen.me/research/colordescriptors

Datasets

El dataset está compuesto por 3 conjuntos de entrenamiento, denominados training[1,2,3], los cuales cuentan con 2667, 2532 y 1913 imágenes rgb y de profundidad respectivamente. La media de estos 3 conjuntos es 2371, este sería el máximo score a lograr en promedio cuando testeamos sobre los 3 conjuntos.

Las imágenes corresponden a las habitaciones

Comparación de los set

Imágenes de ejemplo

En training1 el recorrido del robot es contrario al caso de training[23].
Las imágenes de training3 son tomadas de noche

Training1

Training2

Training3

Repositorio con los scripts para replicar los experimentos

hg clone https://proyectos.ciii.frc.utn.edu.ar/hg/robot_vision_2012

Estructura de directorios

RobotVision2012/DS_..._DSIFT_.../
- trainingX/
  
  trainingX.log
  
  trainingX_lr/
  
  trainingX_lr.log
  
  _PCA_/
  - subspace.dat
    
    subspace.log
    
    80D/
    - trainingX/
      
      trainingX.log
      
      trainingX_lr/
      
      trainingX_lr.log
      
      _GMM_/
      - u64.gmm
        
        u64/
        
        IFV.../
        
        trainingX/
        
        trainingX.log
        
        trainingX_lr/
        
        trainingX_lr.log
        
        _SGD_tr12_te3_/
        
        hinge_20_1e-4/
        
        Corridor.lin
        
        hinge_20_1e-4.training3
        
        hinge_20_1e-4.log

25 abril 2012

Experimento 1

Configuración

Descriptores: SIFT sobre grilla regular (DSIFT de vlfeat), patchs 32x32, paso=8, L2-norm., D=128, 5 escalas, factor=0.707
PCA: subespacio aprendido sobre training1+training2+training3, D=80
GMM: aprendido sobre training1+training2+training3, para N = 8, 16 y 32
IFV: gradientes resp. medias y varianzas, alpha=0.5, pnorm=2.0
SGD: hinge loss, 20, 50 y 100 iteraciones, lambda = 1e-2, 1e-3 y 1e-4, training sobre training1 y testeando sobre training2. La clasificación se realizo con argmax.

Resultados

	20 iteraciones			50 iteraciones			100 iteraciones
lambda\ngauss	8	16	32	8	16	32	8	16	32
1e-3	1382	1334	1414	1376	1352	1426	1382	1356	1422
1e-4	1462	1422	1466	1462	1400	1478	1462	1396	1476
1e-5	1318	1402	1444	1358	1368	1394	1378	1384	1322

experimento_1_25_abril_2012.txt

26 abril 2012

Experimento 1

Configuración

Igual que el experimento anterior, pero se agrego 64 gaussianas.
SGD: hinge loss, 20 iteraciones, lambda = 1e-4, training sobre training1 o training2 y testeando siempre sobre training3. La clasificación se realizo con argmax y con thr=-0.1.

Resultados

	20 iteraciones, argmax, train1				20 iteraciones, thr=-0.1, train1				20 iteraciones, argmax, train2				20 iteraciones, thr=-0.1, train2
l\ng	8	16	32	64	8	16	32	64	8	16	32	64	8	16	32	64
1e-4	-405	-153	-127	-161	194	362	355	399	-361	-87	1	35	226	421	471	553

experimento_1_train1_val3_argmax_26_abril_2012.txt experimento_1_train1_val3_-0.1_26_abril_2012.txt experimento_1_train2_val3_argmax_26_abril_2012.txt experimento_1_train2_val3_-0.1_26_abril_2012.txt

3 mayo 2012

Experimento 1

Se realiza una prueba con distintos valores de DSIFT_STEP (8 y 16) y aumento el conjunto de entrenamiento haciendo un flip left-right de las imágenes antes de calcular DSIFT. Flip=0, indica sin aumentar el conjunto; Flip=1 indica aumentando el conjunto de entrenamiento con las imágenes flipeadas. Al final de este experimento se muestra la configuración que resulta más apropiada.

Configuración

SGD LBD=1e-4, 20 iteraciones
Using argmax for classification

Resultados

Flip=0

DSIFT step=8

		NGAUSS
Tr.	Te.	8	16	32	64	128	256	512	1024
1,2	3	-289	29	59	79	185	267	319	445
2,3	1	935	1195	1141	1173	1183	1251	1225	1293
3,1	2	1162	1374	1390	1456	1584	1658	1668	1632
Avg.		603	866	863	903	984	1059	1071	1123

DSIFT step=16

		NGAUSS
Tr.	Te.	8	16	32	64	128	256	512	1024
1,2	3	-161	-9	19	25	225	191	299	371
2,3	1	897	1129	1221	1143	1101	1095	1175	1179
3,1	2	1160	1252	1392	1424	1412	1528	1552	1524
Avg.		632	791	877	864	913	938	1009	1025

Flip=1

DSIFT step=8

		NGAUSS
Tr.	Te.	8	16	32	64	128	256	512	1024
1,2	3	-357	-105	45	59	185	199	233	411
2,3	1	1569	1703	1787	1795	1887	1949	1995	1999
3,1	2	1666	1880	2018	2076	2142	2182	2182	2190
Avg.		959	1159	1283	1310	1405	1443	1470	1533

DSIFT step=16

		NGAUSS
Tr.	Te.	8	16	32	64	128	256	512	1024
1,2	3	-211	11	31	-15	233	149	263	373
2,3	1	1447	1651	1693	1791	1857	1901	1945	1909
3,1	2	1642	1744	1944	2032	2126	2128	2150	2140
Avg.		959	1135	1223	1269	1405	1393	1453	1474

results_3_de_mayo_2012.tar.gz

Configuración: 256 Gaussianas, DSIFT step=8, flip=1

4 mayo 2012

Experimento 1

Se prueba oscureciendo las imágenes de entrenamiento del clasificador. El oscurecimiento se realiza multiplicando las intensidades de los pixeles de las imágenes por un factor menor a 1. Se probo con factores de 0.33 y 0.5. En este experimento no se actualizó el modelo .gmm con los nuevos descriptores con flip y oscurecidos.

Configuración

SGD LBD=1e-4, 20 iteraciones, 256 Gaussianas, DSIFT step=8, flip=1
Using argmax for classification

Resultados

NGAUSS=256		srange
Tr.	Te.	1.0	0.33	0.5
1,2	3	199	229	221
2,3	1	1949	1949	1945
3,1	2	2182	2180	2180
Avg.		1443	1452	1449

5 mayo 2012

Experimento 1

Se prueba oscureciendo las imágenes de entrenamiento del clasificador. El oscurecimiento se realiza multiplicando las intensidades de los pixeles de las imágenes por un factor menor a 1. Se probo con factores de 0.33 y 0.5. En este experimento si se actualizó el modelo .gmm con los nuevos descriptores generados con flip y con oscurecimiento.

Configuración

SGD LBD=1e-4, 20 iteraciones, 256 Gaussianas, DSIFT step=8, flip=1
Using argmax for classification

Resultados

NGAUSS=256		srange
Tr.	Te.	1.0	0.1	0.33	0.5
1,2	3	199	187	195	171
2,3	1	1949	1975	1945	1965
3,1	2	2182	2154	2166	2180
Avg.		1443	1439	1435	1439

7 mayo 2012

Experimento 1

Se prueba utilizando feature augmentation. En este experimento si se actualizó el modelo .gmm con los descriptores generados con flip de las imágenes. Con aug=1 o aug=0 se indica el uso o no de feature augmentation respectivamente.

Configuración

SGD LBD=1e-4, 20 iteraciones, 64 Gaussianas, DSIFT step=8, flip=[0,1]
Using argmax for classification

Resultados

NGAUSS=64		flip=0		flip=1
Tr.	Te.	aug=0	aug=1	aug=0	aug=1
1,2	3	77	87	257	33
2,3	1	1173	1207	1801	1783
3,1	2	1440	1528	2080	2014
Avg.		897	941	1379	1277

Comparación usando en ambos casos imágenes de entrenamiento originales y flipeadas, pero en el primer caso entrenando el modelo .gmm solo en las imágenes originales (gmm_flip=0) y en el segundo caso utilizando las imágenes originales y las flipeadas (gmm_flip=1). No se usó feature augmentation.

NGAUSS=64		flip=1
Tr.	Te.	gmm_flip=0	gmm_flip=1
1,2	3	59	257
2,3	1	1795	1801
3,1	2	2076	2080
Avg.		1310	1379

8 mayo 2012

Experimento 1

Configuración

SGD LBD=1e-4, 20 iteraciones, 128 Gaussianas, DSIFT step=8, flip=[0,1]
Using argmax for classification

Resultados

NGAUSS=128		flip=0		flip=1
Tr.	Te.	aug=0	aug=1	aug=0	aug=1
1,2	3	191	115	195	39
2,3	1	1189	1255	1887	1905
3,1	2	1582	1618	2132	2098
Avg.		987	996	1405	1347

9 mayo 2012

Experimento 1

Se prueba utilizando pirámides espaciales. Las configuraciones usadas son "sp1x1,lsf=0,gsf=0" (spyr=0), "sp1x1,sp1x3,lsf=0,gsf=0" (spyr=1) y "sp1x1,sp1x3,lsf=0.33,gsf=0.33" (spyr=2).

Configuración

SGD LBD=1e-4, 20 iteraciones, 64 Gaussianas, DSIFT step=8, flip=[0,1]
Using argmax for classification

Resultados

NGAUSS=64		flip=0			flip=1
Tr.	Te.	spyr=0	spyr=1	spyr=2	spyr=0	spyr=1	spyr=2
1,2	3	77	-413	-41	257	-458	201
2,3	1	1173	1123	1029	1801	1773	1791
3,1	2	1440	1412	1358	2080	2078	2084
Avg.		897	707	782	1379	1122	1359

11 mayo 2012

Experimento 1

Se prueba utilizando opponent SIFT. El software utilizado para calcular los descriptores es colorDescriptor. Estos cálculos se realizaron sobre la notebook de jaarac, por eso pueden variar con los que se calcularon antes.

Configuración

Descriptor: OPP_SIFT, step=16, sampling_scale=1.6
SGD LBD=1e-4; 20 iteraciones; 16, 32 y 64 Gaussianas; flip=0
Using argmax for classification

Resultados

OPPSIFT		flip=0
Tr.	Te.	16	32	64
1,2	3	-231	-173	-17
2,3	1	1161	1217	1221
3,1	2	1538	1598	1664
Avg.		823	881	956

Experimento 2

Se evaluó el detector de transiciones y distintas formas de realizar la clasificación. Con el detector de transiciones no se obtuvieron mejoras, así que los datos no fueron subidos.

Configuración

Los resultados mostrados son promedios sobre los scores obtenidos para las 3 configuraciones de conjuntos posibles para valores de 64, 128 y 256 gaussianas.
Descriptor: DSIFT, step=8
SGD LBD=1e-4; 20 iteraciones; Gaussianas; flip=0

Resultados

Aplicando un umbral a la diferencia entre el mayor y el segundo mayor score para decidir si clasificamos o no. La clasificación posterior se realizó con argmax. Solamente se muestran umbrales hasta 0.9, porque para umbrales menores los scores son muy bajos. El umbral 0.0 sería el baseline, o sea siempre clasificamos.

umbral	0.0	0.1	0.2	0.3	0.4	0.5	0.6	0.7	0.8	0.9
avg	979.556	1035.44	1072	1095.78	1103.44	1102.67	1088.56	1058.56	1021.11	972.111

Utilizando un umbral sobre el mayor score de clasificación, para decidir cuando clasificar. Luego se elige la clase del mayor score.

umbral	-1.0	-0.9	-0.8	-0.7	-0.6	-0.5	-0.4	-0.3	-0.2	-0.1	0.0	0.1	0.2
avg	980.444	983.778	996.667	1019.56	1051.67	1095.89	1136.56	1172.44	1185	1166.78	1120.44	1056.67	979.444

Utilizando un umbral sobre abs(max_score)/(max_score - secondmax_score) para decidir cuando clasificar.

umbral	0.6	0.7	0.8	0.9	1.0	1.1	1.2	1.3	1.4	1.5	1.6	1.7	1.8	1.9	2.0
avg	1050	1123	1139	1139	1137	1131	1128	1123	1120	1118	1111.44	1107	1103	1101	1099

18 mayo 2012

Experimento 1

Se prueba utilizando el detector de transiciones, pero se generan nuevos conjuntos de entrenamiento a partir de los originales (feature_packer, feature_sampler).

Configuración

Descriptor: DSIFT, step=8, ;SGD LBD=1e-4, 20 iteraciones; 64, 128 y 256 Gaussianas; flip=0
Entrenando cls (lbd=1e-4) y td (lbd=1e-2,1e-3,1e-4) sobre training1 y training2. Entrenando cls+td (lbd=1e-2,1e-3,1e-4) sobre los nuevos conjuntos training1 y training2 generados con probabilidad P de sacar un descriptor de la imagen original. Se usaron probabilidades P = 0.3, 0.5, 0.66, 0.75 . El detector de transiciones se uso con thr = 0.7, 0.8, 0.9 .
Using argmax for classification

Resultados

Resultados para las condiciones que resultaron más favorables, esto es:

cls_sgd_lbd = 1e-4
td_sgd_lbd = 1e-2
cls+td_sgd_lbd = 1e-2
P = 0.75
thr = 0.8

set conf		BL			with TD, P=0.75, thr=0.8
Tr.	Te.	64	128	256	64	128	256
1,2	3	77	191	253	51	175	241
2,3	1	1173	1189	1267	1151	1181	1271
3,1	2	1440	1582	1644	1418	1554	1632
Avg.		897	987	1055	873	970	1048

Resultados para otras condiciones:

cls_sgd_lbd = 1e-4
td_sgd_lbd = 1e-4
cls+td_sgd_lbd = 1e-4
P = 0.75
thr = 0.8

set conf		BL			with TD, P=0.75, thr=0.8
Tr.	Te.	64	128	256	64	128	256
1,2	3	77	191	253	-43	79	165
2,3	1	1173	1189	1267	1187	1075	1121
3,1	2	1440	1582	1644	1266	1424	1540
Avg.		897	987	1055	803	859	942

En el siguiente archivo están todos los resultados. Los archivos *_with_td.txt contienen los resultados usando TD y los otros archivos el baseline. Hay un archivo para cada configuración de conjuntos de training y test. Las datos están organizados de la siguiente forma:

ngauss

cls_lbd

td_lbd

td_thr

cls+td_lbd

score

results_18_mayo_2012.tar.gz

29 mayo 2012

Experimento 1

Se realizan nuevamente los experimentos porque hubo errores con las etiquetas entregadas por los organizadores. También se muestran los resultados usando SIFT sobre las imágenes de profundidad.

Configuración

Descriptor RGB: DSIFT, step=8, image_presc=1, dsift_fs=0.707, dsift_ns=5
Descriptor Depth: DSIFT, step=8, image_presc=0.5, dsift_fs=0.707, dsift_ns=5
SGD LBD=1e-4, 20 iteraciones; 64, 128 y 256 Gaussianas; flip=0
Using argmax for classification

Resultados

set conf		RGB			Depth			Late fusion w=0.5
Tr.	Te.	64	128	256	64	128	256	64	128	256
1,2	3	77	191	253	23	159	349	433	599	681
2,3	1	1189	1199	1285	431	465	541	1031	1089	1069
3,1	2	1462	1592	1648	1108	1206	1226	1772	1822	1862
Avg.		909	994	1062	521	610	705	1079	1170	1204

30 mayo 2012

Experimento 1

Resultados usando SIFT sobre las imágenes de profundidad usando image_presc=0.5 e image_presc=1.0.

Configuración

Descriptor Depth: DSIFT, step=8, image_presc=[0.5, 1.0], dsift_fs=0.707, dsift_ns=5
SGD LBD=1e-4, 20 iteraciones; 64, 128, 256 y 512 Gaussianas; flip=0
Using argmax for classification

Resultados

set conf		image_presc=0.5				image_presc=1.0
Tr.	Te.	64	128	256	512	64	128	256	512
1,2	3	23	159	349		-335	7	203	309
2,3	1	431	465	541		465	571	609	617
3,1	2	1108	1206	1226		1116	1194	1226	1272
Avg.		521	610	705		415	591	679	733

Experimento 2

Late fusion sobre RGB y Depth. Comparación usando image_presc=[0.5,1.0]

Configuración

Descriptor RGB: DSIFT, step=8, image_presc=1, dsift_fs=0.707, dsift_ns=5
Descriptor Depth: DSIFT, step=8, image_presc=[0.5,1.0], dsift_fs=0.707, dsift_ns=5
SGD LBD=1e-4, 20 iteraciones; 64, 128 y 256 Gaussianas; flip=0
Using argmax for classification
Late fusion: w=0.5

Resultados

set conf		Late fusion image_presc=0.5 w=0.5				Late fusion image_presc=1.0 w=0.5
Tr.	Te.	64	128	256	512	64	128	256	512
1,2	3	433	599	681		249	527	687	685
2,3	1	1031	1089	1069		1041	1083	1103	1091
3,1	2	1772	1822	1862		1766	1828	1890	1850
Avg.		1079	1170	1204		1018	1146	1227	1209

31 mayo 2012

Experimento 1

Resultados usando SIFT sobre las imágenes de profundidad usando step=4 y step=8.

Configuración

Descriptor Depth: DSIFT, step=[4,8], image_presc=0.5, dsift_fs=0.707, dsift_ns=5
SGD LBD=1e-4, 20 iteraciones; 256 Gaussianas; flip=0
Using argmax for classification

Resultados

set conf		step=8	step=4
Tr.	Te.	256	256
1,2	3	349	357
2,3	1	541	573
3,1	2	1226	1266
Avg.		705	732

Experimento 2

Late fusion sobre RGB y Depth. Comparación usando step=[4,8] para las imágenes de profundidad.

Configuración

Descriptor RGB: DSIFT, step=8, image_presc=1, dsift_fs=0.707, dsift_ns=5
Descriptor Depth: DSIFT, step=[4,8], image_presc=0.5, dsift_fs=0.707, dsift_ns=5
SGD LBD=1e-4, 20 iteraciones; 256 Gaussianas; flip=0
Using argmax for classification
Late fusion: w=0.5

Resultados

set conf		Late fusion step=4	Late fusion step=8
Tr.	Te.	256	256
1,2	3	755	681
2,3	1	1113	1069
3,1	2	1878	1862
Avg.		1249	1204

1 junio 2012

Experimento 1

Late fusion sobre RGB y Depth ambos con flip=1.

Configuración

Descriptor RGB: DSIFT, step=8, image_presc=1, dsift_fs=0.707, dsift_ns=5
Descriptor Depth: DSIFT, step=4, image_presc=0.5, dsift_fs=0.707, dsift_ns=5
SGD LBD=1e-4, 20 iteraciones; 256, 512 y 1024 Gaussianas; flip=1
Late fusion: w=0.5

Resultados usando argmax

set conf		RGB			Depth			LF w=0.5
Tr.	Te.	256	512	1024	256	512	1024	256	512	1024
1,2	3	239	269	339	511	489	609	757	815	921
2,3	1	2013	1991	2019	1403	1429	1461	1985	1981	1997
3,1	2	2174	2182	2186	1548	1564	1598	2096	2098	2116
Avg.		1475	1481	1515	1154	1161	1223	1613	1631	1678

Resultados usando un thr y no argmax

Se utilizó un thresold para decidir si se clasifica o no. Se muestra con argmax para comparar.

set conf		argmax			thr=-0.4			thr=-0.5			thr=-0.6
Tr.	Te.	256	512	1024	256	512	1024	256	512	1024	256	512	1024
1,2	3	757	815	921	868	927	989	897	968	1054	896	947	1047
2,3	1	1985	1981	1997	1990	2002	1998	2014	2015	2001	2010	1997	2003
3,1	2	2096	2098	2116	2076	2084	2116	2096	2102	2115	2094	2096	2114
Avg.		1613	1631	1678	1645	1671	1701	1669	1695	1723	1667	1680	1721

4 junio 2012

Experimento 1

Comparación DSIFT sobre imágenes RGB usando step=[4,8] y image_presc=[0.5,1.0] con flip=1.

Configuración

Descriptor RGB: DSIFT, step=[4,8], image_presc=[0.5,1.0], dsift_fs=0.707, dsift_ns=5
SGD LBD=1e-4, 20 iteraciones; 256, 512 y 1024 Gaussianas; flip=1
Using argmax for classification

Resultados usando argmax

set conf		step=4, img_presc=0.5			step=8, img_presc=1.0
Tr.	Te.	256	512	1024	256	512	1024
1,2	3	275	411	491	239	269	339
2,3	1	1941	1945	1969	2013	1991	2019
3,1	2	2150	2158	2154	2174	2182	2186
Avg.		1455	1505	1538	1475	1481	1515

Experimento 2

Late fusion sobre RGB y Depth ambos con flip=1.

Configuración

Descriptor RGB: DSIFT, step=4, image_presc=0.5, dsift_fs=0.707, dsift_ns=5
Descriptor Depth: DSIFT, step=4, image_presc=0.5, dsift_fs=0.707, dsift_ns=5
SGD LBD=1e-4, 20 iteraciones; 256, 512 y 1024 Gaussianas; flip=1
Late fusion: w=0.5

Resultados usando argmax

set conf		RGB			Depth			LF w=0.5
Tr.	Te.	256	512	1024	256	512	1024	256	512	1024
1,2	3	275	411	491	511	489	609	835	897	965
2,3	1	1941	1945	1969	1403	1429	1461	1947	1961	1941
3,1	2	2150	2158	2154	1548	1564	1598	2050	2078	2094
Avg.		1455	1505	1538	1154	1161	1223	1611	1645	1667

Resultados usando un thr y no argmax

Se utilizó un thresold para decidir si se clasifica o no. Se muestra con argmax para comparar.

set conf		argmax			thr=-0.5
Tr.	Te.	256	512	1024	256	512	1024
1,2	3	835	897	965	959	1084	1107
2,3	1	1947	1961	1941	1969	1997	1958
3,1	2	2050	2078	2094	2042	2074	2101
Avg.		1611	1645	1667	1657	1718	1722

13 junio 2012

Experimento 1

Resultados para la tarea 2. Se proponen cuatro variantes todas ellas basadas en la segmentación temporal de las secuencias de imágenes utilizando el producto punto entre vectores de fisher. El producto punto entre vectores de fisher es una buena medida de similitud entre imágenes. El procedimiento para segmentar fue: se agarra el primer vector y se empieza a calcular el producto punto de este primer vector con los vectores siguientes en la secuencia temporal, cuando ese producto supera un threshold se obtiene un segmento. Luego se elige nuevamente como primer vector el siguiente de la secuencia y se realiza nuevamente el procedimiento descripto anteriormente.

Para calcular los segmentos se utilizaron los vectores de fisher obtenidos de las imágenes de RGB debido a que con estas se obtenían en promedio segmentos más largos en comparación con los obtenidos usando los ifv de imágenes de profundidad.

Configuración

Descriptor RGB: DSIFT, step=4, image_presc=0.5, dsift_fs=0.707, dsift_ns=5
Descriptor Depth: DSIFT, step=4, image_presc=0.5, dsift_fs=0.707, dsift_ns=5
SGD LBD=1e-4, 20 iteraciones; 1024 Gaussianas; flip=1
Late fusion: w=0.5
Se prueban 4 configuraciones, MV (mayor votación), MS (mayor score), MC (mayor confidencialidad) y MST (mayor score y threshold).
- MV: calculamos la moda del segmento, luego asignamos esa clase a todo el segmento
- MS: buscamos el score máximo de todo el segmento para cualquier clase y luego asignamos la clase de ese score a toda la secuencia
- MC: buscamos la clase con más confidencialidad en todo el segmento y luego asignamos esa clase a toda la secuencia
- MST: buscamos el score máximo de todo el segmento para cualquier clase y pero luego asignamos la clase de ese score a toda la secuencia solo en caso de que ese score esté por encima de un threshold
- La confidencialidad se calculo como la diferencia entre el score más grande y el segundo score más grande.

Resultados

	bl	0.0	0.1	0.2	0.3	0.4	0.5	0.6	0.7	0.8	0.9	0.95
MV	1722	1628	1790	1778	1796	1775	1793	1792	1776	1774	1772	1774
MS	1722	1337	1627	1671	1658	1681	1737	1751	1773	1783	1777	1774
MC	1722	1521	1849	1808	1812	1791	1771	1781	1774	1782	1778	1775
MST -0.4	1722	1401	1704	1694	1677	1686	1706	1738	1771	1798	1799	1800
MST -0.5	1722	1393	1715	1725	1712	1755	1778	1798	1811	1833	1828	1825
MST -0.6	1722	1395	1745	1764	1739	1767	1791	1811	1813	1824	1819	1816
MST -0.7	1722	1376	1714	1729	1704	1740	1772	1779	1790	1799	1793	1790
MCT -0.4	1722	1525	1885	1838	1871	1836	1827	1817	1811	1809	1804	1801
MCT -0.5	1722	1525	1867	1833	1851	1827	1830	1829	1832	1835	1829	1827
MCT -0.6	1722	1521	1849	1816	1827	1816	1802	1814	1815	1824	1821	1818
MVT -0.4	1722	1529	1888	1860	1843	1815	1804	1803	1802	1801	1801	1801
MVT -0.5	1722	1496	1858	1851	1863	1827	1822	1826	1826	1826	1826	1826
MVT -0.6	1722	1505	1841	1836	1839	1819	1814	1818	1817	1817	1817	1817
MVT -0.7	1722	1481	1816	1793	1809	1796	1787	1791	1790	1790	1790	1790
mean_len	1	31	11	8	5.4	4.0	2.9	2.1	1.6	1.2	1.02	1.01
n_seg	2370	77	213	315	440	590	804	1115	1505	2054	2317	2359

Experimento 2

Igual que en experimento 1, pero usando los vectores de fisher calculados sobre las imágenes de depth para realizar la segmentación.

Resultados

	bl	0.0	0.05	0.075	0.1	0.125	0.2	0.3	0.4	0.5	0.6	0.7	0.8
MV	1722	1479	1773	1787	1820	1788	1792	1795	1783	1773	1774	1774	1774
MS	1722	1196	1762	1654	1670	1643	1701	1763	1768	1778	1775	1774	1774
MC	1722	1303	1817	1875	1873	1801	1805	1783	1770	1781	1774	1774	1774
MST -0.4	1722	1278	1698	1714	1685	1659	1687	1743	1781	1799	1797	1800	1801
MST -0.5	1722	1276	1720	1743	1733	1704	1755	1802	1816	1829	1825	1826	1826
MST -0.6	1722	1269	1737	1775	1763	1734	1769	1818	1812	1819	1815	1817	1817
MST -0.7	1722	1243	1716	1735	1733	1683	1749	1786	1786	1794	1790	1792	1792
MCT -0.4	1722	1311	1843	1904	1919	1834	1842	1822	1803	1805	1801	1801	1801
MCT -0.5	1722	1311	1834	1892	1906	1837	1849	1845	1824	1832	1826	1826	1826
MCT -0.6	1722	1301	1819	1882	1888	1816	1832	822	1812	1825	1818	1817	1817
MCT -0.7	1722	1303	1816	1877	1875	1802	1813	1795	1786	1798	1791	1790	1790
MVT -0.4	1722	1529	1852	1846	1888	1849	1860	1843	1815	1804	1803	1802	1801
MVT -0.5	1722	1496	1809	1827	1858	1833	1851	1863	1827	1822	1826	1826	1826
MVT -0.6	1722	1505	1787	1800	1841	1807	1836	1839	1819	1814	1818	1817	1817
MVT -0.7	1722	1481	1795	1796	1816	1780	1793	1809	1796	1787	1791	1790	1790
mean_len	1	36	10.4	8.20	6.86	5.90	3.88	2.17	1.39	1.12	1.04	1.01	1.00
n_seg	2370	66	227	289	345	402	611	1090	1703	2120	2282	2347	2364

Experimento 3

Igual que en experimento 1 y 2, pero usando el promedio del producto punto de los vectores de fisher calculados sobre las imágenes de rgb y depth para realizar la segmentación.

Resultados

	bl	0.0	0.05	0.075	0.1	0.125	0.2	0.3	0.4	0.5	0.6	0.7	0.8
MV	1722	1545	1719	1780	1775	1768	1825	1790	1795	1789	1775	1774	1774
MS	1722	1305	1552	1644	1655	1664	1691	1693	1758	1766	1778	1778	1774
MC	1722	1392	1790	1793	1839	1853	1821	1813	1772	1790	1773	1777	1774
MST -0.4	1722	1371	1638	1653	1689	1703	1684	1675	1724	1766	1792	1800	1801
MST -0.5	1722	1370	1655	1687	1735	1749	1724	1741	1789	1809	1823	1830	1826
MST -0.6	1722
MST -0.7	1722
MCT -0.4	1722	1395	1829	1832	1885	1902	1876	1848	1828	1822
MCT -0.5	1722			1816	1858	1878	1860	1848
MCT -0.6	1722			1794	1843	1856	1835	1834
MCT -0.7	1722			1793	1839	1853	1824	1821
MVT -0.4	1722			1830	1900	1856	1896	1866
MVT -0.5	1722			1814	1858	1821	1877	1842
MVT -0.6	1722
MVT -0.7	1722
mean_len	1
n_seg	2370

None: Vision/ProyectosVision/RobotVision2012 (última edición 2013-08-10 22:52:45 efectuada por Jaarac)

-  ⇤ ← Versión 88 con fecha 2012-06-01 14:36:19 → 
  Tamaño: 24784
  Editor: Jaarac
  Comentario:
+   ← Versión 111 con fecha 2012-06-14 18:42:10 → ⇥
  Tamaño: 36961
  Editor: Jaarac
  Comentario:
-Los textos eliminados se marcan así.
+Los textos añadidos se marcan así.
 Línea 43:
-El dataset está compuesto por 3 conjuntos de entrenamiento, denominados training[1,2,3], los cuales cuentan con 2667, 2532 y 1913 imágenes rgb y de profundidad respectivamente.
+El dataset está compuesto por 3 conjuntos de entrenamiento, denominados training[1,2,3], los cuales cuentan con 2667, 2532 y 1913 imágenes rgb y de profundidad respectivamente. La media de estos 3 conjuntos es 2371, este sería el máximo score a lograr en promedio cuando testeamos sobre los 3 conjuntos.
 Línea 519:
-Late fusion sobre RGB y Depth con flip=1.
+Late fusion sobre RGB y Depth ambos con flip=1.
 Línea 523:
- * Descriptor Depth: DSIFT, step=[4,8], image_presc=0.5, dsift_fs=0.707, dsift_ns=5

 * SGD LBD=1e-4, 20 iteraciones; 256 Gaussianas; flip=1

 * Using ''argmax'' for classification
+ * Descriptor Depth: DSIFT, step=4, image_presc=0.5, dsift_fs=0.707, dsift_ns=5

 * SGD LBD=1e-4, 20 iteraciones; 256, 512 y 1024 Gaussianas; flip=1
-Línea 531:
+Línea 529:
-==== Resultados ====

||||<tablestyle="width: 40%"> set conf  || RGB  ||Depth ||LF w=0.5||
|| Tr. || Te.                           || 256  || 256  || 256  ||
|| 1,2 || 3                             || 239  || 511  || 757  ||
|| 2,3 || 1                             || 2013 || 1403 || 1985 ||
|| 3,1 || 2                             || 2174 || 1548 || 2096 ||
|||| Avg.                               || 1475 || 1154 || 1613 ||
+==== Resultados usando argmax ====

||||set conf  |||||| RGB              ||||||Depth             ||||||LF w=0.5          ||
|| Tr. || Te. || 256  || 512  || 1024 || 256  || 512  || 1024 || 256  || 512  || 1024 ||
|| 1,2 || 3   || 239  || 269  || 339  || 511  || 489  || 609  || 757  || 815  || 921  ||
|| 2,3 || 1   || 2013 || 1991 || 2019 || 1403 || 1429 || 1461 || 1985 || 1981 || 1997 ||
|| 3,1 || 2   || 2174 || 2182 || 2186 || 1548 || 1564 || 1598 || 2096 || 2098 || 2116 ||
|||| Avg.     || 1475 || 1481 || 1515 || 1154 || 1161 || 1223 || 1613 || 1631 || 1678 ||

==== Resultados usando un thr y no argmax ====
 * Se utilizó un thresold para decidir si se clasifica o no. Se muestra con argmax para comparar.

|||| set conf  ||||||argmax            |||||| thr=-0.4         |||||| '''thr=-0.5'''                     |||||| thr=-0.6         ||
|| Tr. || Te.  || 256  || 512  || 1024 || 256  || 512  || 1024 || 256        || 512        || 1024       || 256  || 512  || 1024 ||
|| 1,2 || 3    || 757  || 815  || 921  || 868  || 927  || 989  || 897        || 968        || 1054       || 896  || 947  || 1047 ||
|| 2,3 || 1    || 1985 || 1981 || 1997 || 1990 || 2002 || 1998 || 2014       || 2015       || 2001       || 2010 || 1997 || 2003 ||
|| 3,1 || 2    || 2096 || 2098 || 2116 || 2076 || 2084 || 2116 || 2096       || 2102       || 2115       || 2094 || 2096 || 2114 ||
|||| Avg.      || 1613 || 1631 || 1678 || 1645 || 1671 || 1701 || '''1669''' || '''1695''' || '''1723''' || 1667 || 1680 || 1721 ||

== 4 junio 2012 ==
=== Experimento 1 ===
Comparación DSIFT sobre imágenes RGB usando step=[4,8] y image_presc=[0.5,1.0] con flip=1.
==== Configuración ====
 * Descriptor RGB: DSIFT, step=[4,8], image_presc=[0.5,1.0], dsift_fs=0.707, dsift_ns=5

 * SGD LBD=1e-4, 20 iteraciones; 256, 512 y 1024 Gaussianas; flip=1

 * Using ''argmax'' for classification

==== Resultados usando argmax ====

||||set conf  |||||| step=4, img_presc=0.5 |||||| step=8, img_presc=1.0 ||
|| Tr. || Te. || 256  || 512        || 1024            || 256        || 512  || 1024 ||
|| 1,2 || 3   || 275  || 411        || 491             || 239        || 269  || 339  ||
|| 2,3 || 1   || 1941 || 1945       || 1969            || 2013       || 1991 || 2019 ||
|| 3,1 || 2   || 2150 || 2158       || 2154            || 2174       || 2182 || 2186 ||
|||| Avg.     || 1455 || '''1505''' || '''1538'''      || '''1475''' || 1481 || 1515 ||

=== Experimento 2 ===
Late fusion sobre RGB y Depth ambos con flip=1.
==== Configuración ====
 * Descriptor RGB: DSIFT, step=4, image_presc=0.5, dsift_fs=0.707, dsift_ns=5

 * Descriptor Depth: DSIFT, step=4, image_presc=0.5, dsift_fs=0.707, dsift_ns=5

 * SGD LBD=1e-4, 20 iteraciones; 256, 512 y 1024 Gaussianas; flip=1

 * Late fusion: w=0.5

==== Resultados usando argmax ====

||||set conf  |||||| RGB              ||||||Depth             ||||||LF w=0.5                            ||
|| Tr. || Te. || 256  || 512  || 1024 || 256  || 512  || 1024 || 256        || 512        || 1024       ||
|| 1,2 || 3   || 275  || 411  || 491  || 511  || 489  || 609  || 835        || 897        || 965        ||
|| 2,3 || 1   || 1941 || 1945 || 1969 || 1403 || 1429 || 1461 || 1947       || 1961       || 1941       ||
|| 3,1 || 2   || 2150 || 2158 || 2154 || 1548 || 1564 || 1598 || 2050       || 2078       || 2094       ||
|||| Avg.     || 1455 || 1505 || 1538 || 1154 || 1161 || 1223 || '''1611''' || '''1645''' || '''1667''' ||

==== Resultados usando un thr y no argmax ====
 * Se utilizó un thresold para decidir si se clasifica o no. Se muestra con argmax para comparar.

|||| set conf  ||||||argmax            |||||| '''thr=-0.5'''                     ||
|| Tr. || Te.  || 256  || 512  || 1024 || 256        || 512        || 1024       ||
|| 1,2 || 3    || 835  || 897  || 965  || 959        || 1084       || 1107       ||
|| 2,3 || 1    || 1947 || 1961 || 1941 || 1969       || 1997       || 1958       ||
|| 3,1 || 2    || 2050 || 2078 || 2094 || 2042       || 2074       || 2101       ||
|||| Avg.      || 1611 || 1645 || 1667 || '''1657''' || '''1718''' || '''1722''' ||

== 13 junio 2012 ==
=== Experimento 1 ===
Resultados para la tarea 2. Se proponen cuatro variantes todas ellas basadas en la segmentación temporal de las secuencias de imágenes utilizando el producto punto entre vectores de fisher. El producto punto entre vectores de fisher es una buena medida de similitud entre imágenes. El procedimiento para segmentar fue: se agarra el primer vector y se empieza a calcular el producto punto de este primer vector con los vectores siguientes en la secuencia temporal, cuando ese producto supera un threshold se obtiene un segmento. Luego se elige nuevamente como primer vector el siguiente de la secuencia y se realiza nuevamente el procedimiento descripto anteriormente.

Para calcular los segmentos se utilizaron los vectores de fisher obtenidos de las imágenes de RGB debido a que con estas se obtenían en promedio segmentos más largos en comparación con los obtenidos usando los ifv de imágenes de profundidad.
==== Configuración ====
 * Descriptor RGB: DSIFT, step=4, image_presc=0.5, dsift_fs=0.707, dsift_ns=5

 * Descriptor Depth: DSIFT, step=4, image_presc=0.5, dsift_fs=0.707, dsift_ns=5

 * SGD LBD=1e-4, 20 iteraciones; 1024 Gaussianas; flip=1

 * Late fusion: w=0.5

 * Se prueban 4 configuraciones, MV (mayor votación), MS (mayor score), MC (mayor confidencialidad) y MST (mayor score y threshold).
  * MV: calculamos la moda del segmento, luego asignamos esa clase a todo el segmento
  * MS: buscamos el score máximo de todo el segmento para cualquier clase y luego asignamos la clase de ese score a toda la secuencia
  * MC: buscamos la clase con más confidencialidad en todo el segmento y luego asignamos esa clase a toda la secuencia
  * MST: buscamos el score máximo de todo el segmento para cualquier clase y pero luego asignamos la clase de ese score a toda la secuencia solo en caso de que ese score esté por encima de un threshold
  * La confidencialidad se calculo como la diferencia entre el score más grande y el segundo score más grande.

==== Resultados ====
||          || bl || 0.0  || 0.1        || 0.2  || 0.3        || 0.4  || 0.5  || 0.6  || 0.7  || 0.8        || 0.9  || 0.95       ||
|| MV       ||1722|| 1628 || 1790       || 1778 || '''1796''' || 1775 || 1793 || 1792 || 1776 || 1774       || 1772 || 1774       ||
|| MS       ||1722|| 1337 || 1627       || 1671 || 1658       || 1681 || 1737 || 1751 || 1773 || '''1783''' || 1777 || 1774       ||
|| MC       ||1722|| 1521 || '''1849''' || 1808 || 1812       || 1791 || 1771 || 1781 || 1774 || 1782       || 1778 || 1775       ||
|| MST -0.4 ||1722|| 1401 || 1704       || 1694 || 1677       || 1686 || 1706 || 1738 || 1771 || 1798       || 1799 || '''1800''' ||
|| MST -0.5 ||1722|| 1393 || 1715       || 1725 || 1712       || 1755 || 1778 || 1798 || 1811 || '''1833''' || 1828 || 1825       ||
|| MST -0.6 ||1722|| 1395 || 1745       || 1764 || 1739       || 1767 || 1791 || 1811 || 1813 || '''1824''' || 1819 || 1816       ||
|| MST -0.7 ||1722|| 1376 || 1714       || 1729 || 1704       || 1740 || 1772 || 1779 || 1790 || '''1799''' || 1793 || 1790       ||
|| MCT -0.4 ||1722|| 1525 || '''1885''' || 1838 || 1871       || 1836 || 1827 || 1817 || 1811 || 1809       || 1804 || 1801       ||
|| MCT -0.5 ||1722|| 1525 || '''1867''' || 1833 || 1851       || 1827 || 1830 || 1829 || 1832 || 1835       || 1829 || 1827       ||
|| MCT -0.6 ||1722|| 1521 || '''1849''' || 1816 || 1827       || 1816 || 1802 || 1814 || 1815 || 1824       || 1821 || 1818       ||
|| MVT -0.4 ||1722|| 1529 || '''1888''' || 1860 || 1843       || 1815 || 1804 || 1803 || 1802 || 1801       || 1801 || 1801       ||
|| MVT -0.5 ||1722|| 1496 || 1858       || 1851 || '''1863''' || 1827 || 1822 || 1826 || 1826 || 1826       || 1826 || 1826       ||
|| MVT -0.6 ||1722|| 1505 || '''1841''' || 1836 || 1839       || 1819 || 1814 || 1818 || 1817 || 1817       || 1817 || 1817       ||
|| MVT -0.7 ||1722|| 1481 || '''1816''' || 1793 || 1809       || 1796 || 1787 || 1791 || 1790 || 1790       || 1790 || 1790       ||
|| mean_len ||1   || 31   || 11         || 8    || 5.4        || 4.0  || 2.9  || 2.1  || 1.6  || 1.2        || 1.02 || 1.01       ||
|| n_seg    ||2370|| 77   || 213        || 315  || 440        || 590  || 804  || 1115 || 1505 || 2054       || 2317 || 2359       ||

=== Experimento 2 ===
Igual que en experimento 1, pero usando los vectores de fisher calculados sobre las imágenes de depth para realizar la segmentación.
==== Resultados ====
||         || bl ||0.0 ||0.05||0.075     ||0.1       ||0.125||0.2 ||0.3 || 0.4||0.5       ||0.6 ||0.7 ||0.8       ||
||MV       ||1722||1479||1773||1787      ||'''1820'''||1788 ||1792||1795||1783||1773      ||1774||1774||1774      ||
||MS       ||1722||1196||1762||1654      ||1670      ||1643 ||1701||1763||1768||'''1778'''||1775||1774||1774      ||
||MC       ||1722||1303||1817||1875      ||'''1873'''||1801 ||1805||1783||1770||1781      ||1774||1774||1774      ||
||MST -0.4 ||1722||1278||1698||1714      ||1685      ||1659 ||1687||1743||1781||1799      ||1797||1800||'''1801'''||
||MST -0.5 ||1722||1276||1720||1743      ||1733      ||1704 ||1755||1802||1816||'''1829'''||1825||1826||1826      ||
||MST -0.6 ||1722||1269||1737||1775      ||1763      ||1734 ||1769||1818||1812||'''1819'''||1815||1817||1817      ||
||MST -0.7 ||1722||1243||1716||1735      ||1733      ||1683 ||1749||1786||1786||'''1794'''||1790||1792||1792      ||
||MCT -0.4 ||1722||1311||1843||1904      ||'''1919'''||1834 ||1842||1822||1803||1805      ||1801||1801||1801      ||
||MCT -0.5 ||1722||1311||1834||1892      ||'''1906'''||1837 ||1849||1845||1824||1832      ||1826||1826||1826      ||
||MCT -0.6 ||1722||1301||1819||1882      ||'''1888'''||1816 ||1832||822 ||1812||1825      ||1818||1817||1817      ||
||MCT -0.7 ||1722||1303||1816||'''1877'''||1875      ||1802 ||1813||1795||1786||1798      ||1791||1790||1790      ||
||MVT -0.4 ||1722||1529||1852||1846      ||'''1888'''||1849 ||1860||1843||1815||1804      ||1803||1802||1801      ||
||MVT -0.5 ||1722||1496||1809||1827      ||'''1858'''||1833 ||1851||1863||1827||1822      ||1826||1826||1826      ||
||MVT -0.6 ||1722||1505||1787||1800      ||'''1841'''||1807 ||1836||1839||1819||1814      ||1818||1817||1817      ||
||MVT -0.7 ||1722||1481||1795||1796      ||'''1816'''||1780 ||1793||1809||1796||1787      ||1791||1790||1790      ||
||mean_len ||1   ||36  ||10.4||   8.20   ||6.86      || 5.90||3.88||2.17||1.39||1.12      ||1.04||1.01||1.00      ||
||n_seg    ||2370||66  ||227 ||    289   ||345       || 402 ||611 ||1090||1703||2120      ||2282||2347||2364      ||

=== Experimento 3 ===
Igual que en experimento 1 y 2, pero usando el promedio del producto punto de los vectores de fisher calculados sobre las imágenes de rgb y depth para realizar la segmentación.
==== Resultados ====
||         || bl ||0.0 ||0.05||0.075||0.1 ||0.125||0.2 ||0.3 || 0.4||0.5 ||0.6 ||0.7 ||0.8 ||
||MV       ||1722||1545||1719||1780 ||1775||1768 ||'''1825'''||1790||1795||1789||1775||1774||1774||
||MS       ||1722||1305||1552||1644 ||1655||1664 ||1691||1693||1758||1766||'''1778'''||'''1778'''||1774||
||MC       ||1722||1392||1790||1793 ||1839||'''1853''' ||1821||1813||1772||1790||1773||1777||1774||
||MST -0.4 ||1722||1371||1638||1653 ||1689||1703 ||1684||1675||1724||1766||1792||1800||'''1801'''||
||MST -0.5 ||1722||1370||1655||1687 ||1735||1749 ||1724||1741||1789||1809||1823||1830||'''1826'''||
||MST -0.6 ||1722|| || || || || || || || || || || || ||
||MST -0.7 ||1722|| || || || || || || || || || || || ||
||MCT -0.4 ||1722||1395||1829||1832 ||1885||'''1902'''||1876||1848||1828||1822 || || || ||
||MCT -0.5 ||1722||    ||    ||1816 ||1858||'''1878''' ||1860||1848|| || || || || ||
||MCT -0.6 ||1722||    ||    ||1794 ||1843||'''1856''' ||1835||1834|| || || || || ||
||MCT -0.7 ||1722||    ||    ||1793 ||1839||'''1853''' ||1824||1821|| || || || || ||
||MVT -0.4 ||1722||    ||    ||1830 ||1900||1856 ||'''1896'''||1866|| || || || || ||
||MVT -0.5 ||1722||    ||    ||1814 ||1858||1821 ||'''1877'''||1842|||| || || || ||
||MVT -0.6 ||1722|| || || || || || || || || || || || ||
||MVT -0.7 ||1722|| || || || || || || || || || || || ||
||mean_len ||1   || || || || || || || || || || || || ||
||n_seg    ||2370|| || || || || || || || || || || || ||

Buscar

Herramientas

Robot Vision 2012

Tareas

Cosas que vamos a tener que probar

Datasets

Imágenes de ejemplo

Training1

Training2

Training3

Repositorio con los scripts para replicar los experimentos

Estructura de directorios

25 abril 2012

Experimento 1

Configuración

Resultados

26 abril 2012

Experimento 1

Configuración

Resultados

3 mayo 2012

Experimento 1

Configuración

Resultados

Flip=0

Flip=1

4 mayo 2012

Experimento 1

Configuración

Resultados

5 mayo 2012

Experimento 1

Configuración

Resultados

7 mayo 2012

Experimento 1

Configuración

Resultados

8 mayo 2012

Experimento 1

Configuración

Resultados

9 mayo 2012

Experimento 1

Configuración

Resultados

11 mayo 2012

Experimento 1

Configuración

Resultados

Experimento 2

Configuración

Resultados

18 mayo 2012

Experimento 1

Configuración

Resultados

29 mayo 2012

Experimento 1

Configuración

Resultados

30 mayo 2012

Experimento 1

Configuración

Resultados

Experimento 2

Configuración

Resultados

31 mayo 2012

Experimento 1

Configuración

Resultados

Experimento 2

Configuración

Resultados

1 junio 2012

Experimento 1

Configuración

Resultados usando argmax

Resultados usando un thr y no argmax